Regressione lineare nell'apprendimento automatico: tutto ciò che devi sapere

Pubblicato: 2020-04-28

Diverse tecnologie di apprendimento automatico vengono utilizzate in diversi ambiti della nostra vita quotidiana per trovare soluzioni ai problemi quotidiani in un modo supportato da dati, analisi ed esperienza. Questi algoritmi di apprendimento automatico svolgono un ruolo molto importante non solo nell'identificazione di testo, immagini e video, ma sono fondamentali per migliorare le soluzioni mediche, la sicurezza informatica, il marketing, il servizio clienti e molti altri aspetti o aree che riguardano la nostra vita normale.

Esistono principalmente due tipi di algoritmi di apprendimento automatico in cui sono suddivisi tutti gli algoritmi. Si tratta di algoritmi di apprendimento automatico supervisionati e non supervisionati. Il nostro focus in questo blog sarà solo sugli algoritmi di apprendimento automatico supervisionati e, in particolare, sulla regressione lineare. Iniziamo con la comprensione degli algoritmi di apprendimento automatico supervisionati.

Sommario

Cosa sono gli algoritmi di apprendimento supervisionato?

Questi algoritmi di apprendimento automatico sono quelli che addestriamo per prevedere un output consolidato che dipende dai dati immessi dall'utente. L'algoritmo addestra il modello per fornire output su un determinato set di dati. All'inizio, il sistema ha accesso sia ai dati di input che di output. Il compito del sistema è definire le regole che associano l'input all'output.

L'allenamento del modello continua fino a quando le prestazioni non raggiungono il livello ottimale. Dopo l'addestramento, il sistema è in grado di assegnare oggetti di output che non ha incontrato durante l'addestramento. Nello scenario ideale, questo processo è abbastanza accurato e non richiede molto tempo. Esistono due tipi di algoritmi di apprendimento supervisionato , vale a dire, classificazione e regressione.

Discuteremo entrambi brevemente, prima di saltare direttamente al nostro argomento principale di discussione.

1. Classificazione

Si tratta di algoritmi di apprendimento automatico supervisionati che hanno il semplice obiettivo di riprodurre i compiti in classe. La tecnica di apprendimento è spesso considerata per situazioni in cui è richiesta la separazione dei dati. Separa i dati in classi prevedendo le risposte. Ad esempio, le previsioni del tempo per un determinato giorno, l'identificazione di un tipo specifico di foto da un album e la separazione dello spam dall'e-mail.

2. Regressione

La tecnica di apprendimento viene utilizzata per raggiungere l'obiettivo di riprodurre i valori di output. In altre parole, viene utilizzato in situazioni in cui è necessario adattare i dati a un valore specifico. Ad esempio, viene spesso utilizzato per stimare il prezzo di articoli diversi. La regressione può essere utilizzata per prevedere più cose di quante tu possa immaginare.

Tipi di regressioni

Le regressioni logistiche e lineari sono i due tipi più importanti di regressione che esistono nel mondo moderno dell'apprendimento automatico e della scienza dei dati. Tuttavia, ce ne sono anche altri, ma sono usati con moderazione. Non si può negare il fatto che possiamo eseguire numerose regressioni su un determinato set di dati o utilizzarlo per situazioni diverse.

Ogni forma di regressione ha i suoi pro e contro ed è adatta a condizioni specifiche. Mentre ci concentreremo solo sull'aggressività lineare, è necessario conoscere il background completo per familiarizzare con il suo funzionamento.

È il motivo per cui stiamo portando avanti la discussione passo dopo passo.

Che cos'è l'analisi di regressione?

L'analisi di regressione non è altro che una metodologia di modellazione predittiva che mira a indagare la relazione che esiste tra variabili indipendenti o predittori e variabili dipendenti o obiettivi. Questa analisi viene utilizzata in una miriade di cose diverse, tra cui la modellazione di serie temporali, le previsioni e altro.

Ad esempio, se vuoi studiare la relazione tra incidenti stradali e guida occasionale, non esiste tecnica migliore dell'analisi di regressione per questo lavoro. Svolge un ruolo molto importante sia nell'analisi che nella modellazione dei dati. Questo viene fatto adattando una linea o una curva a diversi punti dati in modo da ridurre al minimo la differenza nelle distanze dei punti dati dalla linea o dalla curva.

Qual è la necessità dell'analisi di regressione?

L'analisi di regressione viene utilizzata per prevedere la relazione tra le variabili, solo se sono due o più in numero. Capiamo come funziona con un semplice esempio. Supponiamo che ti venga assegnato un compito che richiede di elaborare una stima della crescita delle vendite di un'azienda per un determinato periodo tenendo presente le condizioni economiche esistenti.

Ora i dati dell'azienda ti dicono che le vendite sono cresciute di circa il doppio della crescita dell'economia. Possiamo utilizzare questi dati per stimare la crescita futura delle vendite dell'azienda prendendo informazioni dalle informazioni passate e attuali.

L'utilizzo dell'analisi di regressione può offrire numerosi vantaggi quando si lavora con i dati o si effettua una previsione sul set di dati. Può essere utilizzato per indicare le relazioni significative tra variabili indipendenti e dipendenti. Viene utilizzato per indicare l'impatto delle esperienze di variabili dipendenti da più variabili indipendenti.

Consente il confronto degli effetti di diverse variabili che appartengono a diverse scale di misura. Queste cose aiutano notevolmente i data scientist, i ricercatori e gli analisti di dati nella creazione di modelli predittivi basati sull'insieme di variabili più appropriato.

Leggi: Idee e argomenti per progetti di apprendimento automatico

Cosa devi tenere a mente per scegliere il modello di regressione giusto?

Bene, le cose di solito sono molto più facili quando hai solo due o tre tecniche tra cui scegliere. Tuttavia, se abbiamo così tante opzioni a nostra disposizione, la decisione diventa molto più schiacciante. Ora non puoi semplicemente scegliere la regressione lineare perché il risultato è continuo. Oppure scegli la regressione logistica se il risultato è binario. Ci sono più cose da considerare quando scegliamo un modello di regressione per il nostro problema.

Come abbiamo già accennato, sono disponibili più modelli di regressione di cui possiamo orientarci. Quindi cosa dovremmo tenere a mente mentre facciamo la selezione? Ci sono alcune cose che sono importanti: dimensionalità dei dati, tipo di variabile dipendente e indipendente e altre proprietà dei dati in questione. Ecco alcune cose importanti da considerare quando si sceglie il modello di regressione corretto:

L'esplorazione dei dati è la chiave per costruire modelli predittivi. Non c'è da stupirsi che debba essere tra le prime cose da fare prima di effettuare la selezione. Esplora i dati per identificare l'impatto e la relazione variabili.

Valuta diversi modelli di regressione per la previsione attraverso la convalida incrociata. Separa il tuo set di dati in gruppi di formazione e convalida. La differenza quadratica media tra i valori previsti e quelli osservati fornirà un'idea dell'accuratezza della previsione.

Usa Ridge, ElasticNet e altri metodi di regolarizzazione della regressione per scegliere il modello giusto per i set di dati che hanno variabili con multicollinearità e dimensionalità elevate.

Per fare un confronto tra diversi modelli di regressione e la loro idoneità, possiamo analizzare parametri, come AIC, BIC, R-quadrato, termine di errore e altri. C'è un altro criterio, che si chiama Mallow's Cp. Confronta il modello con diversi sottomodelli per cercare le distorsioni.

Non utilizzare mai il metodo di selezione automatica del modello se il set di dati con cui stai lavorando ha un numero di variabili sconcertanti. Se lo fai, ti sposteresti verso l'inserimento di quelle variabili nel modello tutte in una volta.

Il tuo obiettivo è importante anche per selezionare il giusto modello di regressione. Se hai bisogno di un modello potente, semplice o statisticamente significativo, dipenderà dal tuo obiettivo.

Cos'è la regressione lineare?

Scopriamo di più su cos'è la regressione lineare. È una delle tecniche di apprendimento automatico che rientrano nell'apprendimento supervisionato. L'aumento della domanda e dell'uso di tecniche di apprendimento automatico è alla base dell'improvviso aumento dell'uso della regressione lineare in diverse aree. Sapevi che è noto che gli strati percettronici multistrato eseguono la regressione lineare? Facciamo ora un po' di luce sui presupposti che la regressione lineare è nota per fare sugli insiemi di dati a cui è applicata.

1. Autocorrelazione:

Questa ipotesi fatta dalla regressione lineare indica poca o nessuna autocorrelazione nei dati. L'autocorrelazione si verifica quando gli errori residui dipendono l'uno dall'altro in un modo o nell'altro.

2. Multi-collinearità:

Questa ipotesi afferma che la multi-collinearità dei dati non esiste affatto o è scarsamente presente. La multicollinearità si verifica quando funzioni o variabili indipendenti mostrano una certa dipendenza.

3. Relazione variabile:

Il modello presuppone che esista una relazione lineare tra caratteristica e variabili di risposta.

Alcuni casi in cui è possibile utilizzare la regressione lineare includono la stima del prezzo di una casa in base al numero di stanze che ha, la determinazione della crescita di una pianta in base alla frequenza con cui viene annaffiata e così via. Per tutti questi casi, avresti già un'idea del tipo di relazione che esiste tra le diverse variabili.

Quando usi l'analisi di regressione lineare, sostieni la tua idea o ipotesi con i dati. Quando sviluppi una migliore comprensione della relazione tra diverse variabili, sei in una posizione migliore per fare previsioni efficaci. Se non lo sai già, lascia che ti diciamo che la regressione lineare è una tecnica di apprendimento automatico supervisionato oltre che un modello statistico.

In termini di apprendimento automatico, il modello di regressione è la tua macchina e l'apprendimento si riferisce a questo modello che viene addestrato su un set di dati, che lo aiuta ad apprendere la relazione tra le variabili e gli consente di effettuare previsioni supportate dai dati.

Come funziona la regressione lineare?

Prima di eseguire l'analisi, assumiamo di avere due tipi di team: quelli che svolgono bene il proprio lavoro e quelli che non lo fanno. Ci possono essere diversi motivi per cui una squadra non è brava in quello che sta facendo. Potrebbe essere perché non ha le giuste competenze o non ha l'esperienza richiesta per svolgere determinati compiti sul lavoro. Ma non puoi mai essere certo di cosa sia.

Possiamo usare la regressione lineare per scoprire candidati che hanno tutto ciò che è necessario per adattarsi meglio a un particolare team coinvolto in una particolare linea di lavoro. Questo ci aiuterà a selezionare i candidati che molto probabilmente saranno bravi nel loro lavoro.

L'obiettivo dell'analisi di regressione è creare una curva o una linea di tendenza adatta ai dati in questione. Questo ci aiuta a scoprire come un parametro (variabili indipendenti) è correlato all'altro parametro (variabili dipendenti).

Prima di ogni altra cosa, dobbiamo prima dare un'occhiata più da vicino a tutti gli attributi dei diversi candidati e scoprire se sono correlati in un modo o nell'altro. Se troviamo alcune correlazioni, possiamo iniziare a fare previsioni basate su questi attributi.

L'esplorazione delle relazioni nei dati viene eseguita utilizzando una curva o una linea di tendenza e tracciando i dati. La curva o la linea ci mostrerà se c'è qualche correlazione. Ora possiamo usare la regressione lineare per confutare o accettare relazioni. Quando la relazione è confermata, possiamo utilizzare l'algoritmo di regressione per apprendere la sua relazione. Questo ci permetterà di fare le previsioni giuste. Saremo in grado di prevedere con maggiore precisione se un candidato è adatto al lavoro o meno.

Importanza della formazione di un modello

Il processo coinvolto nell'addestramento di un modello di regressione lineare è simile in molti modi a come vengono addestrati altri modelli di apprendimento automatico. Abbiamo bisogno di lavorare su un set di dati di addestramento e modellare la relazione delle sue variabili in un modo che non influisca sulla capacità del modello di prevedere nuovi campioni di dati. Il modello è addestrato per migliorare continuamente l'equazione di previsione.

Viene eseguito eseguendo un ciclo iterativo del set di dati specificato. Ogni volta che ripeti questa azione, aggiorni contemporaneamente il valore della deviazione e del peso nella direzione indicata dalla funzione del gradiente o del costo. La fase di completamento della formazione viene raggiunta quando viene toccata una soglia di errore o quando non si ha alcuna riduzione dei costi con le iterazioni di formazione che seguono.

Prima di iniziare ad addestrare il modello, ci sono alcune cose che dobbiamo preparare. Dobbiamo impostare il numero di iterazioni richieste e il tasso di apprendimento. Oltre a questo, dobbiamo anche impostare valori predefiniti per i nostri pesi. Inoltre, registra i progressi che siamo in grado di ottenere con ogni ripetizione.

Cos'è la regolarizzazione?

Se parliamo delle varianti di regressione lineare che sono preferite rispetto ad altre, allora dovremo citare quelle che hanno aggiunto la regolarizzazione. La regolarizzazione comporta penalizzare quei pesi in un modello che hanno valori assoluti maggiori rispetto ad altri.

La regolarizzazione viene eseguita per limitare l'overfitting, che è ciò che fa spesso un modello poiché riproduce troppo fedelmente le relazioni dei dati di allenamento. Non consente al modello di generalizzare campioni mai visti prima come dovrebbe.

Quando usiamo la regressione lineare?

Il potere della regressione lineare sta nella sua semplicità. Significa che può essere utilizzato per trovare risposte a quasi tutte le domande. Prima di utilizzare un algoritmo di regressione lineare, devi assicurarti che il tuo set di dati soddisfi le condizioni richieste su cui funziona.

La più importante di queste condizioni è l'esistenza di una relazione lineare tra le variabili del tuo set di dati. Ciò consente loro di essere facilmente tracciati. Devi vedere che la differenza che esiste tra i valori previsti e il valore raggiunto in reale sono costanti. I valori previsti dovrebbero essere ancora indipendenti e la correlazione tra i predittori dovrebbe essere troppo stretta per il comfort.

Puoi semplicemente tracciare i tuoi dati lungo una linea e quindi studiarne a fondo la struttura per vedere se il tuo set di dati soddisfa o meno le condizioni desiderate.

Usi della regressione lineare

La semplicità con cui l'aggressività lineare rende più facili le interpretazioni a livello molecolare è uno dei suoi maggiori vantaggi. La regressione lineare può essere applicata a tutti quei set di dati in cui le variabili hanno una relazione lineare.

Le aziende possono utilizzare l'algoritmo di regressione lineare in base ai dati di vendita. Supponiamo che tu sia un'azienda che sta pianificando il lancio di un nuovo prodotto. Ma non sei davvero sicuro a quale prezzo dovresti vendere questo prodotto. Puoi verificare come i tuoi clienti stanno rispondendo al tuo prodotto vendendolo a pochi punti di prezzo ben ponderati. Ciò ti consentirà di generalizzare la relazione tra le vendite del tuo prodotto e il prezzo. Con la regressione lineare, sarai in grado di determinare un prezzo che è più probabile che i clienti accettino.

Leggi anche: Stipendio di Machine Learning in India

La regressione lineare può essere utilizzata anche in diverse fasi dell'approvvigionamento e della produzione di un prodotto. Questi modelli sono ampiamente utilizzati in campo accademico, scientifico e medico. Ad esempio, gli agricoltori possono modellare un sistema che consente loro di utilizzare le condizioni ambientali a proprio vantaggio. Questo li aiuterà a lavorare con gli elementi in modo tale da causare il minimo danno al raccolto e al profitto.

Oltre a questi, può essere utilizzato in sanità, archeologia e lavoro tra le altre aree. Ecco come l'interpretazione su un modello lineare

Conclusione

L'analisi di regressione è uno strumento ampiamente adottato che utilizza la matematica per selezionare le variabili che possono avere un impatto diretto o indiretto sui dati finali. È importante tenerlo a mente mentre l'analisi è in gioco! La regressione lineare è uno degli algoritmi più comuni utilizzati dai data scientist per stabilire relazioni lineari tra le variabili del set di dati e il suo modello matematico è necessario per l'analisi predittiva.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

La regressione lineare ha limitazioni o demeriti?

La regressione lineare è un metodo popolare utilizzato per comprendere la relazione tra una variabile dipendente e una o più variabili indipendenti. Anche se il modello di regressione lineare è ampiamente utilizzato per sviluppare modelli di apprendimento automatico, presenta alcune limitazioni. Ad esempio, questo algoritmo di regressione presuppone che tutte le relazioni tra le variabili siano lineari, il che spesso può essere fuorviante. Quindi, considera sempre il valore medio della variabile dipendente mentre esamina le sue relazioni con le variabili indipendenti. Successivamente, la regressione lineare presuppone sempre che i dati si escludano a vicenda, cioè indipendenti dai valori degli altri, il che può essere errato. Inoltre, la regressione lineare è generalmente sensibile a valori anomali o dati imprevisti.

Quali sono le ragioni della popolarità dell'analisi di regressione?

L'analisi di regressione è una delle tecniche statistiche più utili e potenti utilizzate nell'apprendimento automatico. Ci sono vari motivi che spiegano la sua popolarità. In primo luogo, l'analisi di regressione viene fornita con un'ampia gamma di applicazioni grazie alla sua straordinaria versatilità. Il modello di analisi di regressione è molto semplice da implementare e interpretare, ad esempio, puoi facilmente spiegare come funziona e interpretare i risultati. Comprendere l'analisi di regressione offre una solida presa sui modelli statistici di apprendimento automatico. Ti aiuta anche a sviluppare modelli di machine learning più efficienti utilizzando linguaggi di programmazione come R e Python. Inoltre, questa tecnica offre un'eccellente integrabilità con le reti neurali artificiali per fare previsioni utili.

In che modo le aziende possono applicare la regressione lineare a loro vantaggio?

Le aziende possono utilizzare la regressione lineare per esaminare e generare utili informazioni dettagliate sul comportamento dei consumatori che influiscono sulla redditività. Può anche aiutare le aziende a fare stime e valutare le tendenze del mercato. Gli esperti di marketing possono utilizzare la regressione lineare per valutare l'efficacia delle loro strategie di marketing che coinvolgono promozioni e prezzi dei prodotti. Le società finanziarie e assicurative possono valutare efficacemente il rischio e formulare decisioni aziendali critiche. Le società di carte di credito possono mirare a ridurre al minimo il proprio portafoglio di rischio con gli inadempienti utilizzando modelli di regressione lineare.