Implementazione della regressione lineare in Python: una guida completa

Pubblicato: 2019-11-18

Sia che tu stia studiando l'apprendimento automatico o la statistica con Python, ti imbatterai in una regressione lineare. La regressione lineare è una delle parti importanti del corso di certificazione di machine learning.

Che cos'è? Come si esegue la regressione lineare con Python?

In questo articolo scopriremo le risposte a queste domande. Dopo aver letto questo articolo, acquisirai familiarità con:

Regressioni e cosa sono
Cos'è la regressione lineare
Come addestrare un modello di regressione lineare
Applicazioni della regressione lineare

Iniziamo.

Sommario

Cos'è la regressione?
Che cos'è una regressione lineare?
- Ipotesi
- Codice Python di regressione lineare
Addestramento del modello di regressione
Esecuzione della regressione lineare con i pacchetti Python
Quali sono le applicazioni della regressione lineare?
- 1) Comprendere le tendenze
- 2) Analisi delle variazioni di prezzo
- 3) Valutazione del rischio
Pensieri conclusivi
Quando usiamo la regressione?
Quanti tipi di regressione vengono utilizzati nell'apprendimento automatico?
Quali sono i vantaggi dell'utilizzo di Python?

Cos'è la regressione?

L'analisi di regressione si riferisce a processi statistici specifici utilizzati per stimare le relazioni tra una variabile dipendente e una variabile indipendente.

È popolare in diversi settori, come quello finanziario e bancario. Utilizzando l'analisi di regressione, è possibile comprendere la relazione tra due variabili in un ambiente specifico.

Supponiamo di voler trovare i prezzi delle case in una determinata area. A tal fine, dovrai osservare la città della zona, il numero di residenti, la disponibilità dei servizi e molte altre cose.

Le cose da cui dipenderanno i prezzi delle case si chiamano caratteristiche . E il problema dove i fattori sono legati al costo di ogni casa è un'osservazione. In questo esempio, si presume che la posizione, i servizi e altri fattori influiscano sul prezzo di ciascuna casa.

In termini più semplici, fai alcune osservazioni su un particolare argomento nell'analisi di regressione. Le tue osservazioni hanno alcune caratteristiche e alcune presunzioni prima di iniziare a formare una relazione tra di loro.

Ci sono due tipi di caratteristiche nell'analisi di regressione. Loro sono:

Funzionalità dipendenti, denominate output, variabili o risposte dipendenti
Funzionalità indipendenti, denominate output, variabili o risposte indipendenti

In genere, un problema di regressione ha una variabile dipendente continua. Gli input variano.

Puoi denotare le uscite con y e gli ingressi con x. Non ci sono regole rigide per questo, ma è una pratica generale usare y e x per denotare questi output e input.

Se hai più variabili indipendenti, puoi rappresentare come x = (x1,…,xr), dove r indica il numero di input.

Ottieni i migliori corsi di machine learning online dalle migliori università del mondo: master, programmi post-laurea per dirigenti e programma di certificazione avanzato in ML e AI per accelerare la tua carriera.

Che cos'è una regressione lineare?

La regressione lineare è il tipo più popolare di regressione. È un metodo statistico per modellare le relazioni tra un output dipendente e un gruppo di output indipendenti.

In questo articolo chiameremo "funzionalità" di output indipendenti e "risposte" di output dipendenti.

Se una regressione lineare ha solo una caratteristica, viene chiamata regressione lineare univariata. Allo stesso modo, se ha più funzionalità, la chiamerai regressione lineare multipla.

Il vantaggio più notevole delle regressioni lineari è la facilità di interpretazione dei loro risultati. Domande del colloquio di regressione lineare

È la forma più semplice di regressione.

Ipotesi

Se y è il valore previsto, 0 è il termine di distorsione, xn e sono i valori delle caratteristiche e rappresenterai il modello di regressione lineare con la seguente equazione:

Y = 0 + 1 x 1 + 2 x 2 +…. + n x n

Qui n indica i parametri del modello.

Codice Python di regressione lineare

Per creare un modello di regressione lineare, avrai anche bisogno di un set di dati per cominciare. Esistono diversi modi per utilizzare il codice Python per la regressione lineare.

Ti suggeriamo di studiare Python e di familiarizzare con le librerie Python prima di iniziare a lavorare in questo senso.

Può aiutarti a creare un modello di regressione lineare di base.

Addestramento del modello di regressione

Dovrai trovare i parametri necessari per il modello, in modo che si adatti meglio ai dati. Dovrai trovare la linea di adattamento migliore (o la linea di regressione).

La retta di regressione è quella per cui l'errore tra le cifre osservate e le cifre previste è il minimo. Un altro nome per questi errori è residuo.

Per misurare l'errore, dovrai definire la funzione di costo:

J ( ) = 1 2m i=1 m (h( x io ) – y io ) 2

Qui, h(x) sta per funzione di ipotesi, che è indicata dall'equazione che abbiamo discusso prima:

h(x) = 0 + 1 x 1 + 2 x 2 +…. + io x io

m sta per il numero totale di esempi nel nostro set di dati.

Usando queste equazioni e un algoritmo di ottimizzazione, puoi addestrare il tuo modello di regressione lineare.

Esistono molti altri metodi per eseguire l'analisi di regressione Python, di cui abbiamo discusso di seguito:

Esecuzione della regressione lineare con i pacchetti Python

Puoi usare NumPy, che è un pacchetto Python molto diffuso e fondamentale. Viene utilizzato per eseguire operazioni ad alte prestazioni. È open-source e ha molte routine matematiche disponibili.

Puoi consultare la guida per l'utente di NumPy per scoprire maggiori informazioni a riguardo. Dovresti anche conoscere scikit-learn, che è una popolare libreria Python basata su NumPy. È comunemente usato per l'apprendimento automatico e attività simili.

Per sviluppare modelli di regressione lineare e implementarli, dovresti anche conoscere gli statsmodels. È un altro potente pacchetto Python, che viene utilizzato per eseguire test e stimare modelli statistici.

Quali sono le applicazioni della regressione lineare?

La regressione lineare trova usi in molti settori. Ecco alcune applicazioni della regressione lineare:

1) Comprendere le tendenze

La regressione lineare può aiutare le aziende a comprendere le tendenze del mercato. In questo modo, possono pianificare meglio le loro strategie ed evitare di commettere errori. Oltre alle aziende, anche i commercianti e le organizzazioni di ricerca possono utilizzare questa tecnica per valutare le tendenze.

2) Analisi delle variazioni di prezzo

Le variazioni di prezzo delle materie prime possono avere un impatto significativo sui profitti delle aziende produttrici. La regressione lineare può aiutare anche le aziende in questo compito, poiché possono trovare relazioni tra le variazioni di prezzo ei fattori che le contribuiscono.

3) Valutazione del rischio

Le compagnie di assicurazione, così come gli investitori, possono utilizzare la regressione lineare per scoprire le anomalie. Gli investitori possono trovare i loro investimenti deboli e pianificare le loro strategie di conseguenza riducendo il rischio.

Pensieri conclusivi

La regressione lineare è uno degli algoritmi di intelligenza artificiale più importanti e speriamo che tu abbia trovato utile questa guida sulla regressione lineare con Python. La regressione di Python può essere piuttosto scoraggiante per un principiante. Ecco perché consigliamo di familiarizzare prima con i pacchetti e gli algoritmi Python.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al programma Executive PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT -B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Conoscere solo questi due ti sarà di grande beneficio nell'implementazione della regressione lineare.

Quando usiamo la regressione?

Quando in un problema sono presenti più variabili, potremmo voler capire la relazione tra tutte. Possiamo usare le matrici per scoprire le potenziali relazioni tra specifiche coppie di variabili. Utilizzando metodi di correlazione, possiamo misurare la relazione lineare tra qualsiasi coppia di variabili. Tuttavia, questo metodo non è adeguato quando si vogliono scoprire relazioni complesse che coinvolgono più variabili. In questi casi, la regressione è un metodo più efficace per comprendere le associazioni complesse tra più variabili. La regressione ci aiuta a sapere quali variabili influiscono su una risposta specifica e come queste possono spiegare un particolare risultato.

Quanti tipi di regressione vengono utilizzati nell'apprendimento automatico?

La regressione è una tecnica mediante la quale possiamo prevedere i risultati futuri tra una variabile target e una o più variabili predittive indipendenti. La regressione è molto comunemente utilizzata nell'apprendimento automatico per la modellazione di serie temporali, la previsione e la comprensione delle relazioni di causa-effetto tra variabili diverse. Diversi tipi di regressione utilizzati nell'apprendimento automatico sono la regressione lineare, la regressione logistica, la regressione della cresta, la regressione polinomiale e la regressione lazo. Puoi imbatterti in più tipi di metodi di analisi di regressione impiegati nell'apprendimento automatico. Tuttavia, questi sono i metodi più ampiamente utilizzati tra tutti gli altri.

Quali sono i vantaggi dell'utilizzo di Python?

Python è uno dei linguaggi di programmazione più comunemente utilizzati nell'apprendimento automatico. Viene fornito con diversi vantaggi. In primo luogo, la sintassi di Python è semplice. È facile da imparare e da capire, il che lo rende estremamente popolare sia tra i principianti che tra i programmatori esperti. Successivamente, è open source e gratuito e viene fornito con una vasta comunità di sviluppatori e ricercatori attivi. L'ampia libreria di funzioni integrata nel nucleo di Python offre un supporto completo agli sviluppatori, quindi non è necessario dipendere da librerie esterne o di terze parti. Inoltre, Python è altamente flessibile e indipendente dal sistema, a differenza di altri linguaggi di programmazione come C e C++.