Ipotesi di regressione lineare: 5 presupposti con esempi

Pubblicato: 2020-12-22

La regressione viene utilizzata per misurare e quantificare le relazioni di causa ed effetto. L'analisi di regressione è una tecnica statistica utilizzata per comprendere l'entità e la direzione di una possibile relazione causale tra un pattern osservato e le variabili assunte che influiscono sul dato pattern osservato.

Ad esempio, se c'è una riduzione del 20% del prezzo di un prodotto, ad esempio una crema idratante, è probabile che le persone lo comprino e le vendite aumenteranno.

Qui, il modello osservato è un aumento delle vendite (chiamato anche variabile dipendente). La variabile che si presume influisca sulle vendite è il prezzo (chiamato anche variabile indipendente).

Sommario

Che cos'è la regressione lineare?

La regressione lineare è una tecnica statistica che modella l'entità e la direzione di un impatto sulla variabile dipendente spiegata dalle variabili indipendenti. La regressione lineare è comunemente usata nell'analisi predittiva.

La regressione lineare spiega due aspetti importanti delle variabili, che sono i seguenti:

  • L'insieme delle variabili indipendenti spiega in modo significativo la variabile dipendente?
  • Quali variabili sono le più significative per spiegare la dipendente disponibile? In che modo influiscono sulla variabile dipendente? L'impatto è solitamente determinato dalla grandezza e dal segno dei coefficienti beta nell'equazione.

Ora, diamo un'occhiata alle ipotesi di regressione lineare, che sono essenziali da comprendere prima di eseguire un modello di regressione lineare.

Per saperne di più: Modello di regressione lineare e come funziona?

Assunzioni di regressione lineare

Relazione lineare

Uno dei presupposti più importanti è che si dice che esista una relazione lineare tra le variabili dipendenti e indipendenti. Se si tenta di adattare una relazione lineare in un set di dati non lineare, l'algoritmo proposto non catturerà la tendenza come un grafico lineare, risultando in un modello inefficiente. Pertanto, si tradurrebbe in previsioni imprecise.

Come si può determinare se l'ipotesi è soddisfatta?

Il modo semplice per determinare se questa ipotesi è soddisfatta o meno è creare un grafico a dispersione x vs y. Se i punti dati cadono su una linea retta nel grafico, esiste una relazione lineare tra le variabili dipendenti e indipendenti e l'ipotesi vale.

Cosa dovresti fare se questa ipotesi viene violata?

Se non esiste una relazione lineare tra le variabili dipendenti e indipendenti, applicare una trasformazione non lineare come logaritmica, esponenziale, radice quadrata o reciproca alla variabile dipendente, alla variabile indipendente o a entrambe.

Nessuna autocorrelazione o indipendenza

I residui (termini di errore) sono indipendenti l'uno dall'altro. In altre parole, non c'è correlazione tra i termini di errore consecutivi dei dati delle serie temporali. La presenza di correlazione nei termini di errore riduce drasticamente l'accuratezza del modello. Se i termini di errore sono correlati, l'errore standard stimato tenta di sgonfiare il vero errore standard.

Come determinare se l'ipotesi è soddisfatta?

Condurre un test statistico Durbin-Watson (DW). I valori dovrebbero essere compresi tra 0-4. Se DW=2, nessuna autocorrelazione; se DW è compreso tra 0 e 2, significa che esiste una correlazione positiva. Se DW è compreso tra 2 e 4, significa che esiste una correlazione negativa. Un altro metodo consiste nel tracciare un grafico rispetto ai residui rispetto al tempo e visualizzare i modelli nei valori residui.

Cosa dovresti fare se questa ipotesi viene violata?

Se il presupposto viene violato, considerare le seguenti opzioni:

  • Per una correlazione positiva, considerare l'aggiunta di ritardi alle variabili dipendenti o indipendenti o entrambe.
  • Per la correlazione negativa, controlla se nessuna delle variabili è eccessivamente differenziata.
  • Per la correlazione stagionale, considerare l'aggiunta di alcune variabili stagionali al modello.

Nessuna multicollinearità

Le variabili indipendenti non devono essere correlate. Se esiste multicollinearità tra le variabili indipendenti, è difficile prevedere l'esito del modello. In sostanza, è difficile spiegare la relazione tra le variabili dipendenti e indipendenti. In altre parole, non è chiaro quali variabili indipendenti spieghino la variabile dipendente.

Gli errori standard tendono a gonfiarsi con variabili correlate, allargando così gli intervalli di confidenza portando a stime imprecise.

Come determinare se l'ipotesi è soddisfatta?

Utilizzare un grafico a dispersione per visualizzare la correlazione tra le variabili. Un altro modo è determinare il VIF (Variance Inflation Factor). VIF<=4 non implica multicollinearità, mentre VIF>=10 implica una seria multicollinearità.

Cosa dovresti fare se questa ipotesi viene violata?

Ridurre la correlazione tra variabili trasformando o combinando le variabili correlate.

Deve leggere: Tipi di modelli di regressione in ML

Omoscedasticità

Omoscedasticità significa che i residui hanno varianza costante a ogni livello di x. L'assenza di questo fenomeno è nota come eteroschedasticità. L'eteroscedasticità sorge generalmente in presenza di valori anomali e valori estremi.

Come determinare se l'ipotesi è soddisfatta?

Creare un grafico a dispersione che mostri il valore residuo rispetto a quello adattato. Se i punti dati sono distribuiti equamente senza un pattern prominente, significa che i residui hanno una varianza costante (omoscedasticità). In caso contrario, se si vede un pattern a forma di imbuto, significa che i residui non sono distribuiti equamente e rappresenta una varianza non costante (eteroscedasticità).

Cosa dovresti fare se questa ipotesi viene violata?

  • Trasforma la variabile dipendente
  • Ridefinire la variabile dipendente
  • Usa la regressione ponderata

Distribuzione normale dei termini di errore

L'ultima ipotesi che deve essere verificata per la regressione lineare è la distribuzione normale dei termini di errore. Se i termini di errore non seguono una distribuzione normale, gli intervalli di confidenza possono diventare troppo ampi o stretti.

Come determinare se l'ipotesi è soddisfatta?

Verificare l'ipotesi utilizzando un grafico QQ (Quantile-Quantile). Se i punti dati sul grafico formano una linea retta diagonale, l'ipotesi è soddisfatta.

Puoi anche verificare la normalità dei termini di errore utilizzando test statistici come il test di Kolmogorov-Smironov o Shapiro-Wilk.

Cosa dovresti fare se questa ipotesi viene violata?

  • Verificare se i valori anomali hanno un impatto sulla distribuzione. Assicurati che siano valori reali e non errori di immissione dei dati.
  • Applicare la trasformazione non lineare sotto forma di logaritmica, radice quadrata o reciproca alle variabili dipendenti, indipendenti o entrambe.

Conclusione

Sfrutta il vero potere della regressione applicando le tecniche discusse sopra per garantire che i presupposti non vengano violati. È infatti possibile comprendere l'impatto delle variabili indipendenti sulla variabile dipendente se tutte le ipotesi di regressione lineare sono soddisfatte.

Il concetto di regressione lineare è un elemento indispensabile dei programmi di data science e machine learning.

Se sei interessato a saperne di più sui modelli di regressione e altro ancora sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, stato di Alumni IIIT-B, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Perché l'omoscedasticità è richiesta nella regressione lineare?

L'omoscedasticità descrive quanto simili o quanto lontano i dati si discostano dalla media. Questa è un'ipotesi importante da fare perché i test statistici parametrici sono sensibili alle differenze. L'eteroscedasticità non induce bias nelle stime dei coefficienti, ma ne riduce la precisione. Con una precisione inferiore, è più probabile che le stime dei coefficienti si discostino dal valore corretto della popolazione. Per evitare ciò, l'omoscedasticità è un presupposto cruciale da affermare.

Quali sono i due tipi di multicollinearità nella regressione lineare?

I dati e la multicollinearità strutturale sono i due tipi fondamentali di multicollinearità. Quando creiamo un termine modello da altri termini, otteniamo multicollinearità strutturale. In altre parole, più che essere presente nei dati stessi, è il risultato del modello che forniamo. Sebbene la multicollinearità dei dati non sia un artefatto del nostro modello, è presente nei dati stessi. La multicollinearità dei dati è più comune nelle indagini osservazionali.

Quali sono gli svantaggi dell'utilizzo di t-test per i test indipendenti?

Ci sono problemi con la ripetizione delle misurazioni invece delle differenze tra i progetti di gruppo quando si utilizzano test t di campioni accoppiati, il che porta a effetti di riporto. A causa di errori di tipo I, il test t non può essere utilizzato per confronti multipli. Sarà difficile rifiutare l'ipotesi nulla quando si esegue un t-test accoppiato su un insieme di campioni. Ottenere i soggetti per i dati del campione è un aspetto costoso e dispendioso in termini di tempo del processo di ricerca.