Multicollinearità nell'analisi di regressione: tutto ciò che devi sapere
Pubblicato: 2020-12-23Sommario
introduzione
La regressione tenta di determinare il carattere e la forza della relazione tra una variabile dipendente e una serie di altre variabili indipendenti. Aiuta a valutare la forza della relazione tra le diverse variabili ea creare un modello delle relazioni future tra di esse. La "multicollinearità" nella regressione si riferisce al predittore correlato agli altri predittori,
Cos'è la multicollinearità?
Ogni volta che le correlazioni tra due o più variabili predittive sono elevate, si verifica la multicollinearità nella regressione. In parole semplici, una variabile predittore, chiamata anche predittore multicollineare, può essere utilizzata per prevedere l'altra variabile. Ciò porta alla creazione di informazioni ridondanti, che distorcono i risultati nel modello di regressione.
Gli esempi di predittori multicollineari sarebbero il prezzo di vendita e l'età di un'auto, il peso, l'altezza di una persona o il reddito annuo e gli anni di istruzione.
Il calcolo dei coefficienti di correlazione è il modo più semplice per rilevare la multicollinearità per tutte le coppie di valori predittori. Se r, quel coefficiente di correlazione è esattamente +1 o -1, si parla di multicollinearità perfetta. Se il coefficiente di correlazione è esattamente o vicino a +1 o -1, allora una delle variabili deve essere scartata dal modello solo nel caso in cui sia possibile.
È raro con i dati sperimentali, ma è molto comune che la multicollinearità alzi la sua brutta testa quando si tratta di studi osservazionali. Può portare a una stima inaffidabile e instabile della regressione quando la condizione è presente. Con l'aiuto dell'analisi del risultato, è possibile interferire con alcuni altri problemi come:
- La statistica t sarà generalmente piuttosto piccola e gli intervalli di confidenza del coefficiente saranno ampi. Significa che diventa difficile rifiutare l'ipotesi nulla.
- Potrebbe esserci una variazione di grandezza e/o segno nei coefficienti di regressione parziale mentre vengono passati da un campione all'altro.
- Gli errori standard possono essere grandi e la stima del coefficiente di regressione parziale può essere imprecisa.
- Diventa difficile valutare l'effetto sulle variabili dipendenti da variabili indipendenti a causa della multicollinearità.
Leggi: Tipi di modelli di regressione in Machine Learning

Perché la multicollinearità è un problema?
Il cambiamento in una singola variabile può causare un cambiamento nel resto delle variabili, che si verifica quando le variabili indipendenti sono altamente correlate. Quindi, il modello porta a un risultato notevolmente fluttuante. Poiché i risultati del modello saranno instabili e molto variabili, anche quando si verifica anche una piccola modifica dei dati, ciò costituirà i seguenti problemi:
- La stima del coefficiente sarebbe instabile e sarebbe difficile interpretare il modello. Cioè, non puoi prevedere la scala delle differenze nell'output se anche uno dei tuoi fattori di previsione cambia di 1 unità.
- Sarebbe difficile selezionare l'elenco delle variabili significative per il modello se fornisce risultati ogni volta variabili.
- Il sovraadattamento può essere causato dalla natura instabile del modello. Osserverai che l'accuratezza è diminuita in modo significativo se applichi lo stesso modello a qualche altro campione di dati rispetto all'accuratezza ottenuta con il tuo set di dati di addestramento.
Considerando la situazione, potrebbe non essere problematico per il tuo modello se si verificano solo problemi di collinearità moderata. Tuttavia, si suggerisce sempre di risolvere il problema se esiste un grave problema di collinearità.
Qual è la causa della multicollinearità?
Ci sono due tipi:

- Multicollinearità strutturale nella regressione: questo di solito è causato dal ricercatore o da te durante la creazione di nuove variabili predittive.
- Multicollinearità basata sui dati nella regressione: ciò è generalmente causato da esperimenti progettati in modo errato, metodi di raccolta di dati che non possono essere manipolati o dati puramente osservativi. In alcuni casi, le variabili possono essere altamente correlate a causa della raccolta di dati da studi osservazionali al 100% e non vi è alcun errore da parte del ricercatore. Per questo motivo, si suggerisce sempre di condurre gli esperimenti ogni volta che è possibile impostando in anticipo il livello della variabile predittiva.
Leggi anche: Idee e argomenti per progetti di regressione lineare

Le altre cause possono anche includere
- Mancanza di dati. In alcuni casi, la raccolta di un'ampia quantità di dati può aiutare a risolvere il problema.
- Le variabili usate come dummy potrebbero essere usate in modo errato. Ad esempio, il ricercatore può non riuscire ad aggiungere una variabile fittizia per ogni categoria o ad escludere una categoria.
- Considerando una variabile in regressione, che è una combinazione delle altre variabili nella regressione, ad esempio considerando "reddito totale da investimento" quando è reddito da interessi di risparmio + reddito da obbligazioni e azioni.
- Comprese due variabili quasi o completamente identiche. Ad esempio, reddito da obbligazioni/risparmio e reddito da investimenti, peso in chili e peso in libbre.
Per verificare se si è verificata multicollinearità
È possibile tracciare la matrice di correlazione di tutte le variabili indipendenti. In alternativa, puoi utilizzare VIF, ovvero il Fattore di inflazione varianza per ciascuna variabile indipendente. Misura la multicollinearità nell'insieme di variabili di regressione multipla. Il valore di VIF è proporzionale alla correlazione tra questa variabile e il resto. Ciò significa che maggiore è il valore VIF, maggiore è la correlazione.
Come possiamo risolvere il problema della Multicollinearità?
- Selezione della variabile: il modo più semplice è rimuovere alcune variabili altamente correlate tra loro e lasciare solo quelle più significative nell'insieme.
- Trasformazione della variabile: il secondo metodo è una trasformazione della variabile, che ridurrà la correlazione e riuscirà comunque a mantenere la caratteristica.
- Analisi della componente principale: L'analisi della componente principale viene solitamente utilizzata per ridurre la dimensione dei dati scomponendo i dati in una serie di fattori indipendenti. Ha molte applicazioni come il calcolo del modello può essere semplificato riducendo il numero dei fattori di previsione.
Lettura correlata: regressione lineare nell'apprendimento automatico
Conclusione
Prima di costruire il modello di regressione, dovresti sempre verificare il problema della multicollinearità. Per esaminare facilmente ogni variabile indipendente, si consiglia di vedere se hanno una correlazione considerevole con il resto VIF. La matrice di correlazione può aiutare a scegliere i fattori importanti quando non si è sicuri di quali variabili selezionare. Aiuta anche a capire perché alcune variabili hanno un valore elevato di VIF.
Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.
Cosa si intende con il termine regressione ordinale nell'apprendimento automatico?
La regressione ordinale è un tipo di analisi di regressione che appartiene alla famiglia di analisi di regressione. La regressione ordinale analizza i dati e spiega la relazione tra una variabile dipendente e due o più variabili indipendenti come studio predittivo. La regressione ordinale viene utilizzata per prevedere la variabile dipendente quando sono presenti numerose categorie "ordinate" e fattori indipendenti. In altre parole, consente alle variabili dipendenti con livelli ordinati diversi di interagire più facilmente con una o più variabili indipendenti.
La presenza di multicollinearità influisce sugli alberi decisionali?
Se due caratteristiche sono fortemente associate in uno specifico modello di machine learning, l'albero decisionale selezionerebbe comunque solo una di esse durante la suddivisione. Se i dati sono distorti o sbilanciati, un singolo albero porta a un approccio avido, ma metodi di apprendimento d'insieme come foreste casuali e alberi che aumentano il gradiente rendono la previsione impermeabile alla multicollinearità. Di conseguenza, le foreste casuali e gli alberi decisionali non sono influenzati dalla multicollinearità.
In che modo la regressione logistica è diversa dalla regressione lineare?
In alcuni aspetti, la regressione lineare differisce dalla regressione logistica. La regressione logica produce osservazioni e risultati discreti, ma la regressione lineare produce un output continuo e continuo. Nella regressione lineare viene calcolato l'errore quadratico medio, ma nella regressione logistica viene calcolata la stima della massima verosimiglianza. Infine, l'obiettivo della regressione lineare è identificare la linea migliore per abbinare i dati, ma la regressione logistica rimane in vantaggio adattando i dati a una curva sigmoidea.