Multikollinearität in der Regressionsanalyse: Alles, was Sie wissen müssen
Veröffentlicht: 2020-12-23Inhaltsverzeichnis
Einführung
Die Regression versucht, den Charakter und die Stärke der Beziehung zwischen einer abhängigen Variablen und einer Reihe anderer unabhängiger Variablen zu bestimmen. Es hilft, die Stärke der Beziehung zwischen verschiedenen Variablen zu beurteilen und ein Modell der zukünftigen Beziehungen zwischen ihnen zu erstellen. „Multikollinearität“ in der Regression bezieht sich auf den Prädiktor, der mit den anderen Prädiktoren korreliert,
Was ist Multikollinearität?
Immer wenn die Korrelationen zwischen zwei oder mehr Prädiktorvariablen hoch sind, tritt Multikollinearität in der Regression auf. Mit einfachen Worten, eine Prädiktorvariable, auch multikollinearer Prädiktor genannt, kann verwendet werden, um die andere Variable vorherzusagen. Dadurch entstehen redundante Informationen, die die Ergebnisse im Regressionsmodell verzerren.
Beispiele für multikollineare Prädiktoren wären der Verkaufspreis und das Alter eines Autos, das Gewicht, die Größe einer Person oder das Jahreseinkommen und die Ausbildungsjahre.
Die Berechnung von Korrelationskoeffizienten ist die einfachste Methode, um Multikollinearität für alle Paare von Prädiktorwerten zu erkennen. Wenn r, dieser Korrelationskoeffizient, genau +1 oder -1 ist, spricht man von perfekter Multikollinearität. Wenn der Korrelationskoeffizient genau oder nahe bei +1 oder -1 liegt, muss eine der Variablen nur dann aus dem Modell verworfen werden, wenn dies möglich ist.
Es ist selten bei experimentellen Daten, aber es kommt sehr häufig vor, dass Multikollinearität ihr hässliches Gesicht zeigt, wenn es um Beobachtungsstudien geht. Es kann zu einer unzuverlässigen und instabilen Schätzung der Regression führen, wenn die Bedingung vorhanden ist. Mithilfe der Analyse des Ergebnisses können einige andere Probleme behoben werden, wie zum Beispiel:
- Die t-Statistik ist normalerweise ziemlich klein und die Konfidenzintervalle des Koeffizienten sind breit. Das bedeutet, dass es schwierig wird, die Nullhypothese abzulehnen.
- Es kann eine Änderung der Größe und/oder des Vorzeichens in den partiellen Regressionskoeffizienten geben, wenn sie von Stichprobe zu Stichprobe weitergegeben werden.
- Die Standardfehler können groß sein und die Schätzung des partiellen Regressionskoeffizienten kann ungenau sein.
- Aufgrund der Multikollinearität wird es schwierig, den Einfluss unabhängiger Variablen auf abhängige Variablen abzuschätzen.
Lesen Sie: Arten von Regressionsmodellen beim maschinellen Lernen

Warum ist Multikollinearität ein Problem?
Die Änderung einer einzelnen Variablen kann eine Änderung der übrigen Variablen bewirken, was passiert, wenn die unabhängigen Variablen stark korrelieren. Das Modell führt also zu einem stark schwankenden Ergebnis. Da die Ergebnisse des Modells instabil und sehr unterschiedlich sind, selbst wenn nur eine kleine Änderung in den Daten auftritt, führt dies zu den folgenden Problemen:
- Die Schätzung des Koeffizienten wäre instabil und das Modell schwer zu interpretieren. Das heißt, Sie können das Ausmaß der Unterschiede in der Ausgabe nicht vorhersagen, wenn sich auch nur einer Ihrer Vorhersagefaktoren um 1 Einheit ändert.
- Es wäre schwierig, die Liste der signifikanten Variablen für das Modell auszuwählen, wenn es jedes Mal unterschiedliche Ergebnisse liefert.
- Eine Überanpassung kann aufgrund der Instabilität des Modells verursacht werden. Sie werden feststellen, dass die Genauigkeit erheblich abgenommen hat, wenn Sie dasselbe Modell auf eine andere Datenstichprobe anwenden, verglichen mit der Genauigkeit, die Sie mit Ihrem Trainingsdatensatz erhalten haben.
In Anbetracht der Situation ist es für Ihr Modell möglicherweise nicht problematisch, wenn nur moderate Kollinearitätsprobleme auftreten. Es wird jedoch immer empfohlen, das Problem zu lösen, wenn ein schwerwiegendes Problem bei der Kollinearität besteht.
Was ist die Ursache für Multikollinearität?
Es gibt zwei Arten:

- Strukturelle Multikollinearität in der Regression: Dies wird normalerweise durch den Forscher oder Sie beim Erstellen neuer Prädiktorvariablen verursacht.
- Datenbasierte Multikollinearität in der Regression: Dies wird in der Regel durch schlecht konzipierte Experimente, nicht manipulierbare Datenerfassungsmethoden oder reine Beobachtungsdaten verursacht. In einigen Fällen können die Variablen aufgrund der Datenerhebung aus 100 % Beobachtungsstudien hochgradig korrelieren, und es liegt kein Fehler seitens des Forschers vor. Aus diesem Grund wird immer empfohlen, die Experimente durchzuführen, wann immer dies möglich ist, indem das Niveau der Prädiktorvariablen im Voraus festgelegt wird.
Lesen Sie auch: Ideen und Themen für lineare Regressionsprojekte

Die anderen Ursachen können auch umfassen
- Fehlen von Daten. In einigen Fällen kann das Sammeln einer großen Datenmenge bei der Lösung des Problems helfen.
- Die als Dummy verwendeten Variablen könnten falsch verwendet werden. Beispielsweise kann es dem Forscher misslingen, für jede Kategorie eine Dummy-Variable hinzuzufügen oder eine Kategorie auszuschließen.
- Betrachten einer Variablen in der Regression, die eine Kombination der anderen Variablen in der Regression ist – zum Beispiel die Betrachtung des „Gesamtanlageertrags“, wenn es sich um Einkünfte aus Sparzinsen + Einkünfte aus Anleihen und Aktien handelt.
- Einschließlich zwei fast oder vollständig identischer Variablen. Zum Beispiel Renten-/Sparerträge und Anlageerträge, Gewicht in Kilo und Gewicht in Pfund.
Um zu prüfen, ob Multikollinearität aufgetreten ist
Sie können die Korrelationsmatrix aller unabhängigen Variablen darstellen. Alternativ können Sie VIF verwenden, d. h. den Varianzinflationsfaktor für jede unabhängige Variable. Es misst die Multikollinearität im Variablensatz der multiplen Regression. Der Wert von VIF ist proportional zur Korrelation zwischen dieser Variablen und dem Rest. Das heißt, je höher der VIF-Wert, desto höher die Korrelation.
Wie können wir das Problem der Multikollinearität lösen?
- Auswahl der Variablen: Am einfachsten ist es, einige Variablen zu entfernen, die stark miteinander korrelieren, und nur die signifikantesten in der Menge zu belassen.
- Transformation der Variablen: Die zweite Methode ist eine Variablentransformation, die die Korrelation reduziert und dennoch das Merkmal beibehält.
- Analyse der Hauptkomponente: Die Hauptkomponentenanalyse wird normalerweise verwendet, um die Datendimension zu reduzieren, indem die Daten in eine Reihe unabhängiger Faktoren zerlegt werden. Es hat viele Anwendungen, wie z. B. kann die Modellberechnung vereinfacht werden, indem die Anzahl der Vorhersagefaktoren reduziert wird.
Related Read: Lineare Regression beim maschinellen Lernen
Fazit
Vor dem Aufbau des Regressionsmodells sollten Sie immer das Problem der Multikollinearität prüfen. Um jede unabhängige Variable einfach zu betrachten, wird VIF empfohlen, um zu sehen, ob sie eine beträchtliche Korrelation mit dem Rest haben. Die Korrelationsmatrix kann bei der Auswahl der wichtigen Faktoren helfen, wenn Sie sich nicht sicher sind, welche Variablen Sie auswählen sollten. Es hilft auch zu verstehen, warum einige Variablen einen hohen VIF-Wert haben.
Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.
Was versteht man unter dem Begriff ordinale Regression beim maschinellen Lernen?
Die ordinale Regression ist eine Art der Regressionsanalyse, die zur Familie der Regressionsanalysen gehört. Die ordinale Regression analysiert Daten und erklärt die Beziehung zwischen einer abhängigen Variablen und zwei oder mehr unabhängigen Variablen als Vorhersagestudie. Die ordinale Regression wird verwendet, um die abhängige Variable vorherzusagen, wenn zahlreiche Kategorien und unabhängige Faktoren „geordnet“ sind. Anders ausgedrückt ermöglicht es abhängigen Variablen mit unterschiedlichen Ordnungsebenen, leichter mit einer oder mehreren unabhängigen Variablen zu interagieren.
Beeinflusst das Vorhandensein von Multikollinearität Entscheidungsbäume?
Wenn zwei Merkmale in einem bestimmten maschinellen Lernmodell hoch assoziiert sind, würde der Entscheidungsbaum beim Aufteilen dennoch nur eines davon auswählen. Wenn die Daten verzerrt oder unausgeglichen sind, führt ein einzelner Baum zu einem gierigen Ansatz, aber Ensemble-Lernmethoden wie Random Forests und Gradient Boosting Trees machen die Vorhersage unempfindlich gegen Multikollinearität. Daher sind Random Forests und Entscheidungsbäume von Multikollinearität nicht betroffen.
Wie unterscheidet sich die logistische Regression von der linearen Regression?
In einigen Aspekten unterscheidet sich die lineare Regression von der logistischen Regression. Die logische Regression erzeugt diskrete Bemerkungen und Befunde, die lineare Regression hingegen erzeugt eine kontinuierliche und fortlaufende Ausgabe. Bei der linearen Regression wird der mittlere quadratische Fehler berechnet, aber bei der logistischen Regression wird die Maximum-Likelihood-Schätzung berechnet. Schließlich besteht das Ziel der linearen Regression darin, die beste Linie zu identifizieren, die mit den Daten übereinstimmt, aber die logistische Regression bleibt vorne, indem sie die Daten an eine Sigmoidkurve anpasst.