Annahmen der linearen Regression: 5 Annahmen mit Beispielen

Veröffentlicht: 2020-12-22

Regression wird verwendet, um Ursache-Wirkungs-Beziehungen zu messen und zu quantifizieren. Die Regressionsanalyse ist eine statistische Technik, die verwendet wird, um das Ausmaß und die Richtung einer möglichen kausalen Beziehung zwischen einem beobachteten Muster und den angenommenen Variablen zu verstehen, die das gegebene beobachtete Muster beeinflussen.

Wenn zum Beispiel der Preis eines Produkts um 20 % gesenkt wird, sagen wir, eine Feuchtigkeitscreme, werden die Leute es wahrscheinlich kaufen, und die Verkäufe werden wahrscheinlich steigen.

Hier ist das beobachtete Muster ein Umsatzanstieg (auch als abhängige Variable bezeichnet). Die Variable, von der angenommen wird, dass sie sich auf den Umsatz auswirkt, ist der Preis (auch als unabhängige Variable bezeichnet).

Inhaltsverzeichnis

Was ist lineare Regression?

Die lineare Regression ist eine statistische Technik, die das Ausmaß und die Richtung einer Auswirkung auf die abhängige Variable modelliert, die durch die unabhängigen Variablen erklärt wird. Die lineare Regression wird häufig in der Vorhersageanalyse verwendet.

Die lineare Regression erklärt zwei wichtige Aspekte der Variablen:

  • Erklärt die Menge der unabhängigen Variablen die abhängige Variable signifikant?
  • Welche Variablen sind für die Erklärung des Abhängigen am wichtigsten? Wie wirken sie sich auf die abhängige Variable aus? Die Auswirkung wird normalerweise durch die Größe und das Vorzeichen der Beta-Koeffizienten in der Gleichung bestimmt.

Schauen wir uns nun die Annahmen der linearen Regression an, die unbedingt verstanden werden müssen, bevor wir ein lineares Regressionsmodell ausführen.

Weiterlesen : Lineares Regressionsmodell und wie es funktioniert?

Annahmen der linearen Regression

Lineare Beziehung

Eine der wichtigsten Annahmen ist, dass zwischen den abhängigen und den unabhängigen Variablen eine lineare Beziehung bestehen soll. Wenn Sie versuchen, eine lineare Beziehung in einen nichtlinearen Datensatz einzupassen, erfasst der vorgeschlagene Algorithmus den Trend nicht als lineares Diagramm, was zu einem ineffizienten Modell führt. Somit würde es zu ungenauen Vorhersagen führen.

Wie können Sie feststellen, ob die Annahme erfüllt ist?

Der einfache Weg, um festzustellen, ob diese Annahme erfüllt ist oder nicht, besteht darin, ein Streudiagramm x vs y zu erstellen. Wenn die Datenpunkte im Diagramm auf einer geraden Linie liegen, besteht eine lineare Beziehung zwischen der abhängigen und der unabhängigen Variablen, und die Annahme gilt.

Was tun, wenn diese Annahme verletzt wird?

Wenn zwischen der abhängigen und der unabhängigen Variablen keine lineare Beziehung besteht, wenden Sie eine nichtlineare Transformation wie Logarithmus, Exponential, Quadratwurzel oder Kehrwert entweder auf die abhängige Variable, die unabhängige Variable oder beide an.

Keine Autokorrelation oder Unabhängigkeit

Die Residuen (Fehlerterme) sind voneinander unabhängig. Mit anderen Worten, es gibt keine Korrelation zwischen den aufeinanderfolgenden Fehlertermen der Zeitreihendaten. Das Vorhandensein einer Korrelation in den Fehlertermen reduziert die Genauigkeit des Modells drastisch. Wenn die Fehlerterme korrelieren, versucht der geschätzte Standardfehler, den wahren Standardfehler zu verringern.

Wie kann festgestellt werden, ob die Annahme erfüllt ist?

Führen Sie einen statistischen Test nach Durbin-Watson (DW) durch. Die Werte sollten zwischen 0-4 liegen. Bei DW=2 keine Autokorrelation; wenn DW zwischen 0 und 2 liegt, bedeutet dies, dass eine positive Korrelation besteht. Wenn DW zwischen 2 und 4 liegt, bedeutet dies, dass eine negative Korrelation vorliegt. Eine andere Methode besteht darin, ein Diagramm gegen die Residuen über der Zeit zu zeichnen und Muster in den Residuenwerten zu erkennen.

Was tun, wenn diese Annahme verletzt wird?

Wenn die Annahme verletzt wird, erwägen Sie die folgenden Optionen:

  • Erwägen Sie für eine positive Korrelation das Hinzufügen von Verzögerungen zu der abhängigen oder der unabhängigen oder beiden Variablen.
  • Überprüfen Sie bei negativer Korrelation, ob keine der Variablen überdifferenziert ist.
  • Erwägen Sie für die saisonale Korrelation das Hinzufügen einiger saisonaler Variablen zum Modell.

Keine Multikollinearität

Die unabhängigen Variablen sollten nicht korreliert sein. Wenn zwischen den unabhängigen Variablen Multikollinearität besteht, ist es schwierig, das Ergebnis des Modells vorherzusagen. Im Wesentlichen ist es schwierig, die Beziehung zwischen den abhängigen und den unabhängigen Variablen zu erklären. Mit anderen Worten, es ist unklar, welche unabhängigen Variablen die abhängige Variable erklären.

Die Standardfehler neigen dazu, mit korrelierten Variablen aufzublähen, wodurch die Konfidenzintervalle erweitert werden, was zu ungenauen Schätzungen führt.

Wie kann festgestellt werden, ob die Annahme erfüllt ist?

Verwenden Sie ein Streudiagramm, um die Korrelation zwischen den Variablen zu visualisieren. Eine andere Möglichkeit ist die Bestimmung des VIF (Variance Inflation Factor). VIF<=4 impliziert keine Multikollinearität, während VIF>=10 ernsthafte Multikollinearität impliziert.

Was tun, wenn diese Annahme verletzt wird?

Reduzieren Sie die Korrelation zwischen Variablen, indem Sie die korrelierten Variablen entweder transformieren oder kombinieren.

Muss gelesen werden: Arten von Regressionsmodellen in ML

Homoskedastizität

Homoskedastizität bedeutet, dass die Residuen auf jeder Ebene von x eine konstante Varianz aufweisen. Das Fehlen dieses Phänomens wird als Heteroskedastizität bezeichnet. Heteroskedastizität tritt im Allgemeinen beim Vorhandensein von Ausreißern und Extremwerten auf.

Wie kann festgestellt werden, ob die Annahme erfüllt ist?

Erstellen Sie ein Streudiagramm, das den Residuen vs. den angepassten Wert zeigt. Wenn die Datenpunkte ohne auffälliges Muster gleichmäßig verteilt sind, bedeutet dies, dass die Residuen eine konstante Varianz aufweisen (Homoskedastizität). Andernfalls, wenn ein trichterförmiges Muster zu sehen ist, bedeutet dies, dass die Residuen nicht gleichmäßig verteilt sind, und zeigt eine nicht konstante Varianz (Heteroskedastizität).

Was tun, wenn diese Annahme verletzt wird?

  • Transformiere die abhängige Variable
  • Definieren Sie die abhängige Variable neu
  • Verwenden Sie die gewichtete Regression

Normalverteilung von Fehlertermen

Die letzte Annahme, die für die lineare Regression überprüft werden muss, ist die Normalverteilung der Fehlerterme. Wenn die Fehlerterme keiner Normalverteilung folgen, können die Konfidenzintervalle zu breit oder zu eng werden.

Wie kann festgestellt werden, ob die Annahme erfüllt ist?

Überprüfen Sie die Annahme mithilfe eines QQ-Diagramms (Quantile-Quantile). Wenn die Datenpunkte auf dem Diagramm eine gerade diagonale Linie bilden, ist die Annahme erfüllt.

Sie können die Normalität der Fehlerterme auch mit statistischen Tests wie dem Kolmogorov-Smironov- oder dem Shapiro-Wilk-Test überprüfen.

Was tun, wenn diese Annahme verletzt wird?

  • Überprüfen Sie, ob die Ausreißer Auswirkungen auf die Verteilung haben. Stellen Sie sicher, dass es sich um reale Werte handelt und nicht um Dateneingabefehler.
  • Wenden Sie eine nichtlineare Transformation in Form von Logarithmus, Quadratwurzel oder Kehrwert auf die abhängige, unabhängige oder beide Variablen an.

Fazit

Nutzen Sie die wahre Kraft der Regression, indem Sie die oben beschriebenen Techniken anwenden, um sicherzustellen, dass die Annahmen nicht verletzt werden. Es ist tatsächlich möglich, den Einfluss der unabhängigen Variablen auf die abhängige Variable zu verstehen, wenn alle Annahmen der linearen Regression erfüllt sind.

Das Konzept der linearen Regression ist ein unverzichtbares Element von Data-Science- und Machine-Learning-Programmen.

Wenn Sie mehr über Regressionsmodelle und mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen und mehr als 30 Fallstudien bietet & Aufgaben, IIIT-B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Arbeitsunterstützung bei Top-Unternehmen.

Warum ist bei der linearen Regression Homoskedastizität erforderlich?

Homoskedastizität beschreibt, wie ähnlich oder wie weit die Daten vom Mittelwert abweichen. Dies ist eine wichtige Annahme, da parametrische statistische Tests empfindlich auf Unterschiede reagieren. Heteroskedastizität führt nicht zu Verzerrungen bei Koeffizientenschätzungen, verringert jedoch deren Genauigkeit. Bei geringerer Genauigkeit ist es wahrscheinlicher, dass die Koeffizientenschätzungen vom korrekten Populationswert abweichen. Um dies zu vermeiden, ist Homoskedastizität eine entscheidende Annahme.

Was sind die zwei Arten von Multikollinearität in der linearen Regression?

Daten- und strukturelle Multikollinearität sind die beiden Grundtypen von Multikollinearität. Wenn wir aus anderen Termen einen Modellterm machen, erhalten wir strukturelle Multikollinearität. Mit anderen Worten, es ist nicht in den Daten selbst vorhanden, sondern ein Ergebnis des von uns bereitgestellten Modells. Während Datenmultikollinearität kein Artefakt unseres Modells ist, ist sie in den Daten selbst vorhanden. Datenmultikollinearität tritt häufiger bei Beobachtungsuntersuchungen auf.

Was sind die Nachteile der Verwendung von t-Test für unabhängige Tests?

Es gibt Probleme mit wiederholten Messungen anstelle von Unterschieden zwischen den Gruppendesigns, wenn t-Tests mit gepaarten Stichproben verwendet werden, was zu Übertragungseffekten führt. Aufgrund von Fehlern erster Art kann der t-Test nicht für Mehrfachvergleiche verwendet werden. Es wird schwierig sein, die Nullhypothese abzulehnen, wenn ein gepaarter t-Test an einer Reihe von Stichproben durchgeführt wird. Die Beschaffung der Probanden für die Beispieldaten ist ein zeitaufwändiger und kostspieliger Aspekt des Forschungsprozesses.