Wissen Sie, warum das verallgemeinerte lineare Modell ein bemerkenswertes Synthesemodell ist!

Veröffentlicht: 2020-11-17

Inhaltsverzeichnis

Grundlagen verstehen

GLM ist sehr bekannt unter Personen, die sich mit verschiedenen Regressionsmodellen befassen, angefangen von klassischen linearen Regressionsmodellen bis hin zu Modellen für die Überlebensanalyse. Der Begriff verallgemeinertes lineares Modell (GLIM oder GLM ) wurde von McCullagh (1982) und Nelder (2. Auflage 1989) geprägt und bekannt gemacht. GLM , in der einfachsten Form wie beschrieben in Rutherford 2001, Data = Model + Error. Es hat einen nützlichen Rahmen, der die Grundlage für verschiedene statistische Tests bildet.

Wiederbesuch der Klasse der Modelle

  • Klassische lineare Regressionsmodelle (CLR), auch als lineare Regressionsmodelle bezeichnet
  • Varianzanalyse (ANOVA)-Modelle.
  • Modelle, die Gewinnchancen wie die Wahrscheinlichkeit eines Maschinenausfalls vorhersagen
  • Modelle zur Erklärung und Vorhersage von Ereigniszahlen
  • Modelle zur Schätzung der Lebensdauer von lebenden und nicht lebenden Dingen wie einem Prozessor oder dem biologischen Alter einer Pflanze usw.

Das verallgemeinerte lineare Modell ist, wie der Name schon sagt, wie ein Baldachin für alle oben genannten Modelle mit verbesserten Berechnungen und Annäherungen.

Die Struktur verallgemeinerter linearer Modelle

Ein verallgemeinertes lineares Modell (oder GLM1) besteht aus drei Hauptkomponenten:

  1. Zufallskomponente: Eine als Rauschmodell oder Fehlermodell bekannte Zufallskomponente ist die Wahrscheinlichkeitsverteilung der Antwortvariablen (Y).
  2. Systematische Komponente: Ein linearer Prädiktor ist eine lineare Funktion von Regressoren, wie unten erwähnt:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. Verknüpfungsfunktion (bezeichnet mit η oder g(μ) ): Wie der Name schon sagt, ist es die Verknüpfung zwischen systematischen und zufälligen Komponenten

Beispiel : μi = E(Yi), zum linearen Prädiktor g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

Das verallgemeinerte lineare Modell gilt für Daten nach dem Prozess der maximalen Wahrscheinlichkeit. Dies liefert die Schätzungen der Regressionskoeffizienten und geschätzten asymptotischen Standardfehler der Koeffizienten.

Das grundlegende GLM für Zähldaten ist das Poisson-Modell mit einer Protokollverknüpfung. Wenn die Antwortvariable jedoch eine Zählung ist, steigt ihre bedingte Varianz schneller als ihr Mittelwert, was zu einer Bedingung führt, die als Überdispersion bezeichnet wird und die Verwendung der Poisson-Verteilung ungültig macht. Der Quasi-Poisson- GLM fügt einen Streuungsparameter hinzu, um überstreute Zähldaten zu handhaben.

Allgemein ausgedrückt ist die Schätzung der Quasi-Wahrscheinlichkeit eine Möglichkeit, eine Überdispersion zu berücksichtigen, die eine signifikantere Variabilität in den Daten darstellt, als von dem verwendeten statistischen Modell erwartet wird.

Ein ähnliches Modell basiert auf der negativen Binomialverteilung, die keine Exponentialfamilie ist. Negative Binome im verallgemeinerten linearen Modell können nicht durch maximale Wahrscheinlichkeit bestimmt werden. Das auf Null überhöhte Poisson-Regressionsmodell ist möglicherweise am besten geeignet, wenn die Daten mehr Nullen enthalten, als mit einer Poisson-Verteilung vereinbar sind.

Lesen Sie: Modelle für maschinelles Lernen erklärt

Vorteile des verallgemeinerten linearen Modells gegenüber der herkömmlichen Regression der gewöhnlichen kleinsten Quadrate (OLS).

Es gibt viele Vorteile von allgemeinen linearen Modellen gegenüber der OLS-Regression, die wie folgt zusammengefasst werden können:

  • Im Gegensatz zur OLS-Regression muss die Antwort Y nicht jedes Mal transformiert werden, um eine Normalverteilung zu erhalten.
  • Die Modellierung ist flexibler, da sich die Auswahl eines Links von der Auswahl einer zufälligen Komponente unterscheidet.
  • Eine konstante Varianz ist NICHT erforderlich, wenn die Verbindung additive Effekte liefert.
  • Wir haben die optimalen Eigenschaften der Schätzer, da die Modelle über eine Maximum-Likelihood-Schätzung angehängt werden.
  • Alle Inferenzwerkzeuge und Modellprüfungen für log-lineare und logistische Regressionsmodelle gelten auch für andere GLMs .
  • Normalerweise gibt es nur einen Prozess (Prozedur oder Funktion) in einem Softwarepaket, um alle in der obigen Tabelle aufgeführten Modelle zu erfassen. Nehmen Sie zum Beispiel glm() (R Language) oder PROC GENMOD (SAS).

Nachteile des verallgemeinerten linearen Modells

Abgesehen von den oben aufgeführten Vorteilen gibt es zwei große Nachteile, die es zu beachten gilt:

  • Einige Einschränkungen wie die lineare Funktion können nur einen linearen Prädiktor in der systematischen Komponente haben.
  • Antworten können nicht voneinander abhängen.

Muss gelesen werden: Projektideen für maschinelles Lernen erklärt

Fazit

Wenn wir alle oben genannten Informationen zusammenfassen, haben wir festgestellt, dass GLM mit geringerer Komplexität bequem ist. Mit GLM können Antwortvariablen jede Art von exponentiellem Verteilungstyp haben. Abgesehen davon kann es mit kategorialen Prädiktoren umgehen. Das allgemeine lineare Modell ist leicht zu interpretieren und ermöglicht ein klares Verständnis dafür, wie jeder Prädiktor das Ergebnis beeinflusst.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Was ist ein Poisson-Regressionsmodell?

Wie unterscheidet sich ein allgemeines lineares Modell von einem verallgemeinerten linearen Modell?

Was sind einige der Annahmen, die ein verallgemeinertes lineares Modell macht?

Die meisten GLM-Annahmen sind mit linearen Regressionsmodellen vergleichbar, einige der linearen Regressionsannahmen sind jedoch geändert. Die Daten in einem GLM werden als unabhängig und zufällig angenommen. Fehler werden ebenfalls als unabhängig betrachtet, obwohl sie nicht regelmäßig verteilt werden müssen. Während die Antwortvariable nicht unabhängig sein muss, sollte die Verteilung zur Exponentialfamilie gehören.