Dowiedz się, dlaczego uogólniony model liniowy jest niezwykłym modelem syntezy!

Opublikowany: 2020-11-17

Spis treści

Zrozumienie podstaw

GLM jest bardzo znany wśród osób, które mają do czynienia z różnymi modelami regresji, począwszy od klasycznych modeli regresji liniowej po modele analizy przeżycia. Termin uogólniony model liniowy (GLIM lub GLM ) został ukuty i zaznajomiony przez McCullagha (1982) i Neldera (wyd. 2 1989). GLM , w najprostszej formie, jak opisano w Rutherford 2001, Dane = Model + Błąd. Posiada przydatne ramy, które są podstawą różnych testów statystycznych.

Powrót do klasy modeli

  • Klasyczne modele regresji liniowej (CLR), zwane również modelami regresji liniowej
  • Analiza modeli wariancji (ANOVA).
  • Modele, które przewidują szanse wygranej, takie jak prawdopodobieństwo awarii maszyny
  • Modele używane do wyjaśniania i przewidywania liczby zdarzeń
  • Modele szacowania długości życia rzeczy ożywionych i nieożywionych, takich jak procesor, wiek biologiczny rośliny itp.

Generalized Linear Model , jak sama nazwa wskazuje, jest jak baldachim dla wszystkich powyższych modeli z ulepszonymi obliczeniami i przybliżeniami.

Struktura uogólnionych modeli liniowych

Uogólniony model liniowy (lub GLM1) składa się z trzech głównych elementów:

  1. Składnik losowy: Składnik losowy znany jako model szumu lub model błędu to rozkład prawdopodobieństwa zmiennej odpowiedzi (Y).
  2. Składnik systematyczny : Predyktor liniowy jest liniową funkcją regresorów, jak wspomniano poniżej:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. Funkcja łącza (oznaczona przez η lub g(μ) ): Jak sama nazwa wskazuje, jest to powiązanie między komponentami systematycznymi i losowymi

Przykład: μi = E(Yi), do predyktora liniowego g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

Uogólniony model liniowy ma zastosowanie do danych w procesie największego prawdopodobieństwa. Dostarcza to oszacowań współczynników regresji i szacowanych asymptotycznych błędów standardowych współczynników.

Podstawowym modelem GLM dla danych zliczania jest model Poissona z łączem do dziennika. Jednak gdy zmienna odpowiedzi jest liczbą, jej warunkowa wariancja rośnie szybciej niż jej średnia, powodując stan zwany nadmierną dyspersją i unieważniając użycie rozkładu Poissona. Quasi-Poisson GLM dodaje parametr dyspersji do obsługi nadmiernie rozproszonych danych zliczania.

Ogólnie rzecz biorąc, szacowanie quasi-prawdopodobieństwa jest jednym ze sposobów uwzględnienia nadmiernego rozproszenia, co oznacza większą zmienność danych niż oczekiwano na podstawie zastosowanego modelu statystycznego.

Podobny model oparty jest na ujemnym rozkładzie dwumianowym, który nie jest rodziną wykładniczą. Ujemne dwumiany w uogólnionym modelu liniowym nie mogą być określone przez maksymalną wiarogodność. Model regresji Poissona z inflacją zerową może być najbardziej odpowiedni, gdy w danych jest więcej zer niż zgodne z rozkładem Poissona.

Przeczytaj: Wyjaśnienie modeli uczenia maszynowego

Zalety uogólnionego modelu liniowego nad tradycyjną regresją najmniejszych kwadratów (OLS)

Istnieje wiele zalet ogólnych modeli liniowych nad regresją OLS, które można podsumować poniżej:

  • W przeciwieństwie do regresji OLS, odpowiedź Y nie musi być przekształcana za każdym razem, aby mieć rozkład normalny.
  • Modelowanie jest bardziej elastyczne, ponieważ wybór łącza różni się od wybierania losowego komponentu.
  • Stała wariancja NIE jest potrzebna, jeśli link daje efekty addytywne.
  • Mamy optymalne właściwości estymatorów, ponieważ modele są dołączane za pomocą szacowania maksymalnego prawdopodobieństwa.
  • Wszystkie narzędzia wnioskowania i sprawdzanie modeli dla modeli regresji log-liniowej i logistycznej mają zastosowanie również do innych modeli GLM .
  • Zwykle w pakiecie oprogramowania znajduje się tylko jeden proces (procedura lub funkcja) do przechwytywania wszystkich modeli wymienionych w powyższej tabeli; weźmy na przykład glm() (język R) lub PROC GENMOD (SAS).

Wady uogólnionego modelu liniowego

Oprócz wyżej wymienionych zalet istnieją dwie główne wady, o których należy pamiętać:

  • Niektóre ograniczenia, takie jak funkcja liniowa, mogą mieć tylko predyktor liniowy w składniku systematycznym.
  • Odpowiedzi nie mogą od siebie zależeć.

Musisz przeczytać: Objaśnienie pomysłów na projekty uczenia maszynowego

Wniosek

Jeśli podsumujemy wszystkie powyższe informacje, stwierdziliśmy, że GLM jest wygodny przy mniejszej złożoności. W przypadku GLM zmienne odpowiedzi mogą mieć dowolną formę rozkładu wykładniczego. Poza tym może radzić sobie z predyktorami kategorycznymi. Ogólny model liniowy jest łatwy do zinterpretowania w odniesieniu do powiązań i pozwala na jasne zrozumienie, w jaki sposób każdy predyktor wpływa na wynik.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Co to jest model regresji Poissona?

Czym różni się ogólny model liniowy od uogólnionego modelu liniowego?

Jakie są niektóre założenia przyjęte przez uogólniony model liniowy?

Większość założeń GLM jest porównywalna z modelami regresji liniowej, ale niektóre założenia regresji liniowej ulegają zmianie. Zakłada się, że dane w GLM są niezależne i losowe. Błędy są również uważane za niezależne, chociaż nie muszą być regularnie rozpowszechniane. Chociaż zmienna odpowiedzi nie musi być niezależna, rozkład powinien należeć do rodziny wykładniczej.