Aflați de ce modelul liniar generalizat este un model de sinteză remarcabil!
Publicat: 2020-11-17Cuprins
Înțelegerea elementelor de bază
GLM este foarte faimos printre indivizii care se ocupă de diferite modele de regresie, începând de la modele clasice de regresie liniară până la modele pentru analiza de supraviețuire. Termenul de model liniar generalizat (GLIM sau GLM ) a fost inventat și familiarizat de McCullagh (1982) și Nelder (ediția a doua 1989). GLM , în cea mai simplă formă descrisă în Rutherford 2001, Data = Model + Error. Are un cadru util, care stă la baza diferitelor teste statistice.
Revizuirea clasei de modele
- Modele clasice de regresie liniară (CLR), denumite și modele de regresie liniară
- Modele de analiză a varianței (ANOVA).
- Modele care prezic șansele de câștig precum probabilitatea defecțiunii mașinii
- Modele utilizate pentru explicarea și prezicerea numărului de evenimente
- Modele pentru estimarea duratei de viață a lucrurilor vii și nevii, cum ar fi un procesor sau vârsta biologică a unei plante etc.
Modelul liniar generalizat , așa cum sugerează și numele, este ca un baldachin pentru toate modelele menționate mai sus, cu calcule și aproximări îmbunătățite.
Structura modelelor liniare generalizate
Un model liniar generalizat (sau GLM1) constă din trei componente majore:
- Componentă aleatorie: O componentă aleatorie cunoscută ca model de zgomot sau model de eroare este distribuția de probabilitate a variabilei de răspuns (Y).
- Componenta sistematică: un predictor liniar este o funcție liniară a regresorilor, așa cum este menționat mai jos:
ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
- Funcția de legătură (notată cu η sau g(μ) ): așa cum sugerează și numele, este legătura dintre componentele sistematice și aleatorii
Exemplu: μi = E(Yi), la predictorul liniar g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
Modelul liniar generalizat se aplică datelor prin procesul de maximă probabilitate. Aceasta furnizează estimările coeficienților de regresie și erorile standard asimptotice estimate ale coeficienților.

GLM de bază pentru datele de numărare este modelul Poisson cu un link de jurnal. Cu toate acestea, atunci când variabila răspuns este un număr, varianța sa condiționată crește mai rapid decât media, producând o condiție numită supradispersie și invalidând utilizarea distribuției Poisson. Cvasi-Poisson GLM adaugă un parametru de dispersie pentru a gestiona datele de numărare supradispersate.
În termeni generali, estimarea cvasi-probabilității este o modalitate de a permite supradispersia, care reprezintă o variabilitate mai semnificativă a datelor decât se aștepta din modelul statistic utilizat.

Un model similar se bazează pe distribuția binomială negativă, care nu este o familie exponențială. Binoamele negative din modelul liniar generalizat nu pot fi determinate prin probabilitate maximă. Modelul de regresie Poisson umflat cu zero poate fi cel mai potrivit atunci când există mai multe zerouri în date decât sunt în concordanță cu o distribuție Poisson.
Citiți: Modelele de învățare automată explicate

Avantajele modelului liniar generalizat față de regresia tradițională cu cel mai mic pătrat ordinar (OLS).
Există multe avantaje ale modelelor liniare generale față de regresia MOL, care pot fi rezumate după cum urmează:
- Spre deosebire de regresia MCO, răspunsul Y nu este necesar să fie transformat de fiecare dată pentru a avea o distribuție normală.
- Modelarea este mai flexibilă, deoarece alegerea unei legături este diferită de alegerea unei componente aleatorii.
- O variație constantă NU este necesară dacă legătura oferă efecte aditive.
- Avem proprietățile optime ale estimatorilor, deoarece modelele sunt atașate prin estimarea Maximum Likelihood.
- Toate instrumentele de inferență și verificarea modelelor pentru modelele de regresie log-liniară și logistică se aplică și pentru alte GLM .
- Există de obicei un singur proces (procedură sau funcție) într-un pachet software pentru a captura toate modelele enumerate în tabelul de mai sus; luați, de exemplu, glm() (R Language) sau PROC GENMOD (SAS).
Dezavantajele modelului liniar generalizat
Pe lângă avantajele enumerate mai sus, există două dezavantaje majore pe care este important de știut:
- Unele restricții precum funcția liniară pot avea doar un predictor liniar în componenta sistematică.
- Răspunsurile nu pot depinde unul de celălalt.
Trebuie citit: Idei de proiecte de învățare automată explicate
Concluzie
Dacă rezumăm toate informațiile de mai sus, am constatat că GLM este convenabil cu o complexitate mai mică. Cu GLM , variabilele de răspuns pot avea orice formă de tip de distribuție exponențială. În afară de aceasta, se poate ocupa de predictori categoric. Modelul liniar general este relatabilitatea ușor de interpretat și permite o înțelegere clară a modului în care fiecare predictor influențează rezultatul.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Ce este un model de regresie Poisson?
Cum este un model liniar general diferit de un model liniar generalizat?
Care sunt unele dintre ipotezele pe care le face un model liniar generalizat?
Majoritatea ipotezelor GLM sunt comparabile cu modelele de regresie liniară, dar unele dintre ipotezele de regresie liniară sunt modificate. Se presupune că datele dintr-un GLM sunt independente și aleatorii. Erorile sunt, de asemenea, considerate independente, deși nu trebuie să fie distribuite în mod regulat. În timp ce variabila răspuns nu trebuie să fie independentă, distribuția ar trebui să aparțină familiei exponențiale.