Scopri perché il modello lineare generalizzato è un modello di sintesi notevole!
Pubblicato: 2020-11-17Sommario
Comprendere le basi
Il GLM è molto famoso tra le persone che si occupano di diversi modelli di regressione a partire dai modelli di regressione lineare classica ai modelli per l'analisi di sopravvivenza. Il termine modello lineare generalizzato (GLIM o GLM ) è stato coniato e reso familiare da McCullagh (1982) e Nelder (2a edizione 1989). GLM , nella forma più semplice descritta in Rutherford 2001, Data = Model + Error. Ha un quadro utile, che è alla base di vari test statistici.
Rivisitazione della classe dei modelli
- Modelli di regressione lineare classica (CLR), detti anche modelli di regressione lineare
- Modelli di Analisi della Varianza (ANOVA).
- Modelli che prevedono le probabilità di vincita come la probabilità di guasto della macchina
- Modelli utilizzati per spiegare e prevedere il conteggio degli eventi
- Modelli per stimare la durata della vita di esseri viventi e non viventi come un trasformatore o l'età biologica di una pianta ecc.
Il modello lineare generalizzato , come suggerisce il nome, è come un baldacchino per tutti i modelli sopra indicati con calcoli e approssimazioni migliorati.
La struttura dei modelli lineari generalizzati
Un modello lineare generalizzato (o GLM1) è costituito da tre componenti principali:
- Componente casuale: una componente casuale nota come modello di rumore o modello di errore è la distribuzione di probabilità della variabile di risposta (Y).
- Componente sistematica: un predittore lineare è una funzione lineare dei regressori, come indicato di seguito:
ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
- Funzione di collegamento (indicata da η o g(μ) ): come suggerisce il nome, è il collegamento tra componenti sistematiche e casuali
Esempio: μi = E(Yi), al predittore lineare g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
Il modello lineare generalizzato si applica ai dati mediante il processo di massima verosimiglianza. Ciò fornisce le stime dei coefficienti di regressione e gli errori standard asintotici stimati dei coefficienti.

Il GLM di base per i dati di conteggio è il modello di Poisson con un collegamento di registro. Tuttavia, quando la variabile di risposta è un conteggio, la sua varianza condizionale aumenta più rapidamente della sua media, producendo una condizione denominata sovradispersione e invalidando l'uso della distribuzione di Poisson. Il quasi-Poisson GLM aggiunge un parametro di dispersione per gestire i dati di conteggio sovradispersi.
In termini generali, la stima della quasi verosimiglianza è un modo per tenere conto della dispersione eccessiva, che è una variabilità più significativa nei dati rispetto a quanto previsto dal modello statistico utilizzato.

Un modello simile si basa sulla distribuzione binomiale negativa, che non è una famiglia esponenziale. I binomi negativi nel modello lineare generalizzato non possono essere determinati dalla massima verosimiglianza. Il modello di regressione di Poisson con inflazione zero può essere più adatto quando nei dati sono presenti più zeri rispetto a una distribuzione di Poisson.
Leggi: Spiegazione dei modelli di apprendimento automatico

Vantaggi del modello lineare generalizzato rispetto alla tradizionale regressione dei minimi quadrati ordinari (OLS).
Ci sono molti vantaggi dei modelli lineari generali rispetto alla regressione OLS, che possono essere riassunti come segue:
- A differenza della regressione OLS, non è necessario trasformare la risposta Y ogni volta per avere una distribuzione normale.
- La modellazione è più flessibile poiché la scelta di un collegamento è diversa dalla scelta di un componente casuale.
- NON è necessaria una varianza costante se il collegamento fornisce effetti additivi.
- Abbiamo le proprietà ottimali degli stimatori poiché i modelli sono allegati tramite la stima della massima verosimiglianza.
- Tutti gli strumenti di inferenza e il controllo del modello per i modelli log-lineari e di regressione logistica si applicano anche ad altri GLM.
- Di solito c'è un solo processo (procedura o funzione) in un pacchetto software per acquisire tutti i modelli elencati nella tabella sopra; prendi, ad esempio, glm() (R Language) o PROC GENMOD (SAS).
Svantaggi del modello lineare generalizzato
Oltre ai vantaggi sopra elencati, ci sono due principali svantaggi che è importante conoscere:
- Alcune restrizioni come la funzione lineare possono avere solo un predittore lineare nella componente sistematica.
- Le risposte non possono dipendere l'una dall'altra.
Da leggere: Spiegazione delle idee del progetto di apprendimento automatico
Conclusione
Se riassumiamo tutte le informazioni di cui sopra, abbiamo scoperto che GLM è conveniente con una complessità inferiore. Con GLM , le variabili di risposta possono avere qualsiasi forma di tipo di distribuzione esponenziale. Oltre a questo, può gestire predittori categoriali. Il modello lineare generale è di facile interpretazione della riferibilità e consente una chiara comprensione di come ciascun predittore stia influenzando il risultato.
Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.
Che cos'è un modello di regressione di Poisson?
In che modo un modello lineare generale è diverso da un modello lineare generalizzato?
Quali sono alcune delle ipotesi che fa un modello lineare generalizzato?
La maggior parte delle ipotesi GLM sono paragonabili ai modelli di regressione lineare, ma alcune delle ipotesi di regressione lineare sono modificate. Si presume che i dati in un GLM siano indipendenti e casuali. Anche gli errori sono considerati indipendenti, sebbene non debbano essere distribuiti regolarmente. Sebbene la variabile di risposta non debba essere indipendente, la distribuzione dovrebbe appartenere alla famiglia esponenziale.