Saiba por que o modelo linear generalizado é um modelo de síntese notável!

Publicados: 2020-11-17

Índice

Entendendo o básico

O GLM é muito famoso entre os indivíduos que lidam com diferentes modelos de regressão desde Modelos Clássicos de Regressão Linear até Modelos para Análise de Sobrevivência. O termo modelo linear generalizado (GLIM ou GLM ) foi cunhado e familiarizado por McCullagh (1982) e Nelder (2ª edição 1989). GLM , na forma mais simples como descrito em Rutherford 2001, Data = Model + Error. Possui uma estrutura útil, que é a base de vários testes estatísticos.

Revisitando a classe de modelos

Modelos de regressão linear clássica (CLR), também conhecidos como modelos de regressão linear
Modelos de Análise de Variância (ANOVA).
Modelos que preveem as chances de ganhar, como a probabilidade de falha da máquina
Modelos usados para explicar e prever contagens de eventos
Modelos para estimar a expectativa de vida de coisas vivas e não vivas, como um processador ou idade biológica de uma planta, etc.

O Modelo Linear Generalizado , como o nome sugere, é como um dossel para todos os modelos acima com cálculos e aproximações aprimorados.

A Estrutura dos Modelos Lineares Generalizados

Um modelo linear generalizado (ou GLM1) consiste em três componentes principais:

Componente aleatório: Um componente aleatório conhecido como modelo de ruído ou modelo de erro é a distribuição de probabilidade da variável de resposta (Y).
Componente Sistemático : Um preditor linear é uma função linear de regressores, conforme mencionado abaixo:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

Função Link (indicada por η ou g(μ) ): Como o nome sugere, é a ligação entre componentes sistemáticos e aleatórios

Exemplo: μi = E(Yi), para o preditor linear g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

O Modelo Linear Generalizado aplica-se aos dados pelo processo de máxima verossimilhança. Isso fornece as estimativas dos coeficientes de regressão e os erros padrão assintóticos estimados dos coeficientes.

O GLM básico para dados de contagem é o modelo de Poisson com um link de log. No entanto, quando a variável de resposta é uma contagem, sua variância condicional aumenta mais rapidamente que sua média, produzindo uma condição denominada superdispersão e invalidando o uso da distribuição de Poisson. O GLM quase-Poisson adiciona um parâmetro de dispersão para lidar com dados de contagem superdispersos.

Em termos gerais, a estimativa de quase-verossimilhança é uma forma de permitir a superdispersão, que é uma variabilidade mais significativa nos dados do que o esperado pelo modelo estatístico utilizado.

Um modelo semelhante é baseado na distribuição binomial negativa, que não é uma família exponencial. Binômios negativos no Modelo Linear Generalizado não podem ser determinados por máxima verossimilhança. O modelo de regressão de Poisson inflado com zero pode ser mais adequado quando há mais zeros nos dados do que consistente com uma distribuição de Poisson.

Leia: Modelos de aprendizado de máquina explicados

Vantagens do Modelo Linear Generalizado sobre a regressão tradicional de Mínimos Quadrados Ordinários (OLS)

Existem muitas vantagens dos Modelos Lineares Gerais sobre a regressão OLS, que podem ser resumidas como abaixo:

Ao contrário da regressão OLS, a resposta Y não precisa ser transformada toda vez para ter uma distribuição normal.
A modelagem é mais flexível, pois escolher um link é diferente de escolher um componente aleatório.
Uma variância constante NÃO é necessária se o link gerar efeitos aditivos.
Temos as propriedades ótimas dos estimadores, pois os modelos são anexados via estimativa de máxima verossimilhança.
Todas as ferramentas de inferência e verificação de modelos para modelos log-lineares e de regressão logística também se aplicam a outros GLMs .
Geralmente há apenas um processo (procedimento ou função) em um pacote de software para capturar todos os modelos listados na tabela acima; tome, por exemplo, glm() (Linguagem R) ou PROC GENMOD (SAS).

Desvantagens do Modelo Linear Generalizado

Além das vantagens listadas acima, existem duas grandes desvantagens que são importantes saber:

Algumas restrições como a função Linear podem ter apenas um preditor linear no componente sistemático.
As respostas não podem depender umas das outras.

Leitura obrigatória: ideias de projetos de aprendizado de máquina explicadas

Conclusão

Se resumirmos todas as informações acima, descobrimos que o GLM é conveniente com menor complexidade. Com GLM , as variáveis de resposta podem ter qualquer tipo de distribuição exponencial. Além disso, ele pode lidar com preditores categóricos. O modelo linear geral é de fácil interpretação e permite uma compreensão clara de como cada preditor está influenciando o resultado.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que é um modelo de regressão de Poisson?

Como um modelo linear geral é diferente de um modelo linear generalizado?

Quais são algumas das suposições que um modelo linear generalizado faz?

A maioria das suposições GLM são comparáveis aos modelos de regressão linear, mas algumas das suposições de regressão linear são alteradas. Os dados em um GLM são considerados independentes e aleatórios. Os erros também são considerados independentes, embora não precisem ser distribuídos regularmente. Embora a variável de resposta não precise ser independente, a distribuição deve pertencer à família exponencial.