¡Sepa por qué el modelo lineal generalizado es un modelo de síntesis notable!

Publicado: 2020-11-17

Tabla de contenido

Comprender los conceptos básicos

GLM es muy famoso entre las personas que manejan diferentes modelos de regresión, desde modelos de regresión lineal clásicos hasta modelos para análisis de supervivencia. El término modelo lineal generalizado (GLIM o GLM ) fue acuñado y familiarizado por McCullagh (1982) y Nelder (2ª edición 1989). GLM , en la forma más simple como se describe en Rutherford 2001, Data = Model + Error. Tiene un marco útil, que es la base de varias pruebas estadísticas.

Revisitando la clase de modelos

  • Modelos de regresión lineal clásica (CLR), también conocidos como modelos de regresión lineal
  • Modelos de análisis de varianza (ANOVA).
  • Modelos que predicen las probabilidades de ganar como la probabilidad de falla de la máquina
  • Modelos utilizados para explicar y predecir el recuento de eventos
  • Modelos para estimar la vida útil de seres vivos y no vivos, como un procesador o la edad biológica de una planta, etc.

Modelo lineal generalizado , como sugiere el nombre, es como un dosel para todos los modelos anteriores con cálculos y aproximaciones mejorados.

La estructura de los modelos lineales generalizados

Un modelo lineal generalizado (o GLM1) consta de tres componentes principales:

  1. Componente aleatorio: un componente aleatorio conocido como modelo de ruido o modelo de error es la distribución de probabilidad de la variable de respuesta (Y).
  2. Componente sistemático: un predictor lineal es una función lineal de regresores, como se menciona a continuación:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. Función de enlace (indicada por η o g (μ) ): como su nombre indica, es el enlace entre los componentes sistemáticos y aleatorios

Ejemplo: μi = E(Yi), al predictor lineal g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

El modelo lineal generalizado se aplica a los datos mediante el proceso de máxima verosimilitud. Esto proporciona las estimaciones de los coeficientes de regresión y los errores estándar asintóticos estimados de los coeficientes.

El GLM básico para datos de conteo es el modelo de Poisson con un enlace de registro. Sin embargo, cuando la variable de respuesta es un conteo, su varianza condicional aumenta más rápidamente que su media, produciendo una condición denominada sobredispersión e invalidando el uso de la distribución de Poisson. El cuasi-Poisson GLM agrega un parámetro de dispersión para manejar datos de conteo sobredispersos.

En términos generales, la estimación de cuasi-verosimilitud es una forma de permitir la sobredispersión, que es una variabilidad en los datos más significativa de lo esperado del modelo estadístico utilizado.

Un modelo similar se basa en la distribución binomial negativa, que no es una familia exponencial. Los binomios negativos en el modelo lineal generalizado no se pueden determinar por máxima verosimilitud. El modelo de regresión de Poisson inflado con ceros puede ser más adecuado cuando hay más ceros en los datos de los que son compatibles con una distribución de Poisson.

Leer: Explicación de los modelos de aprendizaje automático

Ventajas del modelo lineal generalizado sobre la regresión tradicional de mínimos cuadrados ordinarios (OLS)

Hay muchas ventajas de los modelos lineales generales sobre la regresión OLS, que se pueden resumir de la siguiente manera:

  • A diferencia de la regresión OLS, no se requiere que la respuesta Y se transforme cada vez para tener una distribución normal.
  • El modelado es más flexible ya que elegir un enlace es diferente de elegir un componente aleatorio.
  • NO se necesita una varianza constante si el enlace produce efectos aditivos.
  • Tenemos las propiedades óptimas de los estimadores ya que los modelos se adjuntan a través de la estimación de Máxima Verosimilitud.
  • Todas las herramientas de inferencia y verificación de modelos para modelos de regresión log-lineal y logística también se aplican a otros GLM.
  • Por lo general, solo hay un proceso (procedimiento o función) en un paquete de software para capturar todos los modelos enumerados en la tabla anterior; tome, por ejemplo, glm() (Lenguaje R) o PROC GENMOD (SAS).

Desventajas del Modelo Lineal Generalizado

Además de las ventajas mencionadas anteriormente, existen dos desventajas importantes que es importante conocer:

  • Algunas restricciones, como la función lineal, solo pueden tener un predictor lineal en el componente sistemático.
  • Las respuestas no pueden depender unas de otras.

Debe leer: Ideas de proyectos de aprendizaje automático explicadas

Conclusión

Si resumimos toda la información anterior, encontramos que GLM es conveniente con menor complejidad. Con GLM , las variables de respuesta pueden tener cualquier tipo de distribución exponencial. Aparte de esto, puede tratar con predictores categóricos. El modelo lineal general es fácil de interpretar y permite una comprensión clara de cómo cada predictor influye en el resultado.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Qué es un modelo de regresión de Poisson?

¿En qué se diferencia un modelo lineal general de un modelo lineal generalizado?

¿Cuáles son algunas de las suposiciones que hace un modelo lineal generalizado?

La mayoría de los supuestos de GLM son comparables a los modelos de regresión lineal, pero algunos de los supuestos de regresión lineal se modifican. Se supone que los datos en un GLM son independientes y aleatorios. Los errores también se consideran independientes, aunque no es necesario que se distribuyan regularmente. Si bien no se requiere que la variable de respuesta sea independiente, la distribución debe pertenecer a la familia exponencial.