Supuestos de regresión lineal: 5 supuestos con ejemplos

Publicado: 2020-12-22

La regresión se utiliza para medir y cuantificar las relaciones de causa y efecto. El análisis de regresión es una técnica estadística utilizada para comprender la magnitud y la dirección de una posible relación causal entre un patrón observado y las variables que se supone que afectan el patrón observado dado.

Por ejemplo, si hay una reducción del 20 % en el precio de un producto, por ejemplo, una crema hidratante, es probable que la gente lo compre y que las ventas aumenten.

Aquí, el patrón observado es un aumento en las ventas (también llamada variable dependiente). La variable que se supone que afecta las ventas es el precio (también llamada variable independiente).

Tabla de contenido

¿Qué es la regresión lineal?

La regresión lineal es una técnica estadística que modela la magnitud y dirección de un impacto en la variable dependiente explicada por las variables independientes. La regresión lineal se usa comúnmente en el análisis predictivo.

La regresión lineal explica dos aspectos importantes de las variables, que son los siguientes:

  • ¿El conjunto de variables independientes explica significativamente la variable dependiente?
  • ¿Qué variables son las más significativas para explicar la disponibilidad dependiente? ¿De qué manera impactan en la variable dependiente? El impacto suele estar determinado por la magnitud y el signo de los coeficientes beta en la ecuación.

Ahora, veamos los supuestos de la regresión lineal, que es esencial comprender antes de ejecutar un modelo de regresión lineal.

Leer más: Modelo de regresión lineal y ¿cómo funciona?

Supuestos de regresión lineal

Relación lineal

Una de las suposiciones más importantes es que se dice que existe una relación lineal entre las variables dependientes e independientes. Si intenta ajustar una relación lineal en un conjunto de datos no lineales, el algoritmo propuesto no capturará la tendencia como un gráfico lineal, lo que dará como resultado un modelo ineficiente. Por lo tanto, daría lugar a predicciones inexactas.

¿Cómo se puede determinar si se cumple el supuesto?

La forma sencilla de determinar si se cumple o no esta suposición es creando un diagrama de dispersión x vs y. Si los puntos de datos caen en una línea recta en el gráfico, existe una relación lineal entre las variables dependientes e independientes, y la suposición se cumple.

¿Qué debe hacer si se viola esta suposición?

Si no existe una relación lineal entre las variables dependiente e independiente, aplique una transformación no lineal como logarítmica, exponencial, raíz cuadrada o recíproca a la variable dependiente, la variable independiente o ambas.

Sin autocorrelación ni independencia

Los residuos (términos de error) son independientes entre sí. En otras palabras, no hay correlación entre los términos de error consecutivos de los datos de la serie temporal. La presencia de correlación en los términos de error reduce drásticamente la precisión del modelo. Si los términos de error están correlacionados, el error estándar estimado intenta deflactar el error estándar verdadero.

¿Cómo determinar si se cumple el supuesto?

Realice una prueba estadística de Durbin-Watson (DW). Los valores deben estar entre 0-4. Si DW=2, no hay autocorrelación; si DW se encuentra entre 0 y 2, significa que existe una correlación positiva. Si DW se encuentra entre 2 y 4, significa que hay una correlación negativa. Otro método es trazar un gráfico contra los residuos frente al tiempo y ver patrones en los valores residuales.

¿Qué debe hacer si se viola esta suposición?

Si se viola la suposición, considere las siguientes opciones:

  • Para una correlación positiva, considere agregar rezagos a la variable dependiente o independiente o ambas.
  • Para una correlación negativa, compruebe si ninguna de las variables está sobrediferenciada.
  • Para la correlación estacional, considere agregar algunas variables estacionales al modelo.

Sin multicolinealidad

Las variables independientes no deben estar correlacionadas. Si existe multicolinealidad entre las variables independientes, es difícil predecir el resultado del modelo. En esencia, es difícil explicar la relación entre las variables dependientes e independientes. En otras palabras, no está claro qué variables independientes explican la variable dependiente.

Los errores estándar tienden a inflarse con las variables correlacionadas, lo que amplía los intervalos de confianza y conduce a estimaciones imprecisas.

¿Cómo determinar si se cumple el supuesto?

Utilice un diagrama de dispersión para visualizar la correlación entre las variables. Otra forma es determinar el VIF (Factor de Inflación de la Varianza). VIF<=4 no implica multicolinealidad, mientras que VIF>=10 implica multicolinealidad seria.

¿Qué debe hacer si se viola esta suposición?

Reduzca la correlación entre variables transformando o combinando las variables correlacionadas.

Debe leer: Tipos de modelos de regresión en ML

homocedasticidad

La homocedasticidad significa que los residuos tienen una varianza constante en todos los niveles de x. La ausencia de este fenómeno se conoce como heterocedasticidad. La heteroscedasticidad generalmente surge en presencia de valores atípicos y extremos.

¿Cómo determinar si se cumple el supuesto?

Cree un gráfico de dispersión que muestre el valor residual frente al ajustado. Si los puntos de datos se distribuyen por igual sin un patrón prominente, significa que los residuos tienen una varianza constante (homocedasticidad). De lo contrario, si se ve un patrón en forma de embudo, significa que los residuos no se distribuyen por igual y representa una varianza no constante (heteroscedasticidad).

¿Qué debe hacer si se viola esta suposición?

  • Transformar la variable dependiente
  • Redefinir la variable dependiente
  • Usar regresión ponderada

Distribución normal de los términos de error

La última suposición que debe verificarse para la regresión lineal es la distribución normal de los términos de error. Si los términos de error no siguen una distribución normal, los intervalos de confianza pueden volverse demasiado anchos o estrechos.

¿Cómo determinar si se cumple el supuesto?

Verifique la suposición usando una gráfica QQ (Cuantil-Cuantil). Si los puntos de datos en el gráfico forman una línea diagonal recta, se cumple la suposición.

También puede verificar la normalidad de los términos de error utilizando pruebas estadísticas como la prueba de Kolmogorov-Smironov o Shapiro-Wilk.

¿Qué debe hacer si se viola esta suposición?

  • Verifique si los valores atípicos tienen un impacto en la distribución. Asegúrese de que sean valores reales y no errores de ingreso de datos.
  • Aplique una transformación no lineal en forma de logaritmo, raíz cuadrada o recíproca a las variables dependientes, independientes o ambas.

Conclusión

Aproveche el verdadero poder de la regresión aplicando las técnicas discutidas anteriormente para garantizar que no se violen los supuestos. De hecho, es factible comprender el impacto de las variables independientes en la variable dependiente si se cumplen todos los supuestos de la regresión lineal.

El concepto de regresión lineal es un elemento indispensable de la ciencia de datos y los programas de aprendizaje automático.

Si está interesado en obtener más información sobre los modelos de regresión y más sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos. y asignaciones, estado de exalumno de IIIT-B, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Por qué se requiere homocedasticidad en la regresión lineal?

La homocedasticidad describe cuán similares o cuán lejos se desvían los datos de la media. Esta es una suposición importante porque las pruebas estadísticas paramétricas son sensibles a las diferencias. La heterocedasticidad no induce sesgo en las estimaciones de los coeficientes, pero sí reduce su precisión. Con menor precisión, es más probable que las estimaciones del coeficiente se desvíen del valor de población correcto. Para evitar esto, la homocedasticidad es una suposición crucial para afirmar.

¿Cuáles son los dos tipos de multicolinealidad en la regresión lineal?

Los datos y la multicolinealidad estructural son los dos tipos básicos de multicolinealidad. Cuando hacemos un término modelo a partir de otros términos, obtenemos multicolinealidad estructural. En otras palabras, en lugar de estar presente en los datos en sí, es el resultado del modelo que proporcionamos. Si bien la multicolinealidad de los datos no es un artefacto de nuestro modelo, está presente en los datos mismos. La multicolinealidad de los datos es más común en las investigaciones observacionales.

¿Cuáles son los inconvenientes de usar la prueba t para pruebas independientes?

Hay problemas con la repetición de mediciones en lugar de diferencias entre diseños de grupos cuando se usan pruebas t de muestras pareadas, lo que conduce a efectos de arrastre. Debido a errores de tipo I, la prueba t no se puede utilizar para comparaciones múltiples. Será difícil rechazar la hipótesis nula al realizar una prueba t pareada en un conjunto de muestras. La obtención de los sujetos para los datos de la muestra es un aspecto del proceso de investigación que requiere mucho tiempo y es costoso.