Multicolinealidad en análisis de regresión: todo lo que necesita saber
Publicado: 2020-12-23Tabla de contenido
Introducción
La regresión intenta determinar el carácter y la fuerza de la relación entre una variable dependiente y una serie de otras variables independientes. Ayuda a evaluar la fuerza de la relación entre diferentes variables y hacer un modelo de las futuras relaciones entre ellas. La "multicolinealidad" en la regresión se refiere al predictor que se correlaciona con los otros predictores,
¿Qué es la multicolinealidad?
Siempre que las correlaciones entre dos o más variables predictoras son altas, se produce la multicolinealidad en la regresión. En palabras simples, una variable predictora, también llamada predictor multicolineal, puede usarse para predecir la otra variable. Esto conduce a la creación de información redundante, lo que sesga los resultados en el modelo de regresión.
Los ejemplos de predictores multicolineales serían el precio de venta y la edad de un automóvil, el peso, la altura de una persona o el ingreso anual y los años de educación.
Calcular los coeficientes de correlación es la forma más fácil de detectar la multicolinealidad para todos los pares de valores predictores. Si la r, ese coeficiente de correlación es exactamente +1 o -1, se llama multicolinealidad perfecta. Si el coeficiente de correlación es exactamente o cercano a +1 o -1, entonces una de las variables debe descartarse del modelo solo en caso de que sea posible.
Es raro con los datos experimentales, pero es muy común que la multicolinealidad asoma su fea cabeza cuando se trata de estudios observacionales. Puede conducir a una estimación de regresión poco fiable e inestable cuando la condición está presente. Con la ayuda de analizar el resultado, se pueden interferir algunos otros problemas como:
- La estadística t generalmente será bastante pequeña y los intervalos de confianza del coeficiente serán amplios. Significa que se hace difícil rechazar la hipótesis nula.
- Puede haber un cambio en la magnitud y/o el signo de los coeficientes de regresión parcial a medida que pasan de una muestra a otra.
- Los errores estándar pueden ser grandes y la estimación del coeficiente de regresión parcial puede ser imprecisa.
- Se vuelve difícil medir el efecto sobre las variables dependientes de las variables independientes debido a la multicolinealidad.
Leer: Tipos de modelos de regresión en aprendizaje automático

¿Por qué la multicolinealidad es un problema?
El cambio en una sola variable puede provocar un cambio en el resto de las variables, lo que sucede cuando las variables independientes están altamente correlacionadas. Entonces, el modelo conduce a un resultado significativamente fluctuante. Dado que los resultados del modelo serán inestables y muy variados, incluso cuando se produzca un pequeño cambio en los datos, esto constituirá los siguientes problemas:
- La estimación del coeficiente sería inestable y sería difícil interpretar el modelo. Es decir, no puede predecir la escala de diferencias en la salida si incluso uno de sus factores de predicción cambia en 1 unidad.
- Sería difícil seleccionar la lista de variables significativas para el modelo si arroja resultados variables cada vez.
- El sobreajuste puede deberse a la naturaleza inestable del modelo. Observará que la precisión ha disminuido significativamente si aplica el mismo modelo a otra muestra de datos en comparación con la precisión que obtuvo con su conjunto de datos de entrenamiento.
Teniendo en cuenta la situación, es posible que no sea problemático para su modelo si solo ocurren problemas moderados de colinealidad. Sin embargo, siempre se sugiere resolver el problema si existe un problema grave en la colinealidad.
¿Cuál es la causa de la multicolinealidad?
Hay dos tipos:

- Multicolinealidad estructural en regresión: esto generalmente es causado por el investigador o por usted al crear nuevas variables predictoras.
- Multicolinealidad basada en datos en regresión: esto generalmente se debe a experimentos mal diseñados, métodos de recopilación de datos que no se pueden manipular o datos puramente observacionales. En algunos casos, las variables pueden estar altamente correlacionadas debido a la recopilación de datos de estudios 100% observacionales, y no hay error por parte del investigador. Debido a esto, siempre se sugiere realizar los experimentos siempre que sea posible estableciendo el nivel de la variable predictora por adelantado.
Lea también: Ideas y temas de proyectos de regresión lineal

Las otras causas también pueden incluir
- Falta de datos. En algunos casos, recopilar una gran cantidad de datos puede ayudar a resolver el problema.
- Las variables utilizadas como ficticias pueden estar mal utilizadas. Por ejemplo, el investigador puede fallar al agregar una variable ficticia para cada categoría o excluir una categoría.
- Consideración de una variable en la regresión, que es una combinación de las otras variables en la regresión; por ejemplo, considerar el "ingreso total de la inversión" cuando se trata de ingresos por intereses de ahorro + ingresos de bonos y acciones.
- Incluyendo dos variables casi o completamente idénticas. Por ejemplo, renta de bonos/ahorros e renta de inversiones, peso en kilos y peso en libras.
Para comprobar si se ha producido multicolinealidad
Puede trazar la matriz de correlación de todas las variables independientes. Alternativamente, puede usar VIF, es decir, el factor de inflación de varianza para cada variable independiente. Mide la multicolinealidad en el conjunto de variables de regresión múltiple. El valor de VIF es proporcional a la correlación entre esta variable y el resto. Esto significa que cuanto mayor sea el valor de VIF, mayor será la correlación.
¿Cómo podemos solucionar el problema de la multicolinealidad?
- Selección de la variable: la forma más fácil es eliminar algunas variables que se correlacionan mucho entre sí y dejar solo las más significativas en el conjunto.
- Transformación de la variable: El segundo método es una transformación de variable, que reducirá la correlación y aun así logrará mantener la característica.
- Análisis de componentes principales: el análisis de componentes principales generalmente se usa para reducir la dimensión de los datos al descomponer los datos en una serie de factores independientes. Tiene muchas aplicaciones, como que el cálculo del modelo se puede simplificar al reducir el número de factores de predicción.
Lectura relacionada: Regresión lineal en aprendizaje automático
Conclusión
Antes de construir el modelo de regresión, siempre debe verificar el problema de la multicolinealidad. Para mirar fácilmente cada variable independiente, se recomienda VIF para ver si tienen una correlación considerable con el resto. La matriz de correlación puede ayudar a elegir los factores importantes cuando no está seguro de qué variables debe seleccionar. También ayuda a comprender por qué algunas variables tienen un valor alto de VIF.
Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.
¿Qué significa el término regresión ordinal en el aprendizaje automático?
La regresión ordinal es un tipo de análisis de regresión que pertenece a la familia de análisis de regresión. La regresión ordinal analiza los datos y explica la relación entre una variable dependiente y dos o más variables independientes como un estudio predictivo. La regresión ordinal se utiliza para predecir la variable dependiente cuando existen numerosas categorías y factores independientes "ordenados". Dicho de otra manera, permite que las variables dependientes con diferentes niveles ordenados interactúen con una o más variables independientes más fácilmente.
¿La presencia de multicolinealidad afecta los árboles de decisión?
Si dos características están altamente asociadas en un modelo de aprendizaje automático específico, el árbol de decisión seleccionaría solo una de ellas al dividirse. Si los datos están sesgados o desequilibrados, un solo árbol conduce a un enfoque codicioso, pero los métodos de aprendizaje en conjunto, como los bosques aleatorios y los árboles potenciadores de gradientes, hacen que la predicción sea impermeable a la multicolinealidad. Como resultado, los bosques aleatorios y los árboles de decisión no se ven afectados por la multicolinealidad.
¿En qué se diferencia la regresión logística de la regresión lineal?
En algunos aspectos, la regresión lineal difiere de la regresión logística. La regresión lógica produce observaciones y hallazgos discretos, pero la regresión lineal produce una salida continua y constante. En la regresión lineal, se calcula el error cuadrático medio, pero en la regresión logística, se calcula la estimación de máxima verosimilitud. Finalmente, el objetivo de la regresión lineal es identificar la mejor línea para que coincida con los datos, pero la regresión logística se adelanta ajustando los datos a una curva sigmoidea.