Multicolinéarité dans l'analyse de régression : tout ce que vous devez savoir

Publié: 2020-12-23

Table des matières

introduction

La régression tente de déterminer le caractère et la force de la relation entre une variable dépendante et une série d'autres variables indépendantes. Il permet d'évaluer la force de la relation entre différentes variables et de modéliser les relations futures entre elles. La « multicolinéarité » dans la régression fait référence au prédicteur qui est en corrélation avec les autres prédicteurs,

Qu'est-ce que la multicolinéarité ?

Chaque fois que les corrélations entre deux ou plusieurs variables prédictives sont élevées, une multicolinéarité dans la régression se produit. En termes simples, une variable prédictive, également appelée prédicteur multicolinéaire, peut être utilisée pour prédire l'autre variable. Cela conduit à la création d'informations redondantes, ce qui fausse les résultats dans le modèle de régression.

Les exemples de prédicteurs multicolinéaires seraient le prix de vente et l'âge d'une voiture, le poids, la taille d'une personne, ou le revenu annuel et les années d'études.

Le calcul des coefficients de corrélation est le moyen le plus simple de détecter la multicolinéarité pour toutes les paires de valeurs de prédicteur. Si le r, ce coefficient de corrélation est exactement +1 ou -1, on l'appelle la multicolinéarité parfaite. Si le coefficient de corrélation est exactement ou proche de +1 ou -1, alors l'une des variables doit être écartée du modèle uniquement dans le cas où cela est possible.

C'est rare avec des données expérimentales, mais il est très courant que la multicolinéarité pointe le bout de son nez lorsqu'il s'agit d'études observationnelles. Cela peut conduire à une estimation peu fiable et instable de la régression lorsque la condition est présente. Avec l'aide de l'analyse du résultat, quelques autres problèmes peuvent être interférés comme :

  • La statistique t sera généralement assez petite et les intervalles de confiance du coefficient seront larges. Cela signifie qu'il devient difficile de rejeter l'hypothèse nulle.
  • Il peut y avoir un changement d'amplitude et/ou de signe dans les coefficients de régression partielle lorsqu'ils sont transmis d'un échantillon à l'autre.
  • Les erreurs types peuvent être importantes et l'estimation du coefficient de régression partielle peut être imprécise.
  • Il devient difficile d'évaluer l'effet sur les variables dépendantes par des variables indépendantes en raison de la multicolinéarité.

Lire : Types de modèles de régression dans l'apprentissage automatique

Pourquoi la multicolinéarité est-elle un problème ?

Un changement dans une seule variable peut entraîner un changement dans le reste des variables, ce qui se produit lorsque les variables indépendantes sont fortement corrélées. Ainsi, le modèle conduit à un résultat très fluctuant. Étant donné que les résultats du modèle seront instables et très variables, même lorsqu'un petit changement se produit dans les données, cela posera les problèmes suivants :

  • L'estimation du coefficient serait instable et rendrait difficile l'interprétation du modèle. Autrement dit, vous ne pouvez pas prédire l'ampleur des différences dans la sortie si même l'un de vos facteurs de prédiction change d'une unité.
  • Il serait difficile de sélectionner la liste des variables significatives pour le modèle si elle donne des résultats variables à chaque fois.
  • Le surajustement peut être dû à la nature instable du modèle. Vous observerez que la précision a considérablement diminué si vous appliquez le même modèle à un autre échantillon de données par rapport à la précision que vous avez obtenue avec votre jeu de données d'entraînement.

Compte tenu de la situation, cela pourrait ne pas être gênant pour votre modèle si seuls des problèmes de colinéarité modérés se produisent. Cependant, il est toujours suggéré de résoudre le problème s'il existe un problème grave de colinéarité.

Quelle est la cause de la multicolinéarité ?

Il existe deux types :

  1. Multicolinéarité structurelle dans la régression : Cela est généralement causé par le chercheur ou par vous-même lors de la création de nouvelles variables prédictives.
  2. Multicolinéarité basée sur les données dans la régression : cela est généralement dû à des expériences mal conçues, à des méthodes de collecte de données qui ne peuvent pas être manipulées ou à des données purement observationnelles. Dans quelques cas, les variables peuvent être fortement corrélées en raison de la collecte de données à partir d'études observationnelles à 100 %, et il n'y a pas d'erreur du côté du chercheur. Pour cette raison, il est toujours suggéré de mener les expériences chaque fois que cela est possible en définissant à l'avance le niveau de la variable prédictive.

Lisez aussi: Idées et sujets de projet de régression linéaire

Les autres causes peuvent également inclure

  1. Manque de données. Dans quelques cas, la collecte d'une grande quantité de données peut aider à résoudre le problème.
  2. Les variables utilisées comme fictives peuvent être utilisées de manière incorrecte. Par exemple, le chercheur peut ne pas ajouter une variable fictive pour chaque catégorie ou exclure une catégorie.
  3. En considérant une variable dans la régression, qui est une combinaison des autres variables de la régression, par exemple, en considérant le "revenu total des investissements" lorsqu'il s'agit du revenu de l'intérêt de l'épargne + du revenu des obligations et des actions.
  4. Y compris deux variables presque ou complètement identiques. Par exemple, revenu d'obligations/d'épargne et revenu de placement, poids en kilos et poids en livres.

Pour vérifier si la multicolinéarité s'est produite

Vous pouvez tracer la matrice de corrélation de toutes les variables indépendantes. Alternativement, vous pouvez utiliser VIF, c'est-à-dire le facteur d'inflation de la variance pour chaque variable indépendante. Il mesure la multicolinéarité dans l'ensemble de variables de régression multiple. La valeur de VIF est proportionnelle à la corrélation entre cette variable et le reste. Cela signifie que plus la valeur VIF est élevée, plus la corrélation est élevée.

Comment résoudre le problème de multicolinéarité ?

  1. Sélection de la variable : le moyen le plus simple consiste à supprimer quelques variables fortement corrélées les unes aux autres et à ne laisser que les plus significatives dans l'ensemble.
  2. Transformation de la variable : la deuxième méthode est une transformation de variable, qui réduira la corrélation tout en parvenant à maintenir la fonctionnalité.
  3. Analyse en composantes principales : L'analyse en composantes principales est généralement utilisée pour réduire la dimension des données en décomposant les données en un certain nombre de facteurs indépendants. Il a de nombreuses applications comme le calcul du modèle qui peut être simplifié en réduisant le nombre de facteurs prédictifs.

Lecture connexe : Régression linéaire dans l'apprentissage automatique

Conclusion

Avant de construire le modèle de régression, vous devez toujours vérifier le problème de multicolinéarité. Pour regarder facilement chaque variable indépendante, VIF est recommandé pour voir si elles ont une corrélation considérable avec le reste. La matrice de corrélation peut aider à choisir les facteurs importants en cas de doute sur les variables à sélectionner. Cela aide également à comprendre pourquoi quelques variables ont une valeur élevée de VIF.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Que signifie le terme régression ordinale dans l'apprentissage automatique ?

La régression ordinale est un type d'analyse de régression qui appartient à la famille des analyses de régression. La régression ordinale analyse les données et explique la relation entre une variable dépendante et deux ou plusieurs variables indépendantes en tant qu'étude prédictive. La régression ordinale est utilisée pour prédire la variable dépendante lorsqu'il existe de nombreuses catégories «ordonnées» et des facteurs indépendants. En d'autres termes, cela permet aux variables dépendantes de niveaux ordonnés différents d'interagir plus facilement avec une ou plusieurs variables indépendantes.

La présence de multicolinéarité affecte-t-elle les arbres de décision ?

Si deux caractéristiques sont fortement associées dans un modèle d'apprentissage automatique spécifique, l'arbre de décision n'en sélectionnerait néanmoins qu'une seule tout en se séparant. Si les données sont faussées ou déséquilibrées, un seul arbre conduit à une approche gourmande, mais les méthodes d'apprentissage d'ensemble telles que les forêts aléatoires et les arbres de renforcement de gradient rendent la prédiction insensible à la multicolinéarité. Par conséquent, les forêts aléatoires et les arbres de décision ne sont pas affectés par la multicolinéarité.

En quoi la régression logistique est-elle différente de la régression linéaire ?

À certains égards, la régression linéaire diffère de la régression logistique. La régression logique produit des remarques et des résultats discrets, mais la régression linéaire produit une sortie continue et continue. Dans la régression linéaire, l'erreur quadratique moyenne est calculée, mais dans la régression logistique, l'estimation du maximum de vraisemblance est calculée. Enfin, l'objectif de la régression linéaire est d'identifier la meilleure ligne pour faire correspondre les données, mais la régression logistique reste en tête en ajustant les données à une courbe sigmoïde.