Hypothèses de régression linéaire : 5 hypothèses avec exemples
Publié: 2020-12-22La régression est utilisée pour évaluer et quantifier les relations de cause à effet. L'analyse de régression est une technique statistique utilisée pour comprendre l'ampleur et la direction d'une relation causale possible entre un modèle observé et les variables supposées avoir un impact sur le modèle observé donné.
Par exemple, s'il y a une réduction de 20 % du prix d'un produit, par exemple une crème hydratante, les gens sont susceptibles de l'acheter et les ventes sont susceptibles d'augmenter.
Ici, la tendance observée est une augmentation des ventes (également appelée variable dépendante). La variable supposée avoir un impact sur les ventes est le prix (également appelée variable indépendante).
Table des matières
Qu'est-ce que la régression linéaire ?
La régression linéaire est une technique statistique qui modélise l'ampleur et la direction d'un impact sur la variable dépendante expliquée par les variables indépendantes. La régression linéaire est couramment utilisée dans l'analyse prédictive.
La régression linéaire explique deux aspects importants des variables, qui sont les suivants :
- L'ensemble des variables indépendantes explique-t-il significativement la variable dépendante ?
- Quelles variables sont les plus significatives pour expliquer la dépendance disponible ? De quelle manière impactent-ils la variable dépendante ? L'impact est généralement déterminé par l'ampleur et le signe des coefficients bêta dans l'équation.
Examinons maintenant les hypothèses de régression linéaire, qu'il est essentiel de comprendre avant d'exécuter un modèle de régression linéaire.

Lire la suite : Modèle de régression linéaire et comment ça marche ?
Hypothèses de régression linéaire
Relation linéaire
L'une des hypothèses les plus importantes est qu'il existe une relation linéaire entre les variables dépendantes et indépendantes. Si vous essayez d'ajuster une relation linéaire dans un ensemble de données non linéaires, l'algorithme proposé ne capturera pas la tendance sous forme de graphique linéaire, ce qui se traduira par un modèle inefficace. Ainsi, cela entraînerait des prédictions inexactes.
Comment pouvez-vous déterminer si l'hypothèse est satisfaite ?
Le moyen simple de déterminer si cette hypothèse est satisfaite ou non consiste à créer un nuage de points x vs y. Si les points de données tombent sur une ligne droite dans le graphique, il existe une relation linéaire entre les variables dépendantes et indépendantes, et l'hypothèse est valable.
Que devez-vous faire si cette hypothèse est violée ?
S'il n'existe pas de relation linéaire entre les variables dépendantes et indépendantes, appliquez une transformation non linéaire telle que logarithmique, exponentielle, racine carrée ou réciproque à la variable dépendante, à la variable indépendante ou aux deux.
Pas d'auto-corrélation ni d'indépendance
Les résidus (termes d'erreur) sont indépendants les uns des autres. En d'autres termes, il n'y a pas de corrélation entre les termes d'erreur consécutifs des données de la série chronologique. La présence de corrélation dans les termes d'erreur réduit considérablement la précision du modèle. Si les termes d'erreur sont corrélés, l'erreur type estimée tente de dégonfler l'erreur type réelle.
Comment déterminer si l'hypothèse est satisfaite?
Effectuez un test statistique Durbin-Watson (DW). Les valeurs doivent être comprises entre 0 et 4. Si DW=2, pas d'auto-corrélation ; si DW est compris entre 0 et 2, cela signifie qu'il existe une corrélation positive. Si DW se situe entre 2 et 4, cela signifie qu'il y a une corrélation négative. Une autre méthode consiste à tracer un graphique par rapport aux résidus en fonction du temps et à voir des modèles dans les valeurs résiduelles.
Que devez-vous faire si cette hypothèse est violée ?
Si l'hypothèse n'est pas respectée, envisagez les options suivantes :
- Pour une corrélation positive, envisagez d'ajouter des décalages aux variables dépendantes ou indépendantes ou aux deux.
- Pour une corrélation négative, vérifiez si aucune des variables n'est trop différenciée.
- Pour la corrélation saisonnière, envisagez d'ajouter quelques variables saisonnières au modèle.
Pas de multicolinéarité
Les variables indépendantes ne doivent pas être corrélées. S'il existe une multicolinéarité entre les variables indépendantes, il est difficile de prédire le résultat du modèle. Essentiellement, il est difficile d'expliquer la relation entre les variables dépendantes et les variables indépendantes. En d'autres termes, on ne sait pas quelles variables indépendantes expliquent la variable dépendante.

Les erreurs types ont tendance à gonfler avec les variables corrélées, élargissant ainsi les intervalles de confiance conduisant à des estimations imprécises.
Comment déterminer si l'hypothèse est satisfaite?
Utilisez un nuage de points pour visualiser la corrélation entre les variables. Une autre façon est de déterminer le VIF (Variance Inflation Factor). VIF<=4 n'implique aucune multicolinéarité, alors que VIF>=10 implique une multicolinéarité sérieuse.
Que devez-vous faire si cette hypothèse est violée ?
Réduisez la corrélation entre les variables en transformant ou en combinant les variables corrélées.
Doit lire : Types de modèles de régression en ML
Homoscédasticité
L'homoscédasticité signifie que les résidus ont une variance constante à chaque niveau de x. L'absence de ce phénomène est connue sous le nom d'hétéroscédasticité. L'hétéroscédasticité survient généralement en présence de valeurs aberrantes et de valeurs extrêmes.
Comment déterminer si l'hypothèse est satisfaite?
Créez un nuage de points qui montre la valeur résiduelle par rapport à la valeur ajustée. Si les points de données sont répartis de manière égale sans motif proéminent, cela signifie que les résidus ont une variance constante (homoscédasticité). Sinon, si un motif en forme d'entonnoir est observé, cela signifie que les résidus ne sont pas répartis de manière égale et représente une variance non constante (hétéroscédasticité).
Que devez-vous faire si cette hypothèse est violée ?
- Transformer la variable dépendante
- Redéfinir la variable dépendante
- Utiliser la régression pondérée
Distribution normale des termes d'erreur
La dernière hypothèse qui doit être vérifiée pour la régression linéaire est la distribution normale des termes d'erreur. Si les termes d'erreur ne suivent pas une distribution normale, les intervalles de confiance peuvent devenir trop larges ou étroits.
Comment déterminer si l'hypothèse est satisfaite?
Vérifiez l'hypothèse à l'aide d'un graphique QQ (Quantile-Quantile). Si les points de données sur le graphique forment une ligne diagonale droite, l'hypothèse est satisfaite.

Vous pouvez également vérifier la normalité des termes d'erreur à l'aide de tests statistiques comme le test de Kolmogorov-Smironov ou de Shapiro-Wilk.
Que devez-vous faire si cette hypothèse est violée ?
- Vérifiez si les valeurs aberrantes ont un impact sur la distribution. Assurez-vous qu'il s'agit de valeurs réelles et non d'erreurs de saisie de données.
- Appliquez une transformation non linéaire sous forme de logarithme, de racine carrée ou d'inverse aux variables dépendantes, indépendantes ou aux deux.
Conclusion
Tirez parti de la véritable puissance de la régression en appliquant les techniques décrites ci-dessus pour vous assurer que les hypothèses ne sont pas violées. Il est en effet possible d'appréhender l'impact des variables indépendantes sur la variable dépendante si toutes les hypothèses de régression linéaire sont satisfaites.
Le concept de régression linéaire est un élément indispensable des programmes de science des données et d'apprentissage automatique.
Si vous souhaitez en savoir plus sur les modèles de régression et sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas. & affectations, statut IIIT-B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.
Pourquoi l'homoscédasticité est-elle requise dans la régression linéaire ?
L'homoscédasticité décrit à quel point les données sont similaires ou éloignées de la moyenne. Il s'agit d'une hypothèse importante à faire car les tests statistiques paramétriques sont sensibles aux différences. L'hétéroscédasticité n'induit pas de biais dans les estimations des coefficients, mais elle réduit leur précision. Avec une précision moindre, les estimations des coefficients sont plus susceptibles de s'écarter de la valeur de population correcte. Pour éviter cela, l'homoscédasticité est une hypothèse cruciale à affirmer.
Quels sont les deux types de multicolinéarité dans la régression linéaire ?
Les données et la multicolinéarité structurelle sont les deux types de base de multicolinéarité. Lorsque nous fabriquons un terme modèle à partir d'autres termes, nous obtenons une multicolinéarité structurelle. En d'autres termes, plutôt que d'être présent dans les données elles-mêmes, c'est le résultat du modèle que nous fournissons. Bien que la multicolinéarité des données ne soit pas un artefact de notre modèle, elle est présente dans les données elles-mêmes. La multicolinéarité des données est plus courante dans les enquêtes observationnelles.
Quels sont les inconvénients de l'utilisation du test t pour des tests indépendants ?
Il y a des problèmes avec la répétition des mesures au lieu des différences entre les conceptions de groupe lors de l'utilisation de tests t d'échantillons appariés, ce qui entraîne des effets de report. En raison d'erreurs de type I, le test t ne peut pas être utilisé pour des comparaisons multiples. Il sera difficile de rejeter l'hypothèse nulle lors d'un test t apparié sur un ensemble d'échantillons. L'obtention des sujets pour les données de l'échantillon est un aspect long et coûteux du processus de recherche.