6 types de modèles de régression en apprentissage automatique que vous devez connaître

Publié: 2020-07-27

Table des matières

introduction

La régression linéaire et la régression logistique sont deux types de techniques d'analyse de régression utilisées pour résoudre le problème de régression à l'aide de l'apprentissage automatique. Ce sont les techniques de régression les plus importantes. Cependant, il existe de nombreux types de techniques d'analyse de régression dans l'apprentissage automatique, et leur utilisation varie en fonction de la nature des données impliquées.

Cet article explique les différents types de régression en machine learning, et sous quelles conditions chacun d'eux peut être utilisé. Si vous débutez dans l'apprentissage automatique, cet article vous aidera sûrement à comprendre le concept de modélisation par régression.

Qu'est-ce que l'analyse de régression ?

L'analyse de régression est une technique de modélisation prédictive qui analyse la relation entre la variable cible ou dépendante et la variable indépendante dans un ensemble de données. Les différents types de techniques d'analyse de régression sont utilisés lorsque la variable cible et les variables indépendantes présentent une relation linéaire ou non linéaire entre elles et que la variable cible contient des valeurs continues. La technique de régression est utilisée principalement pour déterminer la force du prédicteur, la tendance des prévisions, les séries chronologiques et, en cas de relation de cause à effet.

L'analyse de régression est la principale technique pour résoudre les problèmes de régression dans l'apprentissage automatique à l'aide de la modélisation des données. Cela implique de déterminer la ligne de meilleur ajustement, qui est une ligne qui traverse tous les points de données de telle manière que la distance de la ligne à partir de chaque point de données soit minimisée.

Types de techniques d'analyse de régression

Il existe de nombreux types de techniques d'analyse de régression et l'utilisation de chaque méthode dépend du nombre de facteurs. Ces facteurs comprennent le type de variable cible, la forme de la ligne de régression et le nombre de variables indépendantes.

Voici les différentes techniques de régression :

Régression linéaire
Régression logistique
Régression de crête
Régression au lasso
Régression polynomiale
Régression linéaire bayésienne

Les différents types de régression dans les techniques d'apprentissage automatique sont expliqués en détail ci-dessous :

1. Régression linéaire

La régression linéaire est l'un des types de régression les plus élémentaires de l'apprentissage automatique . Le modèle de régression linéaire se compose d'une variable prédictive et d'une variable dépendante liées linéairement l'une à l'autre. Dans le cas où les données impliquent plus d'une variable indépendante, la régression linéaire est appelée modèles de régression linéaire multiple.

L'équation ci-dessous est utilisée pour désigner le modèle de régression linéaire :

y=mx+c+e

où m est la pente de la droite, c est une interception et e représente l'erreur dans le modèle.

La source

La ligne de meilleur ajustement est déterminée en faisant varier les valeurs de m et c. L'erreur de prédiction est la différence entre les valeurs observées et la valeur prédite. Les valeurs de m et c sont sélectionnées de manière à donner l'erreur de prédiction minimale. Il est important de noter qu'un modèle de régression linéaire simple est sensible aux valeurs aberrantes. Par conséquent, il ne doit pas être utilisé en cas de données de grande taille.

2. Régression logistique

La régression logistique est l'un des types de technique d'analyse de régression, qui est utilisée lorsque la variable dépendante est discrète. Exemple : 0 ou 1, vrai ou faux, etc. Cela signifie que la variable cible ne peut avoir que deux valeurs, et une courbe sigmoïde dénote la relation entre la variable cible et la variable indépendante.

La fonction logit est utilisée dans la régression logistique pour mesurer la relation entre la variable cible et les variables indépendantes. Ci-dessous se trouve l'équation qui dénote la régression logistique.

logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk

où p est la probabilité d'occurrence de la caractéristique.

La source

Pour sélectionner la régression logistique, en tant que technique d'analyse de la régression, il convient de noter que la taille des données est importante avec une occurrence presque égale des valeurs à venir dans les variables cibles. De plus, il ne devrait pas y avoir de multicolinéarité, ce qui signifie qu'il ne devrait pas y avoir de corrélation entre les variables indépendantes dans l'ensemble de données.

3. Régression de crête

La source

C'est un autre des types de régression en apprentissage automatique qui est généralement utilisé lorsqu'il existe une forte corrélation entre les variables indépendantes. En effet, dans le cas de données multicolinéaires, les estimations des moindres carrés donnent des valeurs non biaisées. Mais, dans le cas où la colinéarité est très élevée, il peut y avoir une certaine valeur de biais. Par conséquent, une matrice de biais est introduite dans l'équation de Ridge Regression. Il s'agit d'une méthode de régression puissante où le modèle est moins susceptible de sur-ajustement.

Vous trouverez ci-dessous l'équation utilisée pour désigner la régression Ridge, où l'introduction de λ (lambda) résout le problème de la multicolinéarité :

β = (X^{T}X + λ*I)^{-1}X^{T}y

Découvrez : 5 applications révolutionnaires de l'apprentissage automatique

4. Régression au lasso

La régression au lasso est l'un des types de régression dans l'apprentissage automatique qui effectue la régularisation avec la sélection des fonctionnalités. Il interdit la taille absolue du coefficient de régression. En conséquence, la valeur du coefficient se rapproche de zéro, ce qui ne se produit pas dans le cas de la régression Ridge.

Pour cette raison, la sélection d'entités est utilisée dans la régression Lasso, qui permet de sélectionner un ensemble d'entités à partir du jeu de données pour créer le modèle. Dans le cas de la régression Lasso, seules les fonctionnalités requises sont utilisées et les autres sont mises à zéro. Cela permet d'éviter le surajustement dans le modèle. Dans le cas où les variables indépendantes sont fortement colinéaires, la régression Lasso sélectionne une seule variable et réduit les autres variables à zéro.

La source

Vous trouverez ci-dessous l'équation qui représente la méthode de régression Lasso :

N^{-1}Σ^{N}_{i=1}f(x_{i}, y_{I}, α, β)

5. Régression polynomiale

La régression polynomiale est un autre des types de techniques d'analyse de régression dans l'apprentissage automatique, qui est identique à la régression linéaire multiple avec une petite modification. Dans la régression polynomiale, la relation entre les variables indépendantes et dépendantes, c'est-à-dire X et Y, est désignée par le n-ième degré.

C'est un modèle linéaire en tant qu'estimateur. La méthode des moindres carrés moyens est également utilisée dans la régression polynomiale. La ligne la mieux ajustée dans la régression polynomiale qui passe par tous les points de données n'est pas une ligne droite, mais une ligne courbe, qui dépend de la puissance de X ou de la valeur de n.

La source

Tout en essayant de réduire l'erreur quadratique moyenne au minimum et d'obtenir la meilleure ligne d'ajustement, le modèle peut être sujet à un surajustement. Il est recommandé d'analyser la courbe vers la fin car les polynômes supérieurs peuvent donner des résultats étranges lors de l'extrapolation.

L'équation ci-dessous représente la régression polynomiale :

l = β0+ β0x1+ε

Lire : Idées de projets d'apprentissage automatique

6. Régression linéaire bayésienne

La régression bayésienne est l'un des types de régression en apprentissage automatique qui utilise le théorème de Bayes pour connaître la valeur des coefficients de régression. Dans cette méthode de régression, la distribution postérieure des caractéristiques est déterminée au lieu de trouver les moindres carrés. La régression linéaire bayésienne ressemble à la fois à la régression linéaire et à la régression de crête, mais elle est plus stable que la régression linéaire simple.

La source

Apprenez des cours d'IA et de ML en ligne dans les meilleures universités du monde - Masters, programmes de troisième cycle pour cadres et programme de certificat avancé en ML et IA pour accélérer votre carrière.

Conclusion

En plus des méthodes de régression ci-dessus, il existe de nombreux autres types de régression dans l'apprentissage automatique , notamment la régression nette élastique, la régression JackKnife, la régression pas à pas et la régression écologique.

Ces différents types de techniques d'analyse de régression peuvent être utilisés pour construire le modèle en fonction du type de données disponibles ou de celle qui donne le maximum de précision. Vous pouvez explorer davantage ces techniques ou suivre le cours d'apprentissage supervisé sur notre site Web .

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le programme Executive PG d'IIIT-B & upGrad en apprentissage automatique et IA , conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT -B Statut d'anciens élèves, 5+ projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Quels sont les différents types de régression ?

Il existe 5 types de régression, à savoir 1. régression linéaire, 2. régression logistique, 3. régression ridge, 4. régression Lasso, 5. régression polynomiale sont les différents types de régression

Qu'est-ce que la régression ? Quels sont les types de régressions ?

La régression est une technique d'apprentissage automatique supervisée qui est utilisée pour prédire des valeurs continues. Le but ultime de l'algorithme de régression est de tracer une ligne ou une courbe de meilleur ajustement entre les données et la régression linéaire, la régression logistique, la régression de crête, la régression Lasso, la régression polynomiale sont des types de régression.

Quand dois-je utiliser l'analyse de régression ?

L'analyse de régression est utilisée lorsque vous souhaitez prédire une variable dépendante continue à partir d'un certain nombre de variables indépendantes. Si la variable dépendante est dichotomique, la régression logistique doit être utilisée.