Régression dans l'exploration de données : différents types de techniques de régression [2022]
Publié: 2021-01-01L'apprentissage supervisé est un apprentissage dans lequel vous entraînez l'algorithme d'apprentissage automatique à l'aide de données déjà étiquetées. Cela signifie que la bonne réponse est déjà connue pour toutes les données d'entraînement. Après la formation, il reçoit un nouvel ensemble de données inconnues que l'algorithme d'apprentissage supervisé analyse, puis il produit un résultat correct basé sur les données de formation étiquetées.
L'apprentissage non supervisé est l'endroit où l'algorithme est formé à l'aide d'informations, pour lesquelles l'étiquette correcte n'est pas connue. Ici, la machine doit essentiellement regrouper les informations en fonction des différents modèles, ou de toute corrélation sans formation préalable sur aucune donnée.
La régression est une forme de technique d'apprentissage automatique supervisée qui tente de prédire tout attribut à valeur continue. Il analyse la relation entre une variable cible (dépendante) et sa variable prédictive (indépendante). La régression est un outil important pour l'analyse des données qui peut être utilisé pour la modélisation de séries chronologiques, les prévisions et autres.
La régression implique le processus d'ajustement d'une courbe ou d'une ligne droite sur divers points de données. Cela se fait de manière à ce que les distances entre la courbe et les points de données soient minimales.
Bien que les régressions linéaires et logistiques soient les types les plus populaires, il existe de nombreux autres types de régression qui peuvent être appliqués en fonction de leurs performances sur un ensemble particulier de données. Ces différents types varient en raison du nombre et du type de toutes les variables dépendantes et également du type de courbe de régression formée.
Découvrez : Différence entre la science des données et l'exploration de données
Table des matières
Régression linéaire
La régression linéaire forme une relation entre la variable cible (dépendante) et une ou plusieurs variables indépendantes en utilisant une ligne droite de meilleur ajustement.
Elle est représentée par l'équation :
Y = a + b*X + e ,
où a est l'ordonnée à l'origine, b est la pente de la droite de régression et e est l'erreur. X et Y sont respectivement les variables prédictives et cibles. Lorsque X est composé de plusieurs variables (ou caractéristiques), il s'agit d'une régression linéaire multiple.
La ligne la mieux ajustée est obtenue à l'aide de la méthode des moindres carrés. Cette méthode minimise la somme des carrés des écarts entre chacun des points de données et la droite de régression. Les distances négatives et positives ne sont pas annulées ici car tous les écarts sont au carré.
Régression polynomiale
Dans la régression polynomiale, la puissance de la variable indépendante est supérieure à 1 dans l'équation de régression. Ci-dessous un exemple :
Y = a + b*X^2
Dans cette régression particulière, la ligne de meilleur ajustement n'est pas une ligne droite comme dans la régression linéaire. Cependant, il s'agit d'une courbe ajustée à tous les points de données.
La mise en œuvre de la régression polynomiale peut entraîner un sur-ajustement lorsque vous êtes tenté de réduire vos erreurs en rendant la courbe plus complexe. Par conséquent, essayez toujours d'ajuster la courbe en la généralisant au problème.
Régression logistique
La régression logistique est utilisée lorsque la variable dépendante est de nature binaire (Vrai ou Faux, 0 ou 1, succès ou échec). Ici, la valeur cible (Y) varie de 0 à 1 et est couramment utilisée pour les problèmes de type classification. La régression logistique ne nécessite pas que les variables dépendantes et indépendantes aient une relation linéaire, comme c'est le cas dans la régression linéaire.

Lire : Idées de projets d'exploration de données
Régression de crête
Ridge Regression est une technique utilisée pour analyser les données de régression multiple qui ont le problème de la multicolinéarité. La multicolinéarité est l'existence d'une corrélation presque linéaire entre deux variables indépendantes.
Cela se produit lorsque les estimations des moindres carrés ont un faible biais, mais qu'elles ont une variance élevée, de sorte qu'elles sont très différentes de la valeur réelle. Ainsi, en ajoutant un degré de biais à la valeur de régression estimée, les erreurs standard sont considérablement réduites en mettant en œuvre une régression de crête.
Régression au lasso
A S S O Le terme « LASSO » signifie Shrinkage S .
C'est un type de régression linéaire qui utilise le rétrécissement . En cela, tous les points de données sont ramenés (ou rétrécis) vers un point central, également appelé la moyenne. La procédure de lasso est la plus adaptée aux modèles simples et clairsemés qui ont relativement moins de paramètres. Ce type de régression est également bien adapté aux modèles qui souffrent de multicolinéarité (tout comme une crête).
Obtenez une certification en science des données des meilleures universités du monde. Rejoignez nos programmes Executive PG, Advanced Certificate Programs ou Masters Programs pour accélérer votre carrière.
Conclusion
L'analyse de régression vous permet essentiellement de comparer les effets de différents types de variables de caractéristiques mesurées sur une large gamme d'échelles. Comme la prédiction des prix des logements en fonction de la superficie totale, de la localité, de l'âge, du mobilier, etc. Ces résultats profitent largement aux chercheurs de marché ou aux analystes de données pour éliminer toutes les fonctionnalités inutiles et évaluer le meilleur ensemble de fonctionnalités pour construire des modèles prédictifs précis.
Si vous êtes curieux d'en savoir plus sur la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.
Qu'est-ce que la régression linéaire ?
La régression linéaire établit la relation entre la variable cible ou la variable dépendante et une ou plusieurs variables indépendantes. Lorsque nous avons plus d'un prédicteur dans notre équation, cela devient une régression multiple.
La méthode des moindres carrés est considérée comme la meilleure méthode pour obtenir la ligne de meilleur ajustement car cette méthode minimise la somme des carrés des écarts entre chacun des points de données et la ligne de régression.
Que sont les techniques de régression et pourquoi sont-elles nécessaires ?
Ce sont les techniques d'estimation ou de prédiction des relations entre variables. La relation se trouve entre deux variables, l'une est la cible et l'autre est la variable prédictive (également appelée variables x et y).
Différentes techniques telles que linéaire, logistique, pas à pas, polynomiale, lasso et crête peuvent être utilisées pour identifier cette relation. Ceci est fait pour générer des prévisions en utilisant des collectes de données et en traçant des graphiques entre elles.
En quoi la technique de régression linéaire diffère-t-elle de la technique de régression logistique ?
La différence entre ces deux techniques de régression réside dans le type de variable dépendante. Si la variable dépendante est continue, la régression linéaire est utilisée, tandis que si la variable dépendante est catégorielle, la régression logistique est utilisée.
Comme son nom l'indique également, une ligne linéaire ou droite est identifiée dans la technique linéaire. Alors que, dans la technique logistique, une courbe en S est identifiée car la variable indépendante est un polynôme. Les résultats dans le cas du linéaire sont continus alors que, dans le cas de la technique logistique, les résultats peuvent être dans des catégories comme Vrai ou Faux, 0 ou 1, etc.