Régression contre classification dans l'apprentissage automatique : différence entre la régression et la classification

Publié: 2020-11-12

Table des matières

introduction

Pour résoudre des problèmes de science des données, avoir la bonne approche est d'une importance cruciale et peut souvent faire la différence entre confondre et trouver la bonne solution. Au début, les data scientists ont souvent tendance à confondre les deux – incapables de comprendre les petits détails techniques qui sont importants pour attaquer le problème avec la bonne approche.

Même avec des data scientists expérimentés et chevronnés, les différences peuvent facilement semer la confusion, ce qui rend difficile l'application de la bonne approche. Dans ce discours, nous approfondirons les différences et les similitudes avec les deux algorithmes importants de la science des données - la classification et la régression.

Ces deux approches devraient être des outils essentiels dans l'arsenal de tout scientifique des données pour résoudre les problèmes des entreprises. Par conséquent, une compréhension cruciale est essentielle pour sélectionner les bons modèles, effectuer les ajustements appropriés et déployer la bonne solution qui donnera un coup de pouce à votre entreprise.

Lire : Idées de projets d'apprentissage automatique

Régression vs Classification

Premièrement, la similitude importante - la régression et la classification sont classées dans les approches d'apprentissage automatique supervisé. Qu'est-ce qu'une approche d'apprentissage automatique supervisé ? Il s'agit d'un ensemble d'algorithmes d'apprentissage automatique qui entraînent le modèle à l'aide d'ensembles de données du monde réel (appelés ensembles de données d'apprentissage) pour faire des prédictions.

Les données utilisées pour former le modèle doivent être bien étiquetées et propres ; le modèle apprendra à partir des données d'apprentissage la relation entre les variables indépendantes et la variable prédictive. Cela contraste avec l'approche d'apprentissage automatique non supervisé, qui demande au modèle d'identifier par lui-même des modèles dans les données, et donc de trouver la fonction de mappage en examinant les modèles inhérents à l'ensemble de données.

Une approche d'apprentissage automatique supervisé tente de résoudre la fonction de mappage, y = f(x), où x fait référence aux variables d'entrée et y est la fonction de mappage. En résolvant la fonction de cartographie, elle peut être rapidement et facilement transférée vers l'ensemble de données du monde réel.

Les fonctions de classification et de régression peuvent le faire, ainsi que toute autre approche d'apprentissage automatique supervisé. Mais les approches de différence et de régression significatives sont que, alors que dans une régression, la variable de sortie 'y' est numérique et continue (peut être un nombre entier ou des valeurs à virgule flottante) , dans l'algorithme de classification, la variable de sortie 'y' est discrète et catégorique.

Donc, si vous prédisez des variables telles que le salaire, l'espérance de vie, la probabilité de désabonnement, ces variables seront numériques et continues.

Par exemple , supposons qu'une institution financière souhaite dresser le profil de ses demandeurs de prêt afin d'évaluer la probabilité de leur défaut. Le scientifique des données peut aborder le problème de deux manières principales - il peut soit attribuer une probabilité (qui sera une plage de nombres continus à virgule flottante entre 0 et 1) à chaque demandeur de prêt, soit il donne simplement un ensemble de sorties binaires- correspondant à PASS/FAIL.

Les deux approches prendront le même ensemble de variables d'entrée - telles que l'historique de crédit du candidat, les informations sur le salaire, la démographie, l'âge, les conditions macroéconomiques, etc. Mais la différence entre les deux approches est que si la première note chaque candidat, ce qui peut être utile pour faire des calculs relativistes, comme la probabilité d'un individu par rapport à un autre.

La sortie peut également être utilisée pour d'autres analyses. Cependant, dans ce dernier cas, l'algorithme classe l'ensemble de données des profils individuels en Oui ou en Non, qui peut ensuite être utilisé pour juger s'il est sûr de donner du crédit. Notez que les classes oui et non peuvent avoir des variations considérables au sein de la sous-classe.

Mais ici, avec l'approche de classification, nous ne sommes pas intéressés à déterminer la variation au sein de chaque sous-groupe. La classification peut être utilisée à d'autres fins, par exemple pour déterminer si l'e-mail entrant est un spam ou non.

D'autre part, la prévision météorologique (le temps pouvant prendre une gamme de valeurs continues), nécessitera généralement une approche de régression. Si au lieu de cela, nous étions seulement intéressés à prédire s'il pleuvrait ou non, alors le même ensemble de données météorologiques pourrait être mieux placé dans le système de classification. Ainsi, comme nous pouvons le voir, le cas d'utilisation déterminera quel algorithme sera le plus adapté à utiliser.

Les algorithmes de régression consistent en une régression linéaire, une régression multivariée, des modèles de vecteurs de support et un arbre de régression, entre autres. L'approche de classification utilise des arbres de décision, Naive Bayes, la régression logistique, entre autres.

En comprenant la différence entre ces approches et algorithmes, vous serez mieux en mesure de sélectionner et d'appliquer le bon à vos cas d'utilisation spécifiques à votre entreprise, ce qui vous aidera à trouver rapidement la bonne solution.

Types d'algorithmes de classification et de régression

Approfondissons et comprenons chacun de ces types d'algorithmes utilisés dans la régression et la classification.

Régression linéaire - Dans la régression linéaire, la relation entre deux variables est estimée en traçant une ligne droite de meilleur ajustement. D'autres mesures seront nécessaires pour évaluer la force de la ligne de meilleur ajustement tracée, telles que la force de l'ajustement, la variance, l'écart type, la valeur r au carré, entre autres. En savoir plus sur les modèles de régression dans Machine Learning.

Régression polynomiale – Dans les modèles de régression polynomiale, les relations sont mesurées entre « plusieurs » variables d'entrée et le prédicteur ou la variable « de sortie ». En savoir plus sur les modèles de régression.

Algorithme d'arbre de décision - Dans l'algorithme d'arbre de décision, l'ensemble de données est classé à l'aide d'un arbre de décision - où chaque nœud de l'arbre est un cas de test, et chaque branche qui surgit à chaque nœud de l'arbre correspond à une valeur possible de l'attribut.

Lire : Comment créer un arbre de décision parfait ?

Algorithme de forêt aléatoire - La forêt aléatoire, comme son nom l'indique, est construite en additionnant plusieurs algorithmes d'arbre de décision. Le modèle agrège ensuite la sortie des différents arbres de décision et aboutit à la prédiction finale, qui se produit par vote à la majorité des arbres de décision individuels.

La sortie finale donnée par l'arbre de décision est plus précise que celle fournie par n'importe lequel des arbres de décision individuels. 'Les forêts aléatoires ont souvent tendance à souffrir de problèmes de surajustement, mais qui peuvent être affinés avec la validation croisée et d'autres méthodes

K plus proche voisin - K plus proche voisin est un algorithme de classification robuste qui fonctionne sur le principe que des choses similaires restent à proximité les unes des autres. Lorsque la nouvelle variable est placée dans l'algorithme de prédiction, elle essaie de l'affecter à un groupe en fonction de sa proximité avec les ensembles de données. En savoir plus sur KNN.

Conclusion

En tant que data scientist, vous devez avoir une compréhension fondamentale et essentielle des différentes approches de classification et de régression, les techniques impliquées vous aideront en tant que data scientist à appliquer le bon ensemble d'outils, à proposer une solution appropriée qui bénéficiera votre entreprise.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Menez la révolution technologique basée sur l'IA

DIPLÔME PG EN APPRENTISSAGE MACHINE ET INTELLIGENCE ARTIFICIELLE
Apprendre encore plus