5 types d'algorithmes de classification dans l'apprentissage automatique [2022]

Publié: 2021-01-02

Table des matières

introduction

L'apprentissage automatique est l'un des sujets les plus importants de l'intelligence artificielle. Il est en outre divisé en apprentissage supervisé et non supervisé qui peut être lié à l'analyse de données étiquetées et non étiquetées ou à la prédiction de données. Dans l'apprentissage supervisé, nous avons deux autres types de problèmes commerciaux appelés régression et classification.

La classification est un algorithme d'apprentissage automatique dans lequel nous obtenons les données étiquetées en entrée et nous devons prédire la sortie dans une classe. S'il y a deux classes, cela s'appelle la classification binaire. S'il y a plus de deux classes, cela s'appelle la classification multi-classes. Dans les scénarios du monde réel, nous avons tendance à voir les deux types de classification.

Dans cet article, nous allons étudier quelques types d'algorithmes de classification ainsi que leurs avantages et inconvénients. Il existe de nombreux algorithmes de classification disponibles, mais concentrons-nous sur les 5 algorithmes ci-dessous :

Régression logistique
Voisin le plus proche
Arbres de décision
Forêt aléatoire
Soutenir les machines vectorielles

1. Régression logistique

Même si le nom suggère la régression, il s'agit d'un algorithme de classification. La régression logistique est une méthode statistique de classification des données dans lesquelles il existe une ou plusieurs variables ou caractéristiques indépendantes qui déterminent un résultat mesuré avec une variable (TARGET) qui a deux classes ou plus. Son objectif principal est de trouver le modèle le mieux adapté pour décrire la relation entre la variable cible et les variables indépendantes.

Avantages

1) Facile à mettre en œuvre, à interpréter et efficace à former car il ne fait aucune hypothèse et est rapide à classer.

2) Peut être utilisé pour la classification multi-classes.

3) Il est moins sujet au sur-ajustement, mais sur-adapte dans les ensembles de données de grande dimension.

Les inconvénients

1) Surajustements lorsque les observations sont inférieures aux caractéristiques.

2) Ne fonctionne qu'avec des fonctions discrètes.

3) Les problèmes non linéaires ne peuvent pas être résolus.

4) Difficile d'apprendre des modèles complexes et généralement les réseaux de neurones les surpassent.

2. K voisin le plus proche

L'algorithme K-plus proches voisins (KNN) utilise la technique de « similitude des caractéristiques » ou de « plus proches voisins » pour prédire le cluster dans lequel un nouveau point de données tombe. Voici les quelques étapes sur lesquelles nous pouvons mieux comprendre le fonctionnement de cet algorithme

Étape 1 - Pour implémenter n'importe quel algorithme dans l'apprentissage automatique, nous avons besoin d'un ensemble de données nettoyé prêt pour la modélisation. Supposons que nous ayons déjà un ensemble de données nettoyé qui a été divisé en ensemble de données d'apprentissage et de test.

Étape 2 - Comme nous avons déjà les ensembles de données prêts, nous devons choisir la valeur de K (entier) qui nous indique combien de points de données les plus proches nous devons prendre en considération pour implémenter l'algorithme. Nous pouvons apprendre à déterminer la valeur k dans les dernières étapes de l'article.

Étape 3 - Cette étape est itérative et doit être appliquée pour chaque point de données dans l'ensemble de données

Calculer la distance entre les données de test et chaque ligne de données d'entraînement à l'aide de l'une des mesures de distance
Distance euclidienne
Manhattan distance
Distance Minkowski
Distance de Hamming.

De nombreux spécialistes des données ont tendance à utiliser la distance euclidienne, mais nous pourrons connaître la signification de chacun dans la dernière étape de cet article.

Nous devons trier les données en fonction de la métrique de distance que nous avons utilisée à l'étape ci-dessus.

Choisissez les K premières lignes dans les données triées transformées.

Ensuite, il attribuera une classe au point de test en fonction de la classe la plus fréquente de ces lignes.

Étape 4 - Fin

Avantages

Facile à utiliser, à comprendre et à interpréter.
Temps de calcul rapide.
Aucune hypothèse sur les données.
Haute précision des prédictions.
Polyvalent - Peut être utilisé pour les problèmes commerciaux de classification et de régression.
Peut également être utilisé pour les problèmes multi-classes.
Nous n'avons qu'un seul paramètre Hyper à modifier à l'étape de réglage de l'hyperparamètre.

Les inconvénients

Coûteux en termes de calcul et nécessitant beaucoup de mémoire car l'algorithme stocke toutes les données d'entraînement.
L'algorithme devient plus lent à mesure que les variables augmentent.
Il est très sensible aux fonctionnalités non pertinentes.
Malédiction de dimensionnalité.
Choisir la valeur optimale de K.
Un ensemble de données déséquilibré de classe causera un problème.
Les valeurs manquantes dans les données causent également des problèmes.

Lire : Idées de projets d'apprentissage automatique

3. Arbres de décision

Les arbres de décision peuvent être utilisés à la fois pour la classification et la régression car ils peuvent gérer à la fois des données numériques et catégorielles. Il décompose l'ensemble de données en sous-ensembles ou nœuds de plus en plus petits au fur et à mesure que l'arbre se développe. L'arbre de décision a une sortie avec des nœuds de décision et des nœuds feuille où un nœud de décision a deux branches ou plus tandis qu'un nœud feuille représente une décision. Le nœud le plus haut qui correspond au meilleur prédicteur est appelé le nœud racine.

Avantages

Simple à comprendre
Visualisation facile
Moins de données Interprétation
Gère les données numériques et catégorielles.

Les inconvénients

Parfois ne généralise pas bien
Instable aux modifications des données d'entrée

4. Forêts aléatoires

Les forêts aléatoires sont une méthode d'apprentissage d'ensemble qui peut être utilisée pour la classification et la régression. Il fonctionne en construisant plusieurs arbres de décision et génère les résultats en prenant la moyenne de tous les arbres de décision dans les problèmes de régression ou de vote majoritaire dans les problèmes de classification. Vous pouvez apprendre par le nom lui-même qu'un groupe d'arbres s'appelle une forêt.

Avantages

Peut gérer de grands ensembles de données.
Affichera l'importance des variables.
Peut gérer les valeurs manquantes.

Les inconvénients

C'est un algorithme de boîte noire.
Prédiction lente en temps réel et algorithmes complexes.

5. Soutenir les machines vectorielles

La machine à vecteurs de support est une représentation de l'ensemble de données sous forme de points dans l'espace séparés en catégories par un espace ou une ligne clair aussi loin que possible. Les nouveaux points de données sont maintenant mappés dans ce même espace et classés pour appartenir à une catégorie en fonction de quel côté de la ligne ou de la séparation ils se situent.

Avantages

Fonctionne mieux dans les espaces de grande dimension.
Utilise un sous-ensemble de points de données d'apprentissage dans la fonction de décision, ce qui en fait un algorithme efficace en mémoire.

Les inconvénients

Ne fournira pas d'estimations de probabilité.
Peut calculer des estimations de probabilité en utilisant la validation croisée, mais cela prend du temps.

Lisez aussi: Carrière en apprentissage automatique

Conclusion

Dans cet article, nous avons discuté des 5 algorithmes de classification, de leurs brèves définitions, des avantages et des inconvénients. Ce ne sont que quelques algorithmes que nous avons couverts, mais il existe des algorithmes plus précieux tels que Naive Bayes, Neural Networks, Ordered Logistic Regression. On ne peut pas dire quel algorithme fonctionne bien pour quel problème, de sorte que la meilleure pratique consiste à en essayer quelques-uns et à sélectionner le modèle final en fonction des métriques d'évaluation.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Quel est l'objectif principal de l'utilisation de la régression logistique ?

La régression logistique est principalement utilisée dans les probabilités statistiques. Il utilise une équation de régression logistique afin de comprendre la relation entre les variables dépendantes et les variables indépendantes présentes dans les données données. Cela se fait en estimant les probabilités d'événements individuels. Un modèle de régression logistique est très similaire au modèle de régression linéaire, cependant, leur utilisation est préférée lorsque la variable dépendante donnée dans les données est dichotomique.

En quoi la SVM est-elle différente de la régression logistique ?

Bien que SVM offre plus de précision que les modèles de régression logistique, il est complexe à utiliser et, par conséquent, n'est pas convivial. Dans le cas de grandes quantités de données, l'utilisation de SVM n'est pas préférée. Alors que SVM est utilisé pour résoudre à la fois les problèmes de régression et de classification, la régression logistique ne résout que bien les problèmes de classification. Contrairement à SVM, le sur-ajustement est un phénomène courant lors de l'utilisation de la régression logistique. De plus, la régression logistique est plus vulnérable aux valeurs aberrantes par rapport aux machines vectorielles de support.

Un arbre de régression est-il un type d'arbre de décision ?

Oui, les arbres de régression sont essentiellement des arbres de décision utilisés pour les tâches de régression. Les modèles de régression sont utilisés pour comprendre la relation entre les variables dépendantes et les variables indépendantes qui ont réellement surgi par la division de l'ensemble de données initial donné. Les arbres de régression ne peuvent être utilisés que lorsque l'arbre de décision consiste en une variable cible continue.