Introduction à l'algorithme de classification : concepts et divers types

Publié: 2020-04-13

Les algorithmes de classification vous aident à diviser vos données en différentes classes. Tout comme lorsque vous souhaitez trier des éléments lors de l'emballage, un algorithme de classification vous aide à classer les données. Dans cet article, nous examinerons ce que sont les algorithmes de classification, les types d'algorithmes de classification, certains concepts de base de ce sujet et leur fonctionnement.

Table des matières

Que veut dire Classement ?

Pour prédire la classe cible, lorsque nous utilisons notre jeu de données d'entraînement pour obtenir des conditions aux limites, nous appelons cette classification de processus. Il existe de nombreux types de classes cibles que vous pouvez atteindre. Par exemple, supposons que vous souhaitiez prédire si vos clients achèteraient ou non un produit particulier en fonction des données clients dont vous disposez. Dans ce cas, les classes cibles seraient "Oui" ou "Non".

D'un autre côté, vous voudrez peut-être classer les légumes en fonction de leur poids, de leur taille ou de leur couleur. Dans ce scénario, les classes cibles disponibles peuvent être les épinards, les tomates, les oignons, les pommes de terre et les choux. Vous pouvez également effectuer une classification par sexe, où les classes cibles seraient Femme et Homme.

Comprenons un peu comment fonctionne un algorithme de classification en considérant le troisième exemple. Nous pouvons conserver la longueur des cheveux comme paramètre de fonction, bien que ce soit juste pour cet exemple. Nous pouvons former notre modèle en utilisant un algorithme de classification et le laisser déterminer les conditions aux limites pour effectuer la différenciation entre les sexes féminin et masculin via le paramètre de caractéristique donné, c'est-à-dire la longueur des cheveux.

Concepts de base de la classification

Avant de commencer à discuter plus en détail des algorithmes de classification, vous devez être familiarisé avec plusieurs définitions. De cette façon, vous pourrez éviter toute confusion par la suite :

Caractéristiques

C'est une propriété individuelle mesurable d'un phénomène particulier que nous observons à un moment donné.

Classificateurs

Un classificateur est un algorithme qui mappe les données d'entrée d'un modèle à une catégorie particulière.

Modèles de classification

Les modèles de classification doivent conclure les valeurs d'entrée que nous donnons au modèle lors de la formation. Ces modèles prédisent les catégories (étiquettes de classe) pour les nouvelles données que nous leur fournissons.

Classification multi-étiquettes

La classification multi-étiquettes consiste à mapper chaque échantillon à un ensemble d'étiquettes cibles de plusieurs classes. Par exemple, un sac d'école pourrait contenir des livres, une boîte à lunch et des stylos en même temps.

Classification multi-classes

La classification multi-classes consiste à attribuer chaque échantillon à une seule étiquette cible. Il a lieu lorsque nous avons plus de deux classes. Par exemple, une voiture peut être en mouvement ou à l'arrêt, mais pas les deux en même temps.

Classement binaire

La classification binaire, c'est quand nous n'avons que deux classes possibles. Par exemple, le sexe d'une personne peut être masculin ou féminin.

Types d'algorithmes de classification

Voici tous les types d'algorithmes de classification :

Estimation du noyau

(K-plus proche voisin)

Classificateurs linéaires

(Régression logistique, discriminant linéaire de Fisher et classificateur Naive Bayes)

Classificateurs quadratiques
Les réseaux de neurones
Apprentissage de la quantification vectorielle
Soutenir les machines vectorielles

(Les moindres carrés prennent en charge les machines vectorielles)

Discutons maintenant de certains des types essentiels d'algorithmes de classification :

En savoir plus : Types d'algorithmes d'apprentissage automatique avec exemples de cas d'utilisation

K-plus proche voisin

K-plus proche voisin, également connu sous le nom de KNN, est un algorithme populaire pour résoudre les problèmes de régression et de classification. Il classe les nouveaux cas en fonction des votes des k-voisins. Nous déterminons les k plus proches voisins en utilisant des fonctions de distance. La fonction de distance la plus populaire est euclidienne, mais il existe également d'autres options, telles que Manhattan et Hamming.

Pour comprendre KNN, vous pouvez jeter un œil à un exemple concret. Supposons que vous vouliez vous lier d'amitié avec une personne sur laquelle vous n'avez pas beaucoup d'informations. Pour mieux les connaître, il faut d'abord parler à leurs amis et collègues pour avoir une idée de ce qu'ils sont. C'est ainsi que fonctionne l'algorithme KNN.

Lors de l'utilisation de l'algorithme k-plus proche voisin, assurez-vous de normaliser les variables car les variables de plage supérieure peuvent développer un biais. De plus, les algorithmes KNN sont assez coûteux en termes de calcul.

Arbres de décision

Les arbres de décision vous aident à prédire les résultats possibles en fonction d'une série de choix. Il s'agit d'un algorithme d'apprentissage supervisé et utilise diverses fonctionnalités avec des variables dépendantes continues et catégorielles.

Par exemple, supposons que vous souhaitiez sortir acheter des fruits pour vous-même, mais que vous remarquiez que le temps est nuageux. Maintenant, vous avez deux choix, vous pouvez y aller, ou peut-être que vous ne le ferez pas. Si vous partez, il se peut qu'il pleuve et que vous reveniez les mains vides. Par contre, s'il ne pleut pas, vous pouvez acheter les fruits dont vous avez besoin. C'était un exemple simple contenant plusieurs variables, mais vous voyez l'idée.

Lisez aussi : Arbre de décision dans R

Régression logistique

La régression logistique n'est pas un algorithme de régression. La régression logistique estime des valeurs discrètes en fonction d'un ensemble particulier de variables indépendantes. En d'autres termes, il prédit les chances d'un événement en utilisant une fonction logit. C'est pourquoi elle porte aussi le nom de régression logit.

Parce que la régression logistique a été conçue pour la classification, c'est un choix populaire parmi les experts. Aussi, c'est l'algorithme le plus adapté pour comprendre l'influence de diverses variables indépendantes sur un résultat possible. Son inconvénient est qu'il ne fonctionne qu'avec des variables binaires prévisibles et suppose que ses données ne contiennent aucune valeur manquante.

Soutenir la machine vectorielle

Dans une machine à vecteurs de support, la valeur de chaque caractéristique est la valeur d'une coordonnée spécifique, et chaque élément est un point dans un espace à n dimensions. Ici, 'n' représente le nombre de fonctionnalités dont vous disposez.

Supposons que vous ayez deux caractéristiques, la longueur et la taille des cheveux. Dans ce cas, nous tracerions d'abord ces variables dans un espace à 2 dimensions, et chaque point a deux coordonnées. Nous appelons ces coordonnées des vecteurs de support ; c'est pourquoi cet algorithme s'appelle Support Vector Machine.

Après avoir tracé ces points, nous trouverons une ligne qui divise les données en deux groupes distincts. Cette ligne est le classificateur, et nous créons des classes en fonction du côté où se trouvent nos données de test dans le résultat final.

Pensées finales

Dans ce blog, nous avons essayé d'expliquer les algorithmes de classification aussi complètement que possible. Si vous souhaitez en savoir plus sur ce sujet, nous vous suggérons de vous rendre sur notre blog, qui regorge d'articles précieux de ce type.

Vous pouvez également consulter notre catalogue de cours d'apprentissage automatique pour en savoir plus sur ce sujet. Nous sommes sûrs que vous trouverez quelque chose d'utile.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Préparez-vous à une carrière d'avenir

DIPLÔME PG EN APPRENTISSAGE MACHINE ET INTELLIGENCE ARTIFICIELLE

En savoir plus @ UPGRAD