Clustering dans Machine Learning : 3 types de clustering expliqués

Publié: 2020-11-30

Table des matières

introduction

L'apprentissage automatique est l'une des technologies les plus en vogue en 2020, car les données augmentent de jour en jour, le besoin d'apprentissage automatique augmente également de façon exponentielle. L'apprentissage automatique est un sujet très vaste qui a différents algorithmes et cas d'utilisation dans chaque domaine et industrie. L'un d'entre eux est l'apprentissage non supervisé dans lequel nous pouvons voir l'utilisation du clustering.

L'apprentissage non supervisé est une technique dans laquelle la machine apprend à partir de données non étiquetées. Comme nous ne connaissons pas les étiquettes, il n'y a pas de bonne réponse donnée pour que la machine en tire des leçons, mais la machine elle-même trouve des modèles à partir des données données pour trouver les réponses au problème commercial.

Le clustering est une technique d'apprentissage automatique non supervisé qui implique le regroupement de données non étiquetées données. Dans chaque ensemble de données nettoyé, en utilisant l'algorithme de clustering, nous pouvons regrouper les points de données donnés dans chaque groupe. L'algorithme de clustering suppose que les points de données qui se trouvent dans le même cluster doivent avoir des propriétés similaires, tandis que les points de données dans différents clusters doivent avoir des propriétés très différentes.

Dans cet article, nous allons apprendre la nécessité du clustering, les différents types de clustering ainsi que leurs avantages et inconvénients.

Lire : Prérequis de l'apprentissage automatique

Quel est le besoin de clustering ?

Le clustering est un algorithme ML largement utilisé qui nous permet de trouver des relations cachées entre les points de données de notre ensemble de données.

Exemples:

1) Les clients sont segmentés en fonction des similitudes des clients précédents et peuvent être utilisés pour des recommandations.

2) Sur la base d'une collection de données textuelles, nous pouvons organiser les données en fonction des similitudes de contenu afin de créer une hiérarchie de sujets.

3) Traitement d'images principalement dans la recherche en biologie pour identifier les modèles sous-jacents.

4) Filtrage des spams.

5) Identification des activités frauduleuses et criminelles.

6) Il peut également être utilisé pour le football fantastique et les sports.

Types de regroupement

Il existe de nombreux types d'algorithmes de clustering dans l'apprentissage automatique. Nous allons discuter des trois algorithmes ci-dessous dans cet article :

1) Regroupement K-Means.

2) Regroupement par décalage moyen.

3) DBSCAN.

1. Regroupement K-Means

K-Means est l'algorithme de clustering le plus populaire parmi les autres algorithmes de clustering en Machine Learning. Nous pouvons voir cet algorithme utilisé dans de nombreuses industries de pointe ou même dans de nombreux cours d'introduction. C'est l'un des modèles les plus faciles à mettre en œuvre, tant au niveau de la mise en œuvre que de la compréhension.

Étape 1 Nous sélectionnons d'abord un nombre aléatoire de k à utiliser et initialisons aléatoirement leurs points centraux respectifs.

Étape 2 Chaque point de données est ensuite classé en calculant la distance (Euclidienne ou Manhattan) entre ce point et chaque centre de groupe, puis en regroupant le point de données pour qu'il se trouve dans le cluster dont le centre est le plus proche.

Étape 3 Nous recalculons le centre du groupe en prenant la moyenne de tous les vecteurs du groupe.

Étape 4 Nous répétons toutes ces étapes pour un certain nombre d'itérations ou jusqu'à ce que les centres de groupe ne changent pas beaucoup.

Avantages

1) Très rapide.

2) Très peu de calculs

3) Complexité linéaire O(n).

Les inconvénients

1) Sélection de la valeur k.

2) Différents centres de regroupement dans différentes séries.

3) Manque de cohérence.

2. Regroupement par décalage moyen

Le regroupement par décalage moyen est un algorithme basé sur une fenêtre glissante qui tente d'identifier les zones denses des points de données. Étant un algorithme basé sur le centroïde, cela signifie que l'objectif est de localiser les points centraux de chaque classe qui, à son tour, fonctionne en mettant à jour les candidats pour que les points centraux soient la moyenne des points dans la fenêtre glissante.

Ces fenêtres candidates sélectionnées sont ensuite filtrées dans une étape de post-traitement afin d'éliminer les doublons qui aideront à former l'ensemble final de centres et leurs classes correspondantes.

Étape 1 Nous commençons avec une fenêtre glissante circulaire centrée en un point C (sélectionné au hasard) et ayant un rayon r comme noyau. Le décalage moyen est un type d'algorithme d'escalade qui consiste à déplacer ce noyau de manière itérative vers une région de densité plus élevée à chaque étape jusqu'à ce que nous atteignions la convergence.

Étape 2 Après chaque itération, la fenêtre glissante est décalée vers les régions de densité plus élevée en déplaçant le point central vers la moyenne des points à l'intérieur de la fenêtre. La densité à l'intérieur de la fenêtre glissante augmente avec l'augmentation du nombre de points à l'intérieur. Le déplacement de la moyenne des points dans la fenêtre se déplacera progressivement vers des zones de densité de points plus élevée.

Étape 3 Dans cette étape, nous continuons à décaler la fenêtre glissante en fonction de la valeur moyenne jusqu'à ce qu'il n'y ait plus de direction dans laquelle un décalage peut obtenir plus de points à l'intérieur du noyau sélectionné.

Étape 4 Les étapes 1 et 2 sont effectuées avec de nombreuses fenêtres coulissantes jusqu'à ce que tous les points se trouvent dans une fenêtre. Lorsque plusieurs fenêtres coulissantes ont tendance à se chevaucher, la fenêtre contenant le plus de points est sélectionnée. Les points de données sont désormais regroupés en fonction de la fenêtre glissante dans laquelle ils résident.

Avantages

1) Pas besoin de sélectionner le nombre de clusters.

2) S'intègre bien dans un sens naturellement axé sur les données

Les inconvénients

1) Le seul inconvénient est que la sélection de la taille de la fenêtre (r) peut être non triviale.

3. Regroupement spatial basé sur la densité des applications avec bruit (DBSCAN)

DBSCAN est comme le clustering Mean-Shift qui est également un algorithme basé sur la densité avec quelques modifications.

Étape 1 Elle commence par un point de départ arbitraire, le voisinage de ce point est extrait à l'aide d'une distance appelée epsilon.

Étape 2 Le regroupement commencera s'il y a suffisamment de points et le point de données devient le premier nouveau point d'un regroupement. S'il n'y a pas suffisamment de données, le point sera étiqueté comme bruit et le point sera marqué visité.

Étape 3 Les points à l'intérieur de l'epsilon ont tendance à faire partie du cluster. Cette procédure est répétée à tous les points à l'intérieur du cluster.

Étape 4 Les étapes 2 et 3 sont répétées jusqu'à ce que les points du cluster soient visités et étiquetés.

Étape 5 À la fin du cluster actuel, un nouveau point non visité est traité dans un nouveau cluster conduisant à le classer dans un cluster ou en tant que bruit.

Avantages

1) Pas besoin de définir le nombre de clusters.

2) Définit les valeurs aberrantes comme du bruit.

3) Aide à trouver assez bien les clusters de taille et de forme arbitraires.

Les inconvénients

1) Ne fonctionne pas bien sur des grappes de densité variable.

2) Ne fonctionne pas bien avec des données de grande dimension.

Lisez aussi : Idées de projets d'apprentissage automatique

Conclusion

Dans cet article, nous avons appris à connaître le besoin de clustering sur le marché actuel, les différents types d'algorithmes de clustering ainsi que leurs avantages et leurs inconvénients. Le clustering est vraiment un sujet très intéressant dans l'apprentissage automatique et il existe de nombreux autres types d'algorithmes de clustering qui valent la peine d'être appris.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Qu'entend-on par regroupement de mélanges gaussiens ?

Les modèles de mélange gaussien sont généralement utilisés dans le cas de données de requête pour effectuer un clustering dur ou souple. Les modèles de mélange gaussien font quelques hypothèses afin de bien effectuer le clustering. Sur la base des hypothèses, le modèle regroupe les points de données qui appartiennent à une même distribution. Ce sont des modèles probabilistes, et ils utilisent une approche de clustering souple pour mener à bien le processus de clustering de manière efficace.

Quel est le coefficient de silhouette dans le clustering ?

Afin de mesurer la qualité du clustering, nous utilisons le coefficient de silhouette. Fondamentalement, la distance moyenne entre deux clusters est mesurée, puis la largeur de la silhouette est calculée à l'aide d'une formule. De cette façon, nous pouvons facilement mesurer le nombre optimal de clusters présents dans les données données et ainsi connaître l'efficacité du clustering effectué.

Qu'entend-on par clustering flou dans l'apprentissage automatique ?

Lorsque les données données relèvent de plus d'un cluster ou groupe, une méthode de clustering floue est utilisée, qui fonctionne sur un algorithme flou C-mean ou un algorithme flou K-mean. C'est une méthode de regroupement souple. En fonction de la distance entre le centre de cluster et le point image, le procédé attribue des valeurs d'appartenance à chaque point image associé à chaque centre de cluster.