Qu'est-ce que le clustering et les différents types de méthodes de clustering
Publié: 2020-12-01Considérez-vous comme étant en conversation avec le directeur marketing de votre organisation. L'organisation souhaite mieux comprendre les clients à l'aide de données afin de pouvoir atteindre ses objectifs commerciaux et offrir une meilleure expérience aux clients. Maintenant, c'est l'un des scénarios où le clustering vient à la rescousse.
Table des matières
Qu'est-ce que le clustering ?
Le clustering est un type de méthode d'apprentissage non supervisé de l'apprentissage automatique. Dans la méthode d'apprentissage non supervisé, les inférences sont tirées des ensembles de données qui ne contiennent pas de variable de sortie étiquetée. Il s'agit d'une technique d'analyse de données exploratoire qui nous permet d'analyser les ensembles de données multivariées.
Le clustering consiste à diviser les ensembles de données en un certain nombre de clusters de manière à ce que les points de données appartenant à un cluster aient des caractéristiques similaires. Les clusters ne sont rien d'autre que le regroupement de points de données de sorte que la distance entre les points de données au sein des clusters soit minimale.
En d'autres termes, les clusters sont des régions où la densité de points de données similaires est élevée. Il est généralement utilisé pour l'analyse de l'ensemble de données, pour trouver des données pertinentes parmi d'énormes ensembles de données et en tirer des conclusions. Généralement, les grappes sont vues sous une forme sphérique, mais ce n'est pas nécessaire car les grappes peuvent avoir n'importe quelle forme. Découvrez le clustering et d'autres concepts de science des données dans notre cours en ligne sur la science des données.
Cela dépend du type d'algorithme que nous utilisons qui décide de la manière dont les clusters seront créés. Les inférences qui doivent être tirées des ensembles de données dépendent également de l'utilisateur car il n'y a pas de critère pour un bon regroupement.
Quels sont les types de méthodes de clustering ?
Le clustering lui-même peut être classé en deux types, à savoir. Clustering dur et clustering souple. Dans le clustering dur, un point de données ne peut appartenir qu'à un seul cluster. Mais dans le clustering souple, la sortie fournie est une probabilité qu'un point de données appartienne à chacun des nombres prédéfinis de clusters.
Clustering basé sur la densité
Dans cette méthode, les clusters sont créés sur la base de la densité des points de données qui sont représentés dans l'espace de données. Les régions qui deviennent denses en raison du grand nombre de points de données résidant dans cette région sont considérées comme des clusters.
Les points de données dans la région clairsemée (la région où les points de données sont très inférieurs) sont considérés comme du bruit ou des valeurs aberrantes. Les clusters créés dans ces méthodes peuvent être de forme arbitraire. Voici les exemples d'algorithmes de clustering basés sur la densité :
DBSCAN (Regroupement spatial basé sur la densité d'applications avec bruit)
DBSCAN regroupe les points de données en fonction de la métrique de distance et du critère d'un nombre minimum de points de données. Il faut deux paramètres - eps et points minimum. Eps indique à quel point les points de données doivent être proches pour être considérés comme voisins. Le critère de points minimum doit être complété pour considérer cette région comme une région dense.
OPTICS (ordre des points pour identifier la structure de clustering)
Son processus est similaire à DBSCAN, mais il s'occupe de l'un des inconvénients de l'ancien algorithme, à savoir l'incapacité de former des clusters à partir de données de densité arbitraire. Il prend en compte deux autres paramètres qui sont la distance centrale et la distance d'accessibilité. La distance centrale indique si le point de données considéré est central ou non en définissant une valeur minimale pour celui-ci.
La distance d'accessibilité est le maximum de la distance centrale et la valeur de la métrique de distance utilisée pour calculer la distance entre deux points de données. Une chose à considérer à propos de la distance d'accessibilité est que sa valeur reste non définie si l'un des points de données est un point central.
HDBSCAN (regroupement spatial basé sur la densité hiérarchique des applications avec bruit)
HDBSCAN est une méthode de clustering basée sur la densité qui étend la méthodologie DBSCAN en la convertissant en un algorithme de clustering hiérarchique.
Classification hiérarchique
Le clustering hiérarchique regroupe (Agglomerative ou également appelé Bottom-Up Approach) ou divise (Divisive ou également appelé Top-Down Approach) les clusters en fonction des métriques de distance. Dans le clustering agglomératif, chaque point de données agit initialement comme un cluster, puis il regroupe les clusters un par un.
La division est l'opposé de l'agglomération, elle commence avec tous les points dans un seul cluster et les divise pour créer plus de clusters. Ces algorithmes créent une matrice de distance de tous les clusters existants et effectuent le lien entre les clusters en fonction des critères du lien. Le regroupement des points de données est représenté à l'aide d'un dendrogramme. Il existe différents types de liens : –
o Liaison simple : - Dans la liaison simple, la distance entre les deux clusters est la distance la plus courte entre les points de ces deux clusters.
o Liaison complète : – En liaison complète, la distance entre les deux groupes est la distance la plus éloignée entre les points de ces deux groupes.
o Liaison moyenne : - Dans la liaison moyenne, la distance entre les deux clusters est la distance moyenne de chaque point du cluster avec chaque point d'un autre cluster.
Lire : Exemples courants d'exploration de données.
Agrégation floue
Dans le clustering flou, l'affectation des points de données dans l'un des clusters n'est pas décisive. Ici, un point de données peut appartenir à plusieurs clusters. Il fournit le résultat sous la forme de la probabilité que le point de données appartienne à chacun des clusters. L'un des algorithmes utilisés dans le clustering flou est le clustering flou c-means.
Cet algorithme est similaire dans son processus au clustering K-Means et il diffère dans les paramètres impliqués dans le calcul comme les valeurs de fuzzifier et d'appartenance.
Partitionnement Clustering
Cette méthode est l'un des choix les plus populaires pour les analystes pour créer des clusters. Dans le clustering de partitionnement, les clusters sont partitionnés en fonction des caractéristiques des points de données. Nous devons spécifier le nombre de clusters à créer pour cette méthode de clustering. Ces algorithmes de clustering suivent un processus itératif pour réaffecter les points de données entre les clusters en fonction de la distance. Les algorithmes qui entrent dans cette catégorie sont les suivants : –

o Clustering K-Means : - Le clustering K-Means est l'un des algorithmes les plus largement utilisés. Il partitionne les points de données en k clusters en fonction de la métrique de distance utilisée pour le clustering. La valeur de 'k' doit être définie par l'utilisateur. La distance est calculée entre les points de données et les centroïdes des clusters.
Le point de données le plus proche du centroïde du cluster est affecté à ce cluster. Après une itération, il calcule à nouveau les centroïdes de ces clusters et le processus se poursuit jusqu'à ce qu'un nombre prédéfini d'itérations soit terminé ou jusqu'à ce que les centroïdes des clusters ne changent pas après une itération.
C'est un algorithme très coûteux en calcul car il calcule la distance de chaque point de données avec les centroïdes de tous les clusters à chaque itération. Cela rend difficile la mise en œuvre de la même chose pour d'énormes ensembles de données.
PAM (Partitionnement autour des médoïdes)
Cet algorithme est également appelé algorithme k-medoid. Son processus est également similaire à celui de l'algorithme de clustering K-means, la différence étant l'attribution du centre du cluster. Dans PAM, le médoïde du cluster doit être un point de données d'entrée alors que ce n'est pas vrai pour le clustering K-means car la moyenne de tous les points de données d'un cluster peut ne pas appartenir à un point de données d'entrée.
o CLARA (Clustering Large Applications) : – CLARA est une extension de l'algorithme PAM où le temps de calcul a été réduit pour le rendre plus performant pour les grands ensembles de données. Pour ce faire, il sélectionne arbitrairement une certaine partie des données parmi l'ensemble des données en tant que représentant des données réelles. Il applique l'algorithme PAM à plusieurs échantillons de données et choisit les meilleurs clusters parmi un certain nombre d'itérations.
Lisez aussi : Algorithmes d'exploration de données que vous devez connaître
Clustering basé sur la grille
Dans le clustering basé sur une grille, l'ensemble de données est représenté dans une structure de grille qui comprend des grilles (également appelées cellules). L'approche globale dans les algorithmes de cette méthode diffère du reste des algorithmes.
Ils sont plus concernés par l'espace de valeurs entourant les points de données que par les points de données eux-mêmes. L'un des plus grands avantages de ces algorithmes est sa réduction de la complexité de calcul. Cela le rend approprié pour traiter des ensembles de données énormes.
Après avoir partitionné les ensembles de données en cellules, il calcule la densité des cellules, ce qui aide à identifier les clusters. Quelques algorithmes basés sur le clustering basé sur la grille sont les suivants : -
o STING (Statistical Information Grid Approach) : – Dans STING, le jeu de données est divisé récursivement de manière hiérarchique. Chaque cellule est ensuite subdivisée en un nombre différent de cellules. Il capture les mesures statistiques des cellules, ce qui aide à répondre aux requêtes en peu de temps.
o WaveCluster : – Dans cet algorithme, l'espace de données est représenté sous forme d'ondelettes. L'espace de données compose un signal à n dimensions qui aide à identifier les clusters. Les parties du signal avec une fréquence inférieure et une amplitude élevée indiquent que les points de données sont concentrés. Ces régions sont identifiées comme des clusters par l'algorithme. Les parties du signal où la fréquence haute représente les limites des clusters. Pour plus de détails, vous pouvez vous référer à cet article .
o CLIQUE (Clustering in Quest) : – CLIQUE est une combinaison d'algorithme de clustering basé sur la densité et basé sur la grille. Il partitionne l'espace des données et identifie les sous-espaces selon le principe Apriori. Il identifie les clusters en calculant les densités des cellules.
Notes de fin
Dans cet article, nous avons vu un aperçu de ce qu'est le clustering et des différentes méthodes de clustering ainsi que ses exemples. Cet article était destiné à vous aider à démarrer avec le clustering.
Ces méthodes de clustering ont leurs propres avantages et inconvénients, ce qui les limite à ne convenir qu'à certains ensembles de données. Ce n'est pas seulement l'algorithme, mais il y a beaucoup d'autres facteurs comme les spécifications matérielles des machines, la complexité de l'algorithme, etc. qui entrent en jeu lorsque vous effectuez une analyse sur l'ensemble de données.
En tant qu'analyste, vous devez prendre des décisions sur l'algorithme à choisir et celui qui fournirait de meilleurs résultats dans des situations données. Un algorithme adapté à toutes les stratégies ne fonctionne dans aucun des problèmes d'apprentissage automatique. Alors, continuez à expérimenter et mettez la main à la pâte dans le monde du clustering.
Si vous êtes curieux d'apprendre la science des données, consultez notre programme exécutif PG IIIT-B et upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.
Quels sont les différents types de méthodes de clustering utilisées en intelligence d'affaires ?
Le clustering est une technique non dirigée utilisée dans l'exploration de données pour identifier plusieurs modèles cachés dans les données sans proposer d'hypothèse spécifique. La raison derrière l'utilisation du clustering est d'identifier les similitudes entre certains objets et de créer un groupe d'objets similaires.
Il existe deux types différents de clustering, qui sont les méthodes hiérarchiques et non hiérarchiques.
1. Clustering non hiérarchique
Dans cette méthode, le jeu de données contenant N objets est divisé en M clusters. En intelligence d'affaires, la technique de clustering non hiérarchique la plus largement utilisée est le K-means.
2. Regroupement hiérarchique
Dans cette méthode, un ensemble de clusters imbriqués est produit. Dans ces clusters imbriqués, chaque paire d'objets est ensuite imbriquée pour former un grand cluster jusqu'à ce qu'un seul cluster reste à la fin.
Quand le clustering est-il utilisé ?
La fonction principale du clustering est d'effectuer une segmentation, qu'il s'agisse d'un magasin, d'un produit ou d'un client. Les clients et les produits peuvent être regroupés en groupes hiérarchiques basés sur différents attributs.
Une autre utilisation de la technique de clustering est vue pour détecter des anomalies telles que des transactions frauduleuses. Ici, un cluster avec toutes les bonnes transactions est détecté et conservé comme échantillon. On dit que c'est un cluster normal . Chaque fois que quelque chose sort de la ligne de ce cluster, il relève de la section suspecte. Cette méthode s'avère vraiment utile pour détecter la présence de cellules anormales dans le corps.
En dehors de cela, le clustering est largement utilisé pour décomposer de grands ensembles de données afin de créer des groupes de données plus petits. Cela améliore l'efficacité de l'évaluation des données.
Quels sont les avantages du clustering ?
On dit que le regroupement est plus efficace que l'échantillonnage aléatoire des données données pour plusieurs raisons. Les deux principaux avantages du clustering sont :
1. Nécessite moins de ressources
Un cluster crée un groupe de moins de ressources à partir de l'ensemble de l'échantillon. Pour cette raison, les besoins en ressources sont moindres par rapport à l'échantillonnage aléatoire. L'échantillonnage aléatoire nécessitera des frais de déplacement et d'administration, mais ce n'est pas le cas ici.
2. Option réalisable
Ici, chaque cluster détermine un ensemble complet de la population car des groupes homogènes sont créés à partir de l'ensemble de la population. Avec cela, il devient facile d'inclure plus de sujets dans une seule étude.