Analyse de cluster dans l'exploration de données : applications, méthodes et exigences

Publié: 2020-01-20

Ici, nous allons discuter de l'analyse de cluster dans l'exploration de données. Alors, faites-nous d'abord savoir ce qu'est le clustering dans l'exploration de données, puis son introduction et la nécessité du clustering dans l'exploration de données. Nous allons également discuter des algorithmes et des applications de l'analyse de clusters en science des données. Plus tard, nous découvrirons les différentes approches de l'analyse de clusters et des méthodes de clustering d'exploration de données.

Table des matières

Qu'est-ce que le clustering dans l'exploration de données ?

Dans le clustering, un groupe d'objets de données différents est classé comme objets similaires. Un groupe signifie un cluster de données. Les ensembles de données sont divisés en différents groupes dans l'analyse par grappes, qui est basée sur la similarité des données. Après la classification des données en différents groupes, une étiquette est attribuée au groupe. Il aide à s'adapter aux changements en faisant la classification.

Lire : Exemples courants d'exploration de données.

Qu'est-ce que l'analyse de cluster dans l'exploration de données ?

L'analyse de cluster dans l'exploration de données signifie que pour découvrir le groupe d'objets qui sont similaires les uns aux autres dans le groupe mais qui sont différents de l'objet dans d'autres groupes.

Applications de l'analyse de grappes d'exploration de données

Il existe de nombreuses utilisations de l'analyse de clustering de données telles que le traitement d'images, l'analyse de données, la reconnaissance de formes, les études de marché et bien d'autres. En utilisant le clustering de données, les entreprises peuvent découvrir de nouveaux groupes dans la base de données des clients. La classification des données peut également être effectuée en fonction des habitudes d'achat.

Le regroupement dans l'exploration de données aide à la classification des animaux et des plantes en utilisant des fonctions ou des gènes similaires dans le domaine de la biologie. Cela aide à mieux comprendre la structure de l'espèce. Les zones sont identifiées à l'aide du regroupement dans l'exploration de données. Dans la base de données d'observation de la terre, les terres sont identifiées qui sont similaires les unes aux autres.

En fonction de l'emplacement géographique, de la valeur et du type de maison, un groupe de maisons est défini dans la ville. Le clustering dans l'exploration de données aide à la découverte d'informations en classant les fichiers sur Internet. Il est également utilisé dans les applications de détection. La fraude à une carte de crédit peut être facilement détectée à l'aide du regroupement dans l'exploration de données qui analyse le modèle de tromperie. En savoir plus sur les applications de la science des données dans l'industrie financière.

Il aide à comprendre chaque cluster et ses caractéristiques. On peut comprendre comment les données sont distribuées et cela fonctionne comme un outil dans la fonction d'exploration de données.

Exigences du clustering dans l'exploration de données

  • Interprétabilité

Le résultat du regroupement doit être utilisable, compréhensible et interprétable.

  • Aide à traiter les données erronées

Habituellement, les données sont désordonnées et non structurées. Il ne peut pas être analysé rapidement, et c'est pourquoi le regroupement d'informations est si important dans l'exploration de données. Le regroupement peut donner une certaine structure aux données en les organisant en groupes d'objets de données similaires. Il devient plus confortable pour l'expert en données de traiter les données et de découvrir de nouvelles choses.

  • Haute dimension

Le clustering de données est également capable de gérer les données de grande dimension ainsi que les données de petite taille.

  • Les clusters de forme d'attribut sont découverts

Des clusters de forme arbitraire sont détectés à l'aide de l'algorithme de clustering. Des amas de petite taille avec une forme sphérique peuvent également être trouvés.

  • Utilisation de l'algorithme avec plusieurs types de données

De nombreux types de données différents peuvent être utilisés avec des algorithmes de clustering. Les données peuvent être comme des données binaires, des données catégorielles et des données basées sur des intervalles.

Lire : Algorithmes d'exploration de données que vous devez connaître

  • Évolutivité du clustering

La base de données est généralement énorme à gérer. L'algorithme doit être évolutif pour gérer une base de données étendue, il doit donc être évolutif.

Méthodes de clustering d'exploration de données

1. Méthode de clustering de partitionnement

Dans cette méthode, disons que la partition "m" se fait sur les objets "p" de la base de données. Un cluster sera représenté par chaque partition et m < p. K est le nombre de groupes après la classification des objets. Certaines exigences doivent être satisfaites avec cette méthode de clustering de partitionnement et elles sont : -

  1. Un objectif ne doit appartenir qu'à un seul groupe.
  2. Il ne devrait y avoir aucun groupe sans même un but unique.

Il y a quelques points à retenir dans ce type de méthode de clustering de partitionnement qui sont :

  1. Il y aura un premier partitionnement si nous donnons déjà non. d'une partition (disons m).
  2. Il existe une technique appelée relocalisation itérative, ce qui signifie que l'objet sera déplacé d'un groupe à un autre pour améliorer le partitionnement.

2. Méthodes de clustering hiérarchique

Dans cette méthode de regroupement hiérarchique, l'ensemble donné d'un objet de données est créé dans une sorte de décomposition hiérarchique. La formation de la décomposition hiérarchique décidera des objectifs de la classification. Il existe deux types d'approches pour la création de la décomposition hiérarchique, qui sont: -

1. Approche de division

Un autre nom pour l'approche de division est une approche descendante. Au début de cette méthode, tous les objets de données sont conservés dans le même cluster. Des clusters plus petits sont créés en divisant le groupe à l'aide de l'itération continue. La méthode d'itération constante continuera jusqu'à ce que la condition de terminaison soit remplie. On ne peut pas annuler une fois le groupe divisé ou fusionné, et c'est pourquoi cette méthode n'est pas si flexible.

2. Approche agglomérative

Un autre nom pour cette approche est l'approche ascendante. Tous les groupes sont séparés au départ. Ensuite, il continue de fusionner jusqu'à ce que tous les groupes soient fusionnés ou que la condition de résiliation soit remplie.

Deux approches peuvent être utilisées pour améliorer la qualité du clustering hiérarchique dans l'exploration de données : -

  1. Il convient d'analyser soigneusement les liens de l'objet à chaque partitionnement du clustering hiérarchique.
  2. On peut utiliser un algorithme d'agglomération hiérarchique pour l'intégration de l'agglomération hiérarchique. Dans cette approche, dans un premier temps, les objets sont regroupés en micro-clusters. Après avoir regroupé les objets de données en microclusters, le macro clustering est effectué sur le microcluster.

3. Méthode de regroupement basée sur la densité

Dans cette méthode de clustering en Data Mining, la densité est l'objectif principal. La notion de masse est utilisée comme base de cette méthode de clustering. Dans cette méthode de clustering, le cluster continuera de croître en continu. Au moins un nombre de points doit être présent dans le rayon du groupe pour chaque point de données.

4. Méthode de clustering basée sur la grille

Dans ce type de méthode de clustering basée sur la grille, une grille est formée en utilisant l'objet ensemble. Une structure de grille est formée en quantifiant l'espace objet en un nombre fini de cellules.

Avantage de la méthode de clustering basée sur la grille : -

  1. Temps de traitement plus rapide : Le temps de traitement de cette méthode est beaucoup plus rapide qu'un autre moyen, et donc il peut gagner du temps.
  2. Cette méthode dépend du non. de cellules dans l'espace de quantifié chaque dimension.

5. Méthodes de clustering basées sur un modèle

Dans ce type de méthode de clustering, chaque cluster est supposé afin qu'il puisse trouver les données les mieux adaptées au modèle. La fonction de densité est regroupée pour localiser le groupe dans cette méthode.

6. Méthode de clustering basée sur les contraintes

Des contraintes orientées application ou utilisateur sont incorporées pour effectuer le regroupement. L'attente de l'utilisateur est appelée la contrainte. Dans ce processus de regroupement, la communication est très interactive, ce qui est assuré par les restrictions.

Quels types de classification ne sont pas considérés comme une analyse typologique ?

  1. Partitionnement graphique - Le type de classification dans lequel les zones ne sont pas les mêmes et ne sont classées que sur la base de la synergie mutuelle et de la pertinence n'est pas une analyse par grappes.
  2. Résultats d'une requête – Dans ce type de classification, les groupes sont créés sur la base des spécifications fournies par des sources externes. Elle n'est pas comptée comme une analyse de cluster.
  3. Segmentation simple - La division des noms en groupes d'enregistrement séparés en fonction du nom de famille n'est pas considérée comme une analyse de cluster.
  4. Classification supervisée - Les types de classification qui sont classés à l'aide des informations d'étiquette ne peuvent pas être qualifiés d'analyse de cluster car l'analyse de cluster implique un groupe basé sur le modèle.

Conclusion

Nous avons donc maintenant appris beaucoup de choses sur le clustering de données, telles que les approches et les méthodes de clustering de données et d'analyse de cluster dans l'exploration de données.

Si vous êtes curieux d'apprendre la science des données, consultez notre programme exécutif PG IIIT-B et upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quels sont certains des inconvénients de l'analyse par grappes ?

L'analyse typologique est une approche statistique qui ne présuppose aucune connaissance préalable du marché ou du comportement des clients. Certaines méthodes d'analyse par grappes produisent des résultats quelque peu différents à chaque fois que l'analyse statistique est effectuée. Cela peut survenir parce qu'il n'existe pas de méthode unique pour l'analyse des données. La modification des sorties de données peut être déroutante et irritante pour les étudiants qui découvrent la notion d'analyse par grappes.

Comment la pureté et la qualité des clusters sont-elles calculées ?

Nous multiplions le nombre total de points de données par le nombre d'étiquettes de classe précises dans chaque cluster. La pureté augmente à mesure que le nombre de grappes augmente en général. Si nous avons un modèle qui organise chaque observation dans son propre groupe, par exemple, la pureté devient une. Nous pouvons calculer la valeur moyenne du coefficient de silhouette de tous les objets d'un cluster pour déterminer sa forme physique à l'intérieur d'un clustering. La valeur moyenne du coefficient de silhouette de tous les objets de l'ensemble de données peut être utilisée pour évaluer la qualité d'un groupement.

Quelles sont les différences entre les K-means et les K-medoids ?

K-means essaie de réduire l'erreur quadratique totale, tandis que k-medoids essaie de réduire la somme des dissemblances entre les points classés comme faisant partie d'un cluster et un point choisi comme centre du cluster. Contrairement à la méthode des k-moyennes, l'algorithme des k-médoïdes sélectionne les points de données comme centres (médoïdes ou exemplaires).