Analyse de cluster dans R : un guide complet dont vous aurez besoin [2022]

Publié: 2021-01-04

Si vous avez déjà mis un pied dans le monde de la science des données ou de Python, vous avez entendu parler de R.

Développé en tant que projet GNU, R est à la fois un langage et un environnement conçu pour le graphisme et le calcul statistique. Il est similaire au langage S, et peut donc être considéré comme son implémentation.

En tant que langage, R est hautement extensible. Il fournit une variété de techniques statistiques et graphiques telles que l'analyse de séries chronologiques, la modélisation linéaire, la modélisation non linéaire, le regroupement, la classification, les tests statistiques classiques.

C'est l'une de ces techniques que nous allons explorer plus en profondeur et c'est le clustering ou l'analyse de clusters !

Table des matières

Qu'est-ce que l'analyse de cluster ?

Dans les termes les plus simples, le clustering est une méthode de segmentation des données dans laquelle les données sont partitionnées en plusieurs groupes sur la base de la similarité.

Comment la similarité est-elle évaluée ? Sur la base des mesures de distance inter-observations. Il peut s'agir de mesures de distance euclidiennes ou basées sur la corrélation.

L'analyse de grappes est l'une des méthodes les plus populaires et, d'une certaine manière, intuitives d'analyse de données et d'exploration de données. Il est idéal pour les cas où les données sont volumineuses et nous devons en extraire des informations. Dans ce cas, les données en bloc peuvent être décomposées en sous-ensembles ou groupes plus petits.

Les petits groupes formés et dérivés de l'ensemble de données sont appelés clusters. Ceux-ci sont obtenus en effectuant une ou plusieurs opérations statistiques. Chaque cluster, bien que contenant des éléments différents, partage les propriétés suivantes :

  1. Leur nombre n'est pas connu à l'avance.
  2. Ils sont obtenus en effectuant une opération statistique.
  3. Chaque cluster contient des objets qui sont similaires et ont des caractéristiques communes.

Même sans le nom « fantaisiste » d'analyse par grappes, celle-ci est souvent utilisée dans la vie de tous les jours.

Au niveau individuel, nous faisons des groupes de choses que nous devons emballer lorsque nous partons en vacances. D'abord les vêtements, puis les articles de toilette, puis les livres, et ainsi de suite. Nous créons des catégories, puis les abordons individuellement.

Les entreprises utilisent également l'analyse par grappes lorsqu'elles procèdent à la segmentation de leurs listes de diffusion et classent les clients en fonction de leur âge, de leur contexte économique, de leur comportement d'achat antérieur, etc.

L'analyse de cluster est également appelée « apprentissage automatique non supervisé » ou reconnaissance de formes. Non supervisé, car nous ne cherchons pas à classer des échantillons particuliers dans des échantillons particuliers uniquement. Apprendre parce que l'algorithme apprend également à regrouper.

3 méthodes de regroupement

Nous avons trois méthodes qui sont le plus souvent utilisées pour le clustering. Ceux-ci sont:

  1. Clustering hiérarchique agglomératif
  2. Clustering relationnel / méthode Condorcet
  3. regroupement de k-moyennes

1. Clustering hiérarchique agglomératif

Il s'agit du type de clustering hiérarchique le plus courant. L'algorithme pour AHC fonctionne de manière ascendante. Il commence par considérer chaque point de données comme un cluster en soi (appelé une feuille).

Il combine ensuite les deux clusters les plus similaires. Ces nouveaux clusters plus grands sont appelés nœuds. Le regroupement est répété jusqu'à ce que l'ensemble de données entier se rassemble en un seul grand cluster appelé la racine.

Visualiser et dessiner chaque étape du processus AHC conduit à la génération d'un arbre appelé dendrogramme.

L'inversion du processus AHC conduit à un clustering diviseur et à la génération de clusters.

Le dendrogramme peut également être visualisé comme suit :

La source

En conclusion, si vous voulez un algorithme capable d'identifier de petits clusters, optez pour AHC. Si vous en voulez un qui est bon pour identifier les grands clusters, alors la méthode de clustering divisionnaire devrait être votre choix.

2. Regroupement relationnel/Méthode Condorcet

« Clustering par agrégation de similarités » est un autre nom pour cette méthode. Cela fonctionne comme suit :

Les objets individuels par paires qui constituent le clustering global sont comparés. Aux vecteurs m(A, B) et d(A, B), une paire de valeurs individuelles (A, B) est attribuée. Dans le vecteur b(A, B), A et B ont les mêmes valeurs, alors que dans le vecteur d(A, B), les deux ont des valeurs différentes).

On dit que les deux valeurs individuelles de A et B suivent le critère de Condorcet comme suit :

c(A, B) = m(A, B)- d(A, B)

Pour une valeur individuelle comme A et un cluster appelé S, le critère de Condorcet s'écrit :

c(A,S) = Σ je c(A,B je )

La sommation globale est Bi ∈ S.

Les conditions ci-dessus étant remplies, des clusters de la forme c(A, S) sont construits. A peut avoir la plus petite valeur de 0 et est le plus grand de tous les points de données du cluster.

Enfin, le critère global de Condorcet est calculé. Cela se fait en effectuant une sommation des points de données individuels présents dans A et le cluster S A qui les contient.

Les étapes ci-dessus sont répétées jusqu'à ce que le critère global de Condorcet ne s'améliore pas ou que le plus grand nombre d'itérations soit atteint.

3. regroupement de k-moyennes

C'est l'un des algorithmes de partitionnement les plus populaires. Toutes les données disponibles (également appelées points de données/observations parfois) seront regroupées dans ces groupes uniquement. Voici une ventilation de la façon dont l'algorithme procède:

  1. Sélectionnez k clusters au hasard. Ces k lignes signifieront également trouver k centroïdes pour chaque cluster.
  2. Chaque point de données est ensuite affecté au centroïde le plus proche de lui.
  3. Au fur et à mesure que de plus en plus de points de données sont attribués, les centroïdes sont recalculés comme la moyenne de tous les points de données (en cours) ajoutés.
  4. Continuez à attribuer des points de données et à déplacer le centroïde au besoin.
  5. Répétez les étapes 3 et 4 jusqu'à ce qu'aucun point de données ne change de cluster.

La distance entre un point de données et un centroïde est calculée à l'aide de l'une des méthodes suivantes :

  1. Distance euclidienne
  2. Manhattan distance
  3. Distance Minlowski

La plus populaire d'entre elles - la distance euclidienne - est calculée comme suit :

Chaque fois que l'algorithme est exécuté, différents groupes sont renvoyés en conséquence. La toute première affectation à la variable k est complètement aléatoire. Cela rend k-means très sensible au premier choix. En conséquence, il devient presque impossible d'obtenir le même regroupement à moins que le nombre de groupes et d'observations globales ne soit petit.

Comment attribuer une valeur à Au début, nous attribuerons au hasard une valeur à k qui dictera la direction dans laquelle les résultats se dirigent. Pour s'assurer que le meilleur choix est fait, il est utile de garder à l'esprit la formule suivante :

Ici, n est le nombre de points de données dans l'ensemble de données.

Indépendamment de la présence d'une formule, le nombre de clusters dépendrait fortement de la nature de l'ensemble de données, de l'industrie et de l'entreprise auxquelles il appartient, etc. Par conséquent, il est conseillé de tenir également compte de sa propre expérience et de son intuition.

Avec la mauvaise taille de cluster, le regroupement peut ne pas être aussi efficace et peut conduire à un surajustement. En raison du surajustement, de nouveaux points de données pourraient ne pas être en mesure de trouver une place dans le cluster car l'algorithme a évité les petits détails et toute généralisation est perdue.

Applications de l'analyse de cluster

Alors, où sont exactement utilisées les puissantes méthodes de clustering ? Nous avons brièvement mentionné quelques exemples ci-dessus. Voici quelques exemples supplémentaires :

La médecine et la santé

Sur la base de l'âge et de la constitution génétique des patients, les médecins sont en mesure de fournir un meilleur diagnostic. Cela conduit finalement à un traitement plus bénéfique et aligné. De nouveaux médicaments peuvent également être découverts de cette façon. Le regroupement en médecine est appelé nosologie.

Sociologie

Dans les sphères sociales, le regroupement des personnes sur la base de la démographie, de l'âge, de la profession, du lieu de résidence, etc. aide le gouvernement à appliquer les lois et à élaborer des politiques adaptées à divers groupes.

Commercialisation

En marketing, le terme clustering est remplacé par segmentation/analyse typologique. Il est utilisé pour explorer et sélectionner les acheteurs potentiels d'un produit particulier. Les entreprises testent ensuite les éléments de chaque cluster pour savoir quels clients affichent un comportement favorable à la fidélisation.

Cyber-profilage

En tant qu'entrée pour l'algorithme de regroupement qui sera implémenté ici, les pages Web passées consultées par un utilisateur sont saisies. Ces pages Web sont ensuite regroupées. Au final, un profil de l'utilisateur, basé sur son activité de navigation, est généré. De la personnalisation à la cybersécurité, ce résultat peut être exploité partout.

Vendre au détail

Les points de vente bénéficient également du regroupement des clients en fonction de l'âge, des préférences de couleur, des préférences de style, des achats antérieurs, etc. Cela aide les détaillants à créer des expériences personnalisées et à planifier les offres futures alignées sur les désirs des clients.

Conclusion

Comme il est évident, l'analyse par grappes est une méthode très précieuse, quel que soit le langage ou l'environnement dans lequel elle est mise en œuvre. Que l'on veuille en tirer des informations, dégager des modèles ou se tailler des profils, l'analyse par grappes est un outil très utile avec des résultats qui peuvent être pratiquement mis en œuvre. La maîtrise des différents algorithmes de clustering peut conduire à effectuer une analyse de données précise et vraiment précieuse.

Apprenez des cours de science des données dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Préparez-vous à une carrière d'avenir

DIPLÔME PG DE L'IIIT-B, PLUS DE 100 HEURES D'APPRENTISSAGE EN CLASSE, PLUS DE 400 HEURES D'APPRENTISSAGE EN LIGNE ET UN SOUTIEN CARRIÈRE À 360 DEGRÉS
Apprendre encore plus