Mesures de distance à Mahout : 3 principaux types de mesures [2022]

Publié: 2021-01-07

Mahout est un projet open source de l'Apache Software Foundation que les data scientists utilisent pour créer des algorithmes d'apprentissage automatique distribués ou évolutifs. Mahout se concentre principalement sur l'algèbre linéaire et ses algorithmes sont écrits au-dessus de l'infrastructure Hadoop. Certaines des techniques d'exploration de données populaires mises en œuvre par ce framework incluent la recommandation, la classification et le clustering. Les mesures de distance dans Mahout sont un sujet essentiel à apprendre pour les problèmes de clustering.

Depuis que Mahout fournit aux codeurs une structure prête à l'emploi et permet une gestion rapide et efficace des données en masse, il est devenu l'un des meilleurs projets d'Apache. Et diverses entreprises comme Twitter, Facebook, LinkedIn, Adobe, Yahoo, etc. l'utilisent pour leurs tâches internes d'exploration de données.

En savoir plus : 12 applications d'exploration de données les plus utiles

Table des matières

Que sont les mesures de distance ?

Comme son nom l'indique, il s'agit d'une mesure de la distance entre les points de données. Les mesures de distance dans Mahout calculent la proximité de deux vecteurs arbitraires et indiquent la similitude entre les points. Considérons maintenant quelques exemples.

  • Supposons que vous dirigez une compagnie de téléphone et que vous souhaitiez mettre en place un réseau de tours dans une certaine région. Pour assurer une force de signal optimale, vous devez déterminer les emplacements pour ériger les tours.
  • L'administration régionale veut ouvrir une série de services publics d'urgence. L'emplacement de ces unités dans la région devrait être tel qu'elles se trouvent à proximité des zones sujettes aux accidents.
  • Pour une application efficace de la loi et une surveillance stricte dans les zones à taux de criminalité élevé, vous pouvez évaluer le voisinage dans lequel les fourgons de patrouille doivent être stationnés.

Dans tous ces scénarios, vous pouvez voir que les mesures de distance sont au cœur des algorithmes de clustering. Dans les problèmes d'apprentissage non supervisé, ce calcul constitue l'un des facteurs les plus cruciaux pour la prise de décision. Votre choix concernant la technique de mesure de la distance influencera dans une large mesure les résultats.

De plus, vous n'avez pas besoin d'utiliser les techniques disponibles dans la bibliothèque Mahout. Vous pouvez également appliquer une méthode personnalisée pour trouver des métriques de distance basées sur le contexte de vos données ou de votre algorithme spécifique. Tout ce que vous avez à faire est d'implémenter une logique mathématique pour les points vectoriels et d'attribuer une valeur pour déterminer si cette implémentation relève d'un centroïde particulier. Le centre d'un cluster est appelé centroïde.

Apprenez-en plus à propos de : Les meilleures entreprises qui embauchent des data scientists en Inde

Réviser les bases du clustering

Avant de nous plonger dans les différentes catégories, rafraîchissons d'abord nos bases sur le clustering. Les clusters sont essentiellement des groupes de similarité ou de dissemblance d'instances de données. Voici quelques applications réelles.

  • Les spécialistes du marketing peuvent utiliser le clustering pour segmenter les clients et exécuter une stratégie marketing ciblée.
  • En tant que fabricant de vêtements, vous souhaiterez peut-être regrouper les personnes en fonction de tailles de t-shirts similaires, telles que "Small", "Medium" et "Large". Une approche unique ne fonctionne pas à chaque fois. Et les t-shirts personnalisés pour chaque personne peuvent coûter cher.
  • Dans les systèmes de gestion de bibliothèque, le regroupement est utilisé pour organiser les livres et les documents en fonction de leurs similitudes de contenu.
  • Dans une base de données d'observation de la Terre, le regroupement peut aider à identifier les zones ayant une utilisation similaire des terres.
  • En biologie, le regroupement peut être utilisé pour catégoriser les gènes ayant des fonctionnalités similaires et comprendre les structures inhérentes à différentes populations végétales et animales.

De plus, de vastes volumes de données sont générés et utilisés chaque jour à l'ère numérique. Par conséquent, le clustering est l'une des techniques d'exploration de données les plus utilisées en raison de la commodité qu'il offre.

La qualité du clustering est déterminée par deux aspects principaux - l'algorithme de clustering et la fonction de distance.

  • Algorithme de clustering (partitionnel, hiérarchique, etc.)
  • Fonction de distance (similarité ou dissimilitude)

Maintenant que nous avons révisé les concepts fondamentaux, passons aux différents types de mesures de distance disponibles dans Apache Mahout.

Lire : Analyse de cluster dans l'exploration de données

Mesures de distance à Mahout

Mesure de distance cosinus

Ce type de mesure de distance est le mieux adapté pour trouver la similarité du texte. Étant donné une collection de documents texte, il peut produire une hiérarchie de sujets en les regroupant à l'aide des mots courants les plus pondérés.

La mesure de distance cosinus utilise l'algorithme TF-IDF pour convertir les attributs en vecteurs. Et les poids des vecteurs sont plus élevés pour les mots du sujet que pour les mots vides. Ainsi, des documents similaires ont des mots de sujet communs entre eux. En conséquence, le vecteur centroïde (ou le centre du cluster) a un poids moyen plus élevé pour les mots du sujet.

L'une des applications les plus populaires est le classement des pages ou les résumés de recherche que vous rencontrez sur les pages Google. L'algorithme forme d'abord des clusters, puis trouve le centroïde. Cette procédure est également utile pour la découverte d'informations dans les applications d'IA telles que Siri et Alexa.

Mesure de distance inter-cluster

C'est la distance entre les objets appartenant à deux clusters distincts. La mesure de distance inter-cluster est appropriée pour évaluer la qualité de votre cluster. Si les centroïdes sont trop proches les uns des autres, cela entravera le processus de création de groupes avec des fonctionnalités similaires. Par conséquent, il devient essentiel d'établir des distinctions claires entre les membres du cluster. L'objectif global est de partitionner ou de segmenter les points de données en clusters spécifiques.

Lire la suite : Analyse de cluster dans R

Mesure de distance intra-cluster

Cette mesure vous donne la distance entre deux membres du même cluster. C'est donc l'opposé de la mesure de distance inter-cluster. Les distances intra-cluster sont plus petites que les distances inter-cluster. De petites mesures de distance entre des objets similaires indiquent que les clusters sont serrés et discriminés de manière fiable les uns des autres.

Ce type de métrique de distance dépend de deux choses : i) une pénalité pour les objets plus éloignés ii) une valeur plus petite pour les objets plus proches. Et les clusters qui sont plus séparés ont un rapport élevé de ces deux valeurs.

Examinons maintenant la démonstration suivante des mesures de distance de similarité dans l'analyse par grappes.

Un service de messagerie peut créer différentes « zones de livraison » en regroupant les emplacements qui ont une distance minimale entre eux. De cette façon, l'algorithme facilite une livraison rapide et efficace par le personnel. Notre tâche consiste à optimiser la distance entre les points centroïdes des clusters, à minimiser la variance intra-cluster et à garantir que les ensembles de données présentant les caractéristiques les plus similaires sont regroupés.

Apprenez des cours de science des données dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Emballer

Avec cela, nous avons expliqué le concept de mesures de distance dans Mahout . Et maintenant que vous avez compris l'essentiel de cet important outil de big data, vous pouvez facilement l'élucider dans n'importe quel entretien d'embauche. De plus, une compréhension claire des différentes mesures de distance vous aiderait à atteindre la précision lors de la mise en œuvre des algorithmes de clustering.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Qu'est-ce que l'analyse typologique et quelles sont ses caractéristiques ?

Un processus dans lequel nous définissons un objet sans l'étiqueter est connu sous le nom d'analyse de cluster. Il utilise l'exploration de données pour regrouper divers objets similaires en un seul cluster, tout comme dans l'analyse discriminante. Ses applications incluent la reconnaissance de formes, l'analyse d'informations, l'analyse d'images, l'apprentissage automatique, l'infographie et divers autres domaines.
L'analyse de cluster est une tâche qui est effectuée à l'aide de plusieurs autres algorithmes qui sont différents les uns des autres à bien des égards et créent ainsi un cluster.
Voici quelques-unes des caractéristiques de l'analyse de cluster - L'analyse de cluster est hautement évolutive. Il peut traiter un ensemble différent d'attributs. Il montre une grande dimensionnalité, interprétabilité.

Contribuer à des projets open source en vaut-il la peine ?

Les projets open source sont les projets dont le code source est ouvert à tous et n'importe qui peut y accéder pour y apporter des modifications. Contribuer à des projets open-source est très bénéfique car non seulement cela aiguise vos compétences, mais vous donne également de grands projets à mettre sur votre CV.
Comme de nombreuses grandes entreprises se tournent vers les logiciels open source, il sera avantageux pour vous si vous commencez à contribuer tôt. Certains grands noms comme Microsoft, Google, IBM et Cisco ont adopté l'open source d'une manière ou d'une autre.
Il existe une grande communauté de développeurs open source compétents qui contribuent constamment à améliorer et à mettre à jour le logiciel. La communauté est très conviviale pour les débutants et toujours prête à intensifier et à accueillir de nouveaux contributeurs. Il existe également une bonne quantité de documentation qui peut vous guider dans votre contribution à l'open source.

Différencier les méthodes univariées et multivariées.

La méthode univariée est la méthode la plus simple pour traiter une valeur aberrante. Il ne passe en revue aucune relation puisqu'il s'agit d'une seule variable et son objectif principal est d'analyser les données et de déterminer le modèle qui y est associé. La moyenne, la médiane et le mode sont des exemples de modèles trouvés dans les données univariées.
D'autre part, la méthode multivariée consiste à analyser trois variables ou plus. Elle est plus précise que la méthode précédente puisque, contrairement à la méthode univariée, la méthode multivariée traite des relations et des modèles. L'arbre additif, l'analyse de corrélation canonique et l'analyse de cluster sont quelques-unes des façons d'effectuer une analyse multivariée.