Entfernungsmaße in Mahout: Top 3 Maßarten [2022]

Veröffentlicht: 2021-01-07

Mahout ist ein Open-Source-Projekt der Apache Software Foundation, das Datenwissenschaftler verwenden, um verteilte oder skalierbare Algorithmen für maschinelles Lernen zu erstellen. Mahout konzentriert sich hauptsächlich auf lineare Algebra und seine Algorithmen werden auf der Hadoop-Infrastruktur geschrieben. Zu den beliebten Data-Mining-Techniken, die von diesem Framework implementiert werden, gehören Empfehlung, Klassifizierung und Clustering. Distanzmaße in Mahout sind ein wesentliches Lernthema für Clustering-Probleme.

Da Mahout Programmierern eine gebrauchsfertige Struktur bietet und eine schnelle und effektive Verwaltung von Massendaten ermöglicht, ist es zu einem der Top-Projekte von Apache geworden. Und verschiedene Unternehmen wie Twitter, Facebook, LinkedIn, Adobe, Yahoo usw. verwenden es für ihre internen Data-Mining-Aufgaben.

Mehr wissen: 12 nützlichste Data-Mining-Anwendungen

Inhaltsverzeichnis

Was sind Abstandsmaße?

Wie der Name schon sagt, ist es ein Maß für den Abstand zwischen Datenpunkten. Abstandsmaße in Mahout berechnen, wie nahe zwei beliebige Vektoren beieinander liegen, und zeigen die Ähnlichkeit zwischen den Punkten an. Betrachten wir nun einige Beispiele.

Angenommen, Sie betreiben eine Telefongesellschaft und möchten in einer bestimmten Region ein Netz von Sendemasten errichten. Um eine optimale Signalstärke zu gewährleisten, müssen Sie die Standorte für die Errichtung der Türme festlegen.
Die Landesverwaltung will eine Reihe von öffentlichen Notaufnahmestationen eröffnen. Die Standorte dieser Einheiten in der Region sollten so sein, dass sie in der Nähe der unfallgefährdeten Gebiete liegen.
Für eine effektive Strafverfolgung und strenge Überwachung in Gebieten mit hoher Kriminalitätsrate können Sie die Umgebung auswerten, in der die Streifenwagen stationiert werden sollten.

In all diesen Szenarien können Sie sehen, dass Distanzmaße den Kern von Clustering-Algorithmen bilden. Bei unüberwachten Lernproblemen bildet diese Berechnung einen der wichtigsten Faktoren für die Entscheidungsfindung. Ihre Wahl der Entfernungsmesstechnik würde die Ergebnisse stark beeinflussen.

Außerdem müssen Sie die in der Mahout-Bibliothek verfügbaren Techniken nicht verwenden. Sie können auch eine benutzerdefinierte Methode anwenden, um Entfernungsmetriken zu ermitteln, die auf dem Kontext Ihrer spezifischen Daten oder Algorithmen basieren. Alles, was Sie tun müssen, ist, mathematische Logik für die Vektorpunkte zu implementieren und einen Wert zuzuweisen, um zu bestimmen, ob diese Implementierung in einen bestimmten Schwerpunkt fällt. Das Zentrum eines Clusters wird als Zentroid bezeichnet.

Erfahren Sie mehr über: Top-Unternehmen, die Data Scientists in Indien einstellen

Clustering-Grundlagen auffrischen

Bevor wir uns mit den verschiedenen Kategorien befassen, wollen wir zunächst unsere Grundlagen zum Thema Clustering auffrischen. Cluster sind grundsätzlich Ähnlichkeits- oder Unähnlichkeitsgruppen von Dateninstanzen. Hier sind einige reale Anwendungen.

Vermarkter können Clustering verwenden, um Kunden zu segmentieren und eine gezielte Marketingstrategie umzusetzen.
Als Bekleidungshersteller möchten Sie möglicherweise Personen nach ähnlichen T-Shirt-Größen gruppieren, z. B. „Klein“, „Mittel“ und „Groß“. Ein One-Size-Fits-All-Ansatz funktioniert nicht immer. Und maßgeschneiderte T-Shirts für jede Person können teuer sein.
In Bibliotheksverwaltungssystemen wird Clustering verwendet, um Bücher und Dokumente nach inhaltlichen Ähnlichkeiten zu organisieren.
In einer Erdbeobachtungsdatenbank kann Clustering dabei helfen, Gebiete mit ähnlicher Landnutzung zu identifizieren.
In der Biologie kann Clustering verwendet werden, um Gene mit ähnlicher Funktionalität zu kategorisieren und Strukturen zu verstehen, die verschiedenen Pflanzen- und Tierpopulationen innewohnen.

Darüber hinaus werden im digitalen Zeitalter täglich riesige Datenmengen generiert und genutzt. Daher ist Clustering aufgrund der Bequemlichkeit, die es bietet, eine der am weitesten verbreiteten Data-Mining-Techniken.

Die Qualität des Clustering wird durch zwei Hauptaspekte bestimmt – den Clustering-Algorithmus und die Distanzfunktion.

Clustering-Algorithmus (partitional, hierarchisch usw.)
Abstandsfunktion (Ähnlichkeit oder Unähnlichkeit)

Nachdem wir nun die grundlegenden Konzepte überarbeitet haben, wollen wir uns den verschiedenen Arten von Entfernungsmessungen zuwenden, die in Apache Mahout verfügbar sind.

Lesen Sie: Clusteranalyse im Data Mining

Abstandsmaße in Mahout

Kosinus-Abstandsmaß

Diese Art von Abstandsmaß eignet sich am besten zum Auffinden von Textähnlichkeiten. Bei einer gegebenen Sammlung von Textdokumenten kann es eine Themenhierarchie erzeugen, indem es sie unter Verwendung der am höchsten gewichteten gemeinsamen Wörter gruppiert.

Das Kosinus-Distanzmaß verwendet den TF-IDF-Algorithmus, um Attribute in Vektoren umzuwandeln. Und die Vektorgewichte sind für die Themenwörter höher als für Stoppwörter. Ähnliche Dokumente haben also gemeinsame Themenwörter. Als Ergebnis hat der Zentroidvektor (oder das Clusterzentrum) ein höheres durchschnittliches Gewicht für Themenwörter.

Eine der beliebtesten Anwendungen sind die Seitenrankings oder Suchzusammenfassungen, denen Sie auf Google-Seiten begegnen. Der Algorithmus bildet zuerst Cluster und findet dann den Schwerpunkt. Dieses Verfahren ist auch nützlich für die Informationssuche in KI-Anwendungen wie Siri und Alexa.

Abstandsmessung zwischen Clustern

Es ist der Abstand zwischen den Objekten, die zu zwei getrennten Clustern gehören. Das Inter-Cluster-Distanzmaß ist geeignet, um die Qualität Ihres Clusters zu bewerten. Wenn die Schwerpunkte zu nahe beieinander liegen, behindert dies den Prozess der Erstellung von Gruppen mit ähnlichen Merkmalen. Daher ist es wichtig, klare Unterscheidungen zwischen den Clustermitgliedern zu treffen. Das übergeordnete Ziel besteht darin, die Datenpunkte in bestimmte Cluster zu partitionieren oder zu segmentieren.

Weiterlesen: Clusteranalyse in R

Intra-Cluster-Abstandsmessung

Dieses Maß gibt Ihnen den Abstand zwischen zwei Mitgliedern desselben Clusters an. Es ist also das Gegenteil des Inter-Cluster-Abstandsmaßes. Intra-Cluster-Abstände sind kleiner im Vergleich zu Inter-Cluster-Abständen. Kleine Abstandsmaße zwischen ähnlichen Objekten zeigen an, dass Cluster eng sind und zuverlässig voneinander unterschieden werden.

Diese Art von Entfernungsmetrik hängt von zwei Dingen ab: i) Strafe für weiter entfernte Objekte ii) kleinerer Wert für nähere Objekte. Und stärker getrennte Cluster weisen ein hohes Verhältnis dieser beiden Werte auf.

Betrachten wir nun die folgende Demonstration von Ähnlichkeitsabstandsmaßen in der Clusteranalyse.

Ein Kurierdienst kann verschiedene "Lieferzonen" erstellen, indem er die Orte gruppiert, die eine minimale Entfernung zwischen sich haben. Auf diese Weise erleichtert der Algorithmus eine schnelle und effektive Lieferung durch das Personal. Unsere Aufgabe ist es, den Abstand zwischen den Schwerpunktpunkten der Cluster zu optimieren, die Intra-Cluster-Varianz zu minimieren und sicherzustellen, dass die Datensätze mit den ähnlichsten Merkmalen zusammen geclustert werden.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Einpacken

Damit haben wir das Konzept der Distanzmaße in Mahout erklärt . Und jetzt, da Sie den Kern dieses wichtigen Big-Data-Tools kennen, können Sie es in jedem Vorstellungsgespräch leicht erläutern. Ein klares Verständnis der verschiedenen Distanzmaße würde Ihnen auch dabei helfen, bei der Implementierung von Clustering-Algorithmen Genauigkeit zu erreichen.

Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was ist Clusteranalyse und was sind ihre Merkmale?

Ein Prozess, bei dem wir ein Objekt definieren, ohne es zu kennzeichnen, wird als Clusteranalyse bezeichnet. Es verwendet Data Mining, um verschiedene ähnliche Objekte in einem einzigen Cluster zu gruppieren, genau wie bei der Diskriminanzanalyse. Seine Anwendungen umfassen Mustererkennung, Informationsanalyse, Bildanalyse, maschinelles Lernen, Computergrafik und verschiedene andere Bereiche.
Die Clusteranalyse ist eine Aufgabe, die mit mehreren anderen Algorithmen durchgeführt wird, die sich in vielerlei Hinsicht voneinander unterscheiden und so einen Cluster bilden.
Im Folgenden sind einige der Merkmale der Clusteranalyse aufgeführt: Die Clusteranalyse ist hochgradig skalierbar. Es kann mit einem anderen Satz von Attributen umgehen. Es zeigt eine hohe Dimensionalität, Interpretierbarkeit.

Lohnt es sich, an Open-Source-Projekten mitzuwirken?

Open-Source-Projekte sind Projekte, deren Quellcode für alle offen ist und jeder darauf zugreifen kann, um Änderungen daran vorzunehmen. Das Mitwirken an Open-Source-Projekten ist sehr vorteilhaft, da es nicht nur Ihre Fähigkeiten schärft, sondern Ihnen auch einige große Projekte ermöglicht, die Sie in Ihren Lebenslauf aufnehmen können.
Da viele große Unternehmen auf Open-Source-Software umsteigen, wird es für Sie profitabel sein, wenn Sie frühzeitig mit Ihrer Arbeit beginnen. Einige der großen Namen wie Microsoft, Google, IBM und Cisco haben Open Source auf die eine oder andere Weise angenommen.
Es gibt eine große Community kompetenter Open-Source-Entwickler, die ständig dazu beitragen, die Software besser und aktualisiert zu machen. Die Community ist sehr anfängerfreundlich und immer bereit, sich zu verbessern und neue Mitwirkende willkommen zu heißen. Es gibt auch eine gute Menge an Dokumentation, die Ihnen den Weg weisen kann, zu Open Source beizutragen.

Unterscheiden Sie zwischen univariaten und multivariaten Verfahren.

Die univariate Methode ist die einfachste Methode, um einen Ausreißer zu behandeln. Es gibt keinen Überblick über eine Beziehung, da es sich um eine einzelne Variable handelt und ihr Hauptzweck darin besteht, die Daten zu analysieren und das damit verbundene Muster zu bestimmen. Mittelwert, Median und Modus sind Beispiele für Muster, die in den univariaten Daten gefunden werden.
Andererseits dient die multivariate Methode der Analyse von drei oder mehr Variablen. Sie ist genauer als die frühere Methode, da die multivariate Methode im Gegensatz zur univariaten Methode Beziehungen und Muster behandelt. Additiver Baum, kanonische Korrelationsanalyse und Clusteranalyse sind einige der Möglichkeiten, multivariate Analysen durchzuführen.