Clustering beim maschinellen Lernen: 3 Arten von Clustering erklärt

Veröffentlicht: 2020-11-30

Inhaltsverzeichnis

Einführung

Maschinelles Lernen ist eine der heißesten Technologien im Jahr 2020, da die Daten von Tag zu Tag zunehmen, steigt auch der Bedarf an maschinellem Lernen exponentiell. Maschinelles Lernen ist ein sehr umfangreiches Thema, das in jeder Domäne und Branche unterschiedliche Algorithmen und Anwendungsfälle hat. Eines davon ist Unsupervised Learning, bei dem wir die Verwendung von Clustering sehen können.

Unüberwachtes Lernen ist eine Technik, bei der die Maschine aus unbeschrifteten Daten lernt. Da wir die Labels nicht kennen, gibt es keine richtige Antwort für die Maschine, um daraus zu lernen, aber die Maschine selbst findet einige Muster aus den gegebenen Daten, um die Antworten auf das Geschäftsproblem zu finden.

Clustering ist eine Technik des maschinellen, nicht überwachten Lernens, bei der bestimmte unbeschriftete Daten gruppiert werden. In jedem bereinigten Datensatz können wir mithilfe des Clustering-Algorithmus die angegebenen Datenpunkte in jeder Gruppe gruppieren. Der Clustering-Algorithmus geht davon aus, dass die Datenpunkte, die sich in demselben Cluster befinden, ähnliche Eigenschaften haben sollten, während Datenpunkte in verschiedenen Clustern sehr unterschiedliche Eigenschaften haben sollten.

In diesem Artikel lernen wir die Notwendigkeit des Clusterings, verschiedene Arten des Clusterings sowie ihre Vor- und Nachteile kennen.

Lesen Sie: Voraussetzung für maschinelles Lernen

Was ist die Notwendigkeit von Clustering?

Clustering ist ein weit verbreiteter ML-Algorithmus, der es uns ermöglicht, versteckte Beziehungen zwischen den Datenpunkten in unserem Datensatz zu finden.

Beispiele:

1) Kunden werden nach Ähnlichkeiten der bisherigen Kunden segmentiert und können für Empfehlungen herangezogen werden.

2) Basierend auf einer Sammlung von Textdaten können wir die Daten nach inhaltlichen Ähnlichkeiten organisieren, um eine Themenhierarchie zu erstellen.

3) Bildverarbeitung hauptsächlich in der Biologieforschung zur Identifizierung der zugrunde liegenden Muster.

4) Spam-Filterung.

5) Identifizierung betrügerischer und krimineller Aktivitäten.

6) Es kann auch für Fantasy-Fußball und Sport verwendet werden.

Arten von Clustering

Es gibt viele Arten von Clustering-Algorithmen beim maschinellen Lernen. Wir werden die folgenden drei Algorithmen in diesem Artikel diskutieren:

1) K-Means-Clustering.

2) Mean-Shift-Clustering.

3) DBSCAN.

1. K-Means-Clustering

K-Means ist der beliebteste Clustering-Algorithmus unter den anderen Clustering-Algorithmen im maschinellen Lernen. Wir sehen diesen Algorithmus in vielen Top-Branchen oder sogar in vielen Einführungskursen verwendet. Es ist eines der einfachsten Modelle, mit denen man sowohl in der Implementierung als auch im Verständnis beginnen kann.

Schritt-1 Wir wählen zuerst eine zufällige Anzahl von k zur Verwendung aus und initialisieren zufällig ihre jeweiligen Mittelpunkte.

Schritt-2 Jeder Datenpunkt wird dann klassifiziert, indem der Abstand (euklidisch oder Manhattan) zwischen diesem Punkt und jedem Gruppenzentrum berechnet wird und dann der Datenpunkt so geclustert wird, dass er in dem Cluster liegt, dessen Zentrum ihm am nächsten ist.

Schritt-3 Wir berechnen das Gruppenzentrum neu, indem wir den Mittelwert aller Vektoren in der Gruppe nehmen.

Schritt 4 Wir wiederholen alle diese Schritte für eine Reihe von Iterationen oder bis sich die Gruppenzentren nicht mehr stark ändern.

Vorteile

1) Sehr schnell.

2) Sehr wenige Berechnungen

3) Lineare Komplexität O(n).

Nachteile

1) Auswahl des k-Wertes.

2) Verschiedene Clustering-Zentren in verschiedenen Läufen.

3) Mangel an Konsistenz.

2. Mean-Shift-Clustering

Mean-Shift-Clustering ist ein Sliding-Window-basierter Algorithmus, der versucht, die dichten Bereiche der Datenpunkte zu identifizieren. Da es sich um einen zentroidbasierten Algorithmus handelt, bedeutet dies, dass das Ziel darin besteht, die Mittelpunkte jeder Klasse zu lokalisieren, die wiederum weiterarbeitet, indem Kandidaten für Mittelpunkte aktualisiert werden, damit sie der Mittelwert der Punkte im Gleitfenster sind.

Diese ausgewählten Kandidatenfenster werden dann in einer Nachverarbeitungsstufe gefiltert, um Duplikate zu eliminieren, was bei der Bildung des endgültigen Satzes von Zentren und ihren entsprechenden Klassen hilft.

Schritt-1 Wir beginnen mit einem kreisförmigen Gleitfenster, das an einem Punkt C (zufällig ausgewählt) zentriert ist und den Radius r als Kern hat. Mean Shift ist ein Hill-Climbing-Algorithmus, bei dem dieser Kernel bei jedem Schritt iterativ in einen Bereich mit höherer Dichte verschoben wird, bis wir eine Konvergenz erreichen.

Schritt-2 Nach jeder Iteration wird das gleitende Fenster zu Regionen höherer Dichte hin verschoben, indem der Mittelpunkt auf den Mittelwert der Punkte innerhalb des Fensters verschoben wird. Die Dichte innerhalb des gleitenden Fensters wird mit der Erhöhung der Anzahl von Punkten darin erhöht. Das Verschieben des Mittelwerts der Punkte im Fenster bewegt sich allmählich zu Bereichen mit höherer Punktdichte.

Schritt 3 In diesem Schritt verschieben wir das gleitende Fenster basierend auf dem Mittelwert weiter, bis es keine Richtung gibt, in der eine Verschiebung mehr Punkte innerhalb des ausgewählten Kernels erhalten kann.

Schritt-4 Die Schritte 1-2 werden mit vielen Gleitfenstern durchgeführt, bis alle Punkte innerhalb eines Fensters liegen. Wenn mehrere Gleitfenster dazu neigen, sich zu überlappen, wird das Fenster mit den meisten Punkten ausgewählt. Die Datenpunkte werden nun gemäß dem gleitenden Fenster, in dem sie sich befinden, geclustert.

Vorteile

1) Die Anzahl der Cluster muss nicht ausgewählt werden.

2) Passt gut in einem natürlich datengetriebenen Sinne

Nachteile

1) Der einzige Nachteil ist, dass die Auswahl der Fenstergröße (r) nicht trivial sein kann.

3. Dichtebasiertes räumliches Clustering von Anwendungen mit Rauschen (DBSCAN)

DBSCAN ist wie Mean-Shift-Clustering, das ebenfalls ein dichtebasierter Algorithmus mit einigen Änderungen ist.

Schritt-1 Es beginnt mit einem willkürlichen Startpunkt, die Nachbarschaft dieses Punktes wird unter Verwendung einer Entfernung extrahiert, die als Epsilon bezeichnet wird.

Schritt-2 Das Clustering beginnt, wenn genügend Punkte vorhanden sind und der Datenpunkt der erste neue Punkt in einem Cluster wird. Wenn keine ausreichenden Daten vorhanden sind, wird der Punkt als Rauschen gekennzeichnet und der Punkt wird als besucht markiert.

Schritt-3 Die Punkte innerhalb des Epsilon neigen dazu, Teil des Clusters zu werden. Dieses Verfahren wird an allen Punkten innerhalb des Clusters wiederholt.

Schritt-4 Die Schritte 2 und 3 werden wiederholt, bis die Punkte im Cluster besucht und markiert sind.

Schritt-5 Beim Vervollständigen des aktuellen Clusters wird ein neuer unbesuchter Punkt zu einem neuen Cluster verarbeitet, was dazu führt, dass er als Cluster oder als Rauschen klassifiziert wird.

Vorteile

1) Die Anzahl der Cluster muss nicht eingestellt werden.

2) Definiert Ausreißer als Rauschen.

3) Hilft, die beliebig großen und beliebig geformten Cluster recht gut zu finden.

Nachteile

1) Funktioniert nicht gut bei Clustern mit unterschiedlicher Dichte.

2) Funktioniert nicht gut mit hochdimensionalen Daten.

Lesen Sie auch: Projektideen für maschinelles Lernen

Fazit

In diesem Artikel haben wir die Notwendigkeit von Clustering auf dem aktuellen Markt, verschiedene Arten von Clustering-Algorithmen sowie ihre Vor- und Nachteile kennengelernt. Clustering ist wirklich ein sehr interessantes Thema im maschinellen Lernen, und es gibt so viele andere Arten von Clustering-Algorithmen, die es wert sind, gelernt zu werden.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Was versteht man unter Gaußscher Mischungs-Clusterbildung?

Gaußsche Mischungsmodelle werden normalerweise im Fall von Abfragedaten verwendet, um entweder hartes oder weiches Clustering durchzuführen. Die Gaußschen Mischungsmodelle machen einige Annahmen, um das Clustering gut durchzuführen. Basierend auf den Annahmen gruppiert das Modell die Datenpunkte, die zu einer einzigen Verteilung gehören. Dies sind probabilistische Modelle, und sie verwenden einen weichen Clustering-Ansatz, um den Clustering-Prozess effizient auszuführen.

Was ist der Silhouettenkoeffizient beim Clustering?

Um zu messen, wie gut das Clustering durchgeführt wurde, verwenden wir den Silhouettenkoeffizienten. Grundsätzlich wird der durchschnittliche Abstand zwischen zwei Clustern gemessen und dann die Silhouettenbreite mit einer Formel berechnet. Auf diese Weise können wir leicht die optimale Anzahl von Clustern messen, die in den gegebenen Daten vorhanden sind, und so die Effizienz des durchgeführten Clusterings herausfinden.

Was versteht man unter Fuzzy-Clustering beim maschinellen Lernen?

Wenn die gegebenen Daten unter mehr als einen Cluster oder eine Gruppe fallen, wird ein Fuzzy-Clustering-Verfahren verwendet, das mit einem Fuzzy-C-Mean-Algorithmus oder einem Fuzzy-K-Mean-Algorithmus arbeitet. Es ist eine weiche Clustering-Methode. Entsprechend dem Abstand zwischen dem Clusterzentrum und dem Bildpunkt ordnet das Verfahren jedem Bildpunkt, der jedem Clusterzentrum zugeordnet ist, Zugehörigkeitswerte zu.