Was ist Clustering und verschiedene Arten von Clustering-Methoden?

Veröffentlicht: 2020-12-01

Stellen Sie sich vor, Sie befinden sich in einem Gespräch mit dem Chief Marketing Officer Ihrer Organisation. Die Organisation möchte die Kunden mithilfe von Daten besser verstehen, um ihre Geschäftsziele zu erreichen und den Kunden ein besseres Erlebnis zu bieten. Nun, dies ist eines der Szenarien, in denen Clustering zur Rettung kommt.

Inhaltsverzeichnis

Was ist Clustering?

Clustering ist eine Art unüberwachtes Lernverfahren des maschinellen Lernens. Beim Verfahren des unüberwachten Lernens werden die Schlüsse aus den Datensätzen gezogen, die keine beschrifteten Ausgabevariablen enthalten. Es handelt sich um eine explorative Datenanalysetechnik, die es uns ermöglicht, die multivariaten Datensätze zu analysieren.

Clustering ist eine Aufgabe, die Datensätze so in eine bestimmte Anzahl von Clustern aufzuteilen, dass die zu einem Cluster gehörenden Datenpunkte ähnliche Eigenschaften aufweisen. Cluster sind nichts anderes als die Gruppierung von Datenpunkten, sodass der Abstand zwischen den Datenpunkten innerhalb der Cluster minimal ist.

Mit anderen Worten, die Cluster sind Regionen, in denen die Dichte ähnlicher Datenpunkte hoch ist. Es wird im Allgemeinen für die Analyse des Datensatzes verwendet, um aufschlussreiche Daten in riesigen Datensätzen zu finden und daraus Rückschlüsse zu ziehen. Im Allgemeinen sind die Cluster in Kugelform zu sehen, dies ist jedoch nicht erforderlich, da die Cluster jede beliebige Form haben können. Erfahren Sie mehr über Clustering und weitere Data-Science-Konzepte in unserem Data-Science-Online-Kurs.

Es hängt von der Art des verwendeten Algorithmus ab, der entscheidet, wie die Cluster erstellt werden. Die Rückschlüsse, die aus den Datensätzen gezogen werden müssen, hängen auch vom Benutzer ab, da es kein Kriterium für eine gute Clusterbildung gibt.

Welche Arten von Clustering-Methoden gibt es?

Clustering selbst kann in zwei Typen eingeteilt werden, nämlich. Hartes Clustering und weiches Clustering. Beim harten Clustering kann ein Datenpunkt nur zu einem Cluster gehören. Aber beim weichen Clustering ist die bereitgestellte Ausgabe eine Wahrscheinlichkeitswahrscheinlichkeit eines Datenpunkts, der zu jeder der vordefinierten Anzahlen von Clustern gehört.

Dichtebasiertes Clustering

Bei diesem Verfahren werden die Cluster basierend auf der Dichte der Datenpunkte erstellt, die im Datenraum dargestellt werden. Die Regionen, die aufgrund der großen Anzahl von Datenpunkten, die sich in dieser Region befinden, dichter werden, werden als Cluster betrachtet.

Die Datenpunkte in der spärlichen Region (die Region, in der die Datenpunkte sehr gering sind) werden als Rauschen oder Ausreißer betrachtet. Die bei diesen Verfahren erzeugten Cluster können eine beliebige Form haben. Im Folgenden finden Sie Beispiele für dichtebasierte Clustering-Algorithmen:

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN gruppiert Datenpunkte basierend auf der Entfernungsmetrik und dem Kriterium für eine Mindestanzahl von Datenpunkten. Es braucht zwei Parameter – eps und minimale Punkte. Eps gibt an, wie nahe die Datenpunkte sein sollten, um als Nachbarn betrachtet zu werden. Das Kriterium für die Mindestpunktzahl sollte vervollständigt werden, um diese Region als eine dichte Region zu betrachten.

OPTICS (Ordnungspunkte zur Identifizierung der Clustering-Struktur)

Es ähnelt DBSCAN im Prozess, berücksichtigt jedoch einen der Nachteile des früheren Algorithmus, nämlich die Unfähigkeit, Cluster aus Daten beliebiger Dichte zu bilden. Es berücksichtigt zwei weitere Parameter, nämlich die Kernentfernung und die Erreichbarkeitsentfernung. Kernabstand gibt an, ob der betrachtete Datenpunkt Kern ist oder nicht, indem ein Mindestwert dafür festgelegt wird.

Die Erreichbarkeitsentfernung ist das Maximum der Kernentfernung und der Wert der Entfernungsmetrik, der zur Berechnung der Entfernung zwischen zwei Datenpunkten verwendet wird. Bei der Erreichbarkeitsentfernung ist zu beachten, dass ihr Wert nicht definiert bleibt, wenn einer der Datenpunkte ein Kernpunkt ist.

HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)

HDBSCAN ist ein dichtebasiertes Clustering-Verfahren, das die DBSCAN-Methodik erweitert, indem es sie in einen hierarchischen Clustering-Algorithmus umwandelt.

Hierarchisches Clustering

Hierarchisches Clustering gruppiert (agglomerativ oder auch als Bottom-Up-Ansatz bezeichnet) oder teilt (Divisive oder auch als Top-Down-Ansatz bezeichnet) die Cluster basierend auf den Distanzmetriken. Beim agglomerativen Clustering fungiert jeder Datenpunkt zunächst als Cluster und gruppiert dann die Cluster nacheinander.

Divisive ist das Gegenteil von Agglomerative, es beginnt mit allen Punkten in einem Cluster und teilt sie auf, um weitere Cluster zu erstellen. Diese Algorithmen erstellen eine Abstandsmatrix aller vorhandenen Cluster und führen die Verknüpfung zwischen den Clustern in Abhängigkeit von den Kriterien der Verknüpfung durch. Die Clusterbildung der Datenpunkte wird durch ein Dendrogramm dargestellt. Es gibt verschiedene Arten von Verknüpfungen: –

Ö Single Linkage : – Bei Single Linkage ist der Abstand zwischen den beiden Clustern der kürzeste Abstand zwischen Punkten in diesen beiden Clustern.

Ö Vollständige Verknüpfung : – Bei vollständiger Verknüpfung ist der Abstand zwischen den beiden Clustern der weiteste Abstand zwischen Punkten in diesen beiden Clustern.

Ö Durchschnittliche Verknüpfung : – Bei der durchschnittlichen Verknüpfung ist der Abstand zwischen den beiden Clustern der durchschnittliche Abstand jedes Punkts im Cluster zu jedem Punkt in einem anderen Cluster.

Lesen Sie: Gängige Beispiele für Data Mining.

Fuzzy-Clustering

Beim Fuzzy-Clustering ist die Zuordnung der Datenpunkte in einem der Cluster nicht entscheidend. Dabei kann ein Datenpunkt zu mehr als einem Cluster gehören. Es liefert das Ergebnis als die Wahrscheinlichkeit, dass der Datenpunkt zu jedem der Cluster gehört. Einer der beim Fuzzy-Clustering verwendeten Algorithmen ist das Fuzzy-c-means-Clustering.

Dieser Algorithmus ähnelt im Prozess dem K-Means-Clustering und unterscheidet sich in den Parametern, die an der Berechnung beteiligt sind, wie Fuzzifier- und Zugehörigkeitswerte.

Partitionierendes Clustering

Diese Methode ist eine der beliebtesten Methoden für Analysten, um Cluster zu erstellen. Beim Partitionierungs-Clustering werden die Cluster basierend auf den Eigenschaften der Datenpunkte partitioniert. Wir müssen die Anzahl der Cluster angeben, die für diese Clustering-Methode erstellt werden sollen. Diese Clustering-Algorithmen folgen einem iterativen Prozess, um die Datenpunkte zwischen Clustern basierend auf der Entfernung neu zuzuweisen. Die Algorithmen, die in diese Kategorie fallen, sind wie folgt: –

Ö K-Means-Clustering: – K-Means-Clustering ist einer der am häufigsten verwendeten Algorithmen. Es unterteilt die Datenpunkte in k Cluster basierend auf der Distanzmetrik, die für das Clustering verwendet wird. Der Wert von 'k' ist vom Benutzer festzulegen. Der Abstand wird zwischen den Datenpunkten und den Schwerpunkten der Cluster berechnet.

Der Datenpunkt, der dem Schwerpunkt des Clusters am nächsten liegt, wird diesem Cluster zugewiesen. Nach einer Iteration berechnet es die Schwerpunkte dieser Cluster erneut und der Prozess wird fortgesetzt, bis eine vordefinierte Anzahl von Iterationen abgeschlossen ist oder wenn sich die Schwerpunkte der Cluster nach einer Iteration nicht ändern.

Es ist ein sehr rechenintensiver Algorithmus, da er den Abstand jedes Datenpunkts mit den Schwerpunkten aller Cluster bei jeder Iteration berechnet. Dies macht es schwierig, dasselbe für große Datensätze zu implementieren.

PAM (Partitionieren um Medoids)

Dieser Algorithmus wird auch als k-Medoid-Algorithmus bezeichnet. Es ähnelt im Prozess auch dem K-Means-Clustering-Algorithmus, wobei der Unterschied in der Zuweisung des Zentrums des Clusters liegt. In PAM muss das Medoid des Clusters ein Eingabedatenpunkt sein, während dies für K-Means-Clustering nicht gilt, da der Durchschnitt aller Datenpunkte in einem Cluster möglicherweise nicht zu einem Eingabedatenpunkt gehört.

Ö CLARA (Clustering Large Applications) : – CLARA ist eine Erweiterung des PAM-Algorithmus, bei der die Rechenzeit reduziert wurde, um eine bessere Leistung bei großen Datensätzen zu erzielen. Um dies zu erreichen, wählt es willkürlich einen bestimmten Teil von Daten aus dem gesamten Datensatz als Repräsentanten der tatsächlichen Daten aus. Es wendet den PAM-Algorithmus auf mehrere Datenproben an und wählt die besten Cluster aus einer Reihe von Iterationen aus.

Lesen Sie auch: Data-Mining-Algorithmen, die Sie kennen sollten

Grid-basiertes Clustering

Beim gitterbasierten Clustering wird der Datensatz in einer Gitterstruktur dargestellt, die aus Gittern (auch Zellen genannt) besteht. Der Gesamtansatz in den Algorithmen dieses Verfahrens unterscheidet sich von den übrigen Algorithmen.

Sie beschäftigen sich mehr mit dem Werteraum, der die Datenpunkte umgibt, als mit den Datenpunkten selbst. Einer der größten Vorteile dieser Algorithmen ist die Verringerung der Rechenkomplexität. Dies macht es für den Umgang mit riesigen Datensätzen geeignet.

Nach der Partitionierung der Datensätze in Zellen berechnet es die Dichte der Zellen, was bei der Identifizierung der Cluster hilft. Einige Algorithmen, die auf gitterbasiertem Clustering basieren, lauten wie folgt: –

Ö STING (Statistical Information Grid Approach) : – Bei STING wird der Datensatz hierarchisch rekursiv aufgeteilt. Jede Zelle ist weiter in eine andere Anzahl von Zellen unterteilt. Es erfasst die statistischen Maße der Zellen, was bei der Beantwortung der Abfragen in kurzer Zeit hilft.

Ö WaveCluster : – In diesem Algorithmus wird der Datenraum in Form von Wavelets dargestellt. Der Datenraum setzt ein n-dimensionales Signal zusammen, das beim Identifizieren der Cluster hilft. Die Teile des Signals mit einer niedrigeren Frequenz und einer hohen Amplitude zeigen an, dass die Datenpunkte konzentriert sind. Diese Regionen werden vom Algorithmus als Cluster identifiziert. Die Teile des Signals, bei denen die Frequenz hoch ist, repräsentieren die Grenzen der Cluster. Weitere Einzelheiten finden Sie in diesem Papier .

Ö CLIQUE (Clustering in Quest) : – CLIQUE ist eine Kombination aus dichtebasiertem und gitterbasiertem Clustering-Algorithmus. Es partitioniert den Datenraum und identifiziert die Unterräume nach dem Apriori-Prinzip. Es identifiziert die Cluster, indem es die Dichten der Zellen berechnet.

Endnotizen

In diesem Artikel haben wir einen Überblick darüber gesehen, was Clustering ist und welche verschiedenen Clustering-Methoden es gibt, zusammen mit seinen Beispielen. Dieser Artikel soll Ihnen den Einstieg in das Clustering erleichtern.

Diese Clustering-Methoden haben ihre eigenen Vor- und Nachteile, wodurch sie nur für bestimmte Datensätze geeignet sind. Es ist nicht nur der Algorithmus, sondern es gibt viele andere Faktoren wie Hardwarespezifikationen der Maschinen, die Komplexität des Algorithmus usw., die ins Bild kommen, wenn Sie eine Analyse des Datensatzes durchführen.

Als Analyst müssen Sie entscheiden, welchen Algorithmus Sie wählen und welcher in bestimmten Situationen bessere Ergebnisse liefert. Die Strategie „Ein Algorithmus passt für alle“ funktioniert bei keinem der Probleme des maschinellen Lernens. Experimentieren Sie also weiter und machen Sie sich in der Clustering-Welt die Hände schmutzig.

Wenn Sie neugierig sind, Data Science zu lernen, schauen Sie sich das Executive PG-Programm in Data Science von IIIT-B und upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was sind die verschiedenen Arten von Clustering-Methoden, die in Business Intelligence verwendet werden?

Clustering ist eine ungerichtete Technik, die beim Data Mining verwendet wird, um mehrere verborgene Muster in den Daten zu identifizieren, ohne eine bestimmte Hypothese zu entwickeln. Der Grund für die Verwendung von Clustering besteht darin, Ähnlichkeiten zwischen bestimmten Objekten zu identifizieren und eine Gruppe ähnlicher Objekte zu erstellen.
Es gibt zwei verschiedene Arten von Clustering, nämlich hierarchische und nicht-hierarchische Methoden.

1. Nicht-hierarchisches Clustering

Bei diesem Verfahren wird der Datensatz mit N Objekten in M ​​Cluster unterteilt. In der Business Intelligence ist K-Means die am weitesten verbreitete nicht-hierarchische Clustering-Technik.
2. Hierarchisches Clustering
Bei diesem Verfahren wird ein Satz verschachtelter Cluster erzeugt. Bei diesen verschachtelten Clustern wird jedes Objektpaar zu einem großen Cluster weiter verschachtelt, bis am Ende nur noch ein Cluster übrig bleibt.

Wann wird Clustering verwendet?

Die Hauptfunktion des Clusterings besteht darin, eine Segmentierung durchzuführen, unabhängig davon, ob es sich um ein Geschäft, ein Produkt oder einen Kunden handelt. Kunden und Produkte können basierend auf verschiedenen Attributen in hierarchische Gruppen gruppiert werden.
Eine weitere Verwendung der Clustering-Technik wird zur Erkennung von Anomalien wie Betrugstransaktionen gesehen. Hier wird ein Cluster mit allen guten Transaktionen erkannt und als Stichprobe aufbewahrt. Dies soll ein normaler Cluster sein. Wann immer etwas aus diesem Cluster aus der Reihe tanzt, kommt es in den Abschnitt „Verdächtig“. Diese Methode hat sich als sehr nützlich erwiesen, um das Vorhandensein abnormaler Zellen im Körper zu erkennen.
Abgesehen davon wird Clustering häufig verwendet, um große Datensätze zu zerlegen, um kleinere Datengruppen zu erstellen. Dies erhöht die Effizienz der Auswertung der Daten.

Was sind die Vorteile von Clustering?

Clustering soll aus mehreren Gründen effektiver sein als zufälliges Sampling der gegebenen Daten. Die beiden Hauptvorteile des Clusterings sind:
1. Benötigt weniger Ressourcen
Ein Cluster erstellt eine Gruppe von weniger Ressourcen aus der gesamten Stichprobe. Dadurch ergibt sich im Vergleich zur Stichprobe ein geringerer Ressourcenbedarf. Stichproben erfordern Reise- und Verwaltungskosten, aber das ist hier nicht der Fall.
2. Mögliche Option
Dabei bestimmt jeder Cluster eine Gesamtheit der Population, da aus der Gesamtpopulation homogene Gruppen gebildet werden. Damit wird es einfach, mehr Themen in eine einzige Studie einzubeziehen.