Clusteranalyse im Data Mining: Anwendungen, Methoden & Anforderungen
Veröffentlicht: 2020-01-20Hier werden wir die Clusteranalyse im Data Mining diskutieren. Teilen Sie uns also zuerst mit, was Clustering im Data Mining ist, dann seine Einführung und die Notwendigkeit des Clusterings im Data Mining. Wir werden auch die Algorithmen und Anwendungen der Clusteranalyse in der Datenwissenschaft diskutieren. Später werden wir die verschiedenen Ansätze in der Clusteranalyse und Data-Mining-Clustering-Methoden kennenlernen.
Inhaltsverzeichnis
Was ist Clustering im Data Mining?
Beim Clustering wird eine Gruppe verschiedener Datenobjekte als ähnliche Objekte klassifiziert. Eine Gruppe bedeutet einen Cluster von Daten. Bei der Clusteranalyse, die auf der Ähnlichkeit der Daten basiert, werden Datensätze in verschiedene Gruppen eingeteilt. Nach der Einteilung der Daten in verschiedene Gruppen wird der Gruppe ein Label zugeordnet. Es hilft bei der Anpassung an die Änderungen, indem es die Klassifizierung durchführt.
Lesen Sie: Gängige Beispiele für Data Mining.
Was ist Clusteranalyse im Data Mining?
Clusteranalyse im Data Mining bedeutet, die Gruppe von Objekten herauszufinden, die in der Gruppe einander ähnlich sind, sich aber von den Objekten in anderen Gruppen unterscheiden.
Anwendungen der Data-Mining-Clusteranalyse
Es gibt viele Anwendungen der Daten-Clustering-Analyse wie Bildverarbeitung, Datenanalyse, Mustererkennung, Marktforschung und vieles mehr. Mithilfe von Daten-Clustering können Unternehmen neue Gruppen in der Kundendatenbank entdecken. Die Klassifizierung von Daten kann auch auf der Grundlage von Kaufmustern erfolgen.
Clustering im Data Mining hilft bei der Klassifizierung von Tieren und Pflanzen, indem ähnliche Funktionen oder Gene im Bereich der Biologie verwendet werden. Es hilft, einen Einblick in die Struktur der Art zu gewinnen. Bereiche werden mithilfe des Clusterings im Data Mining identifiziert. In der Datenbank der Erdbeobachtung werden Länder identifiziert, die einander ähnlich sind.
Basierend auf der geografischen Lage, dem Wert und dem Haustyp wird eine Gruppe von Häusern in der Stadt definiert. Clustering beim Data Mining hilft beim Auffinden von Informationen, indem die Dateien im Internet klassifiziert werden. Es wird auch in Detektionsanwendungen verwendet. Betrug bei einer Kreditkarte kann leicht durch Clustering im Data Mining erkannt werden, das das Muster der Täuschung analysiert. Lesen Sie mehr über die Anwendungen von Data Science in der Finanzbranche.
Es hilft beim Verständnis jedes Clusters und seiner Eigenschaften. Man kann verstehen, wie die Daten verteilt sind, und es funktioniert als Werkzeug in der Funktion des Data Mining.
Anforderungen an Clustering im Data Mining
- Interpretierbarkeit
Das Ergebnis des Clusterings soll nutzbar, verständlich und interpretierbar sein.
- Hilft beim Umgang mit durcheinandergebrachten Daten
Normalerweise sind die Daten durcheinander und unstrukturiert. Es kann nicht schnell analysiert werden, und deshalb ist das Clustern von Informationen beim Data Mining so wichtig. Die Gruppierung kann den Daten eine gewisse Struktur verleihen, indem sie in Gruppen ähnlicher Datenobjekte organisiert werden. Für den Datenexperten wird es komfortabler, die Daten zu verarbeiten und auch Neues zu entdecken.
- Hochdimensional
Daten-Clustering ist auch in der Lage, Daten hoher Dimension zusammen mit Daten kleiner Größe zu handhaben.
- Attributform-Cluster werden entdeckt
Cluster mit willkürlicher Form werden unter Verwendung des Clustering-Algorithmus erkannt. Es können auch kleine Cluster mit Kugelform gefunden werden.
- Algorithmus Usability mit mehreren Datenarten
Viele verschiedene Arten von Daten können mit Clustering-Algorithmen verwendet werden. Die Daten können binäre Daten, kategoriale und intervallbasierte Daten sein.
Lesen Sie: Data-Mining-Algorithmen, die Sie kennen sollten
- Clustering-Skalierbarkeit
Die Datenbank ist in der Regel enorm zu handhaben. Der Algorithmus sollte skalierbar sein, um umfangreiche Datenbanken verarbeiten zu können, also muss er skalierbar sein.
Data-Mining-Clustering-Methoden
1. Partitionierungs-Clustering-Methode
Nehmen wir bei dieser Methode an, dass die „m“-Partition auf den „p“-Objekten der Datenbank durchgeführt wird. Ein Cluster wird durch jede Partition und m < p dargestellt. K ist die Anzahl der Gruppen nach der Klassifizierung von Objekten. Es gibt einige Anforderungen, die mit dieser Partitionierungs-Clustering-Methode erfüllt werden müssen, und zwar: –
- Ein Ziel sollte nur zu nur einer Gruppe gehören.
- Es sollte keine Gruppe ohne auch nur einen einzigen Zweck geben.
Es gibt einige Punkte, die bei dieser Art der Partitionierungs-Clustering-Methode beachtet werden sollten:
- Wenn wir bereits nein geben, wird es eine anfängliche Partitionierung geben. einer Partition (z. B. m).
- Es gibt eine Technik, die als iterative Verschiebung bezeichnet wird, was bedeutet, dass das Objekt von einer Gruppe in eine andere verschoben wird, um die Partitionierung zu verbessern.
2. Hierarchische Clustering-Methoden
Bei diesem hierarchischen Clustering-Verfahren wird der gegebene Satz eines Datenobjekts in einer Art hierarchischer Zerlegung erstellt. Die Bildung einer hierarchischen Zerlegung entscheidet über die Zwecke der Klassifikation. Es gibt zwei Arten von Ansätzen für die Erstellung einer hierarchischen Zerlegung, nämlich: –

1. Trennender Ansatz
Ein anderer Name für den Divisive-Ansatz ist ein Top-Down-Ansatz. Zu Beginn dieser Methode werden alle Datenobjekte im selben Cluster gehalten. Kleinere Cluster werden erstellt, indem die Gruppe unter Verwendung der kontinuierlichen Iteration geteilt wird. Die Methode der konstanten Iteration wird fortgesetzt, bis die Beendigungsbedingung erfüllt ist. Nachdem die Gruppe geteilt oder zusammengeführt wurde, kann sie nicht rückgängig gemacht werden, und deshalb ist diese Methode nicht so flexibel.
2. Agglomerativer Ansatz
Ein anderer Name für diesen Ansatz ist der Bottom-up-Ansatz. Alle Gruppen werden am Anfang getrennt. Dann wird es weiter zusammengeführt, bis alle Gruppen zusammengeführt sind oder die Beendigungsbedingung erfüllt ist.
Es gibt zwei Ansätze, die verwendet werden können, um die hierarchische Clustering-Qualität im Data Mining zu verbessern: –
- Man sollte die Verknüpfungen des Objekts bei jeder Partitionierung des hierarchischen Clusterings sorgfältig analysieren.
- Man kann einen hierarchischen Agglomerationsalgorithmus für die Integration von hierarchischer Agglomeration verwenden. Bei diesem Ansatz werden die Objekte zunächst in Mikrocluster gruppiert. Nach dem Gruppieren von Datenobjekten in Mikrocluster wird Makro-Clustering auf dem Mikrocluster durchgeführt.
3. Dichtebasiertes Clustering-Verfahren
Bei dieser Clustering-Methode im Data Mining steht die Dichte im Vordergrund. Als Grundlage für dieses Clustering-Verfahren wird der Massenbegriff verwendet. Bei dieser Clustering-Methode wächst der Cluster kontinuierlich weiter. Für jeden Datenpunkt sollte mindestens eine Anzahl von Punkten im Radius der Gruppe vorhanden sein.
4. Gitterbasiertes Clustering-Verfahren
Bei dieser Art von gitterbasiertem Clustering-Verfahren wird ein Gitter gebildet, indem das Objekt zusammen verwendet wird. Eine Gitterstruktur wird gebildet, indem der Objektraum in eine endliche Anzahl von Zellen quantifiziert wird.
Vorteil der Grid-basierten Clustering-Methode: –
- Schnellere Verarbeitungszeit: Die Verarbeitungszeit dieser Methode ist viel schneller als bei einer anderen Methode und kann daher Zeit sparen.
- Diese Methode hängt von der Nr. ab. von Zellen im Raum jeder Dimension quantisiert.
5. Modellbasierte Clustering-Methoden
Bei dieser Art von Clustering-Methode wird für jeden Cluster eine Hypothese aufgestellt, damit er die für das Modell am besten geeigneten Daten finden kann. Die Dichtefunktion wird gruppiert, um die Gruppe bei diesem Verfahren zu lokalisieren.
6. Beschränkungsbasiertes Clustering-Verfahren
Anwendungs- oder benutzerorientierte Beschränkungen werden eingebaut, um das Clustering durchzuführen. Die Erwartung des Nutzers wird als Constraint bezeichnet. Bei diesem Gruppierungsprozess ist die Kommunikation sehr interaktiv, was durch die Einschränkungen gegeben ist.
Welche Klassifikationen gelten nicht als Clusteranalyse?
- Graph Partitioning – Die Art der Klassifizierung, bei der Bereiche nicht gleich sind und nur auf der Grundlage gegenseitiger Synergien und Relevanz klassifiziert werden, ist keine Clusteranalyse.
- Ergebnisse einer Abfrage – Bei dieser Art der Klassifizierung werden die Gruppen basierend auf der Spezifikation aus externen Quellen erstellt. Es wird nicht als Clusteranalyse gezählt.
- Einfache Segmentierung – Die Aufteilung von Namen in separate Registrierungsgruppen basierend auf dem Nachnamen gilt nicht als Clusteranalyse.
- Überwachte Klassifizierung – Diese Art der Klassifizierung, die anhand von Label-Informationen klassifiziert wird, kann nicht als Clusteranalyse bezeichnet werden, da die Clusteranalyse eine Gruppe basierend auf dem Muster beinhaltet.
Fazit
Jetzt haben wir also viele Dinge über Data Clustering gelernt, wie z. B. die Ansätze und Methoden des Data Clustering und der Clusteranalyse im Data Mining.
Wenn Sie neugierig sind, Data Science zu lernen, schauen Sie sich das Executive PG-Programm in Data Science von IIIT-B und upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.
Was sind einige der Nachteile der Clusteranalyse?
Die Clusteranalyse ist ein statistischer Ansatz, der keine Vorkenntnisse über den Markt oder das Kundenverhalten voraussetzt. Einige Methoden der Clusteranalyse liefern bei jeder statistischen Analyse etwas andere Ergebnisse. Dies kann auftreten, weil es keine Einheitsmethode für die Datenanalyse gibt. Das Ändern von Datenausgaben kann für Studenten verwirrend und irritierend sein, die mit dem Begriff der Clusteranalyse noch nicht vertraut sind.
Wie werden Clusterreinheit und Clusterqualität berechnet?
Wir multiplizieren die Gesamtzahl der Datenpunkte mit der Anzahl der genauen Klassenbezeichnungen in jedem Cluster. Die Reinheit steigt im Allgemeinen mit zunehmender Anzahl von Clustern. Wenn wir beispielsweise ein Modell haben, das jede Beobachtung in einem eigenen Cluster organisiert, wird die Reinheit eins. Wir können den durchschnittlichen Silhouettenkoeffizientenwert aller Objekte in einem Cluster berechnen, um seine Eignung innerhalb eines Clusters zu bestimmen. Der durchschnittliche Silhouettenkoeffizientwert aller Objekte im Datensatz kann verwendet werden, um die Qualität einer Gruppierung zu beurteilen.
Was sind die Unterschiede zwischen K-means und K-medoids?
K-means versucht, den quadratischen Gesamtfehler zu reduzieren, während k-medoids versucht, die Summe der Unähnlichkeiten zwischen Punkten, die als in einem Cluster liegend klassifiziert sind, und einem Punkt, der als Zentrum des Clusters ausgewählt wurde, zu reduzieren. Im Gegensatz zur k-Means-Methode wählt der k-Medoids-Algorithmus Datenpunkte als Mittelpunkte (Medoids oder Exemplare).