Clusteranalyse in R: Ein vollständiger Leitfaden, den Sie jemals brauchen werden [2022]

Veröffentlicht: 2021-01-04

Wenn Sie jemals auch nur einen Zeh in die Welt der Datenwissenschaft oder Python getreten sind, haben Sie von R gehört.

R wurde als GNU-Projekt entwickelt und ist sowohl eine Sprache als auch eine Umgebung, die für Grafiken und statistische Berechnungen entwickelt wurde. Sie ist der S-Sprache ähnlich und kann daher als deren Implementierung betrachtet werden.

Als Sprache ist R sehr erweiterbar. Es bietet eine Vielzahl statistischer und grafischer Techniken wie Zeitreihenanalyse, lineare Modellierung, nichtlineare Modellierung, Clustering, Klassifikation, klassische statistische Tests.

Es ist eine dieser Techniken, die wir genauer untersuchen werden, und das ist Clustering oder Clusteranalyse!

Inhaltsverzeichnis

Was ist Clusteranalyse?

Einfach ausgedrückt ist Clustering eine Datensegmentierungsmethode, bei der Daten auf der Grundlage von Ähnlichkeit in mehrere Gruppen aufgeteilt werden.

Wie wird die Ähnlichkeit bewertet? Auf der Grundlage von Abstandsmessungen zwischen Beobachtungen. Dies können entweder euklidische oder korrelationsbasierte Distanzmaße sein.

Die Clusteranalyse ist eine der beliebtesten und in gewisser Weise intuitivsten Methoden der Datenanalyse und des Data Mining. Es ist ideal für Fälle, in denen umfangreiche Daten vorhanden sind und wir Erkenntnisse daraus extrahieren müssen. In diesem Fall können die Massendaten in kleinere Teilmengen oder Gruppen zerlegt werden.

Die kleinen Gruppen, die gebildet und aus dem gesamten Datensatz abgeleitet werden, werden als Cluster bezeichnet. Diese werden durch die Durchführung einer oder mehrerer statistischer Operationen erhalten. Obwohl jeder Cluster unterschiedliche Elemente enthält, teilen sie die folgenden Eigenschaften:

  1. Ihre Anzahl ist im Voraus nicht bekannt.
  2. Sie werden durch die Durchführung einer statistischen Operation erhalten.
  3. Jeder Cluster enthält Objekte, die ähnlich sind und gemeinsame Eigenschaften haben.

Auch ohne den ausgefallenen Namen Clusteranalyse wird diese im Alltag häufig verwendet.

Auf individueller Ebene machen wir Gruppen von Dingen, die wir packen müssen, wenn wir in den Urlaub fahren. Erst Kleidung, dann Toilettenartikel, dann Bücher und so weiter. Wir machen Kategorien und gehen sie dann einzeln an.

Auch Unternehmen nutzen die Clusteranalyse, wenn sie ihre E-Mail-Listen segmentieren und Kunden nach Alter, wirtschaftlichem Hintergrund, bisherigem Kaufverhalten etc. kategorisieren.

Die Clusteranalyse wird auch als „unüberwachtes maschinelles Lernen“ oder Mustererkennung bezeichnet. Unbeaufsichtigt, weil wir nicht versuchen, bestimmte Proben nur in bestimmten Proben zu kategorisieren. Lernen, weil der Algorithmus auch das Clustern lernt.

3 Clustering-Methoden

Wir haben drei Methoden, die am häufigsten für das Clustering verwendet werden. Diese sind:

  1. Agglomeratives hierarchisches Clustering
  2. Relationales Clustering/ Condorcet-Methode
  3. k-bedeutet Clusterbildung

1. Agglomeratives hierarchisches Clustering

Dies ist die häufigste Art von hierarchischem Clustering. Der Algorithmus für AHC arbeitet von unten nach oben. Es beginnt damit, dass jeder Datenpunkt als eigenständiger Cluster betrachtet wird (Blatt genannt).

Es kombiniert dann die beiden Cluster, die sich am ähnlichsten sind. Diese neuen und größeren Cluster werden Knoten genannt. Die Gruppierung wird wiederholt, bis der gesamte Datensatz zu einem einzigen großen Cluster namens Root zusammenkommt.

Das Visualisieren und Zeichnen jedes Schritts des AHC-Prozesses führt zur Generierung eines Baums, der als Dendrogramm bezeichnet wird.

Die Umkehrung des AHC-Prozesses führt zu spaltender Clusterbildung und der Erzeugung von Clustern.

Das Dendrogramm kann auch visualisiert werden als:

Quelle

Zusammenfassend lässt sich sagen, dass Sie sich für AHC entscheiden sollten, wenn Sie einen Algorithmus suchen, der kleine Cluster gut identifizieren kann. Wenn Sie eine Methode suchen, die große Cluster gut identifizieren kann, sollten Sie sich für die divisive Clustering-Methode entscheiden.

2. Relationales Clustering/ Condorcet-Methode

„Clustering by Similarity Aggregation“ ist ein anderer Name für diese Methode. Es funktioniert wie folgt:

Die einzelnen Objekte in Paaren, die das globale Clustering bilden, werden verglichen. Den Vektoren m(A, B) und d(A, B) wird ein Paar von Einzelwerten (A, B) zugeordnet. Im Vektor b(A, B) haben sowohl A als auch B die gleichen Werte, während im Vektor d(A, B) beide unterschiedliche Werte haben).

Die beiden Einzelwerte von A und B sollen dem Condorcet-Kriterium wie folgt folgen:

c(A, B) = m(A, B)- d(A, B)

Für einen Einzelwert wie A und einen Cluster namens S steht das Condorcet-Kriterium wie folgt:

c(A,S) = Σ ich c(A,B ich )

Die Gesamtsumme ist Bi ∈ S.

Wenn die obigen Bedingungen erfüllt sind, werden Cluster der Form c(A, S) konstruiert. A kann den kleinsten Wert 0 haben und ist der größte aller Datenpunkte im Cluster.

Schließlich wird das globale Condorcet-Kriterium berechnet. Dies erfolgt durch eine Summierung der einzelnen in A vorhandenen Datenpunkte und des sie enthaltenden Clusters S A .

Die obigen Schritte werden wiederholt, bis sich das globale Condorcet-Kriterium nicht verbessert oder die größte Anzahl von Iterationen erreicht ist.

3. k-bedeutet Clusterbildung

Dies ist einer der beliebtesten Partitionierungsalgorithmen. Alle verfügbaren Daten (manchmal auch als Datenpunkte/Beobachtungen bezeichnet) werden nur in diesen Clustern gruppiert. Hier ist eine Aufschlüsselung, wie der Algorithmus vorgeht:

  1. Wählen Sie zufällig k Cluster aus. Diese k Zeilen bedeuten auch das Finden von k Schwerpunkten für jeden Cluster.
  2. Jeder Datenpunkt wird dann dem ihm am nächsten liegenden Schwerpunkt zugeordnet.
  3. Wenn mehr und mehr Datenpunkte zugewiesen werden, werden Zentroide als Durchschnitt aller hinzugefügten Datenpunkte neu berechnet.
  4. Weisen Sie weitere Datenpunkte zu und verschieben Sie den Schwerpunkt nach Bedarf.
  5. Wiederholen Sie die Schritte 3 und 4, bis keine Datenpunkte den Cluster ändern.

Der Abstand zwischen einem Datenpunkt und einem Schwerpunkt wird mit einer der folgenden Methoden berechnet:

  1. Euklidische Entfernung
  2. Manhattan-Distanz
  3. Minlowski-Distanz

Die bekannteste davon – die euklidische Distanz – wird wie folgt berechnet:

Jedes Mal, wenn der Algorithmus ausgeführt wird, werden als Ergebnis andere Gruppen zurückgegeben. Die allererste Zuweisung an die Variable k ist völlig zufällig. Dies macht k-means sehr empfindlich gegenüber der ersten Wahl. Infolgedessen wird es fast unmöglich, dieselbe Clusterbildung zu erhalten, es sei denn, die Anzahl der Gruppen und Gesamtbeobachtungen ist gering.

Wie kann man k einen Wert zuweisen Am Anfang weisen wir k nach dem Zufallsprinzip einen Wert zu, der die Richtung vorgibt, in die die Ergebnisse gehen. Um sicherzustellen, dass die beste Wahl getroffen wird, ist es hilfreich, die folgende Formel zu beachten:

Hier ist n die Anzahl der Datenpunkte im Datensatz.

Unabhängig vom Vorhandensein einer Formel wäre die Anzahl der Cluster stark abhängig von der Art des Datensatzes, der Branche und dem Geschäft, zu dem er gehört usw. Daher ist es ratsam, auch auf die eigene Erfahrung und Intuition zu achten.

Bei einer falschen Clustergröße ist die Gruppierung möglicherweise nicht so effektiv und kann zu einer Überanpassung führen. Aufgrund von Overfitting können neue Datenpunkte möglicherweise keinen Platz im Cluster finden, da der Algorithmus die kleinen Details herausgesucht hat und jegliche Verallgemeinerung verloren geht.

Anwendungen der Clusteranalyse

Wo genau werden also die leistungsstarken Clustering-Methoden eingesetzt? Ein paar Beispiele haben wir oben kursorisch erwähnt. Unten sind einige weitere Fälle:

Medizin und Gesundheit

Anhand des Alters und der genetischen Ausstattung der Patienten können Ärzte eine bessere Diagnose stellen. Dies führt letztendlich zu einer vorteilhafteren und besser abgestimmten Behandlung. Auch neue Medikamente können so entdeckt werden. Clustering in der Medizin wird als Nosologie bezeichnet.

Soziologie

In sozialen Bereichen hilft die Gruppierung von Menschen auf der Grundlage von Demografie, Alter, Beruf, Wohnort usw. der Regierung, Gesetze durchzusetzen und Richtlinien zu gestalten, die für verschiedene Gruppen geeignet sind.

Marketing

Im Marketing wird der Begriff Clustering durch Segmentierung / typologische Analyse ersetzt. Es wird verwendet, um potenzielle Käufer eines bestimmten Produkts zu finden und auszuwählen. Unternehmen testen dann die Elemente jedes Clusters, um herauszufinden, welche Kunden ein Pro-Retention-Verhalten zeigen.

Cyber-Profiling

Als Eingabe für den Clustering-Algorithmus, der hier implementiert wird, werden frühere Webseiten eingegeben, auf die ein Benutzer zugegriffen hat. Diese Webseiten werden dann geclustert. Am Ende wird ein Profil des Benutzers basierend auf seiner Browsing-Aktivität erstellt. Von der Personalisierung bis zur Cybersicherheit kann dieses Ergebnis überall genutzt werden.

Einzelhandel

Outlets profitieren auch von der Gruppierung von Kunden auf der Grundlage von Alter, Farbpräferenzen, Stilpräferenzen, früheren Einkäufen usw. Dies hilft Einzelhändlern, maßgeschneiderte Erlebnisse zu schaffen und auch zukünftige Angebote zu planen, die auf die Wünsche der Kunden abgestimmt sind.

Fazit

Es ist offensichtlich, dass die Clusteranalyse eine äußerst wertvolle Methode ist – unabhängig von der Sprache oder Umgebung, in der sie implementiert wird. Ob man Erkenntnisse ableiten, Muster herausarbeiten oder Profile herausarbeiten möchte, die Clusteranalyse ist ein äußerst nützliches Werkzeug mit Ergebnissen, die dies können praktisch umgesetzt werden. Die Beherrschung der Arbeit mit den verschiedenen Clustering-Algorithmen kann dazu führen, dass man genaue und wirklich wertvolle Datenanalysen durchführt.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Bereiten Sie sich auf eine Karriere der Zukunft vor

PG-DIPLOM VON IIIT-B, 100+ STUNDEN KLASSENZIMMERLERNEN, 400+ STUNDEN ONLINE-LERNEN & 360-GRAD-KARRIEREUNTERSTÜTZUNG
Erfahren Sie mehr