Ein Überblick über Association Rule Mining und seine Anwendungen

Veröffentlicht: 2019-06-05

Assoziationsregel-Mining, wie der Name schon sagt, sind Assoziationsregeln einfache Wenn/Dann-Anweisungen, die dabei helfen, Beziehungen zwischen scheinbar unabhängigen relationalen Datenbanken oder anderen Datenspeichern zu entdecken.

Die meisten Algorithmen für maschinelles Lernen arbeiten mit numerischen Datensätzen und sind daher eher mathematisch. Assoziationsregel-Mining eignet sich jedoch für nicht-numerische, kategoriale Daten und erfordert nur ein wenig mehr als einfaches Zählen.

Association Rule Mining ist ein Verfahren, das darauf abzielt, häufig vorkommende Muster, Korrelationen oder Assoziationen aus Datensätzen zu beobachten, die in verschiedenen Arten von Datenbanken wie relationalen Datenbanken, Transaktionsdatenbanken und anderen Formen von Repositories gefunden werden.

Eine Assoziationsregel besteht aus 2 Teilen:

  • ein Vorsatz (if) und
  • eine Folge (dann)

Ein Vorsatz ist etwas, das in Daten gefunden wird, und ein Nachsatz ist ein Element, das in Kombination mit dem Vorsatz gefunden wird. Schauen Sie sich zum Beispiel diese Regel an:

„Wenn ein Kunde Brot kauft, kauft er mit 70-prozentiger Wahrscheinlichkeit Milch.“

In der obigen Assoziationsregel ist Brot der Vordersatz und Milch der Nachsatz. Einfach ausgedrückt kann es als Verbandsregel eines Einzelhandelsgeschäfts verstanden werden, um seine Kunden besser anzusprechen. Wenn die obige Regel das Ergebnis einer gründlichen Analyse einiger Datensätze ist, kann sie verwendet werden, um nicht nur den Kundenservice zu verbessern, sondern auch den Umsatz des Unternehmens zu steigern.
Assoziationsregeln werden erstellt, indem Daten gründlich analysiert und nach häufigen Wenn/Dann-Mustern gesucht wird. Dann werden abhängig von den folgenden zwei Parametern die wichtigen Zusammenhänge beobachtet:

  1. Support : Support gibt an, wie häufig die Wenn/Dann-Beziehung in der Datenbank vorkommt.
  2. Vertrauen : Vertrauen sagt aus, wie oft sich diese Beziehungen als wahr herausgestellt haben.

Bei einer bestimmten Transaktion mit mehreren Artikeln versucht Association Rule Mining also in erster Linie, die Regeln zu finden, die regeln, wie oder warum solche Produkte/Artikel häufig zusammen gekauft werden. Zum Beispiel werden Erdnussbutter und Marmelade häufig zusammen gekauft, weil viele Leute gerne PB & J-Sandwiches machen.

Association Rule Mining wird manchmal auch als „Market Basket Analysis“ bezeichnet, da es das erste Anwendungsgebiet von Association Mining war. Ziel ist es, Assoziationen von Gegenständen zu entdecken, die häufiger zusammen vorkommen, als man es bei einer zufälligen Auswahl aller Möglichkeiten erwarten würde. Die klassische Anekdote von Bier und Windel hilft dabei, dies besser zu verstehen.

Die Geschichte geht so: Junge amerikanische Männer, die freitags in die Läden gehen, um Windeln zu kaufen, haben eine Veranlagung, auch eine Flasche Bier zu schnappen. So beziehungslos und vage das für uns Laien auch klingen mag, Association Rule Mining zeigt uns wie und warum!
Lassen Sie uns selbst ein wenig analysieren, ja?
Angenommen, die Einzelhandelstransaktionsdatenbank eines X-Geschäfts enthält die folgenden Daten:

  • Gesamtzahl der Transaktionen: 600.000
  • Transaktionen mit Windeln: 7.500 (1,25 Prozent)
  • Transaktionen mit Bier: 60.000 (10 Prozent)
  • Transaktionen, die sowohl Bier als auch Windeln enthalten: 6.000 (1,0 Prozent)

Aus den obigen Zahlen können wir schließen, dass wir, wenn es keinen Zusammenhang zwischen Bier und Windeln gäbe (d. h. sie wären statistisch unabhängig), nur 10 % der Windelkäufer dazu gebracht hätten, auch Bier zu kaufen.

So überraschend es auch scheinen mag, die Zahlen sagen uns jedoch, dass 80 % (= 6000/7500) der Menschen, die Windeln kaufen, auch Bier kaufen .
Dies ist ein signifikanter Sprung von 8 gegenüber der erwarteten Wahrscheinlichkeit. Dieser Steigerungsfaktor ist als Lift bekannt – das ist das Verhältnis der beobachteten Häufigkeit des gleichzeitigen Auftretens unserer Artikel und der erwarteten Häufigkeit.

Wie haben wir den Auftrieb ermittelt?
Einfach durch Berechnung der Transaktionen in der Datenbank und Durchführung einfacher mathematischer Operationen.
Für unser Beispiel kann also eine plausible Assoziationsregel lauten, dass die Leute, die Windeln kaufen, auch Bier mit einem Liftfaktor von 8 kaufen. Wenn wir mathematisch sprechen, lässt sich der Lift als Quotient aus der gemeinsamen Wahrscheinlichkeit zweier Artikel x berechnen und y, dividiert durch das Produkt ihrer Wahrscheinlichkeiten.
Auftrieb = P(x,y)/[P(x)P(y)]
Wenn die beiden Items jedoch statistisch unabhängig sind, dann ist die gemeinsame Wahrscheinlichkeit der beiden Items gleich dem Produkt ihrer Wahrscheinlichkeiten. Oder mit anderen Worten,
P(x,y)=P(x)P(y),
was den Lift-Faktor = 1 macht. Ein interessanter Punkt, der hier erwähnenswert ist, ist, dass die Antikorrelation sogar Lift-Werte kleiner als 1 ergeben kann – was sich gegenseitig ausschließenden Items entspricht, die selten zusammen auftreten.
Association Rule Mining hat Datenwissenschaftlern geholfen, Muster zu finden, von denen sie nie wussten, dass sie existieren.
Grundlegende Grundlagen der Statistik für Data Science

Inhaltsverzeichnis

Schauen wir uns einige Bereiche an, in denen Association Rule Mining sehr geholfen hat:

  1. Warenkorbanalyse:

Dies ist das typischste Beispiel für Association Mining. Die Datenerfassung erfolgt in den meisten Supermärkten über Barcode-Scanner. Diese Datenbank, die als „Warenkorb“-Datenbank bekannt ist, besteht aus einer großen Anzahl von Aufzeichnungen über vergangene Transaktionen. Ein einzelner Datensatz listet alle Artikel auf, die ein Kunde in einem Verkauf gekauft hat. Das Wissen, welche Gruppen zu welchen Artikeln neigen, gibt diesen Geschäften die Freiheit, das Ladenlayout und den Ladenkatalog so anzupassen, dass sie optimal aufeinander abgestimmt sind.

  1. Medizinische Diagnose:

Assoziationsregeln in der medizinischen Diagnose können nützlich sein, um Ärzte bei der Heilung von Patienten zu unterstützen. Die Diagnose ist kein einfacher Prozess und weist eine Reihe von Fehlern auf, die zu unzuverlässigen Endergebnissen führen können. Mittels Relational Association Rule Mining können wir die Wahrscheinlichkeit des Auftretens von Krankheiten in Bezug auf verschiedene Faktoren und Symptome ermitteln. Darüber hinaus kann diese Schnittstelle unter Verwendung von Lerntechniken erweitert werden, indem neue Symptome hinzugefügt und Beziehungen zwischen den neuen Zeichen und den entsprechenden Krankheiten definiert werden.

  1. Volkszählungsdaten:

Jede Regierung verfügt über Tonnen von Volkszählungsdaten. Diese Daten können verwendet werden, um effiziente öffentliche Dienstleistungen (Bildung, Gesundheit, Verkehr) zu planen und öffentliche Unternehmen zu unterstützen (für die Einrichtung neuer Fabriken, Einkaufszentren und sogar die Vermarktung bestimmter Produkte). Diese Anwendung von Association Rule Mining und Data Mining hat ein immenses Potenzial, um eine solide öffentliche Ordnung zu unterstützen und ein effizientes Funktionieren einer demokratischen Gesellschaft hervorzubringen.

  1. Proteinsequenz:

Proteine ​​sind Sequenzen, die aus zwanzig Arten von Aminosäuren bestehen. Jedes Protein trägt eine einzigartige 3D-Struktur, die von der Sequenz dieser Aminosäuren abhängt. Eine geringfügige Änderung in der Sequenz kann eine Strukturänderung verursachen, die die Funktion des Proteins verändern könnte. Diese Abhängigkeit der Proteinfunktion von seiner Aminosäuresequenz war Gegenstand umfangreicher Forschung. Früher wurde angenommen, dass diese Sequenzen zufällig sind, aber jetzt wird angenommen, dass dies nicht der Fall ist. Nitin Gupta, Nitin Mangal, Kamal Tiwari und Pabitra Mitra haben die Natur der Assoziationen zwischen verschiedenen Aminosäuren entschlüsselt, die in einem Protein vorhanden sind. Die Kenntnis und das Verständnis dieser Assoziationsregeln werden bei der Synthese künstlicher Proteine ​​von großem Nutzen sein.

Ich hoffe, ich konnte damit alles klarstellen, was Sie über Association Rule Mining wissen mussten.
Wenn Sie irgendwelche Zweifel, Fragen oder Vorschläge haben – lassen Sie sie in den Kommentaren unten fallen!

Was sind einige Beispiele für Assoziationsregel-Mining-Anwendungen?

Eine Technik zum Identifizieren gemeinsamer Muster, Korrelationen, Verknüpfungen und kausaler Strukturen aus Datensätzen, die in verschiedenen Datenbanken gespeichert sind, darunter relationale Datenbanken, Transaktionsdatenbanken und andere Formen von Datenspeichern, ist als Association Rule Mining bekannt. Assoziationsregel-Mining ermöglicht das Auffinden interessanter Verbindungen und Verknüpfungen zwischen großen Datensätzen. Diese Regel gibt an, wie häufig ein bestimmter Artikel in einer Transaktion vorkommt. Ein gutes Beispiel ist die marktbasierte Analyse. Assoziationsregeln sind beim Data Mining für die Analyse und Prognose des Verbraucherverhaltens von entscheidender Bedeutung. Kundenanalysen, Warenkorbanalysen, Produkt-Clustering, Katalogdesign und Shop-Layout sind Beispiele dafür, wo sie eingesetzt werden. Um maschinelle Lernprogramme zu erstellen, verwenden Programmierer Assoziationsregeln.

Warum greift das A-priori-Prinzip bei Bergbauverbandsregeln?

Apriori ist ein relationaler Datenbankalgorithmus für häufiges Itemset-Mining und Lernen von Assoziationsregeln. Es funktioniert, indem es die häufigsten einzelnen Artikel in der Datenbank findet und sie dann auf immer größere Artikelsätze ausdehnt, solange diese Artikelsätze häufig genug erscheinen. Die Apriori-Methode ist für die Verwendung mit Transaktionsdatenbanken vorgesehen und generiert Assoziationsregeln durch Verwendung häufiger Itemsets. Diese Assoziationskriterien werden verwendet, um die Stärke oder Schwäche einer Verbindung zwischen zwei Dingen zu bestimmen. Möglicherweise können wir die Anzahl der zu bewertenden Itemsets verringern, indem wir das Apriori-Konzept anwenden.

Was sind die Nachteile des Assoziationsregel-Minings?

Die Hauptnachteile von Assoziationsregelalgorithmen bestehen darin, langweilige Regeln zu erhalten, eine große Anzahl entdeckter Regeln zu haben und eine geringe Algorithmusleistung. Die verwendeten Algorithmen enthalten zu viele Parameter für jemanden, der kein Data-Mining-Experte ist, und die produzierten Regeln zu viele, die meisten davon uninteressant und wenig verständlich.