Apriori-Algorithmus: Wie funktioniert er? Wie können Marken den Apriori-Algorithmus nutzen?

Veröffentlicht: 2020-03-26

Stellen Sie sich vor, Sie sind im Supermarkt und haben die Artikel im Kopf, die Sie kaufen wollten. Aber am Ende kaufen Sie viel mehr als Sie sollten. Dies wird als impulsives Kaufen bezeichnet, und Marken verwenden den Apriori-Algorithmus , um dieses Phänomen zu nutzen. Klicken Sie hier, um mehr zu erfahren, wenn Sie mehr über datenwissenschaftliche Algorithmen erfahren möchten.

Was ist dieser Algorithmus? Und wie funktioniert es? Die Antworten auf diese Fragen finden Sie in diesem Artikel. Wir werden uns zuerst ansehen, was dieser Algorithmus ist und dann, wie er funktioniert.

Lass uns anfangen.

Inhaltsverzeichnis

Was ist der Apriori-Algorithmus?

Der Apriori-Algorithmus gibt Ihnen häufige Itemsets. Ihre Grundlage ist die Apriori-Eigenschaft, die wir folgendermaßen erklären können:

Angenommen, ein Artikelset, das Sie haben, hat einen Unterstützungswert, der kleiner als der notwendige Unterstützungswert ist. Dann hätten auch die Teilmengen dieser Itemmenge einen geringeren Unterstützungswert als erforderlich. Sie werden also nicht in Ihre Berechnung einbezogen und sparen dadurch viel Platz.

Der Unterstützungswert bezieht sich auf die Häufigkeit, mit der ein bestimmtes Itemset in Transaktionen erscheint. Der Apriori-Algorithmus ist aufgrund seiner Anwendung in Empfehlungssystemen sehr beliebt. Im Allgemeinen wenden Sie diesen Algorithmus auf Transaktionsdatenbanken an, also auf eine Datenbank mit Transaktionen. Es gibt auch viele reale Anwendungen dieses Algorithmus. Sie sollten sich auch mit Association Rule Mining vertraut machen , um den Apriori-Algorithmus richtig zu verstehen.

Lesen Sie auch: Voraussetzung für Data Science. Wie verändert es sich im Laufe der Zeit?

Wie funktioniert der Apriori-Algorithmus?

Der Apriori-Algorithmus generiert Assoziationsregeln, indem er häufige Itemsets verwendet. Das Prinzip ist einfach – die Teilmenge einer häufigen Artikelmenge wäre auch eine häufige Artikelmenge. Ein Itemset, das einen Unterstützungswert hat, der größer als ein Schwellenwert ist, ist ein häufiges Itemset. Betrachten Sie die folgenden Daten:

TID	Artikel
T1	1 3 4
T2	2 3 5
T3	1 2 3 5
T4	2 5
T5	1 3 5

Nehmen Sie in der ersten Iteration an, dass der Unterstützungswert zwei ist, und erstellen Sie die Itemsets mit der Größe 1. Berechnen Sie nun ihre Unterstützungswerte entsprechend. Wir würden den Artikel verwerfen, dessen Unterstützungswert niedriger als der Mindestwert wäre. In diesem Beispiel wäre das die Nummer vier.

C1 (Ergebnis der ersten Iteration)

Itemset	Unterstützung
{1}	3
{2}	3
{3}	4
{4}	1
{5}	4

F1 (Nachdem wir {4} verworfen haben)

Itemset	Unterstützung
{1}	3
{2}	3
{3}	4
{5}	4

In der zweiten Iteration behalten wir die Größe der Itemsets bei zwei und berechnen dann die Unterstützungswerte. Wir verwenden alle Kombinationen von Tabelle F1 in dieser Iteration. Wir werden alle Itemsets entfernen, die Unterstützungswerte von weniger als zwei haben würden.

C2 (hat nur Gegenstände in F1)

Itemset	Unterstützung
{1,2}	1
{1,3}	3
{1,5}	2
{2,3}	2
{2,5}	3
{3,5}	3

F2 (Nachdem wir Gegenstände entfernt haben, deren Unterstützungswerte unter 2 liegen)

Itemset	Unterstützung
{1,3}	3
{1,5}	2
{2,3}	2
{2,5}	3
{3,5}	3

Jetzt führen wir das Beschneiden durch. In diesem Fall werden wir die Itemsets von C3 in Teilsets aufteilen und diejenigen entfernen, die einen Unterstützungswert von weniger als zwei haben.

C3 (Nachdem wir das Beschneiden durchgeführt haben)

Itemset	Bei F2?
{1,2,3}, {1,2}, {1,3}, {2,3}	NEIN
{1,2,5}, {1,2}, {1,5}, {2,5}	NEIN
{1,3,5}, {1,5}, {1,3}, {3,5}	JAWOHL
{2,3,5}, {2,3}, {2,5}, {3,5}	JAWOHL

In der dritten Iteration verwerfen wir {1,2,5} und {1,2,3}, da sie beide {1,2} haben. Dies ist die Hauptwirkung des Apriori-Algorithmus.

F3 (Nachdem wir {1,2,5} und {1,2,3} verworfen haben)

Itemset	Unterstützung
{1,3,5}	2
{2,3,5}	2

In der vierten Iteration verwenden wir die Sätze von F3, um C4 zu erstellen. Da der Unterstützungswert von C4 jedoch niedriger als 2 ist, würden wir nicht fortfahren und das letzte Itemset ist F3.

Itemset	Unterstützung
{1,2,3,5}	1

Wir haben die folgenden Itemsets mit F3:

Für I = {1,3,5} sind die Teilmengen, die wir haben, {5}, {3}, {1}, {3,5}, {1,5}, {1,3}

Für I = {2,3,5} sind die Teilmengen, die wir haben, {5}, {3}, {2}, {3,5}, {2,5}, {2,3}

Jetzt erstellen und wenden wir Regeln auf das Itemset F3 an. Zu diesem Zweck gehen wir davon aus, dass der minimale Konfidenzwert derzeit 60 % beträgt. Für Teilmengen S von I ist hier die Regel, die wir ausgeben:

S -> (I,S) (d.h. S empfiehlt IS)
Wenn support(I) / support(S) >= min_conf Wert

Lassen Sie uns dies für die erste Teilmenge tun, die wir haben, dh {1,3,5}

Regel Nr.1: {1,3} -> ({1,3,5} – {1,3}) das bedeutet 1 & 3-> 5

Konfidenzwert = Unterstützungswert von (1,3,5) / Unterstützungswert von (1,3) = ⅔ = 66,66 %

Da das Ergebnis höher als 60 % ist, wählen wir Regel Nr. 1.

Regel Nr.2: {1,5} -> {(1,3,5) – {1,5}) das bedeutet 1 & 5 -> 3

Konfidenzwert = Unterstützungswert von (1,3,5) / Unterstützungswert von (1,5) = 2/2 = 100 %

Da das Ergebnis höher als 60 % ist, wählen wir Regel Nr. 2.

Regel Nr. 3: {3} -> ({1,3,5} – {3}) das bedeutet 3 -> 1 & 5

Konfidenzwert = Unterstützungswert von (1,3,5) / Unterstützungswert von (3) = 2/4 = 50 %

Da das Ergebnis unter 60 % liegt, lehnen wir Regel Nr. 3 ab.

Verdienen Sie Data-Science-Kurse an den besten Universitäten der Welt. Nehmen Sie an unseren Executive PG-Programmen, Advanced Certificate Programs oder Masters-Programmen teil, um Ihre Karriere zu beschleunigen.

Anhand des obigen Beispiels können Sie sehen, wie der Apriori-Algorithmus Regeln erstellt und anwendet. Sie können diese Schritte für den zweiten Artikelsatz ({2,3,5}) befolgen, den wir haben. Wenn Sie es ausprobieren, werden Sie sicherlich eine großartige Erfahrung darin haben, zu verstehen, welche Regeln der Algorithmus akzeptiert und welche er ablehnt. Der Algorithmus bleibt an anderen Stellen gleich, wie zum Beispiel beim Apriori-Algorithmus Python.

Fazit

Nachdem Sie diesen Artikel gelesen haben, sind Sie sicher mit diesem Algorithmus und seiner Anwendung vertraut. Aufgrund seiner Verwendung in Empfehlungssystemen ist es auch sehr beliebt geworden.

Gibt es einen effizienteren Algorithmus als den Apriori-Algorithmus?

Der ECLAT-Algorithmus (Equivalence Class Clustering and Bottom-up Lattice Traversal) erweist sich als ziemlich nützlich und beliebt für das Assoziationsregel-Mining. Darüber hinaus ist es im Vergleich zum Apriori-Algorithmus auch als effizienter und schnellerer Algorithmus bekannt.

Der Apriori-Algorithmus arbeitet horizontal, da er die Breitensuche eines Graphen imitiert, während der ECLAT-Algorithmus vertikal arbeitet, indem er die Tiefensuche eines Graphen imitiert. Dieser vertikale Ansatz ist der Grund für die höhere Geschwindigkeit und bessere Effizienz des ECLAT-Algorithmus im Vergleich zum Apriori-Algorithmus.

Apriori-Algorithmus ist für welchen Zweck nützlich?

Der Apriori-Algorithmus ist ein klassischer Algorithmus, der im Data Mining weit verbreitet ist. Es ist wirklich nützlich, um relevante Assoziationsregeln und auch häufige Itemsets aus der verfügbaren Datenbank zu extrahieren. Normalerweise wird dieser Algorithmus von Organisationen verwendet, die eine Datenbank mit vielen Transaktionen verwalten müssen. Der Apriori-Algorithmus macht es beispielsweise ziemlich einfach, die Artikel zu bestimmen, die Kunden häufig in Ihrem Geschäft kaufen. Mit Hilfe dieses Algorithmus können die Marktumsätze stark verbessert werden.

Darüber hinaus wird dieser Algorithmus auch im Gesundheitswesen zur Erkennung unerwünschter Arzneimittelwirkungen eingesetzt. Der Algorithmus erstellt Assoziationsregeln, um alle Kombinationen von Patientenmerkmalen und Medikamenten zu bestimmen, die zu unerwünschten Arzneimittelwirkungen führen könnten.

Was sind die Vor- und Nachteile des Apriori-Algorithmus?

Der Apriori-Algorithmus ist ziemlich einfach zu implementieren, zu verstehen und kann sehr effizient für große Itemsets verwendet werden. Manchmal muss möglicherweise eine große Anzahl von Kandidatenregeln gefunden werden, und dieser Prozess kann etwas rechenintensiv sein. Da die gesamte Datenbank durchlaufen werden muss, ist es auch teuer, die Unterstützung zu berechnen.