Algoritmul Apriori: Cum funcționează? Cum pot mărcile să utilizeze algoritmul apriori?
Publicat: 2020-03-26Imaginează-ți că ești la supermarket și că în mintea ta ai articolele pe care ai vrut să le cumperi. Dar ajungi să cumperi mult mai mult decât trebuia să faci. Aceasta se numește cumpărare impulsivă, iar mărcile folosesc algoritmul apriori pentru a valorifica acest fenomen. Faceți clic pentru a afla mai multe dacă sunteți interesat să aflați mai multe despre algoritmii de știință a datelor.
Ce este acest algoritm? Și cum funcționează? Veți găsi răspunsurile la aceste întrebări în acest articol. Mai întâi vom arunca o privire la ce este acest algoritm și apoi la cum funcționează.
Sa incepem.
Cuprins
Ce este algoritmul apriori?
Algoritmul apriori vă oferă seturi de articole frecvente. Baza ei este proprietatea apriori pe care o putem explica în felul următor:
Să presupunem că un set de articole pe care îl aveți are o valoare suport mai mică decât valoarea suportului necesară. Apoi, subseturile acestui set de articole ar avea, de asemenea, o valoare de suport mai mică decât este necesar. Deci, nu le veți include în calcul și, ca rezultat, economisiți mult spațiu.
Valoarea suportului se referă la numărul de ori când un anumit set de articole apare în tranzacții. Algoritmul apriori este destul de popular datorită aplicării sale în sistemele de recomandare. În general, veți aplica acest algoritm bazelor de date tranzacționale, adică o bază de date a tranzacțiilor. Există și multe aplicații în lumea reală ale acestui algoritm. De asemenea, ar trebui să vă familiarizați cu Asocierea Rule Mining pentru a înțelege corect algoritmul apriori.
Citește și: Condiție preliminară pentru știința datelor. Cum se schimbă în timp?
Cum funcționează algoritmul Apriori?
Algoritmul apriori generează reguli de asociere utilizând seturi de articole frecvente. Principiul său este simplu – subsetul unui set de articole frecvente ar fi, de asemenea, un set de articole frecvente. Un set de articole care are o valoare suport mai mare decât o valoare de prag este un set de articole frecvent. Luați în considerare următoarele date:
TID | Articole |
T1 | 1 3 4 |
T2 | 2 3 5 |
T3 | 1 2 3 5 |
T4 | 2 5 |
T5 | 1 3 5 |
În prima iterație, să presupunem că valoarea suportului este două și creați seturile de articole cu dimensiunea 1. Acum calculați valorile suportului lor în consecință. Am arunca articolul care ar avea o valoare suport mai mică decât cea minimă. În acest exemplu, acesta ar fi articolul numărul patru.
C1 (Rezultatul primei iterații)
Set de articole | A sustine |
{1} | 3 |
{2} | 3 |
{3} | 4 |
{4} | 1 |
{5} | 4 |
F1 (După ce renunțăm la {4})
Set de articole | A sustine |
{1} | 3 |
{2} | 3 |
{3} | 4 |
{5} | 4 |
În a doua iterație, vom păstra dimensiunea setului de articole doi și apoi vom calcula valorile suport. Vom folosi toate combinațiile din tabelul F1 în această iterație. Vom elimina toate seturile de articole care ar avea valori de suport mai mici de două.
C2 (are prezente numai articole în F1)
Set de articole | A sustine |
{1,2} | 1 |
{1,3} | 3 |
{1,5} | 2 |
{2,3} | 2 |
{2,5} | 3 |
{3,5} | 3 |
F2 (După ce eliminăm elementele care au valori de suport mai mici de 2)
Set de articole | A sustine |
{1,3} | 3 |
{1,5} | 2 |
{2,3} | 2 |
{2,5} | 3 |
{3,5} | 3 |
Acum, vom efectua tăierea. În acest caz, vom împărți seturile de articole din C3 în subseturi și le vom elimina pe cele care au o valoare de suport mai mică de două.
C3 (După ce efectuăm tăierea)
Set de articole | În F2? |
{1,2,3}, {1,2}, {1,3}, {2,3} | NU |
{1,2,5}, {1,2}, {1,5}, {2,5} | NU |
{1,3,5}, {1,5}, {1,3}, {3,5} | DA |
{2,3,5}, {2,3}, {2,5}, {3,5} | DA |

În a treia iterație, vom elimina {1,2,5} și {1,2,3} deoarece ambele au {1,2}. Acesta este impactul principal al algoritmului apriori.
F3 (După ce aruncăm {1,2,5} și {1,2,3})
Set de articole | A sustine |
{1,3,5} | 2 |
{2,3,5} | 2 |
În a patra iterație, vom folosi seturile de F3 pentru a crea C4. cu toate acestea, deoarece valoarea suportului pentru C4 este mai mică decât 2, nu am continua, iar setul de articole final este F3.
C3
Set de articole | A sustine |
{1,2,3,5} | 1 |
Avem următoarele seturi de articole cu F3:
Pentru I = {1,3,5}, submulțimile pe care le avem sunt {5}, {3}, {1}, {3,5}, {1,5}, {1,3}
Pentru I = {2,3,5}, submulțimile pe care le avem sunt {5}, {3}, {2}, {3,5}, {2,5}, {2,3}
Acum, vom crea și vom aplica reguli pe setul de articole F3. În acest scop, vom presupune că valoarea minimă de încredere este în prezent de 60%. Pentru submulțimile S ale lui I, iată regula pe care o scoatem:
- S -> (I,S) (aceasta înseamnă că S recomandă IS)
- Dacă suport(I) / suport(S) >= valoare min_conf
Să facem asta pentru primul subset pe care îl avem, adică {1,3,5}
Regula nr.1: {1,3} -> ({1,3,5} – {1,3}) înseamnă 1 și 3-> 5
Valoarea de încredere = valoarea suportului de (1,3,5) / valoarea suportului de (1,3) = ⅔ = 66,66%
Deoarece rezultatul este mai mare de 60%, selectăm Regula nr.1.
Regula nr.2: {1,5} -> {(1,3,5) – {1,5}) asta înseamnă 1 & 5 -> 3
Valoarea de încredere = valoarea suportului de (1,3,5) / valoarea suportului de (1,5) = 2/2 = 100%
Deoarece rezultatul este mai mare de 60%, selectăm Regula nr.2.
Regula nr.3: {3} -> ({1,3,5} – {3}) înseamnă 3 -> 1 & 5
Valoarea de încredere = valoarea suportului de (1,3,5) / valoarea suportului de (3) = 2/4 = 50%
Deoarece rezultatul este mai mic de 60%, respingem Regula nr.3.
Obțineți cursuri de știință a datelor de la cele mai bune universități din lume. Alăturați-vă programelor noastre Executive PG, Programelor de certificate avansate sau Programelor de master pentru a vă accelera cariera.
Cu exemplul de mai sus, puteți vedea cum algoritmul Apriori creează și aplică reguli. Puteți urma acești pași pentru al doilea set de articole ({2,3,5}) pe care îl avem. Încercarea acestuia vă va oferi cu siguranță o experiență grozavă în înțelegerea ce reguli acceptă algoritmul și pe care le respinge. Algoritmul rămâne același în alte locuri, cum ar fi algoritmul Apriori Python.
Concluzie
După ce ați citit acest articol, suntem siguri că veți fi destul de familiarizat cu acest algoritm și cu aplicația lui. Datorită utilizării sale în sistemele de recomandare, a devenit și destul de popular.
Există un algoritm mai eficient decât algoritmul Apriori?
Algoritmul ECLAT (Equivalence Class Clustering and bottom-up Lattice Traversal) este considerat a fi unul destul de util și popular pentru extragerea regulilor de asociere. În plus, se știe că este un algoritm mai eficient și mai rapid în comparație cu algoritmul Apriori.
Algoritmul Apriori funcționează într-o manieră orizontală, deoarece imită căutarea în lățime-prima a unui grafic, în timp ce algoritmul ECLAT funcționează într-o manieră verticală, imitând căutarea în adâncime a unui grafic. Această abordare verticală este motivul din spatele vitezei mai rapide și eficienței mai bune a algoritmului ECLAT în comparație cu algoritmul Apriori.
Algoritmul apriori este util în ce scop?
Algoritmul apriori este un algoritm clasic care este utilizat pe scară largă în data mining. Este cu adevărat util pentru extragerea regulilor de asociere relevante și, de asemenea, seturi de articole frecvente din baza de date disponibilă. De obicei, acest algoritm este utilizat de organizațiile care trebuie să gestioneze o bază de date constând din o mulțime de tranzacții. De exemplu, algoritmul apriori face destul de ușor să determinați articolele pe care clienții le cumpără frecvent din magazinul dvs. Vânzările pe piață pot fi îmbunătățite foarte mult cu ajutorul acestui algoritm.
În afară de asta, acest algoritm este utilizat și în sectorul sănătății pentru detectarea reacțiilor adverse la medicamente. Algoritmul produce reguli de asociere pentru a determina toate combinațiile de caracteristici ale pacientului și medicamente care ar putea duce la reacții adverse la medicamente.
Care sunt avantajele și dezavantajele algoritmului Apriori?
Algoritmul apriori este destul de ușor de implementat, înțeles și poate fi folosit foarte eficient pe seturi mari de articole. Uneori, ar putea fi nevoie să găsiți un număr mare de reguli candidate, iar acest proces ar putea fi puțin costisitor din punct de vedere computațional. Deoarece trebuie să parcurgă întreaga bază de date, este și costisitor să calculezi suportul.