O privire de ansamblu asupra exploatării regulilor de asociere și a aplicațiilor sale

Publicat: 2019-06-05

Asocierea Rule Mining, după cum sugerează și numele, regulile de asociere sunt instrucțiuni simple If/Then care ajută la descoperirea relațiilor dintre bazele de date relaționale aparent independente sau alte depozite de date.

Majoritatea algoritmilor de învățare automată funcționează cu seturi de date numerice și, prin urmare, tind să fie matematici. Cu toate acestea, extragerea regulilor de asociere este potrivită pentru date nenumerice, categorice și necesită doar puțin mai mult decât simpla numărare.

Exploatarea regulilor de asociere este o procedură care urmărește să observe tipare, corelații sau asocieri care apar frecvent din seturi de date găsite în diferite tipuri de baze de date, cum ar fi baze de date relaționale, baze de date tranzacționale și alte forme de depozite.

O regulă de asociere are 2 părți:

  • un antecedent (dacă) și
  • o consecință (atunci)

Un antecedent este ceva care se găsește în date, iar un rezultat este un element care se găsește în combinație cu antecedentul. Aruncă o privire la această regulă, de exemplu:

„Dacă un client cumpără pâine, are 70% șanse să cumpere lapte.”

În regula de asociere de mai sus, pâinea este antecedentul, iar laptele este rezultatul. Mai simplu spus, poate fi înțeles ca o regulă de asociere a unui magazin cu amănuntul pentru a-și viza mai bine clienții. Dacă regula de mai sus este rezultatul unei analize amănunțite a unor seturi de date, aceasta poate fi folosită nu numai pentru a îmbunătăți serviciile pentru clienți, ci și pentru a îmbunătăți veniturile companiei.
Regulile de asociere sunt create prin analizarea amănunțită a datelor și căutarea unor modele frecvente dacă/atunci. Apoi, în funcție de următorii doi parametri, se observă relațiile importante:

  1. Suport : Suport indică cât de des apare relația dacă/atunci în baza de date.
  2. Încrederea : încrederea spune de câte ori aceste relații s-au dovedit a fi adevărate.

Deci, într-o tranzacție dată cu mai multe articole, Association Rule Mining încearcă în primul rând să găsească regulile care guvernează cum sau de ce astfel de produse/articole sunt adesea cumpărate împreună. De exemplu, untul de arahide și jeleul sunt adesea achiziționate împreună, deoarece multor oameni le place să facă sandvișuri PB&J.

Asociația Rule Mining este uneori denumită „Analiza coșului de piață”, deoarece a fost prima zonă de aplicare a mineritului de asociere. Scopul este de a descoperi asocieri de elemente care apar împreună mai des decât v-ați aștepta din eșantionarea aleatorie a tuturor posibilităților. Anecdota clasică a berii și a scutecului vă va ajuta să înțelegeți mai bine acest lucru.

Povestea este așa: tinerii americani care merg vinerea în magazine pentru a cumpăra scutece au o predispoziție să apuce și ei o sticlă de bere. Oricât de neînrudit și de vag ar părea pentru noi, profanii, mineritul de reguli de asociere ne arată cum și de ce!
Să facem noi înșine puțină analiză, nu?
Să presupunem că baza de date de tranzacții cu amănuntul a unui magazin X include următoarele date:

  • Numărul total de tranzacții: 600.000
  • Tranzacții care conțin scutece: 7.500 (1,25 la sută)
  • Tranzacții care conțin bere: 60.000 (10 la sută)
  • Tranzacții care conțin atât bere, cât și scutece: 6.000 (1,0 la sută)

Din cifrele de mai sus, putem concluziona că, dacă nu ar exista o relație între bere și scutece (adică erau independente din punct de vedere statistic), atunci am fi făcut ca doar 10% dintre cumpărătorii de scutece să cumpere și bere.

Cu toate acestea, oricât de surprinzător ar părea, cifrele ne spun că 80% (=6000/7500) dintre cei care cumpără scutece cumpără și bere .
Acesta este un salt semnificativ de 8 peste ceea ce era probabilitatea așteptată. Acest factor de creștere este cunoscut sub numele de Ridicare – care este raportul dintre frecvența observată de apariție concomitentă a articolelor noastre și frecvența așteptată.

Cum am stabilit liftul?
Pur și simplu calculând tranzacțiile din baza de date și efectuând operații matematice simple.
Deci, de exemplu, o regulă de asociere plauzibilă poate afirma că persoanele care cumpără scutece vor cumpăra și bere cu un factor de ridicare de 8. Dacă vorbim matematic, creșterea poate fi calculată ca raport al probabilității comune a doi articole x și y, împărțit la produsul probabilităților lor.
Ridicare = P(x,y)/[P(x)P(y)]
Totuși, dacă cei doi itemi sunt independenți statistic, atunci probabilitatea comună a celor doi itemi va fi aceeași cu produsul probabilităților lor. Sau, cu alte cuvinte,
P(x,y)=P(x)P(y),
ceea ce face ca factorul de ridicare = 1. Un punct interesant care merită menționat aici este că anti-corelația poate produce chiar valori de ridicare mai mici decât 1 – ceea ce corespunde elementelor care se exclud reciproc, care apar rar împreună.
Asociația Rule Mining i-a ajutat pe oamenii de știință de date să descopere modele despre care nu știau niciodată că există.
Fundamentele de bază ale statisticii pentru știința datelor

Cuprins

Să ne uităm la câteva domenii în care Asociația Rule Mining a ajutat destul de mult:

  1. Analiza coșului de piață:

Acesta este cel mai tipic exemplu de minerit de asociere. Datele sunt colectate folosind scanere de coduri de bare în majoritatea supermarketurilor. Această bază de date, cunoscută sub numele de baza de date „coșul pieței”, constă dintr-un număr mare de înregistrări privind tranzacțiile anterioare. O singură înregistrare listează toate articolele cumpărate de un client într-o singură vânzare. A ști ce grupuri sunt înclinate către ce set de articole le oferă acestor magazine libertatea de a ajusta aspectul magazinului și catalogul magazinului pentru a plasa în mod optim unul pe celălalt.

  1. Diagnostic medical:

Regulile de asociere în diagnosticul medical pot fi utile pentru asistarea medicilor pentru vindecarea pacienților. Diagnosticarea nu este un proces ușor și are o serie de erori care pot duce la rezultate finale nesigure. Folosind exploatarea regulilor de asociere relațională, putem identifica probabilitatea apariției bolii privind diverși factori și simptome. În plus, folosind tehnici de învățare, această interfață poate fi extinsă prin adăugarea de noi simptome și definirea relațiilor dintre noile semne și bolile corespunzătoare.

  1. Date de recensământ:

Fiecare guvern are tone de date de recensământ. Aceste date pot fi folosite pentru a planifica servicii publice eficiente (educație, sănătate, transport), precum și pentru a ajuta afacerile publice (pentru înființarea de noi fabrici, centre comerciale și chiar comercializarea anumitor produse). Această aplicare a exploatării regulilor de asociere și extragerea datelor are un potențial imens în susținerea unei politici publice solide și în realizarea unei funcționări eficiente a unei societăți democratice.

  1. Secvență de proteine:

Proteinele sunt secvențe formate din douăzeci de tipuri de aminoacizi. Fiecare proteină are o structură 3D unică, care depinde de secvența acestor aminoacizi. O ușoară modificare a secvenței poate provoca o modificare a structurii care ar putea schimba funcționarea proteinei. Această dependență a funcționării proteinei de secvența sa de aminoacizi a fost un subiect de mare cercetare. Mai devreme se credea că aceste secvențe sunt aleatorii, dar acum se crede că nu sunt. Nitin Gupta, Nitin Mangal, Kamal Tiwari și Pabitra Mitra au descifrat natura asociațiilor dintre diferiți aminoacizi care sunt prezenți într-o proteină. Cunoașterea și înțelegerea acestor reguli de asociere vor fi extrem de utile în timpul sintezei proteinelor artificiale.

Cu asta, sper că am putut să clarific tot ce trebuia să știți despre minerit cu reguli de asociere.
Dacă se întâmplă să aveți îndoieli, întrebări sau sugestii - lăsați-le în comentariile de mai jos!

Care sunt câteva exemple de aplicații de minerit cu reguli de asociere?

O tehnică de identificare a modelelor, corelațiilor, legăturilor și structurilor cauzale comune din seturi de date stocate în diferite baze de date, inclusiv baze de date relaționale, baze de date tranzacționale și alte forme de depozite de date, este cunoscută sub numele de extragerea regulilor de asociere. Exploatarea regulilor de asociere permite găsirea de conexiuni și legături interesante între seturi mari de elemente de date. Această regulă specifică cât de des apare un anumit articol într-o tranzacție. Un bun exemplu este analiza bazată pe piață. Regulile de asociere sunt critice în data mining pentru analiza și prognoza comportamentului consumatorilor. Analiza clienților, analiza coșului de piață, gruparea produselor, designul de catalog și aspectul magazinului sunt toate exemple de locuri în care sunt angajați. Pentru a crea programe de învățare automată, programatorii folosesc reguli de asociere.

Când vine vorba de regulile asociației miniere, de ce este eficient principiul Apriori?

Pentru extragerea frecventă a seturilor de articole și învățarea regulilor de asociere, Apriori este un algoritm de bază de date relațională. Funcționează prin găsirea celor mai comune articole individuale din baza de date și apoi extinzându-le la seturi de articole din ce în ce mai mari, atâta timp cât acele seturi de articole apar suficient de frecvent. Metoda Apriori este destinată utilizării cu bazele de date de tranzacții și generează reguli de asociere folosind seturi de articole frecvente. Aceste criterii de asociere sunt folosite pentru a determina puterea sau slăbiciunea unei conexiuni între două lucruri. Este posibil să putem reduce numărul de seturi de articole pe care trebuie să le evaluăm prin folosirea conceptului Apriori.

Care sunt dezavantajele exploatării regulilor de asociere?

Principalele dezavantaje ale algoritmilor cu reguli de asociere sunt obținerea de reguli plictisitoare, având un număr mare de reguli descoperite și o performanță scăzută a algoritmului. Algoritmii angajați conțin prea mulți parametri pentru cineva care nu este un expert în data mining, iar regulile produse sunt prea multe, majoritatea fiind neinteresante și având o inteligibilitate scăzută.