Una panoramica dell'estrazione di regole di associazione e delle sue applicazioni

Pubblicato: 2019-06-05

Association Rule Mining, come suggerisce il nome, le regole di associazione sono semplici istruzioni If/Then che aiutano a scoprire le relazioni tra database relazionali apparentemente indipendenti o altri repository di dati.

La maggior parte degli algoritmi di apprendimento automatico funzionano con set di dati numerici e quindi tendono ad essere matematici. Tuttavia, il mining delle regole di associazione è adatto per dati categoriali non numerici e richiede solo un po' di più del semplice conteggio.

Il mining delle regole di associazione è una procedura che mira a osservare schemi, correlazioni o associazioni che si verificano frequentemente da set di dati trovati in vari tipi di database come database relazionali, database transazionali e altre forme di repository.

Una regola di associazione ha 2 parti:

  • un antecedente (se) e
  • un conseguente (quindi)

Un antecedente è qualcosa che si trova nei dati e un conseguente è un elemento che si trova in combinazione con l'antecedente. Dai un'occhiata a questa regola per esempio:

"Se un cliente compra il pane, ha il 70% di probabilità di acquistare il latte".

Nella suddetta regola di associazione, il pane è l'antecedente e il latte è il conseguente. In poche parole, può essere intesa come la regola di associazione di un negozio al dettaglio per indirizzare meglio i propri clienti. Se la regola di cui sopra è il risultato di un'analisi approfondita di alcuni set di dati, può essere utilizzata non solo per migliorare il servizio clienti, ma anche per aumentare i ricavi dell'azienda.
Le regole di associazione vengono create analizzando a fondo i dati e cercando modelli if/then frequenti. Quindi, in base ai due parametri seguenti, si osservano le relazioni importanti:

  1. Supporto : Il supporto indica la frequenza con cui la relazione if/then appare nel database.
  2. Fiducia : la fiducia racconta il numero di volte in cui queste relazioni sono state trovate vere.

Pertanto, in una determinata transazione con più articoli, Association Rule Mining cerca principalmente di trovare le regole che regolano come o perché tali prodotti/articoli vengono spesso acquistati insieme. Ad esempio, il burro di arachidi e la gelatina vengono spesso acquistati insieme perché a molte persone piace fare i panini PB&J.

L'Association Rule Mining è a volte indicato come "Market Basket Analysis", in quanto è stata la prima area di applicazione dell'Association Mining. L'obiettivo è scoprire associazioni di elementi che si verificano insieme più spesso di quanto ci si aspetterebbe da un campionamento casuale di tutte le possibilità. Il classico aneddoto di Birra e Pannolino aiuterà a capirlo meglio.

La storia va così: i giovani americani che il venerdì vanno nei negozi a comprare i pannolini hanno una predisposizione ad afferrare anche una bottiglia di birra. Per quanto non correlato e vago possa sembrare a noi laici, l'estrazione di regole dell'associazione ci mostra come e perché!
Facciamo un po' di analisi noi stessi, vero?
Supponiamo che il database delle transazioni di vendita al dettaglio di un negozio X includa i seguenti dati:

  • Numero totale di transazioni: 600.000
  • Transazioni contenenti pannolini: 7.500 (1,25%)
  • Transazioni contenenti birra: 60.000 (10%)
  • Transazioni contenenti sia birra che pannolini: 6.000 (1,0%)

Dalle cifre di cui sopra, possiamo concludere che se non ci fosse alcuna relazione tra birra e pannolini (cioè erano statisticamente indipendenti), allora avremmo solo il 10% degli acquirenti di pannolini ad acquistare anche birra.

Tuttavia, per quanto sorprendente possa sembrare, le cifre ci dicono che l' 80% (=6000/7500) delle persone che comprano i pannolini compra anche birra .
Questo è un salto significativo di 8 su quella che era la probabilità prevista. Questo fattore di aumento è noto come Lift, che è il rapporto tra la frequenza osservata di co-occorrenza dei nostri articoli e la frequenza prevista.

Come abbiamo determinato l'ascensore?
Semplicemente calcolando le transazioni nel database ed eseguendo semplici operazioni matematiche.
Quindi, per il nostro esempio, una regola di associazione plausibile può affermare che le persone che acquistano i pannolini acquisteranno anche birra con un fattore di sollevamento di 8. Se parliamo matematicamente, l'aumento può essere calcolato come il rapporto della probabilità congiunta di due elementi x e y, diviso per il prodotto delle loro probabilità.
Portata = P(x,y)/[P(x)P(y)]
Tuttavia, se i due elementi sono statisticamente indipendenti, la probabilità congiunta dei due elementi sarà la stessa del prodotto delle loro probabilità. O, in altre parole,
P(x,y)=P(x)P(y),
il che rende il fattore Lift = 1. Un punto interessante che vale la pena menzionare qui è che l'anticorrelazione può anche produrre valori di Lift inferiori a 1, che corrisponde a elementi che si escludono a vicenda che raramente si verificano insieme.
L'Association Rule Mining ha aiutato i data scientist a scoprire schemi che non sapevano esistessero.
Fondamenti di base di statistica per la scienza dei dati

Sommario

Diamo un'occhiata ad alcune aree in cui Association Rule Mining ha aiutato molto:

  1. Analisi del paniere di mercato:

Questo è l'esempio più tipico di mining associativo. I dati vengono raccolti utilizzando lettori di codici a barre nella maggior parte dei supermercati. Questo database, noto come database del "paniere del mercato", è costituito da un gran numero di record sulle transazioni passate. Un unico record elenca tutti gli articoli acquistati da un cliente in un'unica vendita. Sapere quali gruppi sono inclini a quale insieme di articoli dà a questi negozi la libertà di modificare il layout del negozio e il catalogo del negozio per posizionare in modo ottimale l'uno rispetto all'altro.

  1. Diagnosi medica:

Le regole di associazione nella diagnosi medica possono essere utili per assistere i medici nella cura dei pazienti. La diagnosi non è un processo facile e presenta una serie di errori che possono portare a risultati finali inaffidabili. Utilizzando il mining delle regole di associazione relazionale, possiamo identificare la probabilità che si verifichi una malattia in relazione a vari fattori e sintomi. Inoltre, utilizzando tecniche di apprendimento, questa interfaccia può essere estesa aggiungendo nuovi sintomi e definendo le relazioni tra i nuovi segni e le malattie corrispondenti.

  1. Dati del censimento:

Ogni governo ha tonnellate di dati di censimento. Questi dati possono essere utilizzati per pianificare servizi pubblici efficienti (istruzione, salute, trasporti) e per aiutare le imprese pubbliche (per la creazione di nuove fabbriche, centri commerciali e persino la commercializzazione di prodotti particolari). Questa applicazione dell'estrazione di regole di associazione e di data mining ha un potenziale immenso nel sostenere una sana politica pubblica e portare avanti un funzionamento efficiente di una società democratica.

  1. Sequenza proteica:

Le proteine ​​sono sequenze composte da venti tipi di amminoacidi. Ogni proteina ha una struttura 3D unica che dipende dalla sequenza di questi amminoacidi. Un leggero cambiamento nella sequenza può causare un cambiamento nella struttura che potrebbe cambiare il funzionamento della proteina. Questa dipendenza del funzionamento della proteina dalla sua sequenza di amminoacidi è stata oggetto di grandi ricerche. In precedenza si pensava che queste sequenze fossero casuali, ma ora si crede che non lo siano. Nitin Gupta, Nitin Mangal, Kamal Tiwari e Pabitra Mitra hanno decifrato la natura delle associazioni tra diversi aminoacidi presenti in una proteina. La conoscenza e la comprensione di queste regole di associazione saranno estremamente utili durante la sintesi di proteine ​​artificiali.

Con ciò, spero di essere stato in grado di chiarire tutto ciò che avevi bisogno di sapere sull'estrazione di regole di associazione.
Se hai dubbi, domande o suggerimenti, lasciali cadere nei commenti qui sotto!

Quali sono alcuni esempi di applicazioni di mining di regole di associazione?

Una tecnica per identificare modelli comuni, correlazioni, collegamenti e strutture causali da set di dati archiviati in vari database, inclusi database relazionali, database transazionali e altre forme di repository di dati, è nota come mining di regole di associazione. L'estrazione delle regole di associazione consente di trovare connessioni e collegamenti interessanti tra grandi insiemi di elementi di dati. Questa regola specifica la frequenza con cui un articolo specifico appare in una transazione. Un buon esempio è l'analisi basata sul mercato. Le regole di associazione sono fondamentali nel data mining per analizzare e prevedere il comportamento dei consumatori. Analisi dei clienti, analisi del paniere di mercato, raggruppamento dei prodotti, progettazione del catalogo e layout del negozio sono tutti esempi di dove vengono impiegati. Per creare programmi di apprendimento automatico, i programmatori utilizzano regole di associazione.

Quando si tratta di regole di associazione mineraria, perché il principio Apriori è efficace?

Per l'estrazione frequente di set di elementi e l'apprendimento delle regole di associazione, Apriori è un algoritmo di database relazionale. Funziona trovando i singoli elementi più comuni nel database e quindi estendendoli a insiemi di elementi sempre più grandi purché tali insiemi di elementi appaiano abbastanza frequentemente. Il metodo Apriori è destinato all'uso con i database delle transazioni e genera regole di associazione utilizzando set di elementi frequenti. Questi criteri di associazione vengono utilizzati per determinare la forza o la debolezza di una connessione tra due cose. Potremmo essere in grado di ridurre il numero di set di elementi che dobbiamo valutare utilizzando il concetto Apriori.

Quali sono gli svantaggi del mining di regole di associazione?

Gli svantaggi principali degli algoritmi delle regole di associazione sono l'ottenimento di regole noiose, un gran numero di regole scoperte e una bassa prestazione dell'algoritmo. Gli algoritmi utilizzati contengono troppi parametri per chi non è esperto di data mining e le regole prodotte sono troppe, la maggior parte delle quali poco interessanti e poco comprensibili.