I 10 algoritmi di data mining più comuni che dovresti conoscere
Pubblicato: 2019-12-02Il data mining è il processo di ricerca di modelli e ripetizioni in grandi set di dati ed è un campo dell'informatica. Le tecniche e gli algoritmi di data mining sono ampiamente utilizzati nell'intelligenza artificiale e nella scienza dei dati. Esistono molti algoritmi, ma discutiamo i primi 10 nell'elenco degli algoritmi di data mining.
Sommario
I 10 migliori algoritmi di data mining
1. Algoritmo C4.5
C4.5 è uno dei migliori algoritmi di data mining ed è stato sviluppato da Ross Quinlan. C4.5 viene utilizzato per generare un classificatore sotto forma di albero decisionale da un insieme di dati che è già stato classificato. Classificatore qui si riferisce a uno strumento di data mining che prende i dati di cui abbiamo bisogno per classificare e cerca di prevedere la classe dei nuovi dati.
Ogni punto dati avrà i suoi attributi. L'albero decisionale creato da C4.5 pone una domanda sul valore di un attributo e, in base a tali valori, i nuovi dati vengono classificati. Il set di dati di addestramento è etichettato con ragazze che rendono C4.5 un algoritmo di apprendimento supervisionato. Gli alberi decisionali sono sempre facili da interpretare e spiegare, rendendo C4.5 veloce e popolare rispetto ad altri algoritmi di data mining.
Nessuna esperienza di codifica richiesta. Supporto professionale a 360°. Diploma PG in Machine Learning e AI da IIIT-B e upGrad.2. Algoritmo K-mean
Uno degli algoritmi di clustering più comuni, k-means funziona creando un numero ak di gruppi da un insieme di oggetti in base alla somiglianza tra gli oggetti. Potrebbe non essere garantito che i membri del gruppo siano esattamente simili, ma i membri del gruppo saranno più simili rispetto ai membri non del gruppo. Secondo le implementazioni standard, k-means è un algoritmo di apprendimento non supervisionato poiché apprende il cluster da solo senza alcuna informazione esterna.
3. Supporta le macchine vettoriali
In termini di attività, Support vector machine (SVM) funziona in modo simile all'algoritmo C4.5, tranne per il fatto che SVM non utilizza alcun albero decisionale. SVM apprende i set di dati e definisce un hyperplane per classificare i dati in due classi. Un iperpiano è un'equazione per una linea che assomiglia a " y = mx + b". SVM esagera per proiettare i tuoi dati su dimensioni superiori. Una volta progettato, SVM ha definito il miglior hyperplane per separare i dati nelle due classi.
4. Algoritmo Apriori
L'algoritmo Apriori funziona imparando le regole di associazione. Le regole di associazione sono una tecnica di data mining utilizzata per apprendere le correlazioni tra variabili in un database. Una volta apprese le regole di associazione, queste vengono applicate a un database contenente un numero elevato di transazioni. L'algoritmo Apriori viene utilizzato per scoprire modelli interessanti e relazioni reciproche e quindi viene trattato come un approccio di apprendimento non supervisionato. Sebbene l'algoritmo sia altamente efficiente, consuma molta memoria, utilizza molto spazio su disco e richiede molto tempo.
5. Algoritmo di massimizzazione delle aspettative
Expectation-Maximization (EM) viene utilizzato come algoritmo di clustering, proprio come l'algoritmo k-mean per l'individuazione della conoscenza. L'algoritmo EM funziona in iterazioni per ottimizzare le possibilità di vedere i dati osservati. Successivamente, stima i parametri del modello statistico con variabili non osservate, generando così alcuni dati osservati. L'algoritmo Expectation-Maximization (EM) è di nuovo un apprendimento non supervisionato poiché lo stiamo usando senza fornire alcuna informazione sulla classe etichettata
6. Algoritmo di PageRank
PageRank è comunemente usato dai motori di ricerca come Google. È un algoritmo di analisi dei collegamenti che determina l'importanza relativa di un oggetto collegato all'interno di una rete di oggetti. L'analisi dei collegamenti è un tipo di analisi di rete che esplora le associazioni tra gli oggetti. La ricerca di Google utilizza questo algoritmo comprendendo i backlink tra le pagine web.
È uno dei metodi utilizzati da Google per determinare l'importanza relativa di una pagina Web e posizionarla più in alto sul motore di ricerca di Google. Il marchio PageRank è di proprietà di Google e l'algoritmo PageRank è brevettato dalla Stanford University. PageRank è trattato come un approccio di apprendimento non supervisionato in quanto determina l'importanza relativa solo considerando i collegamenti e non richiede altri input.

7. Algoritmo Adaboost
AdaBoost è un algoritmo di potenziamento utilizzato per costruire un classificatore. Un classificatore è uno strumento di data mining che prende i dati e prevede la classe dei dati in base agli input. L'algoritmo di potenziamento è un algoritmo di apprendimento d'insieme che esegue più algoritmi di apprendimento e li combina.
Gli algoritmi di potenziamento prendono un gruppo di studenti deboli e li combinano per formare un unico studente forte. Uno studente debole classifica i dati con minore precisione. Il miglior esempio di algoritmo debole è l'algoritmo del moncone decisionale che è fondamentalmente un albero decisionale a un passaggio. Adaboost è un apprendimento supervisionato perfetto poiché funziona nelle iterazioni e in ogni iterazione addestra gli studenti più deboli con il set di dati etichettato. Adaboost è un algoritmo semplice e piuttosto semplice da implementare.
Dopo che l'utente ha specificato il numero di round, ogni successiva iterazione di AdaBoost ridefinisce i pesi per ciascuno dei migliori studenti. Questo rende Adaboost un modo super elegante per sintonizzare automaticamente un classificatore. Adaboost è flessibile, versatile ed elegante in quanto può incorporare la maggior parte degli algoritmi di apprendimento e può acquisire una grande varietà di dati.
Leggi: Esempi più comuni di data mining
8. Algoritmo kNN
kNN è un algoritmo di apprendimento pigro utilizzato come algoritmo di classificazione. Uno studente pigro non farà molto durante il processo di formazione tranne che per memorizzare i dati di formazione. Gli studenti pigri iniziano a classificare solo quando vengono forniti nuovi dati senza etichetta come input. C4.5, SVN e Adaboost, d'altra parte, sono studenti desiderosi che iniziano a costruire il modello di classificazione durante la formazione stessa. Poiché a kNN viene fornito un set di dati di addestramento etichettato, viene trattato come un algoritmo di apprendimento supervisionato.
9. Algoritmo di Bayes ingenuo
Naive Bayes non è un singolo algoritmo anche se può essere visto funzionare in modo efficiente come un unico algoritmo. Naive Bayes è un insieme di algoritmi di classificazione messi insieme. Il presupposto utilizzato dalla famiglia di algoritmi è che ogni caratteristica dei dati classificati sia indipendente da tutte le altre caratteristiche fornite nella classe. Naive Bayes viene fornito con un set di dati di addestramento etichettato per costruire le tabelle. Quindi è trattato come un algoritmo di apprendimento supervisionato.
Certificazione avanzata di data science, oltre 250 partner di assunzione, oltre 300 ore di apprendimento, 0% EMI10. Algoritmo CARRELLO
CART sta per alberi di classificazione e regressione. È un algoritmo di apprendimento dell'albero decisionale che fornisce come output alberi di regressione o classificazione. In CART, i nodi dell'albero decisionale avranno esattamente 2 rami. Proprio come C4.5, CART è anche un classificatore. Il modello dell'albero di regressione o classificazione viene costruito utilizzando un set di dati di addestramento con etichetta fornito dall'utente. Quindi è trattata come una tecnica di apprendimento supervisionato
Conclusione
Quindi ecco i primi 10 dati dall'elenco degli algoritmi di data mining. Ci auguriamo che questo articolo abbia fatto luce sulla base di questi algoritmi.
Se sei curioso di saperne di più sulla scienza dei dati, dai un'occhiata all'Executive PG Program in Data Science di IIIT-B e upGrad, progettato per i professionisti che lavorano per migliorare se stessi senza lasciare il lavoro. Il corso offre incontri individuali con mentori del settore, opzione Easy EMI, stato di alumni IIIT-B e molto altro. Dai un'occhiata per saperne di più.
Quali sono i limiti dell'utilizzo dell'algoritmo CART per il data mining?
Non c'è dubbio che CART sia tra i migliori algoritmi di data mining utilizzati, ma presenta alcuni svantaggi. La struttura ad albero diventa instabile nel caso in cui si verifichi un cambiamento minore nel set di dati, causando così varianza a causa della struttura instabile. Se le classi non sono equilibrate, gli alberi non idonei vengono creati dagli studenti dell'albero decisionale. Questo è il motivo per cui si consiglia vivamente di bilanciare il set di dati prima di adattarlo all'albero decisionale.
Cosa significa esattamente 'K' nell'algoritmo k-medie?
Durante l'utilizzo dell'algoritmo k-mean per il processo di data mining, dovrai trovare un numero target che è "k" ed è il numero di centroidi necessari nel set di dati. In realtà, questo algoritmo cerca di raggruppare alcuni punti senza etichetta in un numero "k" di cluster. Quindi, 'k' sta per il numero di cluster di cui hai bisogno entro la fine.
Nell'algoritmo KNN, cosa si intende per underfitting?
Come suggerisce il nome, underfitting significa quando il modello non si adatta o, in altre parole, non è in grado di prevedere i dati in modo accurato. Overfitting o underfitting dipendono dal valore di "K" che scegli. La scelta di un piccolo valore di "K" in caso di un set di dati di grandi dimensioni aumenta la possibilità di overfitting.