Top 10 cei mai obișnuiți algoritmi de data mining pe care ar trebui să-i cunoașteți

Publicat: 2019-12-02

Miningul de date este procesul de găsire a modelelor și repetițiilor în seturi mari de date și este un domeniu al informaticii. Tehnicile și algoritmii de extragere a datelor sunt utilizate pe scară largă în inteligența artificială și știința datelor. Există mulți algoritmi, dar să discutăm primii 10 din lista de algoritmi de data mining.

Cuprins

Top 10 algoritmi de data mining

1. C4.5 Algoritm

C4.5 este unul dintre cei mai buni algoritmi de extragere a datelor și a fost dezvoltat de Ross Quinlan. C4.5 este folosit pentru a genera un clasificator sub forma unui arbore de decizie dintr-un set de date care a fost deja clasificat. Clasificatorul se referă aici la un instrument de extragere a datelor care preia datele pe care trebuie să le clasificăm și încearcă să prezică clasa de date noi.

Fiecare punct de date va avea propriile sale atribute. Arborele de decizie creat de C4.5 pune o întrebare despre valoarea unui atribut și, în funcție de aceste valori, noile date sunt clasificate. Setul de date de antrenament este etichetat cu fete, făcând C4.5 un algoritm de învățare supravegheată. Arborele de decizie sunt întotdeauna ușor de interpretat și explicat, făcând C4.5 rapid și popular în comparație cu alți algoritmi de extragere a datelor.

Nu este necesară experiență de codare. Suport în carieră la 360°. Diploma PG în Machine Learning și AI de la IIIT-B și upGrad.

2. Algoritmul K-mean

Unul dintre cei mai comuni algoritmi de grupare, k-means funcționează prin crearea unui număr ak de grupuri dintr-un set de obiecte bazat pe asemănarea dintre obiecte. Este posibil să nu fie garantat că membrii grupului vor fi exact similari, dar membrii grupului vor fi mai asemănători în comparație cu membrii care nu fac parte din grup. Conform implementărilor standard, k-means este un algoritm de învățare nesupravegheat, deoarece învață clusterul pe cont propriu, fără nicio informație externă.

3. Suport mașini vectoriale

În ceea ce privește sarcinile, Mașina vectorială de suport (SVM) funcționează similar cu algoritmul C4.5, cu excepția faptului că SVM nu utilizează deloc arbori de decizie. SVM învață seturile de date și definește un hiperplan pentru a clasifica datele în două clase. Un hiperplan este o ecuație pentru o dreaptă care arată ceva de genul „ y = mx + b”. SVM exagerează pentru a vă proiecta datele la dimensiuni mai mari. Odată proiectat, SVM a definit cel mai bun hiperplan pentru a separa datele în cele două clase.

4. Algoritmul apriori

Algoritmul apriori funcționează prin învățarea regulilor de asociere. Regulile de asociere sunt o tehnică de extragere a datelor care este utilizată pentru a învăța corelațiile dintre variabilele dintr-o bază de date. Odată ce regulile de asociere sunt învățate, acestea sunt aplicate unei baze de date care conține un număr mare de tranzacții. Algoritmul apriori este folosit pentru a descoperi modele interesante și relații reciproce și, prin urmare, este tratat ca o abordare de învățare nesupravegheată. Cred că algoritmul este foarte eficient, consumă multă memorie, folosește mult spațiu pe disc și necesită mult timp.

5. Algoritmul de așteptare-maximizare

Expectation-Maximization (EM) este folosit ca algoritm de grupare, la fel ca algoritmul k-means pentru descoperirea cunoștințelor. Algoritmul EM funcționează în iterații pentru a optimiza șansele de a vedea datele observate. În continuare, se estimează parametrii modelului statistic cu variabile neobservate, generând astfel unele date observate. Algoritmul de maximizare a așteptărilor (EM) este din nou învățare nesupravegheată, deoarece îl folosim fără a furniza informații despre clasă etichetate.

6. Algoritmul PageRank

PageRank este folosit în mod obișnuit de motoarele de căutare precum Google. Este un algoritm de analiză a legăturilor care determină importanța relativă a unui obiect legat într-o rețea de obiecte. Analiza legăturilor este un tip de analiză a rețelei care explorează asocierile dintre obiecte. Căutarea Google folosește acest algoritm prin înțelegerea backlink-urilor dintre paginile web.

Este una dintre metodele pe care le folosește Google pentru a determina importanța relativă a unei pagini web și pentru a o clasa mai sus pe motorul de căutare Google. Marca înregistrată PageRank este proprietatea Google, iar algoritmul PageRank este brevetat de Universitatea Stanford. PageRank este tratat ca o abordare de învățare nesupravegheată, deoarece determină importanța relativă doar luând în considerare legăturile și nu necesită alte intrări.

7. Algoritmul Adaboost

AdaBoost este un algoritm de amplificare utilizat pentru a construi un clasificator. Un clasificator este un instrument de extragere a datelor care preia date prezice clasa datelor pe baza intrărilor. Algoritmul de creștere este un algoritm de învățare ansamblu care rulează mai mulți algoritmi de învățare și îi combină.

Algoritmii de stimulare iau un grup de cursanți slabi și îi combină pentru a forma un singur cursant puternic. Un cursant slab clasifică datele cu mai puțină acuratețe. Cel mai bun exemplu de algoritm slab este algoritmul de ciot de decizie care este practic un arbore de decizie într-un singur pas. Adaboost este o învățare supervizată perfectă, deoarece funcționează în iterații și, în fiecare iterație, antrenează cursanții mai slabi cu setul de date etichetat. Adaboost este un algoritm simplu și destul de simplu de implementat.

După ce utilizatorul specifică numărul de runde, fiecare iterație succesivă AdaBoost redefinește ponderile pentru fiecare dintre cei mai buni cursanți. Acest lucru face din Adaboost o modalitate super elegantă de a regla automat un clasificator. Adaboost este flexibil, versatil și elegant, deoarece poate încorpora majoritatea algoritmilor de învățare și poate prelua o mare varietate de date.

Citiți: Cele mai comune exemple de data mining

8. Algoritmul kNN

kNN este un algoritm de învățare leneș folosit ca algoritm de clasificare. Un cursant leneș nu va face nimic în timpul procesului de formare, cu excepția stocării datelor de antrenament. Cursanții leneși încep să clasifice numai atunci când sunt date noi date neetichetate ca intrare. C4.5, SVN și Adaboost, pe de altă parte, sunt cursanți dornici care încep să construiască modelul de clasificare în timpul antrenamentului în sine. Deoarece kNN primește un set de date de antrenament etichetat, acesta este tratat ca un algoritm de învățare supravegheat.

9. Algoritmul Bayes naiv

Naive Bayes nu este un singur algoritm, deși poate fi văzut că funcționează eficient ca un singur algoritm. Naive Bayes este o grămadă de algoritmi de clasificare puși împreună. Presupunerea utilizată de familia de algoritmi este că fiecare caracteristică a datelor clasificate este independentă de toate celelalte caracteristici care sunt date în clasă. Naive Bayes este furnizat cu un set de date de antrenament etichetat pentru a construi tabele. Deci, este tratat ca un algoritm de învățare supravegheată.

Certificare avansată în știința datelor, peste 250 de parteneri de angajare, peste 300 de ore de învățare, 0% EMI

10. Algoritmul CART

CART înseamnă arbori de clasificare și regresie. Este un algoritm de învățare a arborelui de decizie care oferă fie arbori de regresie, fie arbori de clasificare ca rezultat. În CART, nodurile arborelui de decizie vor avea exact 2 ramuri. La fel ca C4.5, CART este, de asemenea, un clasificator. Modelul arborelui de regresie sau clasificare este construit folosind un set de date de antrenament etichetat furnizat de utilizator. Prin urmare, este tratată ca o tehnică de învățare supravegheată

Concluzie

Așadar, iată primele 10 date din lista de algoritmi de extragere a datelor. Sperăm că acest articol a făcut puțină lumină pe baza acestor algoritmi.

Dacă sunteți curios să aflați mai multe despre Data Science, consultați Programul Executive PG în Data Science de la IIIT-B și upGrad, care este conceput pentru profesioniștii care lucrează pentru a se perfecționa fără a-și părăsi locul de muncă. Cursul oferă unul la unu cu mentori din industrie, opțiune Easy EMI, statut de absolvent IIIT-B și multe altele. Verificați pentru a afla mai multe.

Care sunt limitările utilizării algoritmului CART pentru data mining?

Nu există nicio îndoială că CART se numără printre cei mai buni algoritmi de extragere a datelor utilizați, dar are câteva dezavantaje. Structura arborescentă devine instabilă în cazul în care are loc o modificare minoră în setul de date, provocând astfel variații din cauza structurii instabile. Dacă clasele nu sunt echilibrate, arborii care nu sunt adaptați sunt creați de către cursanții din arborele de decizie. De aceea, echilibrarea setului de date este foarte recomandată înainte de a-l potrivi cu arborele de decizie.

Ce înseamnă exact „K” în algoritmul k-means?

În timp ce utilizați algoritmul k-mean pentru procesul de extragere a datelor, va trebui să găsiți un număr țintă care este „k” și este numărul de centroizi de care aveți nevoie în setul de date. De fapt, acest algoritm încearcă să grupeze unele puncte neetichetate într-un număr „k” de clustere. Deci, „k” reprezintă numărul de clustere de care aveți nevoie până la sfârșit.

În algoritmul KNN, ce se înțelege prin underfitting?

După cum sugerează și numele, underfitting înseamnă atunci când modelul nu se potrivește sau, cu alte cuvinte, nu este în măsură să prezică datele cu acuratețe. Suprafitarea sau subadaptarea depinde de valoarea lui „K” pe care o alegeți. Alegerea unor valori mici de „K” în cazul unui set de date mare crește șansa de supraadaptare.