Clustering în Machine Learning: 3 tipuri de clustering explicate

Publicat: 2020-11-30

Cuprins

Introducere

Machine Learning este una dintre cele mai populare tehnologii din 2020, deoarece datele cresc pe zi ce trece, nevoia de Machine Learning crește, de asemenea, exponențial. Învățarea automată este un subiect foarte vast, care are diferiți algoritmi și cazuri de utilizare în fiecare domeniu și industrie. Unul dintre acestea este Învățarea nesupervizată, în care putem vedea utilizarea Clustering-ului.

Învățarea nesupravegheată este o tehnică în care mașina învață din date neetichetate. Deoarece nu cunoaștem etichetele, nu există un răspuns corect dat pentru ca mașina să învețe din el, dar mașina în sine găsește unele modele din datele date pentru a veni cu răspunsuri la problema de afaceri.

Clusteringul este o tehnică de învățare nesupravegheată de învățare automată care implică gruparea datelor date neetichetate. În fiecare set de date curățat, folosind algoritmul de clusterizare, putem grupa punctele de date date în fiecare grup. Algoritmul de grupare presupune că punctele de date care se află în același cluster ar trebui să aibă proprietăți similare, în timp ce punctele de date din clustere diferite ar trebui să aibă proprietăți foarte diferite.

În acest articol, vom afla necesitatea grupării, diferite tipuri de grupare, împreună cu avantajele și dezavantajele lor.

Citiți: Condiția prealabilă a învățării automate

Care este nevoia Clustering-ului?

Clusteringul este un algoritm ML utilizat pe scară largă, care ne permite să găsim relații ascunse între punctele de date din setul nostru de date.

Exemple:

1) Clienții sunt segmentați în funcție de asemănările clienților anteriori și pot fi utilizați pentru recomandări.

2) Pe baza unei colecții de date text, putem organiza datele în funcție de asemănările de conținut pentru a crea o ierarhie a subiectelor.

3) Prelucrarea imaginilor în principal în cercetarea în biologie pentru identificarea tiparelor subiacente.

4) Filtrarea spam-ului.

5) Identificarea activităților frauduloase și criminale.

6) Poate fi folosit și pentru fotbal fantastic și sport.

Tipuri de clustering

Există multe tipuri de algoritmi de clusterizare în învățarea automată. Vom discuta despre cei trei algoritmi de mai jos în acest articol:

1) K-Means Clustering.

2) Mean-Shift Clustering.

3) DBSCAN.

1. K-Means Clustering

K-Means este cel mai popular algoritm de clustering dintre ceilalți algoritmi de clustering din Machine Learning. Putem vedea acest algoritm folosit în multe industrii de top sau chiar în multe cursuri introductive. Este unul dintre cele mai simple modele cu care să începeți atât în implementare, cât și în înțelegere.

Pasul 1 Selectăm mai întâi un număr aleator de k pentru a folosi și inițializam aleatoriu punctele centrale respective.

Pasul 2 Fiecare punct de date este apoi clasificat prin calcularea distanței (euclidiană sau Manhattan) dintre acel punct și fiecare centru de grup și apoi gruparea punctului de date pentru a fi în clusterul al cărui centru este cel mai apropiat de acesta.

Pasul 3 Recalculăm centrul grupului luând media tuturor vectorilor din grup.

Pasul 4 Repetăm toți acești pași pentru un număr de iterații sau până când centrele de grup nu se schimbă prea mult.

Pro

1) Foarte rapid.

2) Foarte puține calcule

3) Complexitatea liniară O(n).

Contra

1) Selectarea valorii k.

2) Diferite centre de grupare în diferite curse.

3) Lipsa de consecvență.

2. Mean-Shift Clustering

Mean shift clustering este un algoritm bazat pe ferestre glisante care încearcă să identifice zonele dense ale punctelor de date. Fiind un algoritm bazat pe centroid, ceea ce înseamnă că scopul este de a localiza punctele centrale ale fiecărei clase, care la rândul lor funcționează prin actualizarea candidaților pentru punctele centrale pentru a fi media punctelor din fereastra glisantă.

Aceste ferestre candidate selectate sunt apoi filtrate într-o etapă de post-procesare pentru a elimina duplicatele, ceea ce va ajuta la formarea setului final de centre și a claselor corespunzătoare.

Pasul 1 Începem cu o fereastră circulară glisantă centrată într-un punct C (selectat aleatoriu) și având raza r ca nucleu. Deplasarea medie este un tip de algoritm de alpinism care implică mutarea acestui nucleu în mod iterativ într-o regiune cu densitate mai mare pe fiecare pas până ajungem la convergență.

Pasul 2 După fiecare iterație, fereastra glisantă este deplasată către regiuni cu densitate mai mare prin deplasarea punctului central la media punctelor din interiorul ferestrei. Densitatea în interiorul ferestrei glisante crește odată cu creșterea numărului de puncte din interiorul acesteia. Schimbarea mediei punctelor din fereastră se va deplasa treptat către zone cu densitate de puncte mai mare.

Pasul 3 În acest pas continuăm să deplasăm fereastra glisantă în funcție de valoarea medie până când nu există nicio direcție în care o schimbare să poată obține mai multe puncte în interiorul nucleului selectat.

Pasul 4 Pașii 1-2 se fac cu multe ferestre glisante până când toate punctele se află într-o fereastră. Când mai multe ferestre glisante tind să se suprapună, este selectată fereastra care conține cele mai multe puncte. Punctele de date sunt acum grupate în funcție de fereastra glisantă în care se află.

Pro

1) Nu este nevoie să selectați numărul de clustere.

2) Se potrivește bine într-un sens natural bazat pe date

Contra

1) Singurul dezavantaj este că selectarea dimensiunii ferestrei (r) poate fi netrivială.

3. Clustering spațial bazat pe densitate a aplicațiilor cu zgomot (DBSCAN)

DBSCAN este ca clusteringul Mean-Shift, care este, de asemenea, un algoritm bazat pe densitate, cu câteva modificări.

Pasul 1 Începe cu un punct de plecare arbitrar, vecinătatea acestui punct este extrasă folosind o distanță numită epsilon.

Pasul 2 Agruparea va începe dacă există suficiente puncte și punctul de date devine primul punct nou dintr-un cluster. Dacă nu există date suficiente, punctul va fi etichetat ca zgomot și punctul va fi marcat vizitat.

Pasul 3 Punctele din epsilon tind să devină o parte a clusterului. Această procedură se repetă în toate punctele din interiorul clusterului.

Pasul 4 Pașii 2 și 3 se repetă până când punctele din grup sunt vizitate și etichetate.

Pasul 5 La finalizarea clusterului curent, un nou punct nevizitat este procesat într-un cluster nou, ceea ce duce la clasificarea acestuia într-un cluster sau ca zgomot.

Pro

1) Nu este nevoie să setați numărul de clustere.

2) Definește valorile aberante ca zgomot.

3) Ajută la găsirea grupurilor de dimensiuni arbitrare și de formă arbitrară destul de bine.

Contra

1) Nu funcționează bine pe clustere cu densitate variabilă.

2) Nu funcționează bine cu date dimensionale mari.

Citește și: Idei de proiecte de învățare automată

Concluzie

În acest articol, am ajuns să cunoaștem nevoia de clustering pe piața actuală, diferite tipuri de algoritmi de clustering împreună cu avantajele și dezavantajele acestora. Clusteringul este într-adevăr un subiect foarte interesant în Machine Learning și există atât de multe alte tipuri de algoritmi de clustering care merită învățate.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce se înțelege prin gruparea amestecului gaussian?

Modelele de amestec gaussiene sunt utilizate de obicei în cazul datelor de interogare pentru a realiza fie clustering hard, fie soft. Modelele de amestec gaussiene fac câteva ipoteze pentru a realiza bine gruparea. Pe baza ipotezelor, modelul grupează punctele de date care aparțin unei singure distribuții împreună. Acestea sunt modele probabilistice și folosesc o abordare soft clustering pentru a desfășura procesul de clustering în mod eficient.

Care este coeficientul siluetei în grupare?

Pentru a măsura cât de bine a fost realizată gruparea, folosim coeficientul de siluetă. Practic, se măsoară distanța medie dintre două grupuri, iar apoi se calculează lățimea siluetei folosind o formulă. Astfel, putem măsura cu ușurință numărul optim de clustere prezente în datele date și astfel să aflăm eficiența clusterării efectuate.

Ce se înțelege prin clustering neclar în învățarea automată?

Când datele date se încadrează în mai mult de un cluster sau grup, se utilizează o metodă de grupare fuzzy, care funcționează pe un algoritm C-mean fuzzy sau un algoritm K-mean fuzzy. Este o metodă soft de grupare. În funcție de distanța dintre centrul clusterului și punctul de imagine, metoda atribuie valori de apartenență fiecărui punct de imagine asociat cu fiecare centru cluster.