Ce este Clustering și diferite tipuri de metode de clustering

Publicat: 2020-12-01

Considerați-vă că sunteți într-o conversație cu directorul de marketing al organizației dvs. Organizația dorește să înțeleagă mai bine clienții cu ajutorul datelor, astfel încât să își poată ajuta obiectivele de afaceri și să le ofere clienților o experiență mai bună. Acum, acesta este unul dintre scenariile în care gruparea vine în ajutor.

Cuprins

Ce este Clustering?
Care sunt tipurile de metode de grupare?
- Clustering bazat pe densitate
- DBSCAN (Clustering spațial bazat pe densitate a aplicațiilor cu zgomot)
- OPTICS (Puncte de comandă pentru a identifica structura de grupare)
- HDBSCAN (Clustering spațial bazat pe densitate ierarhică a aplicațiilor cu zgomot)
- Clustering ierarhic
- Clustering neclar
- Partiționare Clustering
- PAM (Partiționare în jurul medoidelor)
- Clustering bazat pe grilă
Note de final
- Care sunt diferitele tipuri de metode de grupare utilizate în business intelligence?
- Când se utilizează Clustering?
- Care sunt avantajele Clustering-ului?

Ce este Clustering?

Clusteringul este un tip de metodă de învățare nesupravegheată a învățării automate. În metoda de învățare nesupravegheată, inferențe sunt extrase din seturile de date care nu conțin variabile de ieșire etichetate. Este o tehnică exploratorie de analiză a datelor care ne permite să analizăm seturile de date multivariate.

Clustering este o sarcină de împărțire a seturilor de date într-un anumit număr de clustere, astfel încât punctele de date aparținând unui cluster să aibă caracteristici similare. Clusterele nu sunt altceva decât gruparea punctelor de date astfel încât distanța dintre punctele de date din cadrul clusterelor să fie minimă.

Cu alte cuvinte, clusterele sunt regiuni în care densitatea punctelor de date similare este mare. În general, este folosit pentru analiza setului de date, pentru a găsi date perspicace printre seturi uriașe de date și pentru a trage concluzii din acestea. În general, clusterele sunt văzute într-o formă sferică, dar nu este necesar, deoarece clusterele pot fi de orice formă. Aflați despre clustering și mai multe concepte de știință a datelor în cursul nostru online de știință a datelor.

Depinde de tipul de algoritm pe care îl folosim, care decide cum vor fi create clusterele. Deducerile care trebuie extrase din seturile de date depind, de asemenea, de utilizator, deoarece nu există un criteriu pentru o bună grupare.

Care sunt tipurile de metode de grupare?

Clustering-ul în sine poate fi clasificat în două tipuri, adică. Hard Clustering și Soft Clustering. În clustering hard, un punct de date poate aparține unui singur cluster. Dar în clustering soft, rezultatul furnizat este o probabilitate probabilă ca un punct de date să aparțină fiecăruia dintre numerele predefinite de clustere.

Clustering bazat pe densitate

În această metodă, clusterele sunt create pe baza densității punctelor de date care sunt reprezentate în spațiul de date. Regiunile care devin dense din cauza numărului mare de puncte de date care locuiesc în acea regiune sunt considerate clustere.

Punctele de date din regiunea rară (regiunea în care punctele de date sunt foarte puține) sunt considerate zgomot sau valori aberante. Clusterele create în aceste metode pot fi de formă arbitrară. Următoarele sunt exemple de algoritmi de grupare bazați pe densitate:

DBSCAN (Clustering spațial bazat pe densitate a aplicațiilor cu zgomot)

DBSCAN grupează punctele de date pe baza metricii distanței și a criteriului pentru un număr minim de puncte de date. Este nevoie de doi parametri – eps și puncte minime. Eps indică cât de aproape ar trebui să fie punctele de date pentru a fi considerate vecine. Criteriul pentru puncte minime ar trebui completat pentru a considera acea regiune ca o regiune densă.

OPTICS (Puncte de comandă pentru a identifica structura de grupare)

Procesul este similar cu DBSCAN, dar are în vedere unul dintre dezavantajele fostului algoritm, adică incapacitatea de a forma clustere din date de densitate arbitrară. Se ia în considerare încă doi parametri, care sunt distanța centrală și distanța de accesibilitate. Distanța de bază indică dacă punctul de date luat în considerare este de bază sau nu prin stabilirea unei valori minime pentru acesta.

Distanța de accesibilitate este valoarea maximă a distanței centrale și valoarea metricii distanței care este utilizată pentru calcularea distanței dintre două puncte de date. Un lucru de luat în considerare în ceea ce privește distanța de accesibilitate este că valoarea acesteia rămâne nedefinită dacă unul dintre punctele de date este un punct central.

HDBSCAN (Clustering spațial bazat pe densitate ierarhică a aplicațiilor cu zgomot)

HDBSCAN este o metodă de grupare bazată pe densitate care extinde metodologia DBSCAN prin conversia acesteia într-un algoritm de clustering ierarhic.

Clustering ierarhic

Clustering ierarhic grupează (aglomerativ sau numit și abordare de jos în sus) sau împarte (diviziv sau numit și abordare de sus în jos) clusterele în funcție de metrica distanței. În clusteringul aglomerativ, fiecare punct de date acționează inițial ca un cluster, apoi grupează clusterele unul câte unul.

Diviziunea este opusul Agglomerativei, începe cu toate punctele într-un singur grup și le împarte pentru a crea mai multe grupuri. Acești algoritmi creează o matrice de distanță a tuturor clusterelor existente și realizează legătura dintre clustere în funcție de criteriile legăturii. Gruparea punctelor de date este reprezentată prin utilizarea unei dendrograme. Există diferite tipuri de legături: -

o Legătura unică : – În conexiunea unică, distanța dintre cele două grupuri este cea mai scurtă distanță dintre punctele din acele două grupuri.

o Legătura completă : – În conexiunea completă, distanța dintre cele două grupuri este cea mai îndepărtată distanță dintre punctele din acele două grupuri.

o Legătura medie : – În legătura medie, distanța dintre cele două clustere este distanța medie a fiecărui punct din cluster cu fiecare punct din alt cluster.

Citiți: Exemple comune de data mining.

Clustering neclar

În clusteringul fuzzy, alocarea punctelor de date în oricare dintre clustere nu este decisivă. Aici, un punct de date poate aparține mai multor clustere. Acesta furnizează rezultatul ca probabilitatea ca punctul de date să aparțină fiecărui grup. Unul dintre algoritmii utilizați în clustering fuzzy este fuzzy c-means clustering.

Acest algoritm este similar în proces cu gruparea K-Means și diferă în parametrii care sunt implicați în calcul, cum ar fi fuzzifier-ul și valorile de membru.

Partiționare Clustering

Această metodă este una dintre cele mai populare opțiuni pentru analiști pentru a crea clustere. În gruparea partiționării, clusterele sunt partiționate pe baza caracteristicilor punctelor de date. Trebuie să specificăm numărul de clustere care vor fi create pentru această metodă de grupare. Acești algoritmi de grupare urmează un proces iterativ de realocare a punctelor de date între grupuri pe baza distanței. Algoritmii care se încadrează în această categorie sunt următorii:

o Clustering K-Means: – Clustering K-Means este unul dintre cei mai folosiți algoritmi. Partițiază punctele de date în k clustere pe baza metricii distanței utilizate pentru grupare. Valoarea lui „k” trebuie definită de utilizator. Distanța este calculată între punctele de date și centroizii clusterelor.

Punctul de date care este cel mai aproape de centroidul clusterului este atribuit acelui cluster. După o iterație, calculează din nou centroizii acelor clustere și procesul continuă până când un număr predefinit de iterații este finalizat sau când centroizii clusterelor nu se modifică după o iterație.

Este un algoritm foarte costisitor din punct de vedere computațional, deoarece calculează distanța fiecărui punct de date cu centroizii tuturor clusterelor la fiecare iterație. Acest lucru face dificilă implementarea aceluiași lucru pentru seturi de date uriașe.

PAM (Partiționare în jurul medoidelor)

Acest algoritm este numit și algoritm k-medoid. Este, de asemenea, similar în proces cu algoritmul de grupare K-means, diferența fiind în alocarea centrului clusterului. În PAM, medoidul clusterului trebuie să fie un punct de date de intrare, în timp ce acest lucru nu este adevărat pentru clustering-ul K-means, deoarece media tuturor punctelor de date dintr-un cluster poate să nu aparțină unui punct de date de intrare.

o CLARA (Clustering Large Applications) : – CLARA este o extensie a algoritmului PAM în care timpul de calcul a fost redus pentru a-l face să funcționeze mai bine pentru seturi mari de date. Pentru a realiza acest lucru, selectează o anumită porțiune de date în mod arbitrar dintre întregul set de date ca reprezentant al datelor reale. Acesta aplică algoritmul PAM la mai multe mostre de date și alege cele mai bune clustere dintr-un număr de iterații.

Citiți și: Algoritmi de extragere a datelor pe care ar trebui să-i cunoașteți

Clustering bazat pe grilă

În gruparea bazată pe grilă, setul de date este reprezentat într-o structură de grilă care cuprinde grile (numite și celule). Abordarea generală a algoritmilor acestei metode diferă de restul algoritmilor.

Ei sunt mai preocupați de spațiul valoric din jurul punctelor de date, mai degrabă decât de punctele de date în sine. Unul dintre cele mai mari avantaje ale acestor algoritmi este reducerea complexității de calcul. Acest lucru îl face potrivit pentru a trata seturi uriașe de date.

După împărțirea seturilor de date în celule, calculează densitatea celulelor, ceea ce ajută la identificarea clusterelor. Câțiva algoritmi bazați pe clustering bazat pe grilă sunt următorii: –

o STING (Statistical Information Grid Approach) : – În STING, setul de date este împărțit recursiv într-o manieră ierarhică. Fiecare celulă este în continuare subdivizată într-un număr diferit de celule. Captează măsurile statistice ale celulelor, ceea ce ajută la răspunsul la întrebări într-un timp mic.

o WaveCluster : – În acest algoritm, spațiul de date este reprezentat sub formă de wavelets. Spațiul de date alcătuiește un semnal n-dimensional care ajută la identificarea clusterelor. Părțile semnalului cu o frecvență mai mică și amplitudine mare indică faptul că punctele de date sunt concentrate. Aceste regiuni sunt identificate ca clustere de către algoritm. Părțile semnalului în care frecvența ridicată reprezintă limitele clusterelor. Pentru mai multe detalii, puteți consulta această lucrare .

o CLIQUE (Clustering in Quest) : – CLIQUE este o combinație de algoritm de clustering bazat pe densitate și bazat pe grilă. Partițiază spațiul de date și identifică sub-spații folosind principiul Apriori. Identifică clusterele calculând densitățile celulelor.

Note de final

În acest articol, am văzut o privire de ansamblu asupra a ceea ce este gruparea și diferitele metode de grupare împreună cu exemplele sale. Acest articol a fost menit să vă ajute să începeți cu clustering.

Aceste metode de grupare au propriile lor avantaje și dezavantaje, ceea ce le limitează să fie adecvate numai pentru anumite seturi de date. Nu este doar algoritmul, ci există o mulțime de alți factori, cum ar fi specificațiile hardware ale mașinilor, complexitatea algoritmului etc., care intră în imagine atunci când efectuați o analiză a setului de date.

Ca analist, trebuie să iei decizii cu privire la ce algoritm să alegi și care ar oferi rezultate mai bune în situații date. Un algoritm se potrivește tuturor. Strategia nu funcționează în niciuna dintre problemele de învățare automată. Deci, continuă să experimentezi și murdărește-ți mâinile în lumea grupării.

Dacă sunteți curios să învățați știința datelor, consultați programul nostru Executive PG în știința datelor IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care sunt diferitele tipuri de metode de grupare utilizate în business intelligence?

Clusteringul este o tehnică nedirecționată utilizată în data mining pentru a identifica mai multe modele ascunse în date fără a veni cu vreo ipoteză specifică. Motivul din spatele utilizării grupării este de a identifica asemănările dintre anumite obiecte și de a crea un grup de obiecte similare.
Există două tipuri diferite de grupare, care sunt metode ierarhice și non-ierarhice.

1. Clustering non-ierarhic

În această metodă, setul de date care conține N obiecte este împărțit în M clustere. În business intelligence, cea mai utilizată tehnică de grupare non-ierarhică este K-means.
2. Clustering Ierarhic
În această metodă, sunt produse un set de clustere imbricate. În aceste clustere imbricate, fiecare pereche de obiecte este mai mult imbricată pentru a forma un grup mare până când rămâne doar un cluster la sfârșit.

Când se utilizează Clustering?

Funcția principală a grupării este de a efectua segmentarea, indiferent dacă este vorba de magazin, produs sau client. Clienții și produsele pot fi grupate în grupuri ierarhice bazate pe diferite atribute.
O altă utilizare a tehnicii de grupare este văzută pentru detectarea anomaliilor precum tranzacțiile frauduloase. Aici, un cluster cu toate tranzacțiile bune este detectat și păstrat ca eșantion. Se spune că acesta este un cluster normal . Ori de câte ori ceva este în afara liniei din acest cluster, acesta intră sub secțiunea suspectă. Această metodă se dovedește a fi cu adevărat utilă în detectarea prezenței celulelor anormale în organism.
În afară de aceasta, gruparea este utilizată pe scară largă pentru a descompune seturi mari de date pentru a crea grupuri de date mai mici. Acest lucru sporește eficiența evaluării datelor.

Care sunt avantajele Clustering-ului?

Se spune că gruparea este mai eficientă decât eșantionarea aleatorie a datelor date din mai multe motive. Cele două avantaje majore ale grupării sunt:
1. Necesită mai puține resurse
Un cluster creează un grup de resurse mai puține din întregul eșantion. Din acest motiv, există o cerință mai mică de resurse în comparație cu eșantionarea aleatorie. Eșantionarea aleatorie va necesita cheltuieli administrative și de călătorie, dar nu este cazul aici.
2. Opțiune fezabilă
Aici, fiecare cluster determină un întreg set al populației, deoarece grupuri omogene sunt create din întreaga populație. Cu aceasta, devine ușor să includeți mai multe subiecte într-un singur studiu.