Analiza clusterului în R: un ghid complet de care veți avea nevoie vreodată [2022]

Publicat: 2021-01-04

Dacă ați pășit vreodată în lumea științei datelor sau în Python, ați fi auzit de R.

Dezvoltat ca proiect GNU, R este atât un limbaj, cât și un mediu conceput pentru grafică și calcul statistic. Este similar cu limbajul S și, prin urmare, poate fi considerat ca implementarea sa.

Ca limbaj, R este foarte extensibil. Oferă o varietate de tehnici statistice și grafice, cum ar fi analiza serii de timp, modelarea liniară, modelarea neliniară, gruparea, clasificarea, testele statistice clasice.

Este una dintre aceste tehnici pe care o vom explora mai profund și care este gruparea sau analiza cluster!

Cuprins

Ce este analiza clusterului?

În cei mai simpli termeni, gruparea este o metodă de segmentare a datelor prin care datele sunt împărțite în mai multe grupuri pe baza similitudinii.

Cum se evaluează asemănarea? Pe baza măsurilor de distanță inter-observare. Acestea pot fi măsuri de distanță euclidiene sau bazate pe corelație.

Analiza cluster este una dintre cele mai populare și într-un fel intuitive metode de analiză a datelor și data mining. Este ideal pentru cazurile în care există date voluminoase și trebuie să extragem perspective din acestea. În acest caz, datele în bloc pot fi împărțite în subseturi sau grupuri mai mici.

Micile grupuri care sunt formate și derivate din întregul set de date sunt cunoscute ca clustere. Acestea se obtin prin efectuarea uneia sau mai multor operatii statistice. Fiecare cluster, deși conține elemente diferite, împărtășește următoarele proprietăți:

Numărul lor nu este cunoscut dinainte.
Ele se obtin prin efectuarea unei operatii statistice.
Fiecare grup conține obiecte care sunt similare și au caracteristici comune.

Chiar și fără numele „fantezist” al analizei cluster, același lucru este folosit foarte mult în viața de zi cu zi.

La nivel individual, facem grupuri de lucruri pe care trebuie să le împachetăm atunci când plecăm într-o vacanță. Mai întâi haine, apoi articole de toaletă, apoi cărți și așa mai departe. Facem categorii și apoi le abordăm individual.

Companiile folosesc și analiza clusterului atunci când efectuează segmentarea listelor lor de e-mail și clasifică clienții în funcție de vârstă, mediul economic, comportamentul de cumpărare anterior etc.

Analiza cluster este denumită și „învățare automată nesupravegheată” sau recunoaștere a modelelor. Nesupravegheat, deoarece nu căutăm să clasificam anumite mostre numai în anumite mostre. Învățare pentru că algoritmul învață și cum să grupeze.

3 Metode de grupare

Avem trei metode care sunt cele mai des folosite pentru grupare. Acestea sunt:

Clustering Ierarhic Aglomerativ
Clustering relațional/ metoda Condorcet
k-înseamnă grupare

1. Clustering Ierarhic Aglomerativ

Acesta este cel mai comun tip de grupare ierarhică. Algoritmul pentru AHC funcționează de jos în sus. Începe prin a considera fiecare punct de date ca un grup în sine (numit frunză).

Apoi combină împreună cele două grupuri care sunt cele mai asemănătoare. Aceste grupuri noi și mai mari sunt numite noduri. Gruparea se repetă până când întregul set de date se reunește ca un singur cluster mare numit rădăcină.

Vizualizarea și desenarea fiecărui pas al procesului AHC duce la generarea unui arbore numit dendrogramă.

Inversarea procesului AHC duce la gruparea divizionară și generarea de clustere.

Dendrograma poate fi vizualizată și ca:

Sursă

În concluzie, dacă doriți un algoritm care este bun la identificarea clusterelor mici, alegeți AHC. Dacă doriți unul care este bun la identificarea clusterelor mari, atunci metoda de grupare a diviziunii ar trebui să fie alegerea dvs.

2. Clustering relațional/ metoda Condorcet

„Clustering by Similarity Aggregation” este un alt nume pentru această metodă. Funcționează după cum urmează:

Sunt comparate obiectele individuale în perechi care formează gruparea globală. Vectorilor m(A, B) și d(A, B), li se atribuie o pereche de valori individuale (A, B). În vectorul b(A, B), atât A cât și B au aceleași valori, în timp ce, în vectorul d(A, B), ambele au valori diferite).

Se spune că cele două valori individuale ale lui A și B urmează criteriul Condorcet, după cum urmează:

c(A, B) = m(A, B)- d(A, B)

Pentru o valoare individuală precum A și un cluster numit S, criteriul Condorcet este:

c(A,S) = Σ i c(A,B i )

Suma generală este Bi ∈ S.

Întrucât condițiile de mai sus au fost îndeplinite, se construiesc clustere de forma c(A, S). A poate avea cea mai mică valoare de 0 și este cea mai mare dintre toate punctele de date din cluster.

În final, se calculează criteriul global Condorcet. Acest lucru se realizează prin efectuarea unei însumări a punctelor de date individuale prezente în A și clusterul S A care le conține.

Pașii de mai sus se repetă până când criteriul global Condorcet nu se îmbunătățește sau se atinge cel mai mare număr de iterații.

3. k-înseamnă grupare

Acesta este unul dintre cei mai populari algoritmi de partiționare. Toate datele disponibile (numite și puncte de date/observații uneori) vor fi grupate numai în aceste grupuri. Iată o detaliere a modului în care decurge algoritmul:

Selectați k clustere la întâmplare. Aceste k rânduri vor însemna și găsirea de k centroizi pentru fiecare cluster.
Fiecare punct de date este apoi atribuit centrului cel mai apropiat de el.
Pe măsură ce sunt atribuite tot mai multe puncte de date, centroizii sunt recalculați ca media tuturor punctelor de date (în curs) adăugate.
Continuați să atribuiți puncte de date și să mutați centroidul după cum este necesar.
Repetați pașii 3 și 4 până când niciun punct de date nu modifică clusterul.

Distanța dintre un punct de date și un centroid este calculată folosind una dintre următoarele metode:

distanta euclidiana
Distanța de Manhattan
distanta Minlowski

Cea mai populară dintre acestea - distanța euclidiană - se calculează după cum urmează:

De fiecare dată când algoritmul este rulat, sunt returnate grupuri diferite ca rezultat. Prima atribuire variabilei k este complet aleatorie. Acest lucru face ca k-means să fie foarte sensibile la prima alegere. Ca rezultat, devine aproape imposibil să obțineți aceeași grupare decât dacă numărul de grupuri și observațiile generale sunt mici.

Cum se atribuie o valoare lui La început, vom atribui aleatoriu o valoare lui k care va dicta direcția în care se îndreaptă rezultatele. Pentru a ne asigura că este făcută cea mai bună alegere, este util să țineți cont de următoarea formulă:

Aici, n este numărul de puncte de date din setul de date.
Indiferent de prezența unei formule, numărul de clustere ar depinde în mare măsură de natura setului de date, industria și afacerea căreia îi aparține etc. Prin urmare, este recomandabil să țineți cont și de propria experiență și intuiție.
Cu o dimensiune greșită a grupului, gruparea poate să nu fie la fel de eficientă și poate duce la supraadaptare. Din cauza supraajustării, noile puncte de date ar putea să nu poată găsi un loc în cluster, deoarece algoritmul a căutat micile detalii și toată generalizarea este pierdută.
Aplicații ale analizei clusterelor
Deci, unde exact sunt folosite metodele puternice de grupare? Am menționat la scurt timp câteva exemple mai sus. Mai jos sunt câteva exemple:

Medicina si sanatate
Pe baza vârstei și componenței genetice a pacienților, medicii sunt capabili să ofere un diagnostic mai bun. Acest lucru duce în cele din urmă la un tratament care este mai benefic și mai aliniat. Noi medicamente pot fi descoperite și în acest fel. Clustering în medicină este denumită nosologie.
Sociologie
În sferele sociale, gruparea oamenilor pe baza demografiei, vârstei, ocupației, locației de reședință etc. ajută guvernul să aplice legile și să formeze politici care se potrivesc diverselor grupuri.
Marketing
În marketing, termenul de clustering este înlocuit cu segmentare/analiza tipologică. Este folosit pentru a explora și selecta potențialii cumpărători ai unui anumit produs. Companiile testează apoi elementele fiecărui cluster pentru a ști ce clienți manifestă un comportament favorabil reținerii.
Profilare cibernetică
Ca o intrare pentru algoritmul de clustering care va fi implementat aici, sunt introduse pagini web anterioare accesate de un utilizator. Aceste pagini web sunt apoi grupate. În final, se generează un profil al utilizatorului, pe baza activității sale de navigare. De la personalizare la siguranța cibernetică, acest rezultat poate fi valorificat oriunde.
Cu amănuntul
De asemenea, punctele de vânzare beneficiază de gruparea clienților pe baza vârstei, preferințelor de culoare, preferințelor de stil, achizițiilor anterioare etc. Acest lucru îi ajută pe retaileri să creeze experiențe personalizate și, de asemenea, să planifice oferte viitoare aliniate la dorințele clienților.
Concluzie
După cum este evident, analiza clusterului este o metodă extrem de valoroasă – indiferent de limbajul sau mediul în care este implementată. Indiferent dacă se dorește să obțină perspective, să elaboreze modele sau să creeze profiluri, analiza clusterului este un instrument extrem de util cu rezultate care pot fi implementat practic. Competența în lucrul cu diverși algoritmi de grupare poate conduce la efectuarea unei analize de date precise și cu adevărat valoroase.
Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
Pregătiți-vă pentru o carieră a viitorului
DIPLOMA PG DIN IIIT-B, 100+ ORE DE ÎNVĂȚARE LA CLASĂ, 400+ ORE DE ÎNVĂȚARE ONLINE ȘI SISTEMUL DE CARIERĂ 360 DE GRADE
Aflați mai multe