Che cos'è il clustering e diversi tipi di metodi di clustering

Pubblicato: 2020-12-01

Considera di essere in una conversazione con il Chief Marketing Officer della tua organizzazione. L'organizzazione desidera comprendere meglio i clienti con l'aiuto dei dati in modo da poter aiutare i propri obiettivi aziendali e offrire ai clienti un'esperienza migliore. Ora, questo è uno degli scenari in cui il clustering viene in soccorso.

Sommario

Che cos'è il clustering?
Quali sono i tipi di metodi di clustering?
- Clustering basato sulla densità
- DBSCAN (cluster spaziale basato sulla densità di applicazioni con rumore)
- OTTICA (Ordinare i punti per identificare la struttura di clustering)
- HDBSCAN (cluster spaziale gerarchico di applicazioni con rumore basato sulla densità)
- Raggruppamento gerarchico
- Raggruppamento sfocato
- Clustering di partizionamento
- PAM (Partizionamento intorno ai Medoid)
- Clustering basato su griglia
Note finali
- Quali sono i diversi tipi di metodi di clustering utilizzati nella business intelligence?
- Quando viene utilizzato il clustering?
- Quali sono i vantaggi del Clustering?

Che cos'è il clustering?

Il clustering è un tipo di metodo di apprendimento automatico non supervisionato. Nel metodo di apprendimento non supervisionato, le inferenze sono tratte dai set di dati che non contengono variabili di output etichettate. È una tecnica di analisi dei dati esplorativa che ci consente di analizzare i set di dati multivariati.

Il clustering consiste nel dividere i set di dati in un certo numero di cluster in modo tale che i punti dati appartenenti a un cluster abbiano caratteristiche simili. I cluster non sono altro che il raggruppamento di punti dati in modo tale che la distanza tra i punti dati all'interno dei cluster sia minima.

In altre parole, i cluster sono regioni in cui la densità di punti dati simili è elevata. Viene generalmente utilizzato per l'analisi del set di dati, per trovare dati approfonditi tra enormi set di dati e trarne inferenze. Generalmente, i grappoli sono visti a forma sferica, ma non è necessario in quanto i grappoli possono essere di qualsiasi forma. Scopri il clustering e altri concetti di scienza dei dati nel nostro corso online di scienza dei dati.

Dipende dal tipo di algoritmo che utilizziamo che decide come verranno creati i cluster. Le inferenze che devono essere tratte dai set di dati dipendono anche dall'utente poiché non esiste un criterio per un buon raggruppamento.

Quali sono i tipi di metodi di clustering?

Il clustering stesso può essere classificato in due tipi, vale a dire. Clustering hard e clustering soft. Nel clustering rigido, un punto dati può appartenere a un solo cluster. Ma nel soft clustering, l'output fornito è una probabilità di un punto dati appartenente a ciascuno dei numeri predefiniti di cluster.

Clustering basato sulla densità

In questo metodo, i cluster vengono creati in base alla densità dei punti dati che sono rappresentati nello spazio dati. Le regioni che diventano dense a causa dell'enorme numero di punti dati che risiedono in quella regione sono considerate cluster.

I punti dati nella regione sparsa (la regione in cui i punti dati sono molto minori) sono considerati rumore o valori anomali. I cluster creati con questi metodi possono essere di forma arbitraria. Di seguito sono riportati gli esempi di algoritmi di clustering basati sulla densità:

DBSCAN (cluster spaziale basato sulla densità di applicazioni con rumore)

DBSCAN raggruppa i punti dati in base alla metrica della distanza e al criterio per un numero minimo di punti dati. Richiede due parametri: eps e punti minimi. Eps indica quanto devono essere vicini i punti dati per essere considerati vicini. Il criterio dei punti minimi dovrebbe essere completato per considerare quella regione come una regione densa.

OTTICA (Ordinare i punti per identificare la struttura di clustering)

È simile nel processo a DBSCAN, ma si occupa di uno degli svantaggi del primo algoritmo, ovvero l'incapacità di formare cluster da dati di densità arbitraria. Considera altri due parametri che sono la distanza centrale e la distanza di raggiungibilità. La distanza centrale indica se il punto dati considerato è centrale o meno impostando un valore minimo per esso.

La distanza di raggiungibilità è il massimo della distanza centrale e il valore della metrica di distanza utilizzata per calcolare la distanza tra due punti dati. Una cosa da considerare sulla distanza di raggiungibilità è che il suo valore rimane non definito se uno dei punti dati è un punto centrale.

HDBSCAN (cluster spaziale gerarchico di applicazioni con rumore basato sulla densità)

HDBSCAN è un metodo di clustering basato sulla densità che estende la metodologia DBSCAN convertendola in un algoritmo di clustering gerarchico.

Raggruppamento gerarchico

Il clustering gerarchico raggruppa (agglomerato o anche chiamato approccio bottom-up) o divide (divisivo o anche chiamato approccio top-down) i cluster in base alle metriche di distanza. Nel clustering agglomerato, ogni punto dati funge inizialmente da cluster, quindi raggruppa i cluster uno per uno.

Divisive è l'opposto di Agglomerative, inizia con tutti i punti in un cluster e li divide per creare più cluster. Questi algoritmi creano una matrice di distanza di tutti i cluster esistenti ed eseguono il collegamento tra i cluster in base ai criteri del collegamento. Il raggruppamento dei punti dati è rappresentato utilizzando un dendrogramma. Esistono diversi tipi di collegamento: –

o Collegamento singolo : – Nel collegamento singolo la distanza tra i due cluster è la distanza più breve tra i punti in quei due cluster.

o Collegamento completo : – Nel collegamento completo, la distanza tra i due cluster è la distanza più lontana tra i punti in quei due cluster.

o Collegamento medio : – Nel collegamento medio la distanza tra i due cluster è la distanza media di ogni punto del cluster con ogni punto in un altro cluster.

Leggi: Esempi comuni di data mining.

Raggruppamento sfocato

Nel clustering fuzzy, l'assegnazione dei punti dati in uno qualsiasi dei cluster non è decisiva. Qui, un punto dati può appartenere a più di un cluster. Fornisce il risultato come probabilità del punto dati appartenente a ciascuno dei cluster. Uno degli algoritmi utilizzati nel clustering fuzzy è il clustering fuzzy c-means.

Questo algoritmo è simile nel processo al clustering K-Means e differisce nei parametri coinvolti nel calcolo come fuzzifier e valori di appartenenza.

Clustering di partizionamento

Questo metodo è una delle scelte più popolari per gli analisti per creare cluster. Nel clustering di partizionamento, i cluster vengono partizionati in base alle caratteristiche dei punti dati. È necessario specificare il numero di cluster da creare per questo metodo di clustering. Questi algoritmi di clustering seguono un processo iterativo per riassegnare i punti dati tra i cluster in base alla distanza. Gli algoritmi che rientrano in questa categoria sono i seguenti: –

o Clustering K-Means: – Il clustering K-Means è uno degli algoritmi più utilizzati. Suddivide i punti dati in k cluster in base alla metrica di distanza utilizzata per il clustering. Il valore di 'k' deve essere definito dall'utente. La distanza viene calcolata tra i punti dati e i centroidi dei cluster.

Il punto dati più vicino al centroide del cluster viene assegnato a quel cluster. Dopo un'iterazione, calcola nuovamente i centroidi di quei cluster e il processo continua fino al completamento di un numero predefinito di iterazioni o quando i centroidi dei cluster non cambiano dopo un'iterazione.

È un algoritmo molto costoso dal punto di vista computazionale in quanto calcola la distanza di ogni punto dati con i centroidi di tutti i cluster ad ogni iterazione. Ciò rende difficile l'implementazione dello stesso per enormi set di dati.

PAM (Partizionamento intorno ai Medoid)

Questo algoritmo è anche chiamato algoritmo k-medoid. È anche simile nel processo all'algoritmo di clustering K-means con la differenza nell'assegnazione del centro del cluster. In PAM, il medoid del cluster deve essere un punto dati di input mentre questo non è vero per il clustering K-medie poiché la media di tutti i punti dati in un cluster potrebbe non appartenere a un punto dati di input.

o CLARA (Clustering Large Applications) : – CLARA è un'estensione dell'algoritmo PAM in cui il tempo di calcolo è stato ridotto per renderlo più performante per grandi set di dati. Per ottenere ciò, seleziona arbitrariamente una determinata porzione di dati tra l'intero set di dati come rappresentante dei dati effettivi. Applica l'algoritmo PAM a più campioni di dati e sceglie i migliori cluster da una serie di iterazioni.

Leggi anche: Algoritmi di data mining che dovresti conoscere

Clustering basato su griglia

Nel clustering basato su griglia, il set di dati è rappresentato in una struttura a griglia che comprende griglie (chiamate anche celle). L'approccio generale negli algoritmi di questo metodo differisce dal resto degli algoritmi.

Sono più interessati allo spazio dei valori che circonda i punti dati piuttosto che ai punti dati stessi. Uno dei maggiori vantaggi di questi algoritmi è la sua riduzione della complessità computazionale. Ciò lo rende appropriato per gestire enormi set di dati.

Dopo aver suddiviso i set di dati in celle, calcola la densità delle celle che aiuta a identificare i cluster. Alcuni algoritmi basati sul clustering basato su griglia sono i seguenti: –

o STING (Statistical Information Grid Approach) : – In STING, il set di dati è diviso in modo ricorsivo in modo gerarchico. Ogni cella è ulteriormente suddivisa in un numero diverso di celle. Cattura le misure statistiche delle celle che aiutano a rispondere alle domande in un piccolo lasso di tempo.

o WaveCluster : – In questo algoritmo, lo spazio dati è rappresentato sotto forma di wavelet. Lo spazio dati compone un segnale n-dimensionale che aiuta a identificare i cluster. Le parti del segnale con una frequenza più bassa e un'ampiezza elevata indicano che i punti dati sono concentrati. Queste regioni sono identificate come cluster dall'algoritmo. Le parti del segnale in cui la frequenza alta rappresenta i confini dei cluster. Per maggiori dettagli, puoi fare riferimento a questo documento .

o CLIQUE (Clustering in Quest) : – CLIQUE è una combinazione di algoritmo di clustering basato sulla densità e basato sulla griglia. Partiziona lo spazio dati e identifica i sottospazi utilizzando il principio Apriori. Identifica i cluster calcolando le densità delle celle.

Note finali

In questo articolo, abbiamo visto una panoramica di cosa sia il clustering e i diversi metodi di clustering insieme ai relativi esempi. Questo articolo è stato concepito per aiutarti a iniziare con il clustering.

Questi metodi di clustering hanno i loro pro e contro che li limitano ad essere adatti solo per determinati set di dati. Non è solo l'algoritmo, ma ci sono molti altri fattori come le specifiche hardware delle macchine, la complessità dell'algoritmo, ecc. che entrano in gioco quando si esegue l'analisi sul set di dati.

Come analista, devi prendere decisioni su quale algoritmo scegliere e quale fornirebbe risultati migliori in determinate situazioni. Un algoritmo adatto a tutte le strategie non funziona in nessuno dei problemi di apprendimento automatico. Quindi, continua a sperimentare e sporcati le mani nel mondo dei cluster.

Se sei curioso di imparare la scienza dei dati, dai un'occhiata al nostro programma Executive PG in Data Science IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Quali sono i diversi tipi di metodi di clustering utilizzati nella business intelligence?

Il clustering è una tecnica non orientata utilizzata nel data mining per identificare diversi modelli nascosti nei dati senza elaborare ipotesi specifiche. Il motivo alla base dell'utilizzo del clustering è identificare le somiglianze tra determinati oggetti e creare un gruppo di oggetti simili.
Esistono due diversi tipi di clustering, metodi gerarchici e non gerarchici.

1. Clustering non gerarchico

In questo metodo, il set di dati contenente N oggetti è suddiviso in M cluster. Nella business intelligence, la tecnica di clustering non gerarchico più utilizzata è K-means.
2. Clustering gerarchico
In questo metodo viene prodotto un insieme di cluster nidificati. In questi cluster nidificati, ogni coppia di oggetti viene ulteriormente nidificata per formare un cluster di grandi dimensioni fino a quando rimane un solo cluster alla fine.

Quando viene utilizzato il clustering?

La funzione principale del clustering è eseguire la segmentazione, indipendentemente dal fatto che si tratti di negozio, prodotto o cliente. I clienti e i prodotti possono essere raggruppati in gruppi gerarchici in base a diversi attributi.
Un altro utilizzo della tecnica di clustering è visto per rilevare anomalie come transazioni fraudolente. Qui, un cluster con tutte le buone transazioni viene rilevato e mantenuto come campione. Si dice che questo sia un cluster normale . Ogni volta che qualcosa è fuori linea da questo cluster, rientra nella sezione sospetta. Questo metodo si rivela davvero utile per rilevare la presenza di cellule anormali nel corpo.
Oltre a questo, il clustering è ampiamente utilizzato per scomporre grandi set di dati per creare gruppi di dati più piccoli. Ciò migliora l'efficienza della valutazione dei dati.

Quali sono i vantaggi del Clustering?

Si dice che il raggruppamento sia più efficace del campionamento casuale dei dati forniti per diversi motivi. I due principali vantaggi del clustering sono:
1. Richiede meno risorse
Un cluster crea un gruppo di meno risorse dall'intero campione. A causa di ciò, vi è un minore fabbisogno di risorse rispetto al campionamento casuale. Il campionamento casuale richiederà spese di viaggio e amministrative, ma qui non è il caso.
2. Opzione fattibile
Qui, ogni cluster determina un intero insieme della popolazione poiché vengono creati gruppi omogenei dall'intera popolazione. Con questo, diventa facile includere più argomenti in un unico studio.