Clustering in Machine Learning: 3 tipi di clustering spiegati

Pubblicato: 2020-11-30

Sommario

introduzione

Il machine learning è una delle tecnologie più in voga nel 2020, poiché i dati aumentano di giorno in giorno, anche la necessità di machine learning sta aumentando esponenzialmente. L'apprendimento automatico è un argomento molto vasto che ha algoritmi e casi d'uso diversi in ogni dominio e settore. Uno di questi è Unsupervised Learning in cui possiamo vedere l'uso del Clustering.

L'apprendimento non supervisionato è una tecnica in cui la macchina apprende da dati senza etichetta. Poiché non conosciamo le etichette, non viene fornita una risposta corretta affinché la macchina possa imparare da essa, ma la macchina stessa trova alcuni schemi dai dati forniti per trovare le risposte al problema aziendale.

Il clustering è una tecnica di Machine Learning Unsupervised Learning che prevede il raggruppamento di dati dati senza etichetta. In ogni set di dati pulito, utilizzando l'algoritmo di clustering è possibile raggruppare i punti dati forniti in ciascun gruppo. L'algoritmo di clustering presuppone che i punti dati che si trovano nello stesso cluster debbano avere proprietà simili, mentre i punti dati in cluster diversi dovrebbero avere proprietà molto dissimili.

In questo articolo, impareremo la necessità del clustering, diversi tipi di clustering insieme ai loro pro e contro.

Leggi: Prerequisito del Machine Learning

Qual è la necessità del Clustering?

Il clustering è un algoritmo ML ampiamente utilizzato che ci consente di trovare relazioni nascoste tra i punti dati nel nostro set di dati.

Esempi:

1) I clienti sono segmentati in base alle somiglianze dei clienti precedenti e possono essere utilizzati per i consigli.

2) Sulla base di una raccolta di dati testuali, possiamo organizzare i dati in base alle somiglianze di contenuto al fine di creare una gerarchia di argomenti.

3) Elaborazione di immagini principalmente nella ricerca biologica per identificare i modelli sottostanti.

4) Filtro antispam.

5) Individuazione delle attività fraudolente e criminali.

6) Può essere utilizzato anche per fantacalcio e sport.

Tipi di clustering

Esistono molti tipi di algoritmi di clustering nell'apprendimento automatico. Discuteremo i tre algoritmi seguenti in questo articolo:

1) Clustering dei mezzi K.

2) Clustering di spostamento medio.

3) DBSCAN.

1. Cluster di mezzi K

K-Means è l'algoritmo di clustering più popolare tra gli altri algoritmi di clustering in Machine Learning. Possiamo vedere questo algoritmo utilizzato in molti settori importanti o anche in molti corsi introduttivi. È uno dei modelli più semplici con cui iniziare sia nell'implementazione che nella comprensione.

Passaggio 1 Per prima cosa selezioniamo un numero casuale di k da utilizzare e inizializziamo casualmente i rispettivi punti centrali.

Passaggio 2 Ogni punto dati viene quindi classificato calcolando la distanza (Euclidea o Manhattan) tra quel punto e ciascun centro del gruppo, quindi raggruppando il punto dati nel cluster il cui centro è più vicino ad esso.

Passaggio 3 Ricalcoliamo il centro del gruppo prendendo la media di tutti i vettori del gruppo.

Passaggio 4 Ripetiamo tutti questi passaggi per un numero di iterazioni o finché i centri del gruppo non cambiano molto.

Professionisti

1) Molto veloce.

2) Pochissimi calcoli

3) Complessità lineare O(n).

contro

1) Selezione del valore k.

2) Diversi centri di clustering in diverse esecuzioni.

3) Mancanza di coerenza.

2. Clustering di spostamento medio

Il clustering di spostamento medio è un algoritmo basato su finestre scorrevoli che tenta di identificare le aree dense dei punti dati. Essendo un algoritmo basato sul centroide, significa che l'obiettivo è individuare i punti centrali di ogni classe che a sua volta funziona aggiornando i candidati per i punti centrali come media dei punti nella finestra scorrevole.

Queste finestre dei candidati selezionati vengono quindi filtrate in una fase di post-elaborazione al fine di eliminare i duplicati che aiuteranno a formare l'insieme finale di centri e le classi corrispondenti.

Passaggio 1 Iniziamo con una finestra scorrevole circolare centrata in un punto C (selezionato a caso) e avente raggio r come kernel. Lo spostamento medio è un tipo di algoritmo in salita che comporta lo spostamento iterativo di questo kernel in una regione a densità più elevata su ogni passaggio fino a raggiungere la convergenza.

Passaggio 2 Dopo ogni iterazione, la finestra scorrevole viene spostata verso le regioni a densità maggiore spostando il punto centrale sulla media dei punti all'interno della finestra. La densità all'interno della finestra scorrevole aumenta con l'aumento del numero di punti al suo interno. Spostando la media dei punti nella finestra si sposterà gradualmente verso aree con densità di punti maggiore.

Passaggio 3 In questo passaggio continuiamo a spostare la finestra scorrevole in base al valore medio finché non c'è alcuna direzione in cui uno spostamento può ottenere più punti all'interno del kernel selezionato.

Passaggio 4 I passaggi 1-2 vengono eseguiti con molte finestre scorrevoli finché tutti i punti non si trovano all'interno di una finestra. Quando più finestre scorrevoli tendono a sovrapporsi, viene selezionata la finestra contenente il maggior numero di punti. I punti dati sono ora raggruppati in base alla finestra scorrevole in cui risiedono.

Professionisti

1) Non è necessario selezionare il numero di cluster.

2) Si adatta bene in un senso naturalmente guidato dai dati

contro

1) L'unico inconveniente è che la selezione della dimensione della finestra (r) può essere non banale.

3. Clustering spaziale basato sulla densità di applicazioni con rumore (DBSCAN)

DBSCAN è come il clustering Mean-Shift che è anche un algoritmo basato sulla densità con alcune modifiche.

Passaggio 1 Inizia con un punto di partenza arbitrario, l'intorno di questo punto viene estratto utilizzando una distanza chiamata epsilon.

Passaggio 2 Il clustering verrà avviato se sono presenti punti sufficienti e il punto dati diventa il primo nuovo punto in un cluster. Se non ci sono dati sufficienti, il punto sarà etichettato come rumore e il punto sarà contrassegnato come visitato.

Step-3 I punti all'interno dell'epsilon tendono a diventare parte del cluster. Questa procedura viene ripetuta in tutti i punti all'interno del cluster.

Passaggio 4 I passaggi 2 e 3 vengono ripetuti fino a quando i punti del cluster non vengono visitati ed etichettati.

Passaggio 5 Al completamento del cluster corrente, un nuovo punto non visitato viene elaborato in un nuovo cluster che lo classifica in un cluster o come rumore.

Professionisti

1) Non è necessario impostare il numero di cluster.

2) Definisce i valori anomali come rumore.

3) Aiuta a trovare abbastanza bene i grappoli di dimensioni arbitrarie e di forma arbitraria.

contro

1) Non funziona bene su cluster a densità variabile.

2) Non funziona bene con dati dimensionali elevati.

Leggi anche: Idee per progetti di apprendimento automatico

Conclusione

In questo articolo, abbiamo avuto modo di conoscere la necessità del clustering nel mercato attuale, diversi tipi di algoritmi di clustering insieme ai loro pro e contro. Il clustering è davvero un argomento molto interessante in Machine Learning e ci sono così tanti altri tipi di algoritmi di clustering che vale la pena imparare.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Cosa si intende per raggruppamento di miscele gaussiane?

I modelli di miscele gaussiane vengono solitamente utilizzati nel caso di dati di query per eseguire il clustering rigido o software. I modelli di miscele gaussiane fanno alcune ipotesi per eseguire bene il clustering. Sulla base delle ipotesi, il modello raggruppa i punti dati che appartengono a un'unica distribuzione. Questi sono modelli probabilistici e utilizzano un approccio di clustering morbido per eseguire il processo di clustering in modo efficiente.

Qual è il coefficiente di silhouette nel raggruppamento?

Per misurare quanto bene è stato eseguito il raggruppamento, utilizziamo il coefficiente di silhouette. Fondamentalmente, viene misurata la distanza media tra due cluster, quindi viene calcolata la larghezza della silhouette utilizzando una formula. In questo modo, possiamo facilmente misurare il numero ottimale di cluster presenti nei dati forniti e quindi scoprire l'efficienza del clustering eseguito.

Cosa si intende per clustering fuzzy nell'apprendimento automatico?

Quando i dati forniti rientrano in più di un cluster o gruppo, viene utilizzato un metodo di clustering fuzzy, che funziona su un algoritmo fuzzy C-mean o un algoritmo fuzzy K-mean. È un metodo di raggruppamento morbido. In base alla distanza tra il centro del cluster e il punto dell'immagine, il metodo assegna i valori di appartenenza a ciascun punto dell'immagine associato a ciascun centro del cluster.