Cluster Analysis nel data mining: applicazioni, metodi e requisiti
Pubblicato: 2020-01-20Qui parleremo dell'analisi dei cluster nel data mining. Quindi prima facci sapere cosa è il clustering nel data mining, quindi la sua introduzione e la necessità del clustering nel data mining. Discuteremo anche gli algoritmi e le applicazioni dell'analisi dei cluster nella scienza dei dati. Successivamente impareremo i diversi approcci nell'analisi dei cluster e nei metodi di clustering di data mining.
Sommario
Che cos'è il clustering nel data mining?
Nel clustering, un gruppo di diversi oggetti dati viene classificato come oggetti simili. Un gruppo indica un gruppo di dati. I set di dati sono divisi in diversi gruppi nell'analisi dei cluster, che si basa sulla somiglianza dei dati. Dopo la classificazione dei dati in vari gruppi, al gruppo viene assegnata un'etichetta. Aiuta ad adattarsi ai cambiamenti facendo la classificazione.
Leggi: Esempi comuni di data mining.
Che cos'è l'analisi dei cluster nel data mining?
Cluster Analysis in Data Mining significa che per scoprire il gruppo di oggetti che sono simili tra loro nel gruppo ma sono diversi dall'oggetto in altri gruppi.
Applicazioni dell'analisi dei cluster di data mining
Esistono molti usi dell'analisi del clustering dei dati come l'elaborazione delle immagini, l'analisi dei dati, il riconoscimento dei modelli, le ricerche di mercato e molti altri. Utilizzando il clustering dei dati, le aziende possono scoprire nuovi gruppi nel database dei clienti. La classificazione dei dati può essere effettuata anche in base ai modelli di acquisto.
Il clustering in Data Mining aiuta nella classificazione di animali e piante utilizzando funzioni o geni simili nel campo della biologia. Aiuta a ottenere informazioni sulla struttura della specie. Le aree vengono identificate utilizzando il clustering nel data mining. Nel database di osservazione della terra vengono individuati terreni simili tra loro.
In base alla posizione geografica, al valore e al tipo di casa, nella città viene definito un gruppo di case. Il clustering nel data mining aiuta nella scoperta di informazioni classificando i file su Internet. Viene anche utilizzato nelle applicazioni di rilevamento. La frode in una carta di credito può essere facilmente rilevata utilizzando il clustering nel data mining che analizza il modello di inganno. Ulteriori informazioni sulle applicazioni della scienza dei dati nel settore finanziario.
Aiuta a comprendere ogni cluster e le sue caratteristiche. Si può capire come vengono distribuiti i dati e funziona come strumento nella funzione di data mining.
Requisiti del clustering nel data mining
- Interpretabilità
Il risultato del raggruppamento dovrebbe essere utilizzabile, comprensibile e interpretabile.
- Aiuta a gestire i dati incasinati
Di solito, i dati sono incasinati e non strutturati. Non può essere analizzato rapidamente, ed è per questo che il raggruppamento di informazioni è così significativo nel data mining. Il raggruppamento può dare una struttura ai dati organizzandoli in gruppi di oggetti dati simili. Diventa più comodo per l'esperto di dati nell'elaborare i dati e scoprire anche cose nuove.
- Alta dimensione
Il clustering dei dati è anche in grado di gestire i dati di dimensioni elevate insieme a quelli di piccole dimensioni.
- Vengono scoperti i cluster di forme di attributi
I cluster di forma arbitraria vengono rilevati utilizzando l'algoritmo di clustering. Si può trovare anche grappolo di piccole dimensioni con forma sferica.
- Usabilità dell'algoritmo con più tipi di dati
Molti tipi di dati diversi possono essere utilizzati con algoritmi di clustering. I dati possono essere come dati binari, dati categoriali e basati su intervalli.
Leggi: Algoritmi di data mining che dovresti conoscere
- Scalabilità del clustering
Il database di solito è enorme da gestire. L'algoritmo dovrebbe essere scalabile per gestire database estesi, quindi deve essere scalabile.
Metodi di clustering di data mining
1. Metodo di raggruppamento del partizionamento
In questo metodo, diciamo che la partizione "m" viene eseguita sugli oggetti "p" del database. Un cluster sarà rappresentato da ciascuna partizione e m < p. K è il numero di gruppi dopo la classificazione degli oggetti. Ci sono alcuni requisiti che devono essere soddisfatti con questo metodo di partizionamento del cluster e sono: –
- Un obiettivo dovrebbe appartenere a un solo gruppo.
- Non ci dovrebbe essere un gruppo senza nemmeno un unico scopo.
Ci sono alcuni punti che dovrebbero essere ricordati in questo tipo di metodo di clustering di partizionamento che sono:
- Ci sarà un partizionamento iniziale se già diamo no. di una partizione (diciamo m).
- Esiste una tecnica chiamata riposizionamento iterativo, il che significa che l'oggetto verrà spostato da un gruppo all'altro per migliorare il partizionamento.
2. Metodi di clustering gerarchico
In questo metodo di clustering gerarchico, l'insieme dato di un oggetto di dati viene creato in una sorta di scomposizione gerarchica. La formazione della scomposizione gerarchica deciderà gli scopi della classificazione. Esistono due tipi di approcci per la creazione della scomposizione gerarchica, che sono: –

1. Approccio divisivo
Un altro nome per l'approccio divisivo è un approccio dall'alto verso il basso. All'inizio di questo metodo, tutti gli oggetti dati vengono mantenuti nello stesso cluster. I cluster più piccoli vengono creati suddividendo il gruppo utilizzando l'iterazione continua. Il metodo di iterazione costante continuerà fino a quando non sarà soddisfatta la condizione di terminazione. Non è possibile annullare dopo che il gruppo è stato diviso o unito, ed è per questo che questo metodo non è così flessibile.
2. Approccio agglomerato
Un altro nome per questo approccio è l'approccio bottom-up. Tutti i gruppi sono separati all'inizio. Quindi continua a fondersi fino a quando tutti i gruppi non vengono uniti o viene soddisfatta la condizione di risoluzione.
Esistono due approcci che possono essere utilizzati per migliorare la qualità del clustering gerarchico nel data mining: –
- Si dovrebbero analizzare attentamente i collegamenti dell'oggetto ad ogni partizionamento del clustering gerarchico.
- Si può utilizzare un algoritmo agglomerato gerarchico per l'integrazione dell'agglomerazione gerarchica. In questo approccio, in primo luogo, gli oggetti sono raggruppati in microcluster. Dopo aver raggruppato gli oggetti dati in microcluster, sul microcluster viene eseguito il raggruppamento di macro.
3. Metodo di clustering basato sulla densità
In questo metodo di clustering in Data Mining, la densità è l'obiettivo principale. La nozione di massa viene utilizzata come base per questo metodo di raggruppamento. In questo metodo di clustering, il cluster continuerà a crescere continuamente. Almeno un numero di punti dovrebbe trovarsi nel raggio del gruppo per ogni punto di dati.
4. Metodo di clustering basato su griglia
In questo tipo di metodo di clustering basato su griglia, viene formata una griglia utilizzando l'oggetto insieme. Una struttura a griglia è formata quantificando lo spazio dell'oggetto in un numero finito di celle.
Vantaggio del metodo di clustering basato su griglia: –
- Tempo di elaborazione più rapido: il tempo di elaborazione di questo metodo è molto più rapido di un altro modo e quindi può far risparmiare tempo.
- Questo metodo dipende dal n. di celle nello spazio di ogni dimensione quantizzata.
5. Metodi di clustering basati su modelli
In questo tipo di metodo di clustering, ogni cluster viene ipotizzato in modo che possa trovare i dati più adatti al modello. La funzione di densità è raggruppata per individuare il gruppo in questo metodo.
6. Metodo di clustering basato su vincoli
Per eseguire il clustering vengono incorporati vincoli orientati all'applicazione o all'utente. L'aspettativa dell'utente viene definita vincolo. In questo processo di raggruppamento, la comunicazione è molto interattiva, il che è fornito dalle restrizioni.
Quali tipi di classificazione non sono considerati un'analisi dei cluster?
- Partizionamento del grafico : il tipo di classificazione in cui le aree non sono le stesse e sono classificate solo in base alla sinergia e alla rilevanza reciproche non è l'analisi dei cluster.
- Risultati di una query – In questo tipo di classificazione, i gruppi vengono creati in base alle specifiche fornite da fonti esterne. Non viene conteggiato come un'analisi del cluster.
- Segmentazione semplice : la divisione dei nomi in gruppi separati di registrazione in base al cognome non si qualifica come analisi del cluster.
- Classificazione supervisionata : il tipo di classificazione classificato utilizzando le informazioni sull'etichetta non può essere definito analisi del cluster perché l'analisi del cluster coinvolge il gruppo in base al modello.
Conclusione
Quindi ora abbiamo imparato molte cose sul clustering dei dati, come gli approcci e i metodi del clustering dei dati e dell'analisi dei cluster nel data mining.
Se sei curioso di imparare la scienza dei dati, dai un'occhiata al nostro programma Executive PG in Data Science IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.
Quali sono alcuni degli svantaggi dell'analisi dei cluster?
L'analisi dei cluster è un approccio statistico che non presuppone alcuna conoscenza preliminare del mercato o del comportamento dei clienti. Alcuni metodi di analisi dei cluster producono risultati leggermente diversi ogni volta che viene condotta l'analisi statistica. Ciò può verificarsi perché non esiste un metodo valido per tutti per l'analisi dei dati. La modifica dei risultati dei dati può creare confusione e irritare gli studenti che non conoscono il concetto di analisi dei cluster.
Come vengono calcolate la purezza e la qualità del cluster?
Moltiplichiamo il numero totale di punti dati per il numero di etichette di classe accurate in ciascun cluster. La purezza aumenta all'aumentare del numero di cluster in generale. Se abbiamo un modello che organizza ogni osservazione nel proprio cluster, per esempio, la purezza diventa una. Possiamo calcolare il valore medio del coefficiente di silhouette di tutti gli oggetti in un cluster per determinarne l'idoneità all'interno di un clustering. Il valore medio del coefficiente di sagoma di tutti gli oggetti nel set di dati può essere utilizzato per valutare la qualità di un raggruppamento.
Quali sono le distinzioni tra K-medie e K-medoid?
K-mean cerca di ridurre l'errore quadratico totale, mentre k-medoids cerca di ridurre la somma delle dissomiglianze tra i punti classificati come in un cluster e un punto scelto come centro del cluster. A differenza del metodo k-medie, l'algoritmo k-medoids seleziona punti dati come centri (medoidi o esemplari).