Analiza clusterului în data mining: aplicații, metode și cerințe

Publicat: 2020-01-20

Aici vom discuta despre analiza clusterelor în data mining. Așa că mai întâi spuneți-ne despre ce este clustering în data mining, apoi introducerea acestuia și necesitatea clusteringului în data mining. De asemenea, vom discuta despre algoritmii și aplicațiile analizei cluster în știința datelor. Mai târziu vom afla despre diferitele abordări în analiza clusterelor și metodele de clustering de data mining.

Cuprins

Ce este clusteringul în data mining?
- Ce este analiza clusterului în data mining?
Aplicații ale analizei clusterelor de data mining
Cerințe de clustering în data mining
Metode de grupare de date mining
- 1. Metoda de grupare de partiționare
- 2. Metode de grupare ierarhică
- 3. Metoda de grupare bazată pe densitate
- 4. Metoda de clusterizare bazată pe grilă
- 5. Metode de clusterizare bazate pe modele
- 6. Metoda de clusterizare bazată pe constrângeri
Ce tipuri de clasificare nu este considerată o analiză de cluster?
Concluzie
Care sunt unele dintre dezavantajele analizei cluster?
Cum se calculează puritatea și calitatea clusterului?
Care sunt diferențele dintre K-means și K-medoids?

Ce este clusteringul în data mining?

În grupare, un grup de obiecte de date diferite este clasificat ca obiecte similare. Un grup înseamnă un grup de date. Seturile de date sunt împărțite în diferite grupuri în analiza clusterului, care se bazează pe asemănarea datelor. După clasificarea datelor în diferite grupuri, grupului i se atribuie o etichetă. Ajută la adaptarea la schimbări prin clasificarea.

Citiți: Exemple comune de data mining.

Ce este analiza clusterului în data mining?

Cluster Analysis in Data Mining înseamnă că pentru a afla grupul de obiecte care sunt similare între ele în grup, dar sunt diferite de obiectul din alte grupuri.

Aplicații ale analizei clusterelor de data mining

Există multe utilizări ale analizei de grupare a datelor, cum ar fi procesarea imaginilor, analiza datelor, recunoașterea modelelor, cercetarea de piață și multe altele. Folosind Data clustering, companiile pot descoperi noi grupuri în baza de date a clienților. Clasificarea datelor se poate face și pe baza modelelor de cumpărare.

Clustering în Data Mining ajută la clasificarea animalelor și plantelor se realizează folosind funcții sau gene similare în domeniul biologiei. Ajută la înțelegerea structurii speciei. Zonele sunt identificate folosind clustering în data mining. În baza de date de observare a pământului sunt identificate terenuri care sunt similare între ele.

Pe baza locației geografice, a valorii și a tipului de casă, un grup de case este definit în oraș. Clustering în data mining ajută la descoperirea informațiilor prin clasificarea fișierelor de pe internet. Este folosit și în aplicații de detectare. Frauda de pe un card de credit poate fi detectată cu ușurință folosind clustering în data mining, care analizează modelul înșelăciunii. Citiți mai multe despre aplicațiile științei datelor în industria financiară.

Ajută la înțelegerea fiecărui cluster și a caracteristicilor sale. Se poate înțelege cum sunt distribuite datele și funcționează ca un instrument în funcția de extragere a datelor.

Cerințe de clustering în data mining

Interpretabilitate

Rezultatul grupării ar trebui să fie utilizabil, înțeles și interpretabil.

Ajută la tratarea datelor încurcate

De obicei, datele sunt dezordonate și nestructurate. Nu poate fi analizat rapid și de aceea gruparea informațiilor este atât de semnificativă în data mining. Gruparea poate oferi o anumită structură datelor prin organizarea lor în grupuri de obiecte de date similare. Devine mai confortabil pentru expertul în date în prelucrarea datelor și, de asemenea, să descopere lucruri noi.

Dimensional înalt

Gruparea datelor este, de asemenea, capabilă să gestioneze datele de mare dimensiune împreună cu datele de dimensiuni mici.

Sunt descoperite grupuri de formă de atribut

Clusterele de formă arbitrară sunt detectate utilizând algoritmul de grupare. Se poate găsi și un grup de dimensiuni mici, cu formă sferică.

Utilizabilitatea algoritmului cu mai multe tipuri de date

Multe tipuri diferite de date pot fi utilizate cu algoritmi de grupare. Datele pot fi ca date binare, date categoriale și bazate pe intervale.

Citiți: Algoritmi de extragere a datelor pe care ar trebui să-i cunoașteți

Scalabilitate în clustere

Baza de date este de obicei enormă. Algoritmul ar trebui să fie scalabil pentru a gestiona baze de date extinse, deci trebuie să fie scalabil.

Metode de grupare de date mining

1. Metoda de grupare de partiționare

În această metodă, să spunem că partiția „m” se face pe obiectele „p” ale bazei de date. Un cluster va fi reprezentat de fiecare partiție și m < p. K este numărul de grupuri după clasificarea obiectelor. Există câteva cerințe care trebuie îndeplinite cu această metodă de partiționare în cluster și acestea sunt: –

Un obiectiv ar trebui să aparțină doar unui singur grup.
Nu ar trebui să existe un grup fără un singur scop.

Există câteva puncte care ar trebui reținute în acest tip de Metodă de partiționare în cluster, care sunt:

Va exista o partițiune inițială dacă dăm deja nu. a unei partiții (să spunem m).
Există o tehnică numită relocare iterativă, ceea ce înseamnă că obiectul va fi mutat dintr-un grup în altul pentru a îmbunătăți partiționarea.

2. Metode de grupare ierarhică

În această metodă de grupare ierarhică, setul dat al unui obiect de date este creat într-un fel de descompunere ierarhică. Formarea descompunerii ierarhice va decide scopurile clasificării. Există două tipuri de abordări pentru crearea descompunerii ierarhice, care sunt: –

1. Abordare divizionară

Un alt nume pentru abordarea Divisiva este o abordare de sus în jos. La începutul acestei metode, toate obiectele de date sunt păstrate în același cluster. Clusterele mai mici sunt create prin împărțirea grupului folosind iterația continuă. Metoda de iterare constantă va continua până când condiția de terminare este îndeplinită. Nu se poate anula după ce grupul este împărțit sau fuzionat și de aceea această metodă nu este atât de flexibilă.

2. Abordarea aglomerativă

Un alt nume pentru această abordare este abordarea de jos în sus. Toate grupurile sunt separate la început. Apoi continuă să fuzioneze până când toate grupurile sunt fuzionate sau condiția de încetare este îndeplinită.

Există două abordări care pot fi utilizate pentru a îmbunătăți calitatea grupării ierarhice în data mining, care sunt: –

Ar trebui să analizăm cu atenție legăturile obiectului la fiecare partiționare a grupării ierarhice.
Se poate folosi un algoritm de aglomerare ierarhică pentru integrarea aglomerației ierarhice. În această abordare, mai întâi, obiectele sunt grupate în micro-clustere. După gruparea obiectelor de date în microclustere, macroclusterul se realizează pe microcluster.

3. Metoda de grupare bazată pe densitate

În această metodă de grupare în Data Mining, densitatea este principalul obiectiv. Noțiunea de masă este folosită ca bază pentru această metodă de grupare. În această metodă de grupare, clusterul va continua să crească continuu. Cel puțin un număr de puncte ar trebui să fie acolo în raza grupului pentru fiecare punct de date.

4. Metoda de clusterizare bazată pe grilă

În acest tip de metodă de grupare bazată pe grilă, se formează o grilă folosind obiectul împreună. O structură grilă este formată prin cuantificarea spațiului obiect într-un număr finit de celule.

Avantajul metodei de grupare bazată pe grilă: –

Timp de procesare mai rapid: timpul de procesare al acestei metode este mult mai rapid decât o altă modalitate și, prin urmare, poate economisi timp.
Această metodă depinde de nr. de celule în spațiul cuantizat fiecare dimensiune.

5. Metode de clusterizare bazate pe modele

În acest tip de metodă de grupare, fiecare cluster este emis ipoteza, astfel încât să poată găsi datele care sunt cele mai potrivite pentru model. Funcția de densitate este grupată pentru a localiza grupul în această metodă.

6. Metoda de clusterizare bazată pe constrângeri

Constrângerile orientate către aplicație sau utilizator sunt încorporate pentru a realiza gruparea. Așteptarea utilizatorului este denumită constrângere. În acest proces de grupare, comunicarea este foarte interactivă, ceea ce este asigurat de restricții.

Ce tipuri de clasificare nu este considerată o analiză de cluster?

Partiționare grafică – Tipul de clasificare în care zonele nu sunt aceleași și sunt clasificate doar pe baza sinergiei și relevanței reciproce nu este o analiză de cluster.
Rezultatele unei interogări – În acest tip de clasificare, grupurile sunt create pe baza specificațiilor date din surse externe. Nu este considerată o analiză cluster.
Segmentare simplă – Împărțirea numelor în grupuri separate de înregistrare pe baza numelui de familie nu se califică ca analiză cluster.
Clasificare supravegheată – Acele tipuri de clasificare care sunt clasificate folosind informații de etichetă nu pot fi spuse ca analiză cluster, deoarece analiza cluster implică un grup bazat pe model.

Concluzie

Așa că acum am învățat multe lucruri despre Data Clustering, cum ar fi abordările și metodele de Data Clustering și Cluster Analysis în Data mining.

Dacă sunteți curios să învățați știința datelor, consultați programul nostru Executive PG în știința datelor IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care sunt unele dintre dezavantajele analizei cluster?

Analiza cluster este o abordare statistică care nu presupune nicio cunoaștere prealabilă a pieței sau a comportamentului clienților. Unele metode de analiză a grupurilor produc rezultate oarecum diferite de fiecare dată când se efectuează analiza statistică. Acest lucru poate apărea deoarece nu există o metodă unică pentru analiza datelor. Schimbarea rezultatelor datelor poate fi confuză și iritante pentru studenții care sunt începători cu noțiunea de analiză a grupurilor.

Cum se calculează puritatea și calitatea clusterului?

Înmulțim numărul total de puncte de date cu numărul de etichete de clasă precise din fiecare cluster. Puritatea crește pe măsură ce numărul de clustere crește în general. Dacă avem un model care organizează fiecare observație în propriul cluster, de exemplu, puritatea devine una. Putem calcula valoarea medie a coeficientului de siluetă a tuturor obiectelor dintr-un cluster pentru a determina starea sa în interiorul unui cluster. Valoarea medie a coeficientului de siluetă a tuturor obiectelor din setul de date poate fi utilizată pentru a evalua calitatea unei grupări.

Care sunt diferențele dintre K-means și K-medoids?

K-means încearcă să reducă eroarea totală pătrată, în timp ce k-medoids încearcă să reducă suma disimilarităților dintre punctele clasificate ca fiind într-un cluster și un punct ales ca centru al clusterului. Spre deosebire de metoda k-means, algoritmul k-medoids alege punctele de date ca centre (medoizi sau exemplare).