Analisis Cluster dalam Data Mining: Aplikasi, Metode & Persyaratan

Diterbitkan: 2020-01-20

Disini kita akan membahas Analisis Cluster pada Data Mining. Jadi pertama-tama beri tahu kami tentang apa itu clustering dalam data mining kemudian pengenalannya dan perlunya clustering dalam data mining. Kami juga akan membahas algoritma dan aplikasi analisis klaster dalam ilmu data. Nanti kita akan belajar tentang pendekatan yang berbeda dalam analisis cluster dan metode clustering data mining.

Daftar isi

Apa itu Clustering di Data Mining?

Dalam clustering, sekelompok objek data yang berbeda diklasifikasikan sebagai objek yang serupa. Satu kelompok berarti sekelompok data. Kumpulan data dibagi menjadi beberapa kelompok yang berbeda dalam analisis cluster, yang didasarkan pada kesamaan data. Setelah klasifikasi data ke dalam berbagai kelompok, label diberikan ke grup. Ini membantu dalam beradaptasi dengan perubahan dengan melakukan klasifikasi.

Baca: Contoh Umum Data Mining.

Apa itu Analisis Cluster dalam Data Mining?

Analisis Cluster dalam Data Mining berarti untuk mengetahui kelompok objek yang mirip satu sama lain dalam kelompok tetapi berbeda dengan objek di kelompok lain.

Aplikasi Analisis Cluster Data Mining

Ada banyak kegunaan Analisis pengelompokan data seperti pemrosesan gambar, analisis data, pengenalan pola, riset pasar, dan banyak lagi. Menggunakan Data clustering, perusahaan dapat menemukan grup baru dalam database pelanggan. Klasifikasi data juga dapat dilakukan berdasarkan pola pembelian.

Clustering dalam Data Mining membantu dalam klasifikasi hewan dan tumbuhan yang dilakukan dengan menggunakan fungsi atau gen yang serupa di bidang biologi. Ini membantu dalam mendapatkan wawasan tentang struktur spesies. Area diidentifikasi menggunakan clustering dalam data mining. Dalam database pengamatan bumi, diidentifikasi lahan-lahan yang memiliki kemiripan satu sama lain.

Berdasarkan lokasi geografis, nilai dan tipe rumah, sekelompok rumah didefinisikan di kota. Clustering dalam data mining membantu dalam penemuan informasi dengan mengklasifikasikan file-file di internet. Hal ini juga digunakan dalam aplikasi deteksi. Penipuan dalam kartu kredit dapat dengan mudah dideteksi menggunakan clustering dalam data mining yang menganalisis pola penipuan. Baca lebih lanjut tentang aplikasi ilmu data di industri keuangan.

Ini membantu dalam memahami setiap cluster dan karakteristiknya. Seseorang dapat memahami bagaimana data didistribusikan, dan berfungsi sebagai alat dalam fungsi penambangan data.

Persyaratan Clustering di Data Mining

  • Interpretasi

Hasil clustering harus dapat digunakan, dimengerti dan ditafsirkan.

  • Membantu dalam menangani data yang kacau

Biasanya, datanya kacau dan tidak terstruktur. Itu tidak dapat dianalisis dengan cepat, dan itulah sebabnya pengelompokan informasi sangat penting dalam penambangan data. Pengelompokan dapat memberikan beberapa struktur pada data dengan mengaturnya ke dalam kelompok-kelompok objek data yang serupa. Menjadi lebih nyaman bagi ahli data dalam mengolah data dan juga menemukan hal-hal baru.

  • Dimensi Tinggi

Data clustering juga mampu menangani data yang berdimensi tinggi maupun yang berukuran kecil.

  • Cluster bentuk atribut ditemukan

Cluster bentuk arbitrer dideteksi dengan menggunakan algoritma clustering. Cluster ukuran kecil dengan bentuk bulat juga dapat ditemukan.

  • Kegunaan Algoritma dengan banyak jenis data

Banyak jenis data yang berbeda dapat digunakan dengan algoritma pengelompokan. Data tersebut dapat berupa data biner, data kategorikal dan data berbasis interval.

Baca: Algoritma Data Mining Yang Harus Anda Ketahui

  • Skalabilitas Pengelompokan

Basis data biasanya sangat besar untuk ditangani. Algoritme harus dapat diskalakan untuk menangani basis data yang luas, sehingga harus dapat diskalakan.

Metode Pengelompokan Data Mining

1. Metode Pengelompokan Partisi

Dalam metode ini, mari kita katakan bahwa partisi "m" dilakukan pada objek "p" dari database. Sebuah cluster akan diwakili oleh setiap partisi dan m < p. K adalah jumlah grup setelah klasifikasi objek. Ada beberapa persyaratan yang harus dipenuhi dengan Metode Partitioning Clustering ini, yaitu: –

  1. Satu tujuan seharusnya hanya dimiliki oleh satu kelompok.
  2. Seharusnya tidak ada kelompok tanpa satu tujuan pun.

Ada beberapa hal yang harus diingat dalam metode Partitioning Clustering ini yaitu:

  1. Akan ada partisi awal jika kita sudah memberikan no. dari sebuah partisi (katakanlah m).
  2. Ada satu teknik yang disebut relokasi iteratif, yang berarti objek akan dipindahkan dari satu grup ke grup lain untuk meningkatkan partisi.

2. Metode Pengelompokan Hirarki

Dalam metode pengelompokan hierarkis ini, kumpulan objek data yang diberikan dibuat menjadi semacam dekomposisi hierarkis. Pembentukan dekomposisi hierarkis akan menentukan tujuan klasifikasi. Ada dua jenis pendekatan untuk pembuatan dekomposisi hierarkis, yaitu: –

1. Pendekatan Divisi

Nama lain dari pendekatan Divisive adalah pendekatan top-down. Pada awal metode ini, semua objek data disimpan dalam cluster yang sama. Cluster yang lebih kecil dibuat dengan memisahkan grup dengan menggunakan iterasi berkelanjutan. Metode iterasi konstan akan terus berjalan sampai kondisi terminasi terpenuhi. Seseorang tidak dapat membatalkan setelah grup dipecah atau digabungkan, dan itulah sebabnya metode ini tidak begitu fleksibel.

2. Pendekatan Agglomerative

Nama lain dari pendekatan ini adalah pendekatan bottom-up. Semua kelompok dipisahkan di awal. Kemudian terus penggabungan sampai semua kelompok bergabung, atau kondisi penghentian terpenuhi.

Ada dua pendekatan yang dapat digunakan untuk meningkatkan Kualitas Hierarchical Clustering dalam Data Mining yaitu: –

  1. Seseorang harus hati-hati menganalisis keterkaitan objek di setiap partisi pengelompokan hierarkis.
  2. Seseorang dapat menggunakan algoritma aglomerasi hierarkis untuk integrasi aglomerasi hierarkis. Dalam pendekatan ini, pertama, objek dikelompokkan ke dalam mikro-cluster. Setelah mengelompokkan objek data ke dalam microcluster, selanjutnya dilakukan macro clustering pada microcluster.

3. Metode Pengelompokan Berbasis Kepadatan

Dalam metode clustering di Data Mining ini, kerapatan menjadi fokus utama. Gagasan massa digunakan sebagai dasar untuk metode pengelompokan ini. Dalam metode clustering ini, cluster akan terus berkembang secara terus menerus. Setidaknya satu jumlah titik harus ada di radius grup untuk setiap titik data.

4. Metode Pengelompokan Berbasis Grid

Dalam jenis Metode Clustering Berbasis Grid ini, sebuah grid dibentuk menggunakan objek bersama-sama. Struktur Grid dibentuk dengan mengkuantifikasi ruang objek menjadi sejumlah sel yang terbatas.

Keuntungan dari metode clustering berbasis Grid: –

  1. Waktu pemrosesan lebih cepat: Waktu pemrosesan metode ini jauh lebih cepat daripada cara lain, dan dengan demikian dapat menghemat waktu.
  2. Metode ini tergantung pada no. sel dalam ruang terkuantisasi setiap dimensi.

5. Metode Pengelompokan Berbasis Model

Pada metode clustering jenis ini, setiap cluster dihipotesiskan sehingga dapat menemukan data yang paling cocok untuk model tersebut. Fungsi kepadatan dikelompokkan untuk menemukan grup dalam metode ini.

6. Metode Pengelompokan Berbasis Kendala

Kendala yang berorientasi pada aplikasi atau pengguna digabungkan untuk melakukan pengelompokan. Harapan pengguna disebut sebagai kendala. Dalam proses pengelompokan ini, komunikasi sangat interaktif, yang disediakan oleh batasan-batasan.

Jenis klasifikasi apa yang tidak dianggap sebagai analisis klaster?

  1. Graph Partitioning – Jenis klasifikasi di mana area tidak sama dan hanya diklasifikasikan berdasarkan sinergi dan relevansi bersama bukanlah analisis klaster.
  2. Hasil kueri – Dalam klasifikasi jenis ini, grup dibuat berdasarkan spesifikasi yang diberikan dari sumber eksternal. Itu tidak dihitung sebagai Analisis Cluster.
  3. Segmentasi Sederhana – Pembagian nama ke dalam grup pendaftaran terpisah berdasarkan nama belakang tidak memenuhi syarat sebagai Analisis Cluster.
  4. Supervised Classification – Jenis klasifikasi yang diklasifikasikan menggunakan informasi label tidak dapat dikatakan sebagai Analisis Cluster karena analisis cluster melibatkan kelompok berdasarkan pola.

Kesimpulan

Jadi sekarang kita telah belajar banyak hal tentang Data Clustering seperti pendekatan dan metode Data Clustering dan Analisis Cluster dalam Data mining.

Jika Anda penasaran untuk mempelajari ilmu data, lihat Program PG Eksekutif IIIT-B dan upGrad kami dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa saja kelemahan dari analisis klaster?

Analisis klaster adalah pendekatan statistik yang mengandaikan tidak ada pengetahuan sebelumnya tentang pasar atau perilaku pelanggan. Beberapa metode analisis klaster menghasilkan temuan yang agak berbeda setiap kali analisis statistik dilakukan. Ini bisa muncul karena tidak ada metode satu ukuran untuk semua analisis data. Mengubah keluaran data dapat membingungkan dan menjengkelkan bagi siswa yang baru mengenal konsep analisis klaster.

Bagaimana kemurnian cluster dan kualitas cluster dihitung?

Kami mengalikan jumlah total titik data dengan jumlah label kelas yang akurat di setiap cluster. Kemurnian meningkat karena jumlah kelompok meningkat secara umum. Jika kita memiliki model yang mengatur setiap pengamatan ke dalam clusternya sendiri, misalnya, kemurniannya menjadi satu. Kami dapat menghitung nilai koefisien siluet rata-rata dari semua objek dalam sebuah cluster untuk menentukan kebugarannya di dalam sebuah clustering. Nilai koefisien siluet rata-rata dari semua objek dalam kumpulan data dapat digunakan untuk menilai kualitas suatu pengelompokan.

Apa perbedaan antara K-means dan K-medoids?

K-means mencoba untuk mengurangi kesalahan kuadrat total, sedangkan k-medoids mencoba untuk mengurangi jumlah dissimilarities antara titik-titik yang diklasifikasikan sebagai dalam sebuah cluster dan sebuah titik yang dipilih sebagai pusat cluster. Berbeda dengan metode k-means, algoritma k-medoids memilih titik data sebagai pusat (medoid atau eksemplar).