Apa itu Clustering dan Berbagai Jenis Metode Clustering
Diterbitkan: 2020-12-01Anggap diri Anda sedang berbicara dengan Chief Marketing Officer organisasi Anda. Organisasi ingin memahami pelanggan lebih baik dengan bantuan data sehingga dapat membantu tujuan bisnisnya dan memberikan pengalaman yang lebih baik kepada pelanggan. Sekarang, ini adalah salah satu skenario di mana pengelompokan datang untuk menyelamatkan.
Daftar isi
Apa itu Clustering?
Clustering adalah jenis metode pembelajaran mesin pembelajaran tanpa pengawasan. Dalam metode pembelajaran tanpa pengawasan, kesimpulan diambil dari kumpulan data yang tidak mengandung variabel keluaran berlabel. Ini adalah teknik analisis data eksplorasi yang memungkinkan kita untuk menganalisis kumpulan data multivariat.
Clustering adalah suatu tugas membagi kumpulan data menjadi sejumlah cluster tertentu sedemikian rupa sehingga titik-titik data milik suatu cluster memiliki karakteristik yang sama. Cluster tidak lain adalah pengelompokan titik data sedemikian rupa sehingga jarak antara titik data dalam cluster minimal.
Dengan kata lain, cluster adalah wilayah yang memiliki kepadatan titik data yang sama tinggi. Ini umumnya digunakan untuk analisis kumpulan data, untuk menemukan data mendalam di antara kumpulan data besar dan menarik kesimpulan darinya. Umumnya, cluster terlihat dalam bentuk bola, tetapi tidak perlu karena cluster dapat berbentuk apapun. Pelajari tentang pengelompokan dan lebih banyak konsep ilmu data dalam kursus online ilmu data kami.
Itu tergantung pada jenis algoritma yang kita gunakan yang memutuskan bagaimana cluster akan dibuat. Inferensi yang perlu diambil dari kumpulan data juga bergantung pada pengguna karena tidak ada kriteria untuk pengelompokan yang baik.
Apa saja jenis Metode Clustering?
Clustering sendiri dapat dikategorikan menjadi dua jenis yaitu. Pengelompokan Keras dan Pengelompokan Lunak. Dalam hard clustering, satu titik data hanya dapat dimiliki oleh satu cluster. Tetapi dalam pengelompokan lunak, keluaran yang diberikan adalah kemungkinan probabilitas dari titik data yang dimiliki oleh masing-masing jumlah klaster yang telah ditentukan sebelumnya.
Pengelompokan Berbasis Kepadatan
Dalam metode ini, cluster dibuat berdasarkan kepadatan titik data yang diwakili dalam ruang data. Wilayah yang menjadi padat karena banyaknya titik data yang berada di wilayah tersebut dianggap sebagai cluster.
Titik data di wilayah jarang (wilayah di mana titik data sangat sedikit) dianggap sebagai noise atau outlier. Cluster yang dibuat dalam metode ini dapat berbentuk arbitrer. Berikut adalah contoh algoritma clustering berbasis Density:
DBSCAN (Pengelompokan Spasial Berbasis Kepadatan Aplikasi dengan Kebisingan)
DBSCAN mengelompokkan titik data berdasarkan metrik jarak dan kriteria untuk jumlah titik data minimum. Dibutuhkan dua parameter – eps dan poin minimum. Eps menunjukkan seberapa dekat titik data harus dianggap sebagai tetangga. Kriteria titik minimum harus dipenuhi untuk mempertimbangkan wilayah tersebut sebagai wilayah padat.
OPTICS (Ordering Points untuk Mengidentifikasi Struktur Clustering)
Hal ini mirip dalam proses untuk DBSCAN, tetapi hadir untuk salah satu kelemahan dari algoritma sebelumnya yaitu ketidakmampuan untuk membentuk cluster dari data kepadatan sewenang-wenang. Ini mempertimbangkan dua parameter lagi yaitu jarak inti dan jarak jangkauan. Jarak inti menunjukkan apakah titik data yang dipertimbangkan adalah inti atau tidak dengan menetapkan nilai minimum untuk itu.
Jarak jangkauan adalah jarak inti maksimum dan nilai metrik jarak yang digunakan untuk menghitung jarak antara dua titik data. Satu hal yang perlu dipertimbangkan tentang jarak jangkauan adalah bahwa nilainya tetap tidak ditentukan jika salah satu titik data adalah titik inti.
HDBSCAN (Pengelompokan Spasial Berbasis Hirarki untuk Aplikasi dengan Kebisingan)
HDBSCAN adalah metode pengelompokan berbasis kepadatan yang memperluas metodologi DBSCAN dengan mengubahnya menjadi algoritma pengelompokan hierarkis.
Pengelompokan Hirarkis
Hierarchical Clustering groups (Agglomerative atau disebut juga Bottom-Up Approach) atau membagi (Divisive atau disebut juga Top-Down Approach) cluster berdasarkan metrik jarak. Dalam clustering Agglomerative, setiap titik data bertindak sebagai cluster pada awalnya, dan kemudian mengelompokkan cluster satu per satu.
Divisive adalah kebalikan dari Agglomerative, dimulai dengan semua titik menjadi satu cluster dan membaginya untuk membuat lebih banyak cluster. Algoritma ini membuat matriks jarak dari semua cluster yang ada dan melakukan linkage antar cluster tergantung dari kriteria linkage tersebut. Pengelompokan titik-titik data direpresentasikan dengan menggunakan dendrogram. Ada berbagai jenis hubungan: –
Hai Single Linkage : – Pada single linkage jarak antara dua cluster adalah jarak terpendek antar titik pada kedua cluster tersebut.
Hai Complete Linkage : – Pada complete linkage, jarak antara kedua cluster adalah jarak terjauh antar titik pada kedua cluster tersebut.
Hai Average Linkage : – Pada rata-rata linkage jarak antara dua cluster adalah jarak rata-rata setiap titik pada cluster dengan setiap titik pada cluster lainnya.
Baca: Contoh Umum Data Mining.
Pengelompokan Fuzzy
Dalam clustering fuzzy, penugasan titik data di salah satu cluster tidak menentukan. Di sini, satu titik data dapat dimiliki oleh lebih dari satu cluster. Ini memberikan hasil sebagai probabilitas titik data milik masing-masing cluster. Salah satu algoritma yang digunakan dalam fuzzy clustering adalah Fuzzy c-means clustering.
Algoritma ini mirip dalam proses untuk clustering K-Means dan berbeda dalam parameter yang terlibat dalam perhitungan seperti fuzzifier dan nilai keanggotaan.
Pengelompokan Partisi
Metode ini merupakan salah satu pilihan paling populer bagi para analis untuk membuat cluster. Dalam partisi clustering, cluster dipartisi berdasarkan karakteristik titik data. Kita perlu menentukan jumlah cluster yang akan dibuat untuk metode clustering ini. Algoritma pengelompokan ini mengikuti proses berulang untuk menetapkan kembali titik data antar cluster berdasarkan jarak. Algoritma yang termasuk dalam kategori ini adalah sebagai berikut: –

Hai K-Means Clustering: – K-Means clustering adalah salah satu algoritma yang paling banyak digunakan. Ini mempartisi titik data menjadi k cluster berdasarkan metrik jarak yang digunakan untuk clustering. Nilai 'k' harus ditentukan oleh pengguna. Jarak dihitung antara titik data dan centroid dari cluster.
Titik data yang paling dekat dengan centroid cluster akan ditugaskan ke cluster itu. Setelah iterasi, itu menghitung centroid dari cluster tersebut lagi dan proses berlanjut sampai jumlah iterasi yang telah ditentukan selesai atau ketika centroid dari cluster tidak berubah setelah iterasi.
Ini adalah algoritma yang sangat mahal secara komputasi karena menghitung jarak setiap titik data dengan centroid dari semua cluster pada setiap iterasi. Hal ini membuat sulit untuk menerapkan hal yang sama untuk kumpulan data yang besar.
PAM (Partisi di Sekitar Medoid)
Algoritma ini disebut juga dengan algoritma k-medoid. Prosesnya juga mirip dengan algoritma pengelompokan K-means dengan perbedaan dalam penugasan pusat cluster. Dalam PAM, medoid cluster harus menjadi titik data input sementara ini tidak benar untuk clustering K-means karena rata-rata semua titik data dalam sebuah cluster mungkin bukan milik titik data input.
Hai CLARA (Clustering Large Applications) : – CLARA adalah perpanjangan dari algoritma PAM di mana waktu komputasi telah dikurangi untuk membuatnya tampil lebih baik untuk kumpulan data yang besar. Untuk mencapai ini, ia memilih sebagian data tertentu secara sewenang-wenang di antara seluruh kumpulan data sebagai perwakilan dari data aktual. Ini menerapkan algoritma PAM ke beberapa sampel data dan memilih cluster terbaik dari sejumlah iterasi.
Baca Juga: Algoritma Data Mining Yang Harus Anda Ketahui
Pengelompokan Berbasis Grid
Dalam clustering berbasis grid, kumpulan data direpresentasikan ke dalam struktur grid yang terdiri dari grid (juga disebut sel). Pendekatan keseluruhan dalam algoritme metode ini berbeda dari algoritme lainnya.
Mereka lebih peduli dengan ruang nilai di sekitar titik data daripada titik data itu sendiri. Salah satu keuntungan terbesar dari algoritma ini adalah pengurangan kompleksitas komputasi. Ini membuatnya sesuai untuk menangani kumpulan data yang sangat besar.
Setelah mempartisi kumpulan data ke dalam sel, ia menghitung kepadatan sel yang membantu dalam mengidentifikasi cluster. Beberapa algoritma berdasarkan clustering berbasis grid adalah sebagai berikut: –
Hai STING (Pendekatan Grid Informasi Statistik) : – Dalam STING, kumpulan data dibagi secara rekursif secara hierarkis. Setiap sel dibagi lagi menjadi jumlah sel yang berbeda. Ini menangkap ukuran statistik sel yang membantu menjawab pertanyaan dalam waktu singkat.
Hai WaveCluster : – Dalam algoritma ini, ruang data direpresentasikan dalam bentuk wavelet. Ruang data menyusun sinyal n-dimensi yang membantu dalam mengidentifikasi cluster. Bagian dari sinyal dengan frekuensi yang lebih rendah dan amplitudo yang tinggi menunjukkan bahwa titik-titik data terkonsentrasi. Daerah ini diidentifikasi sebagai cluster oleh algoritma. Bagian dari sinyal di mana frekuensi tinggi mewakili batas-batas cluster. Untuk lebih jelasnya, Anda dapat merujuk pada makalah ini .
Hai CLIQUE (Clustering in Quest) : – CLIQUE adalah kombinasi dari algoritma clustering berbasis kepadatan dan grid. Ini mempartisi ruang data dan mengidentifikasi sub-ruang menggunakan prinsip Apriori. Ini mengidentifikasi cluster dengan menghitung kepadatan sel.
Catatan Akhir
Pada artikel ini, kita melihat gambaran umum tentang apa itu clustering dan berbagai metode clustering beserta contohnya. Artikel ini dimaksudkan untuk membantu Anda dalam memulai pengelompokan.
Metode pengelompokan ini memiliki pro dan kontra sendiri yang membatasi mereka hanya cocok untuk kumpulan data tertentu. Bukan hanya algoritme tetapi ada banyak faktor lain seperti spesifikasi perangkat keras mesin, kerumitan algoritme, dll. yang muncul saat Anda melakukan analisis pada kumpulan data.
Sebagai seorang analis, Anda harus membuat keputusan tentang algoritma mana yang akan dipilih dan mana yang akan memberikan hasil yang lebih baik dalam situasi tertentu. Satu algoritma cocok untuk semua strategi tidak berfungsi di salah satu masalah pembelajaran mesin. Jadi, teruslah bereksperimen dan buat tangan Anda kotor di dunia pengelompokan.
Jika Anda penasaran untuk mempelajari ilmu data, lihat Program PG Eksekutif IIIT-B dan upGrad kami dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
Apa saja jenis metode pengelompokan yang berbeda yang digunakan dalam intelijen bisnis?
Clustering adalah teknik tidak terarah yang digunakan dalam penambangan data untuk mengidentifikasi beberapa pola tersembunyi dalam data tanpa memunculkan hipotesis tertentu. Alasan di balik penggunaan clustering adalah untuk mengidentifikasi kesamaan antara objek-objek tertentu dan membuat grup dari objek-objek yang serupa.
Ada dua jenis pengelompokan, yaitu metode hierarkis dan non-hierarkis.
1. Pengelompokan Non-hierarkis
Dalam metode ini, dataset yang berisi N objek dibagi menjadi M cluster. Dalam intelijen bisnis, teknik pengelompokan non-hierarki yang paling banyak digunakan adalah K-means.
2. Pengelompokan Hirarkis
Dalam metode ini, satu set cluster bersarang diproduksi. Dalam cluster bersarang ini, setiap pasangan objek selanjutnya bersarang untuk membentuk cluster besar sampai hanya satu cluster yang tersisa di akhir.
Kapan Clustering digunakan?
Fungsi utama dari clustering adalah untuk melakukan segmentasi, apakah itu toko, produk, atau pelanggan. Pelanggan dan produk dapat dikelompokkan ke dalam kelompok hierarkis berdasarkan atribut yang berbeda.
Penggunaan lain dari teknik clustering terlihat untuk mendeteksi anomali seperti transaksi penipuan. Di sini, sebuah cluster dengan semua transaksi yang baik dideteksi dan disimpan sebagai sampel. Ini dikatakan sebagai cluster normal . Setiap kali ada sesuatu yang keluar dari garis dari cluster ini, itu berada di bawah bagian tersangka. Metode ini ternyata sangat berguna dalam mendeteksi keberadaan sel-sel abnormal dalam tubuh.
Selain itu, pengelompokan banyak digunakan untuk memecah kumpulan data besar untuk membuat grup data yang lebih kecil. Ini meningkatkan efisiensi penilaian data.
Apa keuntungan dari Clustering?
Clustering dikatakan lebih efektif daripada random sampling dari data yang diberikan karena beberapa alasan. Dua keuntungan utama dari clustering adalah:
1. Membutuhkan lebih sedikit sumber daya
Cluster membuat sekelompok sumber daya yang lebih sedikit dari seluruh sampel. Karena ini, ada kebutuhan sumber daya yang lebih rendah dibandingkan dengan pengambilan sampel acak. Pengambilan sampel secara acak akan membutuhkan biaya perjalanan dan administrasi, tetapi tidak demikian halnya di sini.
2. Opsi yang layak
Di sini, setiap cluster menentukan seluruh kumpulan populasi karena kelompok homogen dibuat dari seluruh populasi. Dengan ini, menjadi mudah untuk memasukkan lebih banyak mata pelajaran dalam satu studi.