Clustering dalam Machine Learning: 3 Jenis Clustering Dijelaskan

Diterbitkan: 2020-11-30

Daftar isi

pengantar

Machine Learning adalah salah satu teknologi terpanas di tahun 2020, karena data meningkat dari hari ke hari, kebutuhan Machine Learning juga meningkat secara eksponensial. Pembelajaran Mesin adalah topik yang sangat luas yang memiliki algoritme dan kasus penggunaan yang berbeda di setiap domain dan Industri. Salah satunya adalah Unsupervised Learning di mana kita bisa melihat penggunaan Clustering.

Pembelajaran tanpa pengawasan adalah teknik di mana mesin belajar dari data yang tidak berlabel. Karena kita tidak mengetahui labelnya, tidak ada jawaban yang benar yang diberikan kepada mesin untuk belajar darinya, tetapi mesin itu sendiri menemukan beberapa pola dari data yang diberikan untuk menghasilkan jawaban atas masalah bisnis.

Clustering adalah teknik Machine Learning Unsupervised Learning yang melibatkan pengelompokan data tak berlabel yang diberikan. Di setiap kumpulan data yang dibersihkan, dengan menggunakan Algoritma Clustering kita dapat mengelompokkan titik data yang diberikan ke dalam setiap grup. Algoritma clustering mengasumsikan bahwa titik-titik data yang berada dalam cluster yang sama harus memiliki sifat yang sama, sedangkan titik data pada cluster yang berbeda harus memiliki sifat yang sangat berbeda.

Pada artikel ini, kita akan mempelajari kebutuhan pengelompokan, berbagai jenis pengelompokan beserta pro dan kontranya.

Baca: Prasyarat Pembelajaran Mesin

Apa perlunya Clustering?

Clustering adalah Algoritma ML yang banyak digunakan yang memungkinkan kita menemukan hubungan tersembunyi antara titik data dalam kumpulan data kita.

Contoh:

1) Pelanggan tersegmentasi menurut kesamaan pelanggan sebelumnya dan dapat digunakan untuk rekomendasi.

2) Berdasarkan kumpulan data teks, kita dapat mengatur data menurut kesamaan konten untuk membuat hierarki topik.

3) Pengolahan citra terutama dalam penelitian biologi untuk mengidentifikasi pola-pola yang mendasarinya.

4) Penyaringan spam.

5) Mengidentifikasi kegiatan Penipuan dan Kriminal.

6) Ini juga dapat digunakan untuk sepak bola dan olahraga fantasi.

Jenis Pengelompokan

Ada banyak jenis Algoritma Clustering dalam Machine learning. Kami akan membahas tiga algoritma di bawah ini dalam artikel ini:

1) K-Means Clustering.

2) Pengelompokan Pergeseran Rata-Rata.

3) DBSCAN.

1. Pengelompokan K-Means

K-Means adalah algoritma clustering yang paling populer di antara algoritma clustering lainnya di Machine Learning. Kita dapat melihat algoritma ini digunakan di banyak industri top atau bahkan di banyak kursus pengenalan. Ini adalah salah satu model termudah untuk memulai baik dalam implementasi dan pemahaman.

Langkah-1 Pertama- tama kita pilih sejumlah k acak untuk digunakan dan secara acak menginisialisasi titik pusat masing-masing.

Langkah-2 Setiap titik data kemudian diklasifikasikan dengan menghitung jarak (Euclidean atau Manhattan) antara titik tersebut dengan setiap pusat grup, kemudian mengelompokkan titik data tersebut menjadi cluster yang pusatnya paling dekat dengannya.

Langkah-3 Kami menghitung ulang pusat grup dengan mengambil mean dari semua vektor dalam grup.

Langkah-4 Kami mengulangi semua langkah ini untuk sejumlah iterasi atau sampai pusat grup tidak banyak berubah.

kelebihan

1) Sangat Cepat.

2) Sangat sedikit perhitungan

3) Kompleksitas Linier O(n).

Kontra

1) Memilih nilai k.

2) Pusat pengelompokan yang berbeda dalam proses yang berbeda.

3) Kurangnya Konsistensi.

2. Pengelompokan Pergeseran Rata-Rata

Mean shift clustering adalah algoritma berbasis jendela geser yang mencoba mengidentifikasi area padat dari titik data. Menjadi algoritma berbasis centroid, artinya tujuannya adalah untuk menemukan titik pusat dari setiap kelas yang pada gilirannya bekerja dengan memperbarui kandidat titik pusat menjadi rata-rata titik di jendela geser.

Jendela kandidat yang dipilih ini kemudian disaring dalam tahap pasca-pemrosesan untuk menghilangkan duplikat yang akan membantu dalam membentuk set akhir pusat dan kelas yang sesuai.

Langkah-1 Kita mulai dengan jendela geser melingkar yang berpusat pada titik C (dipilih secara acak) dan memiliki radius r sebagai kernel. Pergeseran rata-rata adalah jenis algoritma pendakian bukit yang melibatkan pemindahan kernel ini secara iteratif ke wilayah kepadatan yang lebih tinggi pada setiap langkah hingga kita mencapai konvergensi.

Langkah-2 Setelah setiap iterasi, jendela geser digeser menuju daerah dengan kepadatan lebih tinggi dengan menggeser titik pusat ke rata-rata titik di dalam jendela. Kepadatan di dalam jendela geser meningkat dengan bertambahnya jumlah titik di dalamnya. Menggeser rata-rata titik di jendela secara bertahap akan bergerak menuju area dengan kerapatan titik yang lebih tinggi.

Langkah 3 Pada langkah ini kita terus menggeser jendela geser berdasarkan nilai rata-rata sampai tidak ada arah di mana pergeseran bisa mendapatkan lebih banyak poin di dalam kernel yang dipilih.

Langkah-4 Langkah 1-2 dilakukan dengan banyak jendela geser sampai semua titik berada di dalam jendela. Ketika beberapa jendela geser cenderung tumpang tindih, jendela yang berisi poin terbanyak dipilih. Titik data sekarang dikelompokkan menurut jendela geser di mana mereka berada.

kelebihan

1) Tidak perlu memilih jumlah cluster.

2) Sangat cocok dalam pengertian yang didorong oleh data secara alami

Kontra

1) Satu-satunya kelemahan adalah pemilihan ukuran jendela (r) dapat menjadi non-sepele.

3. Pengelompokan Spasial Berbasis Kepadatan Aplikasi dengan Kebisingan (DBSCAN)

DBSCAN seperti pengelompokan Mean-Shift yang juga merupakan algoritma berbasis kepadatan dengan beberapa perubahan.

Langkah-1 Dimulai dengan titik awal yang berubah-ubah, lingkungan titik ini diekstraksi menggunakan jarak yang disebut epsilon.

Langkah-2 Pengelompokan akan dimulai jika jumlah titik cukup dan titik data menjadi titik baru pertama dalam sebuah cluster. Jika tidak ada data yang cukup, titik tersebut akan diberi label sebagai noise dan titik akan ditandai dikunjungi.

Langkah-3 Titik-titik dalam epsilon cenderung menjadi bagian dari cluster. Prosedur ini diulang untuk semua titik di dalam cluster.

Langkah-4 Langkah 2&3 diulang sampai titik-titik dalam cluster dikunjungi dan diberi label.

Langkah-5 Saat menyelesaikan cluster saat ini, titik baru yang belum dikunjungi diproses menjadi cluster baru yang mengarah untuk mengklasifikasikannya menjadi cluster atau sebagai noise.

kelebihan

1) Tidak perlu mengatur jumlah cluster.

2) Mendefinisikan outlier sebagai noise.

3) Membantu menemukan cluster yang berukuran sewenang-wenang dan berbentuk sewenang-wenang dengan cukup baik.

Kontra

1) Tidak bekerja dengan baik pada berbagai cluster kepadatan.

2) Tidak berkinerja baik dengan data berdimensi tinggi.

Baca Juga: Ide Proyek Pembelajaran Mesin

Kesimpulan

Pada artikel ini, kita mengetahui tentang perlunya pengelompokan di pasar saat ini, berbagai jenis algoritme pengelompokan beserta pro dan kontranya. Pengelompokan benar-benar topik yang sangat menarik dalam Pembelajaran Mesin dan ada begitu banyak jenis algoritma pengelompokan lain yang layak dipelajari.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa yang dimaksud dengan pengelompokan campuran gaussian?

Model campuran Gaussian biasanya digunakan dalam kasus data kueri untuk melakukan pengelompokan keras atau lunak. Model campuran Gaussian membuat beberapa asumsi untuk melakukan pengelompokan dengan baik. Berdasarkan asumsi, model mengelompokkan titik-titik data yang termasuk dalam distribusi tunggal bersama-sama. Ini adalah model probabilistik, dan mereka menggunakan pendekatan pengelompokan lunak untuk melakukan proses pengelompokan secara efisien.

Apa koefisien siluet dalam pengelompokan?

Untuk mengukur seberapa baik pengelompokan telah dilakukan, kami menggunakan koefisien siluet. Pada dasarnya, jarak rata-rata antara dua cluster diukur, dan kemudian lebar siluet dihitung menggunakan rumus. Dengan cara ini, kita dapat dengan mudah mengukur jumlah optimal cluster yang ada dalam data yang diberikan dan dengan demikian mengetahui efisiensi clustering yang dilakukan.

Apa yang dimaksud dengan fuzzy clustering dalam machine learning?

Ketika data yang diberikan berada di bawah lebih dari satu cluster atau grup, metode clustering fuzzy digunakan, yang bekerja pada algoritma fuzzy C-mean atau algoritma fuzzy K-mean. Ini adalah metode pengelompokan yang lembut. Menurut jarak antara pusat cluster dan titik gambar, metode ini memberikan nilai keanggotaan untuk setiap titik gambar yang terkait dengan setiap pusat cluster.