Analisis Cluster di R: Panduan Lengkap yang Anda Butuhkan [2022]

Diterbitkan: 2021-01-04

Jika Anda pernah menginjakkan kaki di dunia ilmu data atau Python, Anda pasti pernah mendengar tentang R.

Dikembangkan sebagai proyek GNU, R adalah bahasa dan lingkungan yang dirancang untuk komputasi grafis dan statistik. Ini mirip dengan bahasa S, dan dengan demikian, dapat dianggap sebagai implementasinya.

Sebagai bahasa, R sangat dapat dikembangkan. Ini menyediakan berbagai teknik statistik dan grafis seperti analisis deret waktu, pemodelan linier, pemodelan non-linier, pengelompokan, klasifikasi, uji statistik klasik.

Ini adalah salah satu teknik yang akan kita telusuri lebih dalam dan itu adalah clustering atau analisis cluster!

Daftar isi

Apa itu analisis klaster?

Dalam istilah yang paling sederhana, clustering adalah metode segmentasi data dimana data dipartisi menjadi beberapa kelompok berdasarkan kesamaan.

Bagaimana kesamaan dinilai? Atas dasar pengukuran jarak antar observasi. Ini dapat berupa ukuran jarak Euclidean atau korelasi berbasis.

Analisis klaster adalah salah satu metode analisis data dan penambangan data yang paling populer dan intuitif. Ini sangat ideal untuk kasus di mana ada banyak data dan kami harus mengekstraksi wawasan darinya. Dalam hal ini, data massal dapat dipecah menjadi himpunan bagian atau grup yang lebih kecil.

Kelompok-kelompok kecil yang dibentuk dan diturunkan dari keseluruhan dataset dikenal sebagai cluster. Ini diperoleh dengan melakukan satu atau lebih operasi statistik. Setiap cluster, meskipun mengandung elemen yang berbeda, berbagi properti berikut:

  1. Jumlah mereka tidak diketahui sebelumnya.
  2. Mereka diperoleh dengan melakukan operasi statistik.
  3. Setiap cluster berisi objek-objek yang serupa dan memiliki karakteristik yang sama.

Bahkan tanpa nama analisis cluster yang 'mewah', hal yang sama banyak digunakan dalam kehidupan sehari-hari.

Pada tingkat individu, kami membuat kelompok barang-barang yang kami butuhkan untuk berkemas ketika kami berangkat berlibur. Pertama baju, lalu perlengkapan mandi, lalu buku, dan seterusnya. Kami membuat kategori dan kemudian menanganinya satu per satu.

Perusahaan juga menggunakan analisis cluster, ketika mereka melakukan segmentasi pada daftar email mereka dan mengkategorikan pelanggan berdasarkan usia, latar belakang ekonomi, perilaku pembelian sebelumnya, dll.

Analisis klaster juga disebut sebagai 'pembelajaran mesin tanpa pengawasan' atau pengenalan pola. Tanpa pengawasan karena kami tidak ingin mengkategorikan sampel tertentu dalam sampel tertentu saja. Belajar karena algoritma juga belajar bagaimana mengelompokkan.

3 Metode Pengelompokan

Kami memiliki tiga metode yang paling sering digunakan untuk pengelompokan. Ini adalah:

  1. Pengelompokan Hirarki Aglomerasi
  2. Pengelompokan relasional / metode Condorcet
  3. k-means clustering

1. Pengelompokan Hirarki Agglomeratif

Ini adalah jenis pengelompokan hierarkis yang paling umum. Algoritma untuk AHC bekerja secara bottom-up. Ini dimulai dengan menganggap setiap titik data sebagai sebuah cluster itu sendiri (disebut daun).

Kemudian menggabungkan bersama dua cluster yang paling mirip. Cluster baru dan lebih besar ini disebut node. Pengelompokan diulang sampai seluruh dataset berkumpul sebagai satu cluster besar yang disebut root.

Memvisualisasikan dan menggambar setiap langkah dari proses AHC mengarah pada pembuatan pohon yang disebut dendrogram.

Membalikkan proses AHC mengarah ke pengelompokan yang memecah belah dan pembuatan klaster.

Dendrogram juga dapat divisualisasikan sebagai:

Sumber

Kesimpulannya, jika Anda menginginkan algoritme yang bagus dalam mengidentifikasi cluster kecil, gunakan AHC. Jika Anda menginginkan yang pandai mengidentifikasi cluster besar, maka metode pembagian clustering harus menjadi pilihan Anda.

2. Pengelompokan relasional / metode Condorcet

'Clustering by Similarity Aggregation' adalah nama lain dari metode ini. Ini bekerja sebagai berikut:

Objek individu berpasangan yang membangun pengelompokan global dibandingkan. Untuk vektor m(A, B) dan d(A, B), sepasang nilai individu (A, B) diberikan. Pada vektor b(A, B), baik A maupun B memiliki nilai yang sama, sedangkan pada vektor d(A, B), keduanya memiliki nilai yang berbeda).

Kedua nilai individu A dan B dikatakan mengikuti kriteria Condorcet sebagai berikut:

c(A, B) = m(A, B)- d(A, B)

Untuk nilai individu seperti A dan cluster yang disebut S, kriteria Condorcet berdiri sebagai:

c(A,S) = i c(A,B i )

Penjumlahan keseluruhan adalah Bi S.

Dengan terpenuhinya kondisi di atas, cluster berbentuk c(A, S) dibangun. A dapat memiliki nilai terkecil 0 dan merupakan yang terbesar dari semua titik data dalam cluster.

Akhirnya, kriteria Condorcet global dihitung. Ini dilakukan dengan melakukan penjumlahan dari masing-masing titik data yang ada di A dan cluster S A yang berisi mereka.

Langkah-langkah di atas diulang sampai kriteria Condorcet global tidak membaik atau jumlah iterasi terbesar tercapai.

3. k-means clustering

Ini adalah salah satu algoritma partisi yang paling populer. Semua data yang tersedia (kadang-kadang disebut juga titik data/pengamatan) akan dikelompokkan ke dalam klaster-klaster ini saja. Berikut adalah rincian bagaimana algoritma berjalan:

  1. Pilih k cluster secara acak. K baris ini juga berarti menemukan k centroid untuk setiap cluster.
  2. Setiap titik data kemudian ditugaskan ke centroid yang paling dekat dengannya.
  3. Karena semakin banyak titik data yang ditetapkan, centroid dihitung ulang sebagai rata-rata dari semua titik data (sedang) ditambahkan.
  4. Lanjutkan menetapkan titik data dan menggeser centroid sesuai kebutuhan.
  5. Ulangi langkah 3 dan 4 hingga tidak ada titik data yang mengubah cluster.

Jarak antara titik data dan centroid dihitung menggunakan salah satu metode berikut:

  1. Jarak Euclidean
  2. jarak Manhattan
  3. Jarak Minlowski

Yang paling populer - jarak Euclidean - dihitung sebagai berikut:

Setiap kali algoritme dijalankan, grup yang berbeda dikembalikan sebagai hasilnya. Penugasan pertama ke variabel k benar-benar acak. Hal ini membuat k-means sangat sensitif terhadap pilihan pertama. Akibatnya, menjadi hampir tidak mungkin untuk mendapatkan pengelompokan yang sama kecuali jumlah kelompok dan pengamatan keseluruhan kecil.

Bagaimana cara menetapkan nilai ke Pada awalnya, kami akan secara acak menetapkan nilai ke k yang akan menentukan arah hasil yang masuk. Untuk memastikan bahwa pilihan terbaik telah dibuat, akan sangat membantu untuk mengingat rumus berikut:

Di sini, n adalah jumlah titik data dalam kumpulan data.

Terlepas dari keberadaan formula, jumlah cluster akan sangat bergantung pada sifat dataset, industri dan bisnis yang dimilikinya, dll. Oleh karena itu, disarankan untuk memperhatikan pengalaman dan intuisi sendiri juga.

Dengan ukuran cluster yang salah, pengelompokan mungkin tidak efektif dan dapat menyebabkan overfitting. Karena overfitting, titik data baru mungkin tidak dapat menemukan tempat di cluster karena algoritme telah mengeluarkan detail kecil dan semua generalisasi hilang.

Aplikasi Analisis Cluster

Jadi, di mana tepatnya metode clustering yang kuat digunakan? Kami sepintas menyebutkan beberapa contoh di atas. Di bawah ini adalah beberapa contoh lagi:

Kedokteran dan kesehatan

Berdasarkan usia pasien dan susunan genetik, dokter dapat memberikan diagnosis yang lebih baik. Hal ini pada akhirnya mengarah pada pengobatan yang lebih bermanfaat dan selaras. Obat-obatan baru juga dapat ditemukan dengan cara ini. Pengelompokan dalam kedokteran disebut dengan nosologi.

Sosiologi

Di bidang sosial, pengelompokan orang berdasarkan demografi, usia, pekerjaan, lokasi tempat tinggal, dll. membantu pemerintah menegakkan hukum dan membentuk kebijakan yang sesuai dengan kelompok yang beragam.

Pemasaran

Dalam pemasaran, istilah clustering diganti dengan segmentasi/analisis tipologis. Ini digunakan untuk mengeksplorasi dan memilih pembeli potensial dari produk tertentu. Perusahaan kemudian menguji elemen setiap klaster untuk mengetahui pelanggan mana yang menunjukkan perilaku pro-penahanan.

Profil dunia maya

Sebagai masukan untuk algoritma clustering yang akan diimplementasikan di sini, halaman web sebelumnya yang diakses oleh pengguna diinput. Halaman web ini kemudian dikelompokkan. Pada akhirnya, profil pengguna, berdasarkan aktivitas penelusurannya, dibuat. Dari personalisasi hingga keamanan dunia maya, hasil ini dapat dimanfaatkan di mana saja.

Eceran

Gerai juga mendapat manfaat dari pengelompokan pelanggan berdasarkan usia, preferensi warna, preferensi gaya, pembelian sebelumnya, dll. Ini membantu pengecer untuk menciptakan pengalaman yang disesuaikan dan juga merencanakan penawaran masa depan yang selaras dengan keinginan pelanggan.

Kesimpulan

Sebagaimana terbukti, analisis klaster adalah metode yang sangat berharga - tidak peduli bahasa atau lingkungan tempat penerapannya. Apakah seseorang ingin memperoleh wawasan, menambah pola, atau mengukir profil, analisis klaster adalah alat yang sangat berguna dengan hasil yang dapat diimplementasikan secara praktis. Kemahiran dalam bekerja dengan berbagai algoritma pengelompokan dapat mengarahkan seseorang untuk melakukan analisis data yang akurat dan benar-benar berharga.

Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Persiapkan Karir Masa Depan

DIPLOMA PG DARI IIIT-B, 100+ JAM PEMBELAJARAN KELAS, 400+ JAM PEMBELAJARAN ONLINE & DUKUNGAN KARIR 360 DERAJAT
Belajarlah lagi