Pengukur Jarak di Mahout: 3 Jenis Pengukur Teratas [2022]

Diterbitkan: 2021-01-07

Mahout adalah proyek sumber terbuka oleh Apache Software Foundation yang digunakan ilmuwan data untuk membuat algoritme pembelajaran mesin yang terdistribusi atau dapat diskalakan. Mahout terutama berfokus pada aljabar linier, dan algoritmenya ditulis di atas infrastruktur Hadoop. Beberapa teknik data mining populer yang diimplementasikan oleh framework ini termasuk Recommendation, Classification, dan Clustering. Pengukuran jarak di Mahout adalah topik penting untuk dipelajari untuk masalah pengelompokan.

Karena Mahout menyediakan pembuat kode dengan struktur yang siap digunakan dan memungkinkan pengelolaan data massal yang cepat dan efektif, Mahout telah menjadi salah satu proyek teratas Apache. Dan berbagai perusahaan seperti Twitter, Facebook, LinkedIn, Adobe, Yahoo, dll. menggunakannya untuk tugas penambangan data internal mereka.

Ketahui lebih lanjut: 12 Aplikasi Data Mining Paling Berguna

Daftar isi

Apa itu ukuran jarak?

Seperti namanya, ini adalah ukuran jarak antara titik data. Pengukuran jarak di Mahout menghitung seberapa dekat dua vektor sewenang-wenang berada dan menunjukkan kesamaan antara titik-titik. Sekarang mari kita perhatikan beberapa contoh.

Misalkan Anda menjalankan perusahaan telepon, dan Anda ingin mengatur jaringan menara di wilayah tertentu. Untuk memastikan kekuatan sinyal yang optimal, Anda perlu menentukan lokasi untuk mendirikan menara.
Pemerintah daerah ingin membuka serangkaian bangsal perawatan darurat publik. Lokasi unit-unit ini di seluruh wilayah harus sedemikian rupa sehingga terletak di dekat daerah rawan kecelakaan.
Untuk penegakan hukum yang efektif dan pengawasan yang ketat di daerah dengan tingkat kejahatan yang tinggi, Anda dapat mengevaluasi sekitar di mana mobil patroli harus ditempatkan.

Dalam semua skenario ini, Anda dapat melihat bahwa ukuran jarak merupakan inti dari algoritma pengelompokan. Dalam masalah pembelajaran tanpa pengawasan, perhitungan ini membentuk salah satu faktor paling penting untuk pengambilan keputusan. Pilihan Anda tentang teknik pengukuran jarak akan sangat mempengaruhi hasil.

Juga, Anda tidak perlu menggunakan teknik yang tersedia di Perpustakaan Mahout. Anda juga dapat menerapkan metode khusus untuk mengetahui metrik jarak yang didasarkan pada konteks data atau algoritme spesifik Anda. Yang perlu Anda lakukan adalah menerapkan logika matematika untuk titik vektor dan menetapkan nilai untuk menentukan apakah implementasi tersebut termasuk dalam centroid tertentu. Pusat cluster disebut sebagai centroid.

Pelajari tentang: Perusahaan Teratas yang Mempekerjakan Ilmuwan Data di India

Memoles dasar-dasar pengelompokan

Sebelum kita mempelajari kategori yang berbeda, pertama-tama mari kita segarkan kembali dasar-dasar kita tentang pengelompokan. Cluster pada dasarnya adalah grup kesamaan atau ketidaksamaan dari instance data. Berikut adalah beberapa aplikasi kehidupan nyata.

Pemasar dapat menggunakan pengelompokan untuk mengelompokkan pelanggan dan menjalankan strategi pemasaran yang ditargetkan.
Sebagai produsen pakaian, Anda mungkin ingin mengelompokkan orang berdasarkan ukuran T-shirt yang serupa, seperti “Kecil”, “Sedang”, dan “Besar”. Pendekatan satu ukuran untuk semua tidak berhasil setiap saat. Dan kaus oblong untuk setiap orang bisa mahal.
Dalam sistem manajemen perpustakaan, clustering digunakan untuk mengatur buku dan dokumen sesuai dengan kesamaan isinya.
Dalam database pengamatan Bumi, pengelompokan dapat membantu mengidentifikasi area dengan penggunaan lahan yang serupa.
Dalam biologi, pengelompokan dapat digunakan untuk mengkategorikan gen yang memiliki fungsi serupa dan memahami struktur yang melekat pada populasi tumbuhan dan hewan yang berbeda.

Selain itu, volume data yang sangat besar dihasilkan dan digunakan setiap hari di era digital ini. Oleh karena itu, clustering adalah salah satu teknik data mining yang paling banyak digunakan karena kemudahan yang ditawarkannya.

Kualitas clustering ditentukan oleh dua aspek utama – algoritma clustering dan fungsi jarak.

Algoritma pengelompokan (partisi, hierarki, dll.)
Fungsi jarak (kesamaan atau ketidaksamaan)

Sekarang kita telah merevisi konsep dasar, mari kita beralih ke berbagai jenis ukuran jarak yang tersedia di Apache Mahout.

Baca: Analisis Cluster di Data Mining

Pengukuran jarak di Mahout

Pengukuran jarak kosinus

Jenis ukuran jarak ini paling cocok untuk menemukan kesamaan teks. Diberikan kumpulan dokumen teks, dapat menghasilkan hierarki topik dengan mengelompokkannya menggunakan kata-kata umum berbobot tertinggi.

Pengukuran jarak kosinus menggunakan algoritma TF-IDF untuk mengubah atribut menjadi vektor. Dan bobot vektor lebih tinggi untuk kata-kata topik daripada kata-kata berhenti. Jadi, dokumen serupa memiliki kata topik yang sama di antara mereka. Akibatnya, vektor centroid (atau pusat cluster) memiliki bobot rata-rata yang lebih tinggi untuk kata-kata topik.

Salah satu aplikasi yang paling populer adalah peringkat halaman atau ringkasan pencarian yang Anda temui di halaman Google. Algoritma pertama-tama membentuk cluster dan kemudian menemukan centroid. Prosedur ini juga berguna untuk penemuan informasi dalam aplikasi AI seperti Siri dan Alexa.

Pengukuran jarak antar-cluster

Ini adalah jarak antara objek milik dua kelompok yang terpisah. Ukuran jarak antar cluster sesuai untuk mengevaluasi kualitas cluster Anda. Jika centroid terlalu dekat satu sama lain, maka akan menghambat proses pembuatan grup dengan fitur serupa. Oleh karena itu, menjadi penting untuk menarik perbedaan yang jelas antara anggota cluster. Tujuan keseluruhannya adalah untuk mempartisi atau mengelompokkan titik-titik data ke dalam kelompok-kelompok tertentu.

Baca lebih lanjut: Analisis Cluster di R

Pengukuran jarak intra-cluster

Ukuran ini memberi Anda jarak antara dua anggota cluster yang sama. Jadi, kebalikan dari ukuran jarak antar cluster. Jarak intra-cluster lebih kecil dibandingkan dengan jarak antar-cluster. Ukuran kecil jarak antara objek serupa menunjukkan bahwa cluster ketat dan dapat diandalkan didiskriminasi satu sama lain.

Jenis metrik jarak ini bergantung pada dua hal: i) penalti untuk objek yang lebih jauh ii) nilai yang lebih kecil untuk objek yang lebih dekat. Dan cluster yang lebih terpisah memiliki rasio tinggi dari kedua nilai ini.

Sekarang, mari kita lihat demonstrasi pengukuran jarak kesamaan berikut dalam analisis klaster.

Layanan kurir dapat membuat 'zona pengiriman' yang berbeda dengan mengelompokkan lokasi yang memiliki jarak minimal di antara mereka. Dengan cara ini, algoritme memfasilitasi pengiriman yang cepat dan efektif oleh personel. Tugas kita adalah mengoptimalkan jarak antara titik pusat cluster, meminimalkan varians intra-cluster, dan memastikan bahwa kumpulan data dengan karakteristik yang paling mirip dikelompokkan bersama.

Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Membungkus

Dengan ini, kami telah menjelaskan konsep ukuran jarak di Mahout . Dan sekarang setelah Anda mendapatkan inti dari alat data besar yang penting ini, Anda dapat dengan mudah menjelaskannya dalam wawancara kerja apa pun. Selain itu, pemahaman yang jelas tentang ukuran jarak yang berbeda akan membantu Anda mencapai akurasi saat menerapkan algoritme pengelompokan.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu analisis klaster dan apa karakteristiknya?

Sebuah proses di mana kita mendefinisikan sebuah objek tanpa pelabelan dikenal sebagai analisis cluster. Ini menggunakan penambangan data untuk mengelompokkan berbagai objek serupa ke dalam satu cluster seperti dalam analisis diskriminan. Aplikasinya meliputi pengenalan pola, analisis informasi, analisis gambar, pembelajaran mesin, grafik komputer, dan berbagai bidang lainnya.
Analisis cluster adalah tugas yang dilakukan dengan menggunakan beberapa algoritma lain yang berbeda satu sama lain dalam banyak hal dan dengan demikian menciptakan sebuah cluster.
Berikut ini adalah beberapa karakteristik analisis klaster - Analisis klaster sangat scalable. Itu dapat menangani serangkaian atribut yang berbeda. Ini menunjukkan dimensi tinggi, Interpretability.

Apakah berkontribusi pada proyek sumber terbuka sepadan?

Proyek sumber terbuka adalah proyek yang kode sumbernya terbuka untuk semua dan siapa pun dapat mengaksesnya untuk membuat modifikasi. Berkontribusi pada proyek sumber terbuka sangat bermanfaat karena tidak hanya mempertajam keterampilan Anda, tetapi juga memberi Anda beberapa proyek besar untuk dimasukkan ke dalam resume Anda.
Karena banyak perusahaan besar beralih ke perangkat lunak sumber terbuka, akan menguntungkan bagi Anda jika Anda mulai berkontribusi lebih awal. Beberapa nama besar seperti Microsoft, Google, IBM, dan Cisco telah menganut open source dengan satu atau lain cara.
Ada komunitas besar pengembang sumber terbuka yang mahir di luar sana yang terus-menerus berkontribusi untuk membuat perangkat lunak lebih baik dan diperbarui. Komunitas ini sangat ramah bagi pemula dan selalu siap untuk melangkah dan menyambut kontributor baru. Ada banyak dokumentasi yang dapat memandu cara Anda berkontribusi pada open source.

Bedakan antara metode univariat dan multivariat.

Metode univariat adalah metode paling sederhana untuk menangani outlier. Itu tidak meringkas hubungan apa pun karena itu adalah variasi tunggal dan tujuan utamanya adalah untuk menganalisis data dan menentukan pola yang terkait dengannya. Mean, median, dan modus merupakan contoh pola yang terdapat pada data univariat.
Di sisi lain, metode multivariat adalah untuk menganalisis tiga variabel atau lebih. Ini lebih tepat daripada metode sebelumnya karena, tidak seperti metode univariat, metode multivariat berhubungan dengan hubungan dan pola. Pohon Aditif, Analisis Korelasi Kanonik, dan Analisis Cluster adalah beberapa cara untuk melakukan analisis multivariat.