Pengenalan Algoritma Klasifikasi: Konsep & Berbagai Jenis

Diterbitkan: 2020-04-13

Algoritma klasifikasi membantu Anda membagi data ke dalam kelas yang berbeda. Sama seperti saat Anda ingin menyortir barang saat mengemas, algoritme klasifikasi membantu Anda dalam mengklasifikasikan data. Pada artikel ini, kita akan melihat apa itu algoritme klasifikasi, jenis algoritme klasifikasi, beberapa konsep dasar dari topik ini, dan cara kerjanya.

Daftar isi

Apa yang dimaksud dengan Klasifikasi?

Untuk memprediksi kelas target, ketika kami menggunakan dataset pelatihan kami untuk mendapatkan kondisi batas, kami menyebutnya klasifikasi proses. Ada banyak jenis kelas target yang bisa Anda capai. Misalnya, Anda ingin memprediksi apakah pelanggan Anda akan membeli produk tertentu atau tidak sesuai dengan data pelanggan yang Anda miliki. Dalam hal ini, kelas target adalah 'Ya' atau 'Tidak.'

Di sisi lain, Anda mungkin ingin mengklasifikasikan sayuran berdasarkan berat, ukuran, atau warnanya. Dalam skenario ini, kelas target yang tersedia mungkin Bayam, Tomat, Bawang, Kentang, dan Kubis. Anda juga dapat melakukan klasifikasi gender, di mana kelas targetnya adalah Wanita dan Pria.

Mari kita pahami sedikit bagaimana algoritma klasifikasi bekerja dengan mempertimbangkan contoh ketiga. Kita dapat menjaga panjang rambut sebagai parameter fitur, meskipun hanya untuk contoh ini. Kami dapat melatih model kami dengan menggunakan algoritma klasifikasi dan membiarkannya menentukan kondisi batas untuk melakukan diferensiasi antara jenis kelamin perempuan dan laki-laki melalui parameter fitur yang diberikan, yaitu panjang rambut.

Konsep Dasar Klasifikasi

Sebelum kita mulai membahas algoritma klasifikasi lebih lanjut, Anda harus mengenal beberapa definisi. Dengan cara ini, Anda dapat menghindari kebingungan di kemudian hari:

Fitur

Ini adalah properti terukur individu dari fenomena tertentu yang kita amati pada suatu waktu.

pengklasifikasi

Classifier adalah algoritma yang memetakan input data dari model ke kategori tertentu.

Model Klasifikasi

Model klasifikasi harus menyimpulkan nilai input yang kita berikan kepada model selama pelatihan. Model ini memprediksi kategori (label kelas) untuk data baru yang kami berikan kepada mereka.

Klasifikasi Multi-label

Klasifikasi multi-label adalah ketika kita memetakan setiap sampel ke sekumpulan label target dari beberapa kelas. Misalnya, tas sekolah dapat berisi buku, kotak makan siang, dan pena secara bersamaan.

Klasifikasi Multi-kelas

Klasifikasi Multi-kelas adalah ketika kami menetapkan setiap sampel hanya untuk satu label target. Itu terjadi ketika kita memiliki lebih dari dua kelas. Misalnya, sebuah mobil bisa bergerak atau diam, tetapi tidak keduanya pada saat yang bersamaan.

Klasifikasi Biner

Klasifikasi Biner adalah ketika kita hanya memiliki dua kelas yang mungkin. Misalnya, jenis kelamin seseorang bisa laki-laki atau perempuan.

Jenis Algoritma Klasifikasi

Berikut adalah semua jenis algoritma klasifikasi:

Estimasi Kernel

(K-tetangga terdekat)

Pengklasifikasi Linier

(Regresi logistik, diskriminan linier Fisher, dan pengklasifikasi Naive Bayes)

Pengklasifikasi Kuadrat
Jaringan Saraf
Mempelajari Kuantisasi Vektor
Mendukung Mesin Vektor

(Kuadrat terkecil mendukung mesin vektor)

Sekarang mari kita bahas beberapa tipe penting dari algoritma klasifikasi:

Pelajari lebih lanjut: Jenis Algoritma Pembelajaran Mesin dengan Contoh Kasus Penggunaan

K-tetangga terdekat

K-nearest tetangga, juga dikenal sebagai KNN, adalah algoritma populer untuk memecahkan masalah regresi dan klasifikasi. Ini mengklasifikasikan kasus baru menurut suara k-neighbors. Kami menentukan k-tetangga terdekat dengan menggunakan fungsi jarak. Fungsi jarak yang paling populer adalah Euclidean, tetapi ada juga pilihan lain, seperti Manhattan dan Hamming.

Untuk memahami KNN, Anda dapat melihat contoh kehidupan nyata. Misalkan Anda ingin berteman dengan seseorang yang informasinya tidak banyak Anda ketahui. Untuk mengenal mereka lebih baik, pertama-tama Anda berbicara dengan teman dan kolega mereka untuk mengetahui seperti apa mereka. Beginilah cara kerja algoritma KNN.

Saat menggunakan algoritme k-nearest neighbor, pastikan Anda menormalkan variabel karena variabel dengan rentang yang lebih tinggi dapat mengembangkan bias. Selain itu, algoritma KNN cukup mahal, secara komputasi.

Pohon Keputusan

Pohon keputusan membantu Anda memprediksi kemungkinan hasil menurut serangkaian pilihan. Ini adalah algoritma pembelajaran terawasi dan menggunakan berbagai fitur dengan variabel dependen kontinu dan kategoris.

Misalnya, Anda ingin pergi membeli buah untuk diri sendiri, tetapi Anda melihat cuaca mendung. Sekarang, Anda memiliki dua pilihan, Anda mungkin pergi, atau mungkin tidak. Jika Anda pergi, mungkin hujan, dan Anda harus kembali dengan tangan kosong. Di sisi lain, jika tidak hujan, Anda dapat membeli buah yang perlu Anda beli. Itu adalah contoh sederhana yang berisi banyak variabel, tetapi Anda mendapatkan idenya.

Baca juga: Pohon Keputusan di R

Regresi logistik

Regresi logistik bukanlah algoritma regresi. Regresi logistik memperkirakan nilai-nilai diskrit menurut satu set variabel independen tertentu. Dengan kata lain, ini memprediksi peluang suatu peristiwa dengan menggunakan fungsi logit. Itu sebabnya ia juga memiliki nama regresi logit.

Karena regresi logistik dirancang untuk Klasifikasi, ini adalah pilihan populer di kalangan para ahli. Juga, ini adalah algoritma yang paling cocok untuk memahami pengaruh berbagai variabel independen pada hasil yang mungkin. Kerugiannya adalah hanya bekerja dengan variabel biner yang dapat diprediksi dan mengasumsikan bahwa datanya tidak mengandung nilai yang hilang.

Mendukung Mesin Vektor

Dalam mesin vektor pendukung, nilai setiap fitur adalah nilai koordinat tertentu, dan setiap item adalah titik dalam ruang n-dimensi. Di sini, 'n' berarti jumlah fitur yang Anda miliki.

Misalkan Anda memiliki dua fitur, panjang rambut, dan tinggi. Dalam hal ini, pertama-tama kita akan memplot variabel-variabel ini dalam ruang 2 dimensi, dan setiap titik memiliki dua koordinat. Kami menyebut koordinat ini sebagai Support Vectors; itulah mengapa algoritma ini disebut Support Vector Machine.

Setelah kita memplot titik-titik itu, kita akan menemukan garis yang membagi data menjadi dua kelompok yang diklasifikasikan secara jelas. Baris ini adalah pengklasifikasi, dan kami akan membuat kelas sesuai dengan sisi di mana data pengujian kami terletak di hasil akhir.

Kesimpulan

Di blog ini, kami mencoba menjelaskan algoritma klasifikasi sekomprehensif mungkin. Jika Anda ingin mengetahui lebih lanjut tentang topik ini, kami sarankan menuju ke blog kami, yang diisi dengan artikel berharga semacam ini.

Anda juga dapat membuka katalog kursus Pembelajaran mesin kami untuk mempelajari lebih lanjut tentang topik ini. Kami yakin Anda akan menemukan sesuatu yang berguna.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Persiapkan Karir Masa Depan

DIPLOMA PG DALAM PEMBELAJARAN MESIN DAN KECERDASAN BUATAN

Pelajari Lebih Lanjut @ UPGRAD