5 Jenis Algoritma Klasifikasi dalam Machine Learning [2022]

Diterbitkan: 2021-01-02

Daftar isi

pengantar

Pembelajaran mesin adalah salah satu topik terpenting dalam Kecerdasan Buatan. Selanjutnya dibagi menjadi pembelajaran terawasi dan tidak terawasi yang dapat dikaitkan dengan analisis data berlabel dan tidak berlabel atau prediksi data. Dalam Supervised Learning kami memiliki dua jenis masalah bisnis yang disebut Regresi dan Klasifikasi.

Klasifikasi adalah algoritma pembelajaran mesin di mana kita mendapatkan data berlabel sebagai input dan kita perlu memprediksi output ke dalam kelas. Jika ada dua kelas, maka disebut Klasifikasi Biner. Jika terdapat lebih dari dua kelas, maka disebut Multi Class Classification. Dalam skenario dunia nyata kita cenderung melihat kedua jenis Klasifikasi.

Pada artikel ini kita akan menyelidiki beberapa jenis Algoritma Klasifikasi beserta kelebihan dan kekurangannya. Ada begitu banyak algoritma klasifikasi yang tersedia tetapi mari kita fokus pada 5 algoritma di bawah ini:

Regresi logistik
K Tetangga Terdekat
Pohon keputusan
Hutan Acak
Mendukung Mesin vektor

1. Regresi Logistik

Meskipun namanya menunjukkan Regresi itu adalah Algoritma Klasifikasi. Regresi Logistik adalah metode statistik untuk mengklasifikasikan data yang di dalamnya terdapat satu atau lebih variabel atau fitur independen yang menentukan suatu hasil yang diukur dengan variabel (TARGET) yang memiliki dua atau lebih kelas. Tujuan utamanya adalah untuk menemukan model yang paling cocok untuk menggambarkan hubungan antara variabel Target dan variabel independen.

kelebihan

1) Mudah diimplementasikan, diinterpretasikan, dan efisien untuk dilatih karena tidak membuat asumsi apa pun dan cepat dalam Pengklasifikasian.

2) Dapat digunakan untuk Multi Class Classification.

3) Ini kurang rentan terhadap over-fitting tetapi tidak overfit dalam dataset dimensi tinggi.

Kontra

1) Overfits ketika pengamatan lebih rendah dari fitur.

2) Hanya bekerja dengan fungsi diskrit.

3) Masalah non-linier tidak dapat diselesaikan.

4) Sulit untuk mempelajari pola yang kompleks dan biasanya jaringan saraf mengunggulinya.

2. K Tetangga Terdekat

Algoritma K-nearest neighbor (KNN) menggunakan teknik 'feature similarity' atau 'nearest neighbor' untuk memprediksi cluster tempat titik data baru masuk. Di bawah ini adalah beberapa langkah berdasarkan mana kita dapat memahami cara kerja algoritma ini dengan lebih baik

Langkah 1 - Untuk mengimplementasikan algoritme apa pun dalam Machine learning, kita memerlukan kumpulan data yang telah dibersihkan yang siap untuk dimodelkan. Mari kita asumsikan bahwa kita sudah memiliki kumpulan data yang telah dibersihkan yang telah dipecah menjadi kumpulan data pelatihan dan pengujian.

Langkah 2 - Karena kita sudah menyiapkan kumpulan data, kita perlu memilih nilai K (bilangan bulat) yang memberi tahu kita berapa banyak titik data terdekat yang perlu kita pertimbangkan untuk mengimplementasikan algoritma. Kita bisa mengetahui cara menentukan nilai k di artikel tahap selanjutnya.

Langkah 3 – Langkah ini merupakan langkah berulang dan perlu diterapkan untuk setiap titik data dalam kumpulan data

Hitung jarak antara data pengujian dan setiap baris data pelatihan menggunakan salah satu metrik jarak
Jarak Euclidean
jarak Manhattan
Jarak Minkowski
Jarak hamming.

Banyak ilmuwan data cenderung menggunakan jarak Euclidean, tetapi kita dapat mengetahui pentingnya masing-masing jarak pada tahap selanjutnya dari artikel ini.

Kita perlu mengurutkan data berdasarkan metrik jarak yang telah kita gunakan pada langkah di atas.

Pilih baris K teratas dalam data terurut yang diubah.

Kemudian akan menetapkan kelas ke titik tes berdasarkan kelas yang paling sering dari baris ini.

Langkah 4 – Selesai

kelebihan

Mudah digunakan, dipahami, dan diinterpretasikan.
Waktu perhitungan cepat.
Tidak ada asumsi tentang data.
Akurasi prediksi yang tinggi.
Serbaguna – Dapat digunakan untuk Masalah Bisnis Klasifikasi dan Regresi.
Dapat digunakan untuk Masalah Multi Kelas juga.
Kami hanya memiliki satu parameter Hyper untuk di-tweak pada langkah Hyperparameter Tuning.

Kontra

Komputasi mahal dan membutuhkan memori tinggi karena algoritme menyimpan semua data pelatihan.
Algoritma menjadi lebih lambat ketika variabel meningkat.
Sangat sensitif terhadap fitur yang tidak relevan.
Kutukan Dimensi.
Memilih nilai K yang optimal.
Dataset kelas tidak seimbang akan menyebabkan masalah.
Nilai yang hilang dalam data juga menyebabkan masalah.

Baca: Ide Proyek Pembelajaran Mesin

3. Pohon Keputusan

Pohon keputusan dapat digunakan untuk Klasifikasi dan Regresi karena dapat menangani data numerik dan kategorikal. Ini memecah kumpulan data menjadi himpunan bagian atau node yang lebih kecil dan lebih kecil saat pohon dikembangkan. Pohon keputusan memiliki output dengan keputusan dan simpul daun di mana simpul keputusan memiliki dua atau lebih cabang sedangkan simpul daun mewakili keputusan. Node paling atas yang sesuai dengan prediktor terbaik disebut root node.

kelebihan

Sederhana untuk dipahami
Visualisasi Mudah
Interpretasi data lebih sedikit
Menangani data numerik dan kategorikal.

Kontra

Terkadang tidak menggeneralisasi dengan baik
Tidak stabil terhadap perubahan data input

4. Hutan acak

Hutan acak adalah metode pembelajaran ensemble yang dapat digunakan untuk klasifikasi dan regresi. Ia bekerja dengan membangun beberapa pohon keputusan dan mengeluarkan hasilnya dengan mengambil rata-rata dari semua pohon keputusan dalam Regresi atau pemungutan suara Mayoritas dalam masalah Klasifikasi. Anda bisa mengetahui dari namanya sendiri bahwa sekelompok pohon disebut Hutan.

kelebihan

Dapat menangani kumpulan data yang besar.
Akan menampilkan pentingnya variabel.
Dapat menangani nilai yang hilang.

Kontra

Ini adalah algoritma kotak hitam.
Prediksi waktu nyata yang lambat dan algoritma yang kompleks.

5. Mendukung mesin vektor

Support vector machine adalah representasi dari kumpulan data sebagai titik-titik dalam ruang yang dipisahkan ke dalam kategori dengan celah atau garis yang jelas sejauh mungkin. Titik data baru sekarang dipetakan ke dalam ruang yang sama dan diklasifikasikan ke dalam kategori berdasarkan sisi garis atau pemisahan mana titik tersebut berada.

kelebihan

Bekerja paling baik di ruang dimensi tinggi.
Menggunakan subset dari titik data pelatihan dalam fungsi keputusan yang menjadikannya algoritma yang efisien memori.

Kontra

Tidak akan memberikan perkiraan probabilitas.
Dapat menghitung perkiraan probabilitas menggunakan validasi silang tetapi memakan waktu.

Baca Juga: Karir di Machine Learning

Kesimpulan

Pada artikel ini kita telah membahas tentang 5 algoritma Klasifikasi, definisi singkatnya, pro dan kontra. Ini hanya beberapa algoritma yang telah kami bahas tetapi ada algoritma yang lebih berharga seperti Naive Bayes, Neural Networks, Regresi Logistik Terurut. Seseorang tidak dapat membedakan algoritma mana yang bekerja dengan baik untuk masalah yang mana, sehingga praktik terbaiknya adalah mencoba beberapa dan memilih model akhir berdasarkan metrik evaluasi.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa tujuan utama di balik penggunaan regresi logistik?

Regresi logistik terutama digunakan dalam probabilitas statistik. Ini menggunakan persamaan regresi logistik untuk memahami hubungan antara variabel dependen dan variabel independen yang ada dalam data yang diberikan. Hal ini dilakukan dengan memperkirakan probabilitas peristiwa individu. Model regresi logistik sangat mirip dengan model regresi linier, namun penggunaannya lebih disukai di mana variabel dependen yang diberikan dalam data bersifat dikotomis.

Bagaimana SVM berbeda dari regresi logistik?

Meskipun SVM memberikan akurasi lebih dari model regresi logistik, ini rumit untuk digunakan dan, dengan demikian, tidak ramah pengguna. Dalam kasus sejumlah besar data, penggunaan SVM tidak disukai. Sementara SVM digunakan untuk menyelesaikan masalah regresi dan klasifikasi, regresi logistik hanya menyelesaikan masalah klasifikasi dengan baik. Tidak seperti SVM, over-fitting adalah kejadian umum saat menggunakan regresi logistik. Juga, regresi logistik lebih rentan terhadap outlier jika dibandingkan dengan mesin vektor pendukung.

Apakah pohon regresi merupakan jenis pohon keputusan?

Ya, pohon regresi pada dasarnya adalah pohon keputusan yang digunakan untuk tugas regresi. Model regresi digunakan untuk memahami hubungan antara variabel dependen dan variabel independen yang benar-benar muncul dengan pemisahan kumpulan data awal yang diberikan. Pohon regresi hanya dapat digunakan ketika pohon keputusan terdiri dari variabel target kontinu.