Pengklasifikasi Naive Bayes: Pro & Kontra, Aplikasi & Jenis Dijelaskan

Diterbitkan: 2020-12-11

Ketika Anda membutuhkan algoritma pemecahan masalah yang cepat, ke mana Anda pergi? Anda pergi ke pengklasifikasi Naive Bayes. Ini adalah algoritma cepat dan sederhana yang dapat memecahkan berbagai masalah klasifikasi. Dalam artikel ini, kita akan memahami apa itu algoritme, cara kerjanya, dan kualitasnya. Mari kita mulai.

Daftar isi

Apa itu Pengklasifikasi Naive Bayes?

Pengklasifikasi Naive Bayes memisahkan data ke dalam kelas yang berbeda sesuai dengan Teorema Bayes, bersama dengan asumsi bahwa semua prediktor independen satu sama lain. Diasumsikan bahwa fitur tertentu dalam suatu kelas tidak terkait dengan keberadaan fitur lainnya.

Misalnya, Anda dapat menganggap buah sebagai semangka jika berwarna hijau, bulat, dan berdiameter 10 inci. Fitur-fitur ini dapat saling bergantung untuk keberadaannya, tetapi masing-masing dari mereka secara independen berkontribusi pada kemungkinan bahwa buah yang dipertimbangkan adalah semangka. Itu sebabnya pengklasifikasi ini memiliki istilah 'Naif' dalam namanya.

Algoritma ini cukup populer karena bahkan dapat mengungguli teknik klasifikasi yang sangat canggih. Selain itu, ini cukup sederhana, dan Anda dapat membuatnya dengan cepat.

Inilah teorema Bayes, yang menjadi dasar algoritma ini:

P(c | x) = P(x | c) P(c)/ P(x)

Dalam persamaan ini, 'c' adalah singkatan dari kelas, dan 'x' adalah singkatan dari atribut. P(c/x) adalah singkatan dari probabilitas posterior kelas menurut prediktor. P(x) adalah probabilitas sebelumnya dari prediktor, dan P(c) adalah probabilitas sebelumnya dari kelas. P(x/c) menunjukkan probabilitas dari prediktor menurut kelas.

Baca: Penjelasan Naive Bayes

Keuntungan dari Naive Bayes

Algoritma ini bekerja sangat cepat dan dapat dengan mudah memprediksi kelas dari kumpulan data pengujian.
Anda dapat menggunakannya untuk memecahkan masalah prediksi multi-kelas karena cukup berguna untuk mereka.
Pengklasifikasi Naive Bayes berkinerja lebih baik daripada model lain dengan lebih sedikit data pelatihan jika asumsi independensi fitur berlaku.
Jika Anda memiliki variabel input kategoris, algoritma Naive Bayes berkinerja sangat baik dibandingkan dengan variabel numerik.

Kekurangan Naive Bayes

Jika kumpulan data pengujian Anda memiliki variabel kategoris dari kategori yang tidak ada dalam kumpulan data pelatihan, model Naive Bayes akan menetapkan probabilitas nol dan tidak akan dapat membuat prediksi apa pun terkait hal ini. Fenomena ini disebut 'Frekuensi Nol', dan Anda harus menggunakan teknik penghalusan untuk menyelesaikan masalah ini.
Algoritma ini juga terkenal sebagai estimator yang buruk. Jadi, Anda tidak boleh menganggap hasil probabilitas 'predict_proba' terlalu serius.
Diasumsikan bahwa semua fitur independen. Meskipun secara teori mungkin terdengar hebat, dalam kehidupan nyata, Anda hampir tidak akan menemukan serangkaian fitur independen.

Aplikasi Algoritma Naive Bayes

Seperti yang harus Anda perhatikan, algoritme ini menawarkan banyak keuntungan bagi penggunanya. Itu sebabnya ia memiliki banyak aplikasi di berbagai sektor juga. Berikut adalah beberapa aplikasi dari algoritma Naive Bayes:

Karena algoritme ini cepat dan efisien, Anda dapat menggunakannya untuk membuat prediksi waktu nyata.
Algoritma ini populer untuk prediksi multi-kelas. Anda dapat menemukan probabilitas beberapa kelas target dengan mudah dengan menggunakan algoritma ini.
Layanan email (seperti Gmail) menggunakan algoritme ini untuk mengetahui apakah email adalah spam atau bukan. Algoritma ini sangat baik untuk penyaringan spam.
Asumsinya tentang independensi fitur, dan efektivitasnya dalam memecahkan masalah multi-kelas, membuatnya sempurna untuk melakukan Analisis Sentimen. Analisis Sentimen mengacu pada identifikasi sentimen positif atau negatif dari kelompok sasaran (pelanggan, audiens, dll.)
Collaborative Filtering dan algoritma Naive Bayes bekerja sama untuk membangun sistem rekomendasi. Sistem ini menggunakan penambangan data dan pembelajaran mesin untuk memprediksi apakah pengguna menginginkan sumber daya tertentu atau tidak.

Baca Juga: Penjelasan Model Machine Learning

Jenis Pengklasifikasi Naive Bayes

Algoritma ini memiliki beberapa macam. Berikut adalah yang utama:

Bernoulli Naive Bayes

Di sini, prediktor adalah variabel boolean. Jadi, satu-satunya nilai yang Anda miliki adalah 'Benar' dan 'Salah' (Anda juga bisa memiliki 'Ya' atau 'Tidak'). Kami menggunakannya ketika data sesuai dengan distribusi Bernoulli multivariat.

Naive Bayes Multinomial

Orang menggunakan algoritma ini untuk memecahkan masalah klasifikasi dokumen. Misalnya, jika Anda ingin menentukan apakah suatu dokumen termasuk dalam kategori 'Hukum' atau kategori 'Sumber Daya Manusia', Anda akan menggunakan algoritme ini untuk memilahnya. Ini menggunakan frekuensi kata-kata sekarang sebagai fitur.

Gaussian Naive Bayes

Jika prediktor tidak diskrit tetapi memiliki nilai kontinu, kita asumsikan bahwa prediktor tersebut adalah sampel dari distribusi gaussian.

Kesimpulan

Kami harap Anda menemukan artikel ini bermanfaat. Jika Anda memiliki pertanyaan terkait dengan algoritma Naive Bayes, jangan ragu untuk membagikannya di bagian komentar. Kami akan senang mendengar dari Anda.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang AI, pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, Status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa batasan Naive Bayes?

Pengklasifikasi naive Bayes adalah algoritma yang digunakan untuk mengklasifikasikan instance data baru menggunakan satu set data pelatihan yang diketahui. Ini adalah algoritma yang baik untuk klasifikasi; namun, jumlah fitur harus sama dengan jumlah atribut dalam data. Hal ini secara komputasi mahal bila digunakan untuk mengklasifikasikan sejumlah besar item. Tidak cocok untuk data numerik. Ini hanya dapat berfungsi ketika fitur-fiturnya independen satu sama lain. Tidak cocok jika nilai fiturnya nominal. Ini mensyaratkan bahwa nilai-fitur saling eksklusif. Ini mensyaratkan bahwa frekuensi nilai-fitur sebanding dengan probabilitas bahwa nilai-nilai itu benar.

Apa keuntungan dan kerugian terbesar dari pengklasifikasi Naive Bayes?

Keuntungan terbesar dari Naive Bayes adalah dapat bekerja dengan kumpulan data yang sangat kecil. Ini adalah salah satu algoritma yang paling populer untuk penyaringan spam. Selain itu, penerapannya relatif mudah. Hal ini hampir selalu digunakan sebagai classifier. Jika kumpulan data tidak tersedia, seseorang masih dapat menggunakannya sebagai algoritma klasifikasi. Algoritma ini digunakan dalam penyaringan spam email, juga digunakan oleh Google untuk mengklasifikasikan halaman web. Namun, mungkin tidak seefektif dalam masalah klasifikasi yang lebih kompleks. Ini hanya dapat berfungsi ketika fitur-fiturnya independen satu sama lain.

Bagaimana cara menghentikan Overfitting di Naive Bayes?

Salah satu alasan overfitting adalah memiliki data pelatihan yang salah. Jika Anda memiliki kumpulan data pelatihan dengan banyak gangguan dan Anda memiliki banyak contoh pelatihan, pengklasifikasi akan melihat gangguan dalam data pelatihan dan bukan pola dasar yang Anda coba buat modelnya. Alasan lain adalah model Anda terlalu rumit. Jika Anda memiliki model di mana perubahan kecil pada input dapat menyebabkan perubahan besar pada output, Anda bisa mendapatkan overfitting. Solusi lain adalah dengan menggunakan regularisasi. Regularisasi akan mengecilkan cabang panjang dalam model Anda. Ini menghaluskan model Anda dan mencegah overfitting.