Bagging vs Boosting dalam Machine Learning: Perbedaan Antara Bagging dan Boosting

Diterbitkan: 2020-11-12

Karena proliferasi aplikasi pembelajaran Mesin dan peningkatan daya komputasi, ilmuwan data secara inheren telah menerapkan algoritme ke kumpulan data. Kunci penerapan algoritma adalah cara bias dan varians dihasilkan. Model dengan bias rendah umumnya lebih disukai.

Organisasi menggunakan teknik pembelajaran mesin yang diawasi seperti pohon keputusan untuk membuat keputusan yang lebih baik dan menghasilkan lebih banyak keuntungan. Pohon keputusan yang berbeda, ketika digabungkan, membuat metode ensemble dan memberikan hasil prediktif.

Tujuan utama penggunaan model ensemble adalah untuk mengelompokkan sekumpulan pembelajar yang lemah dan membentuk pembelajar yang kuat. Cara melakukannya didefinisikan dalam dua teknik: Bagging dan Boosting yang bekerja secara berbeda dan digunakan secara bergantian untuk mendapatkan hasil yang lebih baik dengan presisi dan akurasi tinggi serta lebih sedikit kesalahan. Dengan metode ensemble, beberapa model disatukan untuk menghasilkan model yang kuat.

Posting blog ini akan memperkenalkan berbagai konsep pembelajaran ensemble. Pertama, memahami metode ensemble akan membuka jalan menuju metode yang berhubungan dengan pembelajaran dan merancang solusi yang disesuaikan. Selanjutnya, kita akan membahas konsep Bagging dan Boosting yang diperluas untuk gagasan yang jelas kepada pembaca tentang bagaimana kedua metode ini berbeda, aplikasi dasarnya, dan hasil prediksi yang diperoleh dari keduanya.

Bergabunglah dengan Kursus Online Pembelajaran Mesin dari Universitas top dunia – Magister, Program Pascasarjana Eksekutif, dan Program Sertifikat Tingkat Lanjut di ML & AI untuk mempercepat karier Anda.

Daftar isi

Apa itu Metode Ensemble?

Ensemble adalah metode yang digunakan dalam algoritma pembelajaran mesin. Dalam metode ini, beberapa model atau 'peserta didik yang lemah' dilatih untuk memperbaiki masalah yang sama dan diintegrasikan untuk mendapatkan hasil yang diinginkan. Model yang lemah digabungkan dengan benar memberikan model yang akurat.

Pertama, model dasar diperlukan untuk menyiapkan metode pembelajaran ensemble yang nantinya akan di-cluster. Dalam algoritma Bagging dan Boosting, algoritma pembelajaran dasar tunggal digunakan. Alasan di balik ini adalah bahwa kita akan memiliki pelajar lemah yang homogen, yang akan dilatih dengan cara yang berbeda.

Model ensemble yang dibuat dengan cara ini pada akhirnya akan disebut model homogen. Tapi cerita tidak berakhir di sini. Ada beberapa metode di mana berbagai jenis algoritma pembelajaran dasar juga tersirat dengan pelajar lemah yang heterogen membuat 'model ansambel heterogen.' Namun di blog ini, kita hanya akan membahas model ensemble sebelumnya dan membahas dua metode ensemble paling populer di sini.

Bagging adalah model pembelajar lemah homogen yang belajar satu sama lain secara independen secara paralel dan menggabungkannya untuk menentukan rata-rata model.
Boosting juga merupakan model pembelajar lemah yang homogen tetapi bekerja secara berbeda dari Bagging. Dalam model ini, pembelajar belajar secara berurutan dan adaptif untuk meningkatkan prediksi model dari suatu algoritma pembelajaran.

Itu sekilas Bagging dan Boosting. Mari kita lihat keduanya secara detail. Beberapa faktor penyebab terjadinya kesalahan dalam pembelajaran adalah noise, bias, dan variance. Metode ensemble diterapkan untuk mengurangi faktor-faktor tersebut sehingga menghasilkan stabilitas dan akurasi hasil.

Baca Juga: Ide Proyek Pembelajaran Mesin

mengantongi

Bagging adalah singkatan dari 'Bootstrap Aggregation' dan digunakan untuk mengurangi varians dalam model prediksi. Bagging adalah metode paralel yang cocok berbeda, dianggap peserta didik secara independen satu sama lain, sehingga memungkinkan untuk melatih mereka secara bersamaan.

Bagging menghasilkan data tambahan untuk pelatihan dari dataset. Hal ini dicapai dengan pengambilan sampel acak dengan penggantian dari dataset asli. Pengambilan sampel dengan penggantian dapat mengulangi beberapa pengamatan di setiap kumpulan data pelatihan baru. Setiap elemen dalam Bagging memiliki kemungkinan yang sama untuk muncul dalam kumpulan data baru.

Multi dataset ini digunakan untuk melatih beberapa model secara paralel. Rata-rata dari semua prediksi dari model ensemble yang berbeda dihitung. Suara mayoritas yang diperoleh dari mekanisme pemungutan suara dipertimbangkan saat klasifikasi dibuat. Bagging mengurangi varians dan menyetel prediksi ke hasil yang diharapkan.

Contoh Pengemasan:

Model Hutan Acak menggunakan Bagging, di mana model pohon keputusan dengan varians yang lebih tinggi hadir. Itu membuat pemilihan fitur acak untuk menumbuhkan pohon. Beberapa pohon acak membuat Hutan Acak.

meningkatkan

Boosting adalah metode ensemble sekuensial yang secara iteratif menyesuaikan bobot pengamatan sesuai klasifikasi terakhir. Jika suatu pengamatan salah diklasifikasikan, itu meningkatkan bobot pengamatan itu. Istilah 'Meningkatkan' dalam bahasa awam, mengacu pada algoritme yang mengubah pelajar yang lemah menjadi pelajar yang lebih kuat. Ini mengurangi kesalahan bias dan membangun model prediksi yang kuat.

Titik data yang salah prediksi di setiap iterasi akan terlihat, dan bobotnya ditingkatkan. Algoritma Boosting mengalokasikan bobot untuk setiap model yang dihasilkan selama pelatihan. Seorang pembelajar dengan hasil prediksi data pelatihan yang baik akan diberikan bobot yang lebih tinggi. Saat mengevaluasi pelajar baru, Boosting melacak kesalahan pelajar.

Contoh Meningkatkan:

AdaBoost menggunakan teknik Boosting, di mana kesalahan 50% lebih sedikit diperlukan untuk mempertahankan model. Di sini, Boosting dapat menyimpan atau membuang satu pelajar. Jika tidak, iterasi diulang sampai mencapai pembelajar yang lebih baik.

Persamaan dan Perbedaan antara Bagging dan Boosting

Bagging dan Boosting, keduanya merupakan metode yang populer digunakan, memiliki kesamaan universal yang diklasifikasikan sebagai metode ensemble. Di sini kami akan menyoroti lebih banyak kesamaan di antara mereka, diikuti oleh perbedaan yang mereka miliki satu sama lain. Mari kita mulai dengan persamaan karena memahami ini akan membuat pemahaman perbedaan lebih mudah.

Bagging dan Boosting: Kesamaan

Bagging dan Boosting adalah metode ensemble yang berfokus untuk mendapatkan N pelajar dari satu pelajar.
Bagging dan Boosting membuat pengambilan sampel acak dan menghasilkan beberapa set data pelatihan
Bagging dan Boosting sampai pada keputusan akhir dengan membuat rata-rata N pelajar atau mengambil peringkat voting yang dilakukan oleh sebagian besar dari mereka.
Bagging dan Boosting mengurangi varians dan memberikan stabilitas yang lebih tinggi dengan meminimalkan kesalahan.

Baca: Penjelasan Model Machine Learning

Bagging dan Boosting: Perbedaan

Seperti yang sudah kami katakan,

Bagging adalah metode menggabungkan jenis prediksi yang sama. Boosting adalah metode menggabungkan berbagai jenis prediksi.

Bagging mengurangi varians, bukan bias, dan memecahkan masalah over-fitting dalam model. Meningkatkan mengurangi bias, bukan varians.

Di Bagging, setiap model menerima bobot yang sama. Di Boosting, model ditimbang berdasarkan performanya.

Model dibangun secara independen di Bagging. Model baru dipengaruhi oleh kinerja model yang dibuat sebelumnya di Boosting.

Dalam Bagging, subset data pelatihan digambar secara acak dengan pengganti set data pelatihan. Di Boosting, setiap subset baru terdiri dari elemen yang salah diklasifikasikan oleh model sebelumnya.

Bagging biasanya diterapkan di mana classifier tidak stabil dan memiliki varians yang tinggi. Boosting biasanya diterapkan di mana classifier stabil dan sederhana dan memiliki bias yang tinggi.

Mengantre dan Meningkatkan: Ringkasan Konklusif

Sekarang setelah kami menjelaskan konsep Bagging dan Boosting secara menyeluruh, kami telah tiba di akhir artikel dan dapat menyimpulkan bagaimana keduanya sama pentingnya dalam Ilmu Data dan di mana harus diterapkan dalam model tergantung pada kumpulan data yang diberikan, mereka simulasi dan situasi yang diberikan. Jadi, di satu sisi, dalam model Hutan Acak, Bagging digunakan, dan model AdaBoost menyiratkan algoritma Boosting.

Performa model pembelajaran mesin dihitung dengan membandingkan akurasi pelatihannya dengan akurasi validasi, yang dicapai dengan membagi data menjadi dua set: set pelatihan dan set validasi. Set pelatihan digunakan untuk melatih model, dan set validasi digunakan untuk evaluasi.

Anda dapat memeriksa Program PG Eksekutif IIT Delhi dalam Pembelajaran Mesin yang terkait dengan upGrad . IIT Delhi adalah salah satu institusi paling bergengsi di India. Dengan lebih dari 500+ anggota fakultas In-house yang terbaik dalam mata pelajaran.

Mengapa mengantongi lebih baik daripada meningkatkan?

Dari kumpulan data, bagging membuat data tambahan untuk pelatihan. Pengambilan sampel acak dan substitusi dari dataset asli digunakan untuk mencapai hal ini. Dalam setiap set data pelatihan baru, pengambilan sampel dengan penggantian dapat mengulangi pengamatan tertentu. Setiap elemen Bagging memiliki peluang yang sama untuk muncul dalam kumpulan data baru. Beberapa model dilatih secara paralel menggunakan multi dataset ini. Ini adalah rata-rata dari semua perkiraan dari beberapa model ensemble. Saat menentukan klasifikasi, suara mayoritas yang diperoleh melalui proses pemungutan suara diperhitungkan. Bagging mengurangi variasi dan menyempurnakan prediksi ke hasil yang diinginkan.

Bagaimana perbedaan utama mengantongi dan meningkatkan?

Bagging adalah teknik untuk mengurangi varians prediksi dengan menghasilkan data tambahan untuk pelatihan dari dataset dengan menggabungkan pengulangan dengan kombinasi untuk membuat multi-set dari data asli. Boosting adalah strategi iteratif untuk menyesuaikan bobot observasi berdasarkan klasifikasi sebelumnya. Ini mencoba untuk meningkatkan bobot pengamatan jika itu salah dikategorikan. Boosting menciptakan model prediksi yang baik secara umum.

Apa persamaan bagging dan boosting?

Bagging dan boosting merupakan strategi ensemble yang bertujuan untuk menghasilkan N peserta didik dari satu peserta didik. Mereka mengambil sampel secara acak dan membuat banyak set data pelatihan. Mereka sampai pada keputusan akhir mereka dengan rata-rata suara N peserta didik atau memilih peringkat suara mayoritas dari mereka. Mereka mengurangi varians dan meningkatkan stabilitas sekaligus mengurangi kesalahan.