Regularisasi dalam Pembelajaran Mendalam: Semua yang Perlu Anda Ketahui

Diterbitkan: 2020-11-16

Salah satu masalah terbesar yang dihadapi ilmuwan data atau insinyur pembelajaran mesin adalah kompleksitas yang terlibat dalam pembuatan algoritme yang berkinerja baik pada data pelatihan serta input baru. Banyak teknik yang digunakan dalam pembelajaran mesin untuk meminimalkan atau sepenuhnya menghilangkan kesalahan pengujian. Ini dilakukan, pada beberapa kesempatan, tanpa terlalu mempedulikan peningkatan kesalahan pelatihan. Semua teknik ini disatukan biasanya disebut sebagai regularisasi.

Dalam istilah yang lebih sederhana, regularisasi adalah perubahan yang dilakukan pada algoritma pembelajaran untuk meminimalkan kesalahan generalisasinya tanpa terlalu fokus pada pengurangan kesalahan pelatihannya. Ada beberapa teknik regularisasi yang tersedia, dengan masing-masing bekerja pada aspek yang berbeda dari algoritma pembelajaran atau jaringan saraf, dan masing-masing mengarah ke hasil yang berbeda.

Ada teknik regularisasi yang memberikan batasan tambahan pada model pembelajaran, seperti batasan pada nilai parameter. Ada yang membatasi nilai parameter. Jika teknik regularisasi dipilih dengan hati-hati, dapat menyebabkan peningkatan kinerja pada model data uji.

Daftar isi

Mengapa kita membutuhkan regularisasi jaringan saraf?

Jaringan saraf dalam adalah model pembelajaran kompleks yang terkena overfitting, karena sifatnya yang fleksibel dalam menghafal pola set pelatihan individu alih-alih mengambil pendekatan umum terhadap data yang tidak dapat dikenali. Inilah sebabnya mengapa regularisasi jaringan saraf sangat penting. Ini membantu Anda menjaga model pembelajaran tetap mudah dipahami untuk memungkinkan jaringan saraf menggeneralisasi data yang tidak dapat dikenalinya.

Mari kita pahami ini dengan sebuah contoh. Misalkan kita memiliki kumpulan data yang mencakup nilai input dan output. Mari kita asumsikan juga ada hubungan yang benar antara nilai-nilai ini. Sekarang, salah satu tujuan pembelajaran mendalam adalah untuk membangun hubungan perkiraan antara nilai input dan output. Jadi, untuk setiap kumpulan data, ada dua model yang dapat membantu kita dalam mendefinisikan hubungan ini – model sederhana dan model kompleks.

Dalam model sederhana, terdapat garis lurus yang hanya mencakup dua parameter yang menentukan hubungan yang dimaksud. Representasi grafis dari model ini akan menampilkan garis lurus yang melewati pusat kumpulan data yang bersangkutan, memastikan bahwa ada jarak yang sangat kecil antara garis dan titik-titik di bawah dan di atasnya.

Baca juga: Ide Proyek Pembelajaran Mesin

Di sisi lain, model kompleks memiliki beberapa parameter, tergantung pada kumpulan data. Ini mengikuti persamaan polinomial, yang memungkinkannya melewati setiap titik data pelatihan. Dengan peningkatan kompleksitas secara bertahap, kesalahan pelatihan akan mencapai nilai nol dan model akan mengingat pola individu dari kumpulan data. Tidak seperti model sederhana yang tidak terlalu berbeda satu sama lain bahkan ketika mereka dilatih pada kumpulan data yang berbeda, hal yang sama tidak dapat dikatakan tentang model yang kompleks.

Apa itu Bias dan Varians?

Secara sederhana, bias adalah ukuran jarak yang ada antara garis populasi sebenarnya dan rata-rata model yang dilatih pada kumpulan data yang berbeda. Bias memiliki peran yang sangat penting dalam memutuskan apakah kita akan memiliki interval prediksi yang baik atau tidak. Ini dilakukan dengan mencari seberapa dekat fungsi rata-rata telah datang ke hubungan yang sebenarnya.

Baca juga: Gaji Engineer Machine Learning di India

Varians mengkuantifikasi variasi estimasi untuk fungsi rata-rata. Varians menentukan berapa banyak penyimpangan yang ditunjukkan oleh model yang dimodelkan pada kumpulan data tertentu ketika dilatih pada kumpulan data yang berbeda melalui seluruh perjalanan prediksinya. Apakah suatu algoritme memiliki bias tinggi atau varians tinggi, kita dapat membuat beberapa modifikasi agar kinerjanya lebih baik.

Bagaimana kita bisa mengatasi Bias yang tinggi?

Latih untuk jangka waktu yang lebih lama
Gunakan jaringan yang lebih besar dengan unit atau lapisan tersembunyi
Coba arsitektur jaringan saraf yang lebih baik atau algoritme pengoptimalan tingkat lanjut

Bagaimana kita bisa menghadapi varians yang tinggi (overfitting)?

Regularisasi
Penambahan data
Temukan arsitektur jaringan saraf yang lebih baik

Dengan algoritme pembelajaran mendalam yang ada, kami bebas untuk terus melatih jaringan saraf yang lebih besar untuk meminimalkan bias tanpa memiliki pengaruh apa pun pada varians. Demikian pula, kami dapat terus menambahkan data untuk meminimalkan varians tanpa berdampak pada nilai bias. Juga, jika kita berurusan dengan bias tinggi dan varians tinggi, kita dapat menurunkan kedua nilai tersebut dengan menggunakan teknik regularisasi pembelajaran mendalam yang tepat.

Seperti yang telah dibahas, peningkatan kompleksitas model menghasilkan peningkatan nilai varians dan penurunan nilai bias. Dengan teknik regularisasi yang tepat, Anda dapat berupaya mengurangi kesalahan pengujian dan pelatihan, dan dengan demikian memungkinkan pertukaran yang ideal antara varians dan bias.

Teknik Regularisasi

Berikut adalah tiga teknik regularisasi yang paling umum:

1. Augmentasi Kumpulan Data

Apa cara termudah untuk menggeneralisasi? Jawabannya cukup sederhana, tetapi implementasinya tidak. Anda hanya perlu melatih model itu pada kumpulan data lager. Namun, ini tidak dapat dilakukan di sebagian besar situasi karena sebagian besar kami berurusan dengan data yang terbatas. Solusi terbaik yang dapat dilakukan untuk beberapa masalah pembelajaran mesin adalah membuat data sintetis atau palsu untuk ditambahkan ke kumpulan data yang ada. Jadi, jika Anda berurusan dengan data gambar, cara termudah untuk membuat data sintetis termasuk penskalaan, terjemahan piksel gambar, dan rotasi.

2. Berhenti lebih awal

Skenario pelatihan yang sangat umum yang mengarah ke overfitting adalah ketika model dilatih pada kumpulan data yang relatif lebih besar. Dalam situasi ini, pelatihan model untuk periode waktu yang lebih lama tidak akan menghasilkan peningkatan kemampuan generalisasi; itu malah akan menyebabkan overfitting.

Setelah titik tertentu dalam proses pelatihan dan setelah pengurangan kesalahan pelatihan yang signifikan, ada saatnya kesalahan validasi mulai meningkat. Ini menandakan bahwa overfitting telah dimulai. Dengan menggunakan teknik Penghentian Awal, kami menghentikan pelatihan model dan menahan parameter sebagaimana adanya segera setelah kami melihat peningkatan kesalahan validasi.

3. L1 dan L2

L1 dan L2 membuat teknik regularisasi Weight Penalty yang cukup umum digunakan untuk melatih model. Ini bekerja dengan asumsi yang membuat model dengan bobot lebih besar lebih kompleks daripada model dengan bobot lebih kecil. Peran hukuman dalam semua ini adalah untuk memastikan bahwa bobotnya nol atau sangat kecil. Satu-satunya pengecualian adalah ketika gradien besar hadir untuk melawan. Penalti Berat juga disebut sebagai Peluruhan Berat, yang menandakan pembusukan bobot ke unit yang lebih kecil atau nol.

Norma L1: Ini memungkinkan beberapa bobot menjadi besar dan mendorong beberapa menuju nol. Ini menghukum nilai sebenarnya dari sebuah bobot.

Norma L2: Ini mendorong semua bobot menuju nilai yang lebih kecil. Ini menghukum nilai kuadrat bobot.

Kesimpulan

Dalam posting ini, Anda belajar tentang regularisasi jaringan saraf dalam pembelajaran mendalam dan tekniknya. Kami tentu berharap bahwa ini pasti telah menyelesaikan sebagian besar pertanyaan Anda seputar topik tersebut.

Jika Anda tertarik untuk mengetahui lebih banyak tentang pembelajaran mendalam dan kecerdasan buatan, lihat Diploma PG kami dalam Pembelajaran Mesin dan program AI yang dirancang untuk para profesional yang bekerja dan menyediakan 30+ studi kasus & tugas, 25+ sesi bimbingan industri, 5+ praktik praktis -pada proyek batu penjuru, lebih dari 450 jam pelatihan yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Apa keunggulan L1 dibandingkan regularisasi L2?

Karena regularisasi L1 menurunkan koefisien beta atau membuatnya lebih kecil hingga hampir nol, penting untuk menghentikan fitur yang tidak penting. Regularisasi L2 di sisi lain, mengurangi bobot secara seragam dan hanya diterapkan ketika multikolinearitas hadir dalam data itu sendiri. Regularisasi L1 oleh karena itu dapat digunakan untuk pemilihan fitur, memberikan keunggulan dibandingkan regularisasi L2.

Apa manfaat dan tantangan augmentasi data?

Manfaatnya termasuk meningkatkan akurasi model prediksi dengan penambahan lebih banyak data pelatihan, mencegah data menjadi langka untuk model yang lebih baik, dan meningkatkan kemampuan model untuk menggeneralisasi output. Ini juga mengurangi biaya pengumpulan data dan kemudian memberi label. Tantangannya termasuk mengembangkan penelitian baru untuk membuat data sintetis dengan aplikasi lanjutan untuk domain augmentasi data. Juga, jika kumpulan data nyata mengandung bias, maka data yang ditambah juga akan mengandung bias.

Bagaimana kita menangani bias tinggi dan varians tinggi?

Berurusan dengan bias tinggi berarti melatih kumpulan data untuk jangka waktu yang lebih lama. Untuk itu, jaringan yang lebih besar harus digunakan dengan lapisan tersembunyi. Juga, jaringan saraf yang lebih baik harus diterapkan. Untuk menangani varians tinggi, regularisasi harus dimulai, data tambahan harus ditambahkan, dan, sama, arsitektur jaringan saraf yang lebih baik harus dibingkai.