Metrik Evaluasi dalam Pembelajaran Mesin: 10 Metrik Teratas yang Harus Anda Ketahui

Diterbitkan: 2021-01-05

Memutuskan metrik yang tepat adalah langkah penting dalam proyek Pembelajaran Mesin apa pun. Setiap model Machine Learning perlu dievaluasi terhadap beberapa metrik untuk memeriksa seberapa baik model tersebut telah mempelajari data dan dilakukan pada data pengujian. Ini disebut Metrik Kinerja dan berbeda untuk model regresi dan klasifikasi.

Pada akhir tutorial ini, Anda akan tahu:

  • Metrik untuk regresi
  • Metrik untuk berbagai jenis klasifikasi
  • Kapan harus memilih jenis metrik

Daftar isi

Metrik untuk Regresi

Masalah regresi melibatkan memprediksi target dengan nilai terus menerus dari satu set fitur independen. Ini adalah jenis pembelajaran Terawasi di mana kami membandingkan prediksi dengan nilai sebenarnya dan kemudian menghitung selisih/istilah kesalahan. Semakin kecil kesalahannya, semakin baik kinerja modelnya. Kami memiliki berbagai jenis metrik Regresi yang paling banyak digunakan saat ini. Mari kita bahas satu per satu.

1. Kesalahan Kuadrat Rata-rata

Mean Squared Error (MSE) adalah metrik regresi yang paling banyak digunakan. Ini menggunakan kesalahan kuadrat (Y_Pred – Y_actual) untuk menghitung kesalahan. Hasil kuadrat dalam dua perubahan penting untuk perhitungan kesalahan biasa. Satu, bahwa kesalahan bisa negatif dan mengkuadratkan kesalahan akan mengubah semua kesalahan menjadi istilah positif dan karenanya dapat dengan mudah ditambahkan.

Kedua, bahwa kuadrat meningkatkan kesalahan yang sudah besar dan mengurangi kesalahan dengan nilai kurang dari 1. Efek pembesar ini menghukum kasus di mana kesalahannya besar. MSE sangat disukai karena dapat didiferensiasikan di semua titik untuk menghitung gradien dari fungsi kerugian.

2. Root Mean Squared Error

Kekurangan dari MSE adalah bahwa ia mengkuadratkan istilah kesalahan yang mengarah pada perkiraan kesalahan yang terlalu tinggi. Root Mean Squared Error (RMSE), di sisi lain, mengambil akar kuadrat untuk mengurangi efek itu. Ini berguna ketika kesalahan besar tidak diinginkan.

3. Berarti Kesalahan Mutlak

Mean Absolute Error (MAE) menghitung error dengan mengambil nilai absolut dari error yaitu Y_Pred – Y_Actual. Ini berguna karena tidak melebih-lebihkan kesalahan yang lebih besar tidak seperti MSE dan juga kuat untuk outlier. Oleh karena itu, tidak cocok untuk aplikasi yang memerlukan perlakuan khusus untuk outlier. MAE adalah skor linier yang berarti semua perbedaan individu berbobot sama.

4. Kesalahan Kuadrat R

R Squared adalah ukuran yang cocok untuk model regresi. Ini menghitung penyebaran titik data di sepanjang garis fit regresi. Ini juga disebut Koefisien Determinasi. Semakin tinggi nilai R Squared berarti semakin kecil perbedaan antara nilai observasi dan nilai sebenarnya.

Nilai R Squared terus meningkat karena semakin banyak fitur yang ditambahkan ke dalam model. Ini berarti bahwa R Squared bukanlah ukuran kinerja yang tepat karena dapat memberikan R Square yang besar meskipun fitur tidak menambahkan nilai apa pun.

Dalam Analisis Regresi, R Squared digunakan untuk menentukan kekuatan korelasi antara fitur dan target. Secara sederhana, ini mengukur kekuatan hubungan antara model Anda dan variabel dependen pada skala 0 – 100%. R Kuadrat adalah rasio antara Residual Sum of Squares(SSR) dan Total Sum of Squares(SST). R kuadrat didefinisikan sebagai:

R kuadrat = 1 – SSR/SST , di mana

SSR adalah jumlah kuadrat selisih antara nilai pengamatan aktual Y dan nilai prediksi Y_Pred. SST adalah jumlah kuadrat dari selisih antara nilai pengamatan aktual Y dan rata-rata nilai pengamatan Y_Avg.

Umumnya, lebih banyak R sqr, lebih baik modelnya. Tapi apakah selalu begitu? Tidak.

5. Kesalahan Kuadrat R yang Disesuaikan

Adjusted R Squared Error mengatasi kekurangan R Squared karena tidak dapat memperkirakan dengan tepat peningkatan kinerja model ketika lebih banyak fitur ditambahkan. Nilai R Square menunjukkan gambaran yang tidak lengkap dan bisa sangat menyesatkan.

Intinya, nilai R sqr selalu meningkat pada penambahan fitur baru, meskipun fitur tersebut menurunkan performa model. Anda mungkin tidak tahu kapan model Anda mulai overfit.

Adjusted R Sqr menyesuaikan peningkatan variabel ini dan nilainya menurun saat fitur tidak meningkatkan model. Kami menggunakan disesuaikan R sqr untuk membandingkan kebaikan-kecocokan untuk model regresi yang berisi jumlah variabel independen yang berbeda.

Baca: Cross-Validation di Machin Learning

Metrik untuk Klasifikasi

Sama seperti metrik regresi, ada berbagai jenis metrik untuk klasifikasi juga. Berbagai jenis metrik digunakan untuk berbagai jenis klasifikasi dan data. Mari kita bahas satu per satu.

1. Akurasi

Akurasi adalah metrik yang paling mudah dan sederhana untuk klasifikasi. Itu hanya menghitung berapa persentase prediksi yang benar dari jumlah total instance. Misalnya, jika 90 dari 100 contoh diprediksi dengan benar, maka akurasinya akan menjadi 90%. Akurasi, bagaimanapun, bukanlah metrik yang benar untuk sebagian besar tugas klasifikasi karena tidak memperhitungkan ketidakseimbangan kelas.

2. Presisi, Ingat

Untuk gambaran kinerja model yang lebih baik, kita perlu melihat berapa banyak false positive yang diprediksi dan berapa banyak false negative yang diprediksi oleh model. Presisi memberi tahu kita berapa banyak dari total positif yang diprediksi sebagai positif. Atau dengan kata lain, proporsi kejadian positif yang diprediksi dengan benar sebagai positif dari total prediksi positif. Recall memberi tahu kita berapa banyak hal positif sejati yang diprediksi dari total positif aktual. Atau dengan kata lain, ini memberikan proporsi prediksi positif sejati dari jumlah total positif aktual.

3. Matriks Kebingungan

Matriks Kebingungan adalah kombinasi dari Positif Benar, Negatif Benar, Positif Palsu, dan Negatif Palsu. Ini memberi tahu kita berapa banyak yang diprediksi dari hal positif dan negatif yang sebenarnya. Ini adalah matriks NxN di mana N adalah jumlah kelas. Matriks Kebingungan tidak begitu membingungkan!

4. Skor F1

Skor F1 menggabungkan Precision dan Recall menjadi satu metrik untuk nilai rata-rata. Skor F1 sebenarnya adalah rata-rata harmonik dari nilai Precision dan Recall. Hal ini penting karena jika dalam beberapa kasus nilai recall adalah 1, yaitu 100% dan nilai presisi adalah 0, skor F1 akan menjadi 0,5 jika kita mengambil mean aritmatika Precision & Recall sebagai ganti mean Harmonic. Tetapi jika kita mengambil mean Harmonic, Skor F1 akan menjadi 0. Ini memberitahu kita bahwa mean Harmonic lebih menghukum nilai ekstrim.

Lihat: 5 Jenis Algoritma Klasifikasi dalam Pembelajaran Mesin

5. AUC-ROC

Akurasi dan skor F1 bukanlah metrik yang baik dalam hal data yang tidak seimbang. AUC (Area Under Curve) Kurva ROC (Receiver Operator Characteristics) memberi tahu kita tingkat keterpisahan kelas yang diprediksi oleh model. Semakin tinggi skornya, semakin besar kemampuan model untuk memprediksi 0s sebagai 0s dan 1s sebagai 1s. Kurva AUC ROC diplot menggunakan True Positive Rate (TPR) pada sumbu Y dan False Positive Rate pada sumbu X.

TPR = TP/TP+FN

FPR = FP/TN+FP

Jika AUC ROC keluar menjadi 1, itu berarti model tersebut memprediksi semua kelas dengan benar dan ada keterpisahan yang lengkap.

Jika 0,5 berarti tidak ada keterpisahan dan model memprediksi semua keluaran acak.

Jika bernilai 0, berarti model tersebut memprediksi kelas terbalik. Artinya, 0s sebagai 1s dan 1s sebagai 0s.

Sebelum kamu pergi

Dalam artikel ini, kami membahas berbagai metrik kinerja untuk klasifikasi dan regresi. Ini adalah metrik yang paling sering digunakan dan karenanya sangat penting untuk mengetahuinya. Untuk klasifikasi, bahkan lebih banyak metrik yang dibuat khusus untuk klasifikasi multi-kelas dan klasifikasi multi-label seperti Skor Kappa, Presisi pada K, Presisi Rata-rata pada K, dll.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Pimpin Revolusi Teknologi Berbasis AI

DIPLOMA PG DALAM PEMBELAJARAN MESIN DAN KECERDASAN BUATAN
Belajarlah lagi