Makine Öğreniminde Değerlendirme Metrikleri: Bilmeniz Gereken İlk 10 Metrik
Yayınlanan: 2021-01-05Doğru metriğe karar vermek, herhangi bir Makine Öğrenimi projesinde çok önemli bir adımdır. Her Makine Öğrenimi modelinin, verileri ne kadar iyi öğrendiğini ve test verileri üzerinde ne kadar iyi performans gösterdiğini kontrol etmek için bazı ölçütlere göre değerlendirilmesi gerekir. Bunlara Performans Metrikleri denir ve regresyon ve sınıflandırma modelleri için farklıdır.
Bu eğitimin sonunda şunları bileceksiniz:
- Regresyon için metrikler
- Farklı sınıflandırma türleri için metrikler
- Hangi metrik türü ne zaman tercih edilmelidir?
İçindekiler
Regresyon için Metrikler
Regresyon problemleri, bir dizi bağımsız özellikten sürekli değerlerle bir hedef tahmin etmeyi içerir. Bu, tahmini gerçek değerle karşılaştırdığımız ve ardından fark/hata terimini hesapladığımız bir Denetimli öğrenme türüdür. Hata ne kadar azsa, modelin performansı o kadar iyidir. Şu anda en yaygın olarak kullanılan farklı türde Regresyon metrikleri var. Bunların üzerinden tek tek geçelim.
1. Ortalama Kare Hatası
Ortalama Kare Hata (MSE) en çok kullanılan regresyon metriğidir. Hataları hesaplamak için karesel hataları (Y_Pred – Y_actual) kullanır. Kare alma, olağan hata hesaplamasında iki önemli değişiklikle sonuçlanır. Birincisi, hatanın negatif olabileceği ve hataların karesinin alınması, tüm hataları pozitif terimlere dönüştüreceği ve dolayısıyla kolayca eklenebileceğidir.
İkincisi, kare alma zaten büyük olan hataları arttırır ve 1'den küçük değerlere sahip hataları azaltır. Bu büyütme etkisi, hatanın büyük olduğu durumları cezalandırır. MSE, kayıp fonksiyonunun gradyanını hesaplamak için tüm noktalarda türevlenebilir olduğu için oldukça tercih edilir.
2. Kök Ortalama Kare Hatası
MSE'nin eksikliği, hataların fazla tahmin edilmesine yol açan hata terimlerinin karesini almasıdır. Öte yandan Kök Ortalama Kare Hatası (RMSE), bu etkiyi azaltmak için bir karekök alır. Bu, büyük hatalar istenmediğinde kullanışlıdır.

3. Ortalama Mutlak Hata
Ortalama Mutlak Hata (MAE), Y_Pred – Y_Actual olan hatanın mutlak değerini alarak hatayı hesaplar. Bu, MSE'den farklı olarak daha büyük hataları fazla tahmin etmediği ve aykırı değerlere karşı dayanıklı olduğu için kullanışlıdır. Bu nedenle aykırı değerler için özel işlem gerektiren uygulamalar için uygun değildir. MAE, tüm bireysel farklılıkların eşit ağırlıkta olduğu anlamına gelen doğrusal bir puandır.
4. R Kare Hatası
R Kare, regresyon modelleri için bir uygunluk ölçüsüdür. Regresyon uydurma çizgisi boyunca veri noktalarının dağılımını hesaplar. Aynı zamanda Belirleme Katsayısı olarak da adlandırılır. Daha yüksek R Kare değeri, gözlemlenen değer ile gerçek değerler arasında daha az fark olduğu anlamına gelir.
Modele daha fazla özellik eklendikçe R Kare değeri artmaya devam ediyor. Bu, özellikler herhangi bir değer katmasa bile büyük bir R Kare verebileceğinden, R Karenin doğru performans ölçümü olmadığı anlamına gelir.
Regresyon Analizinde, özellikler ile hedef arasındaki korelasyonun gücünü belirlemek için R Kare kullanılır. Basit bir ifadeyle, modeliniz ile bağımlı değişken arasındaki ilişkinin gücünü %0 – 100 ölçeğinde ölçer. R Kare, Artık Kareler Toplamı (SSR) ile Toplam Kareler Toplamı (SST) arasındaki orandır. R sqr şu şekilde tanımlanır:
R Sqr = 1 – SSR/SST , burada
SSR, gerçek gözlenen Y değeri ile tahmin edilen Y_Pred değeri arasındaki farkın karelerinin toplamıdır. SST, gerçek gözlenen Y değeri ile gözlenen Y_Avg değerinin ortalaması arasındaki farkın karelerinin toplamıdır.
Genel olarak, R sqr ne kadar fazlaysa model o kadar iyidir. Ama her zaman böyle mi? Numara.
5. Düzeltilmiş R Kare Hatası
Düzeltilmiş R Kare Hatası, daha fazla özellik eklendiğinde model performansındaki gelişmeyi doğru bir şekilde tahmin edememe şeklindeki R Kare eksikliğinin üstesinden gelir. R Kare değeri eksik bir resim gösterir ve çok yanıltıcı olabilir.

Özünde, özellik modelin performansını düşürüyor olsa bile, yeni özellikler eklendikçe R sqr değeri her zaman artar. Modelinizin ne zaman fazla takılmaya başladığını bilmiyor olabilirsiniz.
Düzeltilmiş R Sqr, değişkenlerdeki bu artışa göre ayarlanır ve bir özellik modeli iyileştirmediğinde değeri düşer. Farklı sayıda bağımsız değişken içeren regresyon modelleri için uyum iyiliğini karşılaştırmak için ayarlanmış R sqr kullanıyoruz.
Okuyun: Makine Öğreniminde Çapraz Doğrulama
Sınıflandırma Metrikleri
Regresyon metrikleri gibi, sınıflandırma için de farklı metrik türleri vardır. Farklı sınıflandırma ve veri türleri için farklı metrik türleri kullanılır. Bunların üzerinden tek tek geçelim.
1. Doğruluk
Doğruluk, sınıflandırma için en basit ve basit ölçümdür. Yalnızca toplam örnek sayısından tahminlerin yüzde kaçının doğru olduğunu hesaplar. Örneğin, 100 örnekten 90'ı doğru tahmin edilirse, doğruluk %90 olacaktır. Ancak doğruluk, sınıf dengesizliğini hesaba katmadığı için çoğu sınıflandırma görevi için doğru ölçüm değildir.
2. Hassasiyet, Geri Çağırma
Model performansının daha iyi bir resmi için, model tarafından kaç tane yanlış pozitifin tahmin edildiğini ve kaç tane yanlış negatifin tahmin edildiğini görmemiz gerekir. Kesinlik bize toplam pozitiflerden kaçının pozitif olarak tahmin edildiğini söyler. Veya başka bir deyişle, pozitif olarak doğru bir şekilde tahmin edilen pozitif örneklerin toplam pozitif tahminler içindeki oranı. Hatırlama bize toplam gerçek pozitiflerden kaç tane gerçek pozitifin tahmin edildiğini söyler. Veya başka bir deyişle, gerçek pozitiflerin toplam sayısından tahmin edilen gerçek pozitiflerin oranını verir.
3. Karışıklık Matrisi
Bir Karışıklık Matrisi, Doğru Pozitiflerin, Gerçek Negatiflerin, Yanlış Pozitiflerin ve Yanlış Negatiflerin bir birleşimidir. Bize gerçek gerçek pozitif ve negatiflerden kaç tanesinin tahmin edildiğini söyler. N'nin sınıf sayısı olduğu bir NxN matrisidir. Sonuçta Confusion Matrix çok kafa karıştırıcı değil!
4. F1 Puanı
F1 Skoru, Kesinlik ve Geri Çağırmayı bir ortalama çıkış değeri için tek bir ölçümde birleştirir. F1 Skoru aslında Hassasiyet ve Geri Çağırma değerlerinin harmonik ortalamasıdır. Bu çok önemlidir, çünkü bazı durumlarda hatırlama değeri 1, yani %100 ve kesinlik değeri 0 ise, Harmonik ortalama yerine Kesinlik ve Geri Çağırmanın aritmetik ortalamasını alırsak F1 puanı 0,5 olacaktır. Ama Harmonik ortalamayı alırsak F1 Skoru 0 olur. Bu bize Harmonik ortalamanın uç değerleri daha çok cezalandırdığını söyler.
Kontrol edin: Makine Öğreniminde 5 Tür Sınıflandırma Algoritması
5. AUC-ROC
Doğruluk ve F1 puanı, dengesiz veriler söz konusu olduğunda iyi ölçümler değildir. AUC (Eğri Altındaki Alan) ROC (Alıcı Operatör Karakteristikleri) eğrisi bize model tarafından tahmin edilen sınıfların ayrılabilirlik derecesini söyler. Skor yükseldikçe, modelin 0'ları 0'lar ve 1'leri 1'ler olarak tahmin etme yeteneği artar. AUC ROC Eğrisi, Y ekseninde Gerçek Pozitif Oranı (TPR) ve X ekseninde Yanlış Pozitif oranı kullanılarak çizilir.
TPR = TP/TP+FN
FPR = FP/TN+FP

AUC ROC'nin 1 çıkması modelin tüm sınıfları doğru tahmin ettiği ve tam ayrılabilirlik olduğu anlamına gelir.
0,5 ise, ayrılabilirlik olmadığı ve modelin tüm rasgele çıktıları tahmin ettiği anlamına gelir.
0 ise, modelin ters çevrilmiş sınıfları öngördüğü anlamına gelir. Yani 0'lar 1'ler ve 1'ler 0'lar.
Gitmeden önce
Bu makalede, sınıflandırma ve regresyon için çeşitli performans ölçütlerini tartıştık. Bunlar en çok kullanılan metriklerdir ve bu nedenle onlar hakkında bilmek çok önemlidir. Sınıflandırma için, Kappa Skoru, K'de Kesinlik, K'de Ortalama Hassasiyet vb. gibi çok sınıflı sınıflandırma ve çok etiketli sınıflandırma için özel olarak yapılmış daha da fazla metrik vardır.
Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.