Valori de evaluare în învățarea automată: Top 10 valori pe care ar trebui să le cunoașteți

Publicat: 2021-01-05

Alegerea valorii corecte este un pas crucial în orice proiect de învățare automată. Fiecare model de învățare automată trebuie evaluat în funcție de anumite valori pentru a verifica cât de bine a învățat datele și a funcționat pe datele de testare. Acestea se numesc Măsuri de performanță și sunt diferite pentru modelele de regresie și clasificare.

Până la sfârșitul acestui tutorial, veți ști:

Metrici pentru regresie
Metrici pentru diferite tipuri de clasificare
Când să preferați ce tip de măsură

Cuprins

Metrici pentru regresie

Problemele de regresie implică prezicerea unei ținte cu valori continue dintr-un set de caracteristici independente. Acesta este un tip de învățare supravegheată în care comparăm predicția cu valoarea reală și apoi calculăm diferența/termenul de eroare. Mai mică eroarea, cu atât mai bună este performanța modelului. Avem diferite tipuri de valori de regresie care sunt cele mai utilizate în prezent. Să trecem peste ele unul câte unul.

1. Eroare pătratică medie

Eroarea medie pătrată (MSE) este cea mai utilizată măsură de regresie. Utilizează erori pătrate (Y_Pred – Y_actual) pentru a calcula erorile. Pătratul are ca rezultat două modificări importante ale calculului obișnuit al erorii. Unul, că eroarea poate fi negativă și pătrarea erorilor va transforma toate erorile în termeni pozitivi și, prin urmare, poate fi adăugată cu ușurință.

În al doilea rând, că pătratul crește erorile care sunt deja mari și reduce erorile cu valori mai mici de 1. Acest efect de mărire penalizează cazurile în care eroarea este mare. MSE este foarte preferat deoarece este diferențiabil în toate punctele pentru a calcula gradientul funcției de pierdere.

2. Eroare pătratică medie

Dezavantajul MSE este că încadrează termenii de eroare care conduc la supraestimarea erorilor. Root Mean Squared Error (RMSE), pe de altă parte, ia o rădăcină pătrată pentru a reduce acest efect. Acest lucru este util atunci când nu sunt dorite erori mari.

3. Eroare absolută medie

Eroare absolută medie (MAE) calculează eroarea luând o valoare absolută a erorii care este Y_Pred – Y_Actual. Acest lucru este util, deoarece nu supraestimează erorile mai mari, spre deosebire de MSE și este, de asemenea, robust la valori aberante. Prin urmare, nu este potrivit pentru aplicații care necesită un tratament special pentru valori aberante. MAE este un scor liniar, ceea ce înseamnă că toate diferențele individuale sunt ponderate în mod egal.

4. Eroare R pătrat

R Squared este o măsură de potrivire bună pentru modelele de regresie. Acesta calculează împrăștierea punctelor de date de-a lungul liniei de ajustare a regresiei. Se mai numește și Coeficient de determinare. O valoare mai mare R pătrat înseamnă că există o diferență mai mică între valoarea observată și valorile reale.

Valoarea R Squared continuă să crească pe măsură ce din ce în ce mai multe funcții sunt adăugate în model. Aceasta înseamnă că R Squared nu este măsura corectă a performanței, deoarece ar putea oferi un R Square mare, chiar dacă caracteristicile nu adaugă nicio valoare.

În analiza de regresie, R pătrat este folosit pentru a determina puterea corelației dintre caracteristici și țintă. În termeni simpli, măsoară puterea relației dintre modelul dvs. și variabila dependentă pe o scară de la 0 la 100%. R pătrat este raportul dintre suma de pătrate reziduală (SSR) și suma totală de pătrate (SST). R sqr este definit ca:

R Sqr = 1 – SSR/SST ,unde

SSR este suma pătratelor diferenței dintre valoarea reală observată Y și valoarea prezisă Y_Pred. SST este suma pătratelor diferenței dintre valoarea reală observată Y și media valorii observate Y_Avg.

În general, cu mai mult R pătrat, cu atât mai bine este modelul. Dar este așa întotdeauna? Nu.

5. Eroare R pătrat ajustată

Eroarea R Squared ajustată depășește deficiența R Squared de a nu putea estima corect îmbunătățirea performanței modelului atunci când sunt adăugate mai multe caracteristici. Valoarea R Square arată o imagine incompletă și poate fi foarte înșelătoare.

În esență, valoarea R sqr crește întotdeauna la adăugarea de noi caracteristici, chiar dacă caracteristica scade performanța modelului. S-ar putea să nu știi când modelul tău a început să se supraajusteze.

R Sqr ajustat se ajustează pentru această creștere a variabilelor și valoarea acesteia scade atunci când o caracteristică nu îmbunătățește modelul. Folosim R sqr ajustat pentru a compara bonitatea potrivirii pentru modelele de regresie care conțin un număr diferit de variabile independente.

Citiți: Validarea încrucișată în Machine Learning

Metrici pentru clasificare

La fel ca valorile de regresie, există și diferite tipuri de valori pentru clasificare. Sunt utilizate diferite tipuri de metrici pentru diferite tipuri de clasificare și date. Să trecem peste ele unul câte unul.

1. Precizie

Precizia este cea mai simplă și mai simplă măsură pentru clasificare. Acesta calculează doar ce procent de predicții sunt corecte din numărul total de instanțe. De exemplu, dacă 90 din 100 de instanțe sunt prezise corect, atunci precizia va fi de 90%. Cu toate acestea, acuratețea nu este metrica corectă pentru majoritatea sarcinilor de clasificare, deoarece nu ia în considerare dezechilibrul clasei.

2. Precizie, rechemare

Pentru o imagine mai bună a performanței modelului, trebuie să vedem câte false pozitive au fost prezise și câte false negative au fost prezise de model. Precizia ne spune câte din totalul pozitive au fost prezise ca pozitive. Sau, cu alte cuvinte, proporția de cazuri pozitive care au fost prezise corect ca pozitive din totalul predicțiilor pozitive. Recall ne spune câte pozitive adevărate au fost prezise din totalul pozitive reale. Sau, cu alte cuvinte, oferă proporția de pozitive reale prezise din numărul total de pozitive reale.

3. Matricea confuziei

O matrice de confuzie este o combinație de adevărate pozitive, adevărate negative, false pozitive și false negative. Ne spune câte au fost prezise din adevăratele pozitive și negative. Este o matrice NxN unde N este numărul de clase. Confusion Matrix nu este atât de confuz până la urmă!

4. Scor F1

Scorul F1 combină Precizia și Rechemarea într-o singură valoare pentru o valoare medie. Scorul F1 este de fapt media armonică a valorilor de Precizie și Recall. Acest lucru este esențial deoarece, dacă într-un caz valoarea de retragere este 1, adică 100% și valoarea preciziei este 0, scorul F1 va fi 0,5 dacă luăm media aritmetică a Preciziei și Retragerii în loc de medie armonică. Dar dacă luăm media armonică, Scorul F1 va fi 0. Acest lucru ne spune că media armonică penalizează mai mult valorile extreme.

Consultați: 5 tipuri de algoritmi de clasificare în învățarea automată

5. AUC-ROC

Precizia și scorul F1 nu sunt valori bune când vine vorba de date dezechilibrate. Curba AUC (Area Under Curve) ROC (Receiver Operator Characteristics) ne spune gradul de separabilitate al claselor prezis de model. Cu cât scorul este mai mare, cu atât este mai mare capacitatea modelului de a prezice 0 ca 0 și 1 ca 1. Curba AUC ROC este reprezentată folosind rata de pozitiv adevărat (TPR) pe axa Y și rata de fals pozitiv pe axa X.

TPR = TP/TP+FN

FPR = FP/TN+FP

Dacă AUC ROC iese a fi 1, înseamnă că modelul prezice corect toate clasele și există o separabilitate completă.

Dacă este 0,5, înseamnă că nu există separabilitate și modelul prezice toate ieșirile aleatoare.

Dacă este 0, înseamnă că modelul prezice clasele inversate. Adică 0s ca 1s și 1s ca 0s.

Inainte sa pleci

În acest articol, am discutat despre diferitele valori de performanță pentru clasificare și regresie. Acestea sunt cele mai utilizate valori și, prin urmare, este crucial să le cunoaștem. Pentru clasificare, există și mai multe valori care sunt create special pentru clasificarea multi-clasă și clasificarea cu mai multe etichete, cum ar fi scorul Kappa, Precizia la K, Precizia medie la K etc.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Conduceți revoluția tehnologică condusă de inteligența artificială

PG DIPLOMĂ ÎN ÎNVĂŢAREA MACHINĂ ŞI INTELIGENTĂ ARTIFICIALĂ

Aflați mai multe