Wskaźniki oceny w uczeniu maszynowym: 10 najważniejszych wskaźników, które powinieneś znać

Opublikowany: 2021-01-05

Wybór odpowiedniej metryki jest kluczowym krokiem w każdym projekcie uczenia maszynowego. Każdy model uczenia maszynowego musi być oceniany pod kątem pewnych metryk, aby sprawdzić, jak dobrze nauczył się danych i wykonał na danych testowych. Są to tak zwane metryki wydajności i różnią się one w przypadku modeli regresji i klasyfikacji.

Pod koniec tego samouczka dowiesz się:

Metryki regresji
Metryki dla różnych typów klasyfikacji
Kiedy preferować rodzaj metryki

Spis treści

Metryki regresji

Problemy regresji obejmują przewidywanie celu z wartościami ciągłymi z zestawu niezależnych cech. Jest to rodzaj nadzorowanego uczenia się, w którym porównujemy przewidywania z rzeczywistą wartością, a następnie obliczamy składnik różnicy/błędu. Mniejszy błąd, lepsza wydajność modelu. Mamy różne rodzaje metryk regresji, które są obecnie najczęściej używane. Przyjrzyjmy się im jeden po drugim.

1. Średnio-kwadratowy błąd

Błąd średniokwadratowy (MSE) to najczęściej używana metryka regresji. Wykorzystuje błędy kwadratowe (Y_Pred – Y_actual) do obliczania błędów. Podnoszenie do kwadratu powoduje dwie ważne zmiany w zwykłym obliczaniu błędu. Po pierwsze, błąd może być ujemny, a podniesienie do kwadratu błędów zamieni wszystkie błędy w wyrażenia dodatnie, a zatem można je łatwo dodać.

Po drugie, podnoszenie do kwadratu zwiększa błędy, które są już duże i zmniejsza błędy o wartościach mniejszych niż 1. Ten efekt powiększenia karze przypadki, w których błąd jest duży. MSE jest wysoce preferowany, ponieważ jest różniczkowalny we wszystkich punktach, aby obliczyć gradient funkcji straty.

2. Główny błąd średniokwadratowy

Wadą MSE jest to, że podwaja terminy błędów, które prowadzą do przeszacowania błędów. Z drugiej strony, pierwiastek średniokwadratowy (RMSE) wylicza pierwiastek kwadratowy, aby zmniejszyć ten efekt. Jest to przydatne, gdy nie są pożądane duże błędy.

3. Średni błąd bezwzględny

Średni błąd bezwzględny (MAE) oblicza błąd, przyjmując bezwzględną wartość błędu, która jest Y_Pred – Y_Actual. Jest to przydatne, ponieważ w przeciwieństwie do MSE nie przecenia większych błędów, a także jest odporne na wartości odstające. Dlatego nie nadaje się do zastosowań, które wymagają specjalnego traktowania odstających. MAE jest wynikiem liniowym, co oznacza, że wszystkie indywidualne różnice są ważone jednakowo.

4. Błąd R-kwadrat

R kwadrat jest miarą dobroci dopasowania modeli regresji. Oblicza rozrzut punktów danych wzdłuż linii dopasowania regresji. Nazywany jest również współczynnikiem determinacji. Większa wartość R-kwadrat oznacza, że jest mniejsza różnica między wartością obserwowaną a wartościami rzeczywistymi.

Wartość R-kwadrat stale rośnie w miarę dodawania do modelu coraz większej liczby funkcji. Oznacza to, że R Squared nie jest właściwą miarą wydajności, ponieważ może dać duży R Square, nawet jeśli cechy nie dodają żadnej wartości.

W analizie regresji, R-kwadrat jest używany do określenia siły korelacji między cechami a celem. Mówiąc prościej, mierzy siłę związku między Twoim modelem a zmienną zależną w skali od 0 do 100%. R do kwadratu to stosunek między rezydualną sumą kwadratów (SSR) a całkowitą sumą kwadratów (SST). R sqr definiuje się jako:

R Sqr = 1 – SSR/SST ,gdzie

SSR jest sumą kwadratów różnicy między rzeczywistą obserwowaną wartością Y a przewidywaną wartością Y_Pred. SST to suma kwadratów różnicy między rzeczywistą wartością obserwowaną Y a średnią wartością obserwowaną Y_Avg.

Generalnie im więcej R sqr, tym lepszy jest model. Ale czy tak jest zawsze? Nie.

5. Skorygowany błąd kwadratowy R

Skorygowany błąd R-kwadrat pokonuje wady R-kwadrat polegające na niemożności prawidłowego oszacowania poprawy wydajności modelu po dodaniu większej liczby funkcji. R Wartość kwadratowa pokazuje niepełny obraz i może być bardzo myląca.

Zasadniczo wartość R sqr zawsze wzrasta po dodaniu nowych funkcji, nawet jeśli funkcja zmniejsza wydajność modelu. Możesz nie wiedzieć, kiedy Twój model zaczął się przesadzać.

Skorygowany R Sqr dostosowuje się do tego wzrostu zmiennych, a jego wartość zmniejsza się, gdy funkcja nie poprawia modelu. Do porównania dobroci dopasowania modeli regresji, które zawierają różne liczby zmiennych niezależnych, używamy skorygowanego R sqr.

Przeczytaj: Walidacja krzyżowa w uczeniu maszynowym

Metryki do klasyfikacji

Podobnie jak metryki regresji, istnieją również różne rodzaje metryk klasyfikacji. Różne typy metryk są używane do różnych typów klasyfikacji i danych. Przyjrzyjmy się im jeden po drugim.

1. Dokładność

Dokładność jest najprostszą i najprostszą miarą klasyfikacji. Po prostu oblicza, jaki procent prognoz jest poprawnych z całkowitej liczby wystąpień. Na przykład, jeśli poprawnie przewiduje się 90 ze 100 wystąpień, dokładność wyniesie 90%. Dokładność nie jest jednak właściwą miarą dla większości zadań klasyfikacyjnych, ponieważ nie uwzględnia nierównowagi klas.

2. Precyzja, przypomnienie

Aby uzyskać lepszy obraz wydajności modelu, musimy sprawdzić, ile fałszywie dodatnich wyników zostało przewidzianych przez model, a ile fałszywie ujemnych wyników. Precyzja informuje nas, ile wszystkich pozytywów przewidywano jako pozytywy. Innymi słowy, odsetek pozytywnych przypadków, które zostały prawidłowo przewidziane jako pozytywne, z wszystkich pozytywnych prognoz. Przypomnijmy, ile przewidziano prawdziwych pozytywów spośród wszystkich rzeczywistych pozytywów. Innymi słowy, podaje proporcję przewidywanych prawdziwych wyników pozytywnych w stosunku do całkowitej liczby rzeczywistych wyników pozytywnych.

3. Matryca zamieszania

Matryca Pomyłek to połączenie prawdziwych pozytywów, prawdziwych negatywów, fałszywych pozytywów i fałszywie negatywów. Mówi nam, ile zostało przepowiedzianych spośród rzeczywistych pozytywów i negatywów. Jest to macierz NxN, gdzie N jest liczbą klas. Confusion Matrix wcale nie jest tak zagmatwana!

4. Wynik F1

F1 Score łączy precyzję i przypomnienie w jedną metrykę w celu uzyskania uśrednionej wartości. F1 Score jest w rzeczywistości średnią harmoniczną wartości precyzji i przywołania. Jest to kluczowe, ponieważ jeśli w niektórych przypadkach wartość przywracania wynosi 1, tj. 100%, a wartość precyzji wynosi 0, wynik F1 wyniesie 0,5, jeśli weźmiemy średnią arytmetyczną Precyzji i Przywołania zamiast średniej Harmonicznej. Ale jeśli weźmiemy średnią harmoniczną, wynik F1 wyniesie 0. To mówi nam, że średnia harmoniczna bardziej karze wartości ekstremalne.

Sprawdź: 5 rodzajów algorytmów klasyfikacji w uczeniu maszynowym

5. AUC-ROC

Dokładność i wynik F1 nie są dobrymi wskaźnikami, jeśli chodzi o niezrównoważone dane. Krzywa AUC (obszar pod krzywą) ROC (charakterystyka operatora odbiornika) mówi nam o stopniu rozdzielności klas przewidywanych przez model. Im wyższy wynik, tym większa zdolność modelu do przewidywania zer jako zer i jedynek jako jedynek. Krzywa ROC AUC jest wykreślana przy użyciu współczynnika prawdziwie dodatnich (TPR) na osi Y i współczynnika fałszywie dodatnich na osi X.

TPR = TP/TP+FN

FPR = FP/TN+FP

Jeśli AUC ROC wyjdzie na 1, oznacza to, że model poprawnie przewiduje wszystkie klasy i istnieje pełna rozdzielność.

Jeśli wynosi 0,5, oznacza to, że nie ma możliwości rozdzielenia i model przewiduje wszystkie losowe wyniki.

Jeśli wynosi 0, oznacza to, że model przewiduje odwrócone klasy. Oznacza to, że zera jako jedynki i jedynki jako zera.

Zanim pójdziesz

W tym artykule omówiliśmy różne metryki wydajności klasyfikacji i regresji. Są to najczęściej używane wskaźniki, dlatego ważne jest, aby o nich wiedzieć. Jeśli chodzi o klasyfikację, istnieje jeszcze więcej metryk stworzonych specjalnie do klasyfikacji wieloklasowej i klasyfikacji wieloetykietowej, takich jak wynik Kappa, precyzja w K, średnia precyzja w K itp.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Poprowadź rewolucję technologiczną napędzaną sztuczną inteligencją

DYPLOM PG Z UCZENIA MASZYNOWEGO I SZTUCZNEJ INTELIGENCJI

Ucz się więcej