Bewertungsmetriken im maschinellen Lernen: Die 10 wichtigsten Metriken, die Sie kennen sollten
Veröffentlicht: 2021-01-05Die Entscheidung für die richtige Metrik ist ein entscheidender Schritt in jedem Machine-Learning-Projekt. Jedes Modell für maschinelles Lernen muss anhand einiger Metriken bewertet werden, um zu überprüfen, wie gut es die Daten gelernt und mit Testdaten gearbeitet hat. Diese werden als Leistungsmetriken bezeichnet und sind für Regressions- und Klassifizierungsmodelle unterschiedlich.
Am Ende dieses Tutorials wissen Sie:
- Metriken für die Regression
- Metriken für verschiedene Klassifizierungstypen
- Wann Sie welche Art von Metrik bevorzugen
Inhaltsverzeichnis
Metriken für die Regression
Regressionsprobleme beinhalten die Vorhersage eines Ziels mit kontinuierlichen Werten aus einem Satz unabhängiger Features. Dies ist eine Art überwachtes Lernen, bei dem wir die Vorhersage mit dem tatsächlichen Wert vergleichen und dann den Differenz-/Fehlerterm berechnen. Je geringer der Fehler, desto besser die Leistung des Modells. Wir haben verschiedene Arten von Regressionsmetriken, die derzeit am häufigsten verwendet werden. Gehen wir sie nacheinander durch.
1. Mittlerer quadratischer Fehler
Mean Squared Error (MSE) ist die am häufigsten verwendete Regressionsmetrik. Es verwendet quadrierte Fehler (Y_Pred – Y_actual), um Fehler zu berechnen. Durch die Quadrierung ergeben sich zwei wichtige Änderungen gegenüber der üblichen Fehlerrechnung. Erstens, dass der Fehler negativ sein kann und das Quadrieren der Fehler alle Fehler in positive Terme umwandelt und daher leicht hinzugefügt werden kann.
Zweitens, dass das Quadrieren die bereits großen Fehler vergrößert und die Fehler mit Werten kleiner als 1 reduziert. Dieser Vergrößerungseffekt bestraft die Fälle, in denen der Fehler groß ist. MSE wird stark bevorzugt, weil es an allen Punkten differenzierbar ist, um den Gradienten der Verlustfunktion zu berechnen.
2. Mittlerer quadratischer Fehler
Der Nachteil von MSE besteht darin, dass es die Fehlerterme quadriert, was zu einer Überschätzung der Fehler führt. Root Mean Squared Error (RMSE) hingegen zieht eine Quadratwurzel, um diesen Effekt zu reduzieren. Dies ist nützlich, wenn große Fehler nicht erwünscht sind.

3. Mittlerer absoluter Fehler
Der mittlere absolute Fehler (MAE) berechnet den Fehler, indem ein absoluter Wert des Fehlers genommen wird, der Y_Pred – Y_Actual ist. Dies ist nützlich, da es im Gegensatz zu MSE die größeren Fehler nicht überschätzt und auch gegenüber Ausreißern robust ist. Daher ist es nicht für Anwendungen geeignet, die eine besondere Behandlung von Ausreißern erfordern. MAE ist ein linearer Score, was bedeutet, dass alle individuellen Unterschiede gleich gewichtet werden.
4. R-Quadrat-Fehler
R Squared ist ein Anpassungsmaß für Regressionsmodelle. Es berechnet die Streuung von Datenpunkten entlang der Regressionsanpassungslinie. Es wird auch als Bestimmtheitsmaß bezeichnet. Ein höherer R-Quadrat-Wert bedeutet, dass der Unterschied zwischen dem beobachteten Wert und den tatsächlichen Werten geringer ist.
Der R-Quadrat-Wert nimmt weiter zu, da dem Modell immer mehr Funktionen hinzugefügt werden. Dies bedeutet, dass R Squared nicht das richtige Maß für die Leistung ist, da es ein großes R Square ergeben könnte, selbst wenn die Funktionen keinen Mehrwert bringen.
In der Regressionsanalyse wird R Squared verwendet, um die Stärke der Korrelation zwischen den Merkmalen und dem Ziel zu bestimmen. Einfach ausgedrückt misst es die Stärke der Beziehung zwischen Ihrem Modell und der abhängigen Variablen auf einer Skala von 0 – 100 %. R Squared ist das Verhältnis zwischen der Residual Sum of Squares (SSR) und der Total Sum of Squares (SST). R² ist definiert als:
R Sqr = 1 – SSR/SST ,wobei
SSR ist die Summe der Quadrate der Differenz zwischen dem tatsächlich beobachteten Wert Y und dem vorhergesagten Wert Y_Pred. SST ist die Summe der Quadrate der Differenz zwischen dem tatsächlich beobachteten Wert Y und dem Durchschnitt des beobachteten Werts Y_Avg.
Im Allgemeinen ist das Modell besser, je größer das R sqr ist. Aber ist das immer so? Nein.
5. Angepasster R-Quadrat-Fehler
Der angepasste R-Quadrat-Fehler überwindet den Nachteil von R-Quadrat, dass die Verbesserung der Modellleistung nicht korrekt geschätzt werden kann, wenn weitere Features hinzugefügt werden. Der R-Quadrat-Wert zeigt ein unvollständiges Bild und kann sehr irreführend sein.

Im Wesentlichen erhöht sich der R sqr -Wert immer beim Hinzufügen neuer Features, selbst wenn das Feature die Leistung des Modells verringert. Möglicherweise wissen Sie nicht, wann Ihr Modell mit der Überanpassung begann.
Das angepasste R Sqr passt sich dieser Zunahme von Variablen an und sein Wert nimmt ab, wenn ein Merkmal das Modell nicht verbessert. Wir verwenden das angepasste R sqr , um die Anpassungsgüte für Regressionsmodelle zu vergleichen, die eine unterschiedliche Anzahl unabhängiger Variablen enthalten.
Lesen Sie: Kreuzvalidierung beim maschinellen Lernen
Metriken für die Klassifizierung
Genau wie Regressionsmetriken gibt es auch verschiedene Arten von Metriken für die Klassifizierung. Unterschiedliche Arten von Metriken werden für unterschiedliche Arten von Klassifizierungen und Daten verwendet. Gehen wir sie nacheinander durch.
1. Genauigkeit
Genauigkeit ist die direkteste und einfachste Metrik für die Klassifizierung. Es berechnet nur, wie viel Prozent der Vorhersagen von der Gesamtzahl der Instanzen korrekt sind. Wenn beispielsweise 90 von 100 Instanzen korrekt vorhergesagt werden, beträgt die Genauigkeit 90 %. Genauigkeit ist jedoch nicht die richtige Metrik für die meisten Klassifizierungsaufgaben, da sie das Klassenungleichgewicht nicht berücksichtigt.
2. Präzision, Rückruf
Um ein besseres Bild der Modellleistung zu erhalten, müssen wir sehen, wie viele falsche Positive vorhergesagt wurden und wie viele falsche Negative vom Modell vorhergesagt wurden. Precision sagt uns, wie viele der insgesamt positiven Ergebnisse als positiv vorhergesagt wurden. Oder mit anderen Worten, der Anteil positiver Instanzen, die korrekt als positiv vorhergesagt wurden, an allen positiven Vorhersagen. Recall sagt uns, wie viele echte Positive von den gesamten tatsächlichen Positiven vorhergesagt wurden. Oder mit anderen Worten, es gibt den Anteil der vorhergesagten wahren Positiven an der Gesamtzahl der tatsächlichen Positiven an.
3. Verwirrungsmatrix
Eine Konfusionsmatrix ist eine Kombination aus True Positives, True Negatives, False Positives und False Negatives. Es sagt uns, wie viele von den tatsächlichen wahren Positiven und Negativen vorhergesagt wurden. Es ist eine NxN-Matrix, wobei N die Anzahl der Klassen ist. Confusion Matrix ist doch nicht so verwirrend!
4. F1-Ergebnis
F1 Score kombiniert Precision und Recall in einer Metrik für einen gemittelten Wert. F1 Score ist eigentlich das harmonische Mittel der Precision- und Recall-Werte. Dies ist entscheidend, denn wenn in einigen Fällen der Recall-Wert 1 ist, dh 100 %, und der Precision-Wert 0 ist, wird der F1-Score 0,5 sein, wenn wir das arithmetische Mittel von Precision & Recall anstelle des harmonischen Mittels nehmen. Aber wenn wir den harmonischen Mittelwert nehmen, ist der F1-Score 0. Dies sagt uns, dass der harmonische Mittelwert extremere Werte stärker bestraft.
Schauen Sie sich an: 5 Arten von Klassifizierungsalgorithmen im maschinellen Lernen
5. AUC-ROC
Genauigkeit und F1-Score sind keine guten Metriken, wenn es um unausgewogene Daten geht. Die AUC-Kurve (Area Under Curve) und die ROC-Kurve (Receiver Operator Characteristics) geben Auskunft über den vom Modell vorhergesagten Grad der Trennbarkeit von Klassen. Je höher die Punktzahl, desto größer ist die Fähigkeit des Modells, Nullen als Nullen und Einsen als Einsen vorherzusagen. Die AUC-ROC-Kurve wird unter Verwendung der Richtig-Positiv-Rate (TPR) auf der Y-Achse und der Falsch-Positiv-Rate auf der X-Achse aufgetragen.
TPR = TP/TP+FN
FPR = FP/TN+FP

Wenn AUC ROC 1 beträgt, bedeutet dies, dass das Modell alle Klassen korrekt vorhersagt und eine vollständige Trennbarkeit vorliegt.
Wenn es 0,5 ist, bedeutet dies, dass es keine Trennbarkeit gibt und das Modell alle zufälligen Ausgaben vorhersagt.
Wenn es 0 ist, bedeutet dies, dass das Modell die invertierten Klassen vorhersagt. Das heißt, 0s als 1s und 1s als 0s.
Bevor du gehst
In diesem Artikel haben wir die verschiedenen Leistungsmetriken für die Klassifizierung und Regression besprochen. Dies sind die am häufigsten verwendeten Metriken und daher ist es wichtig, sie zu kennen. Für die Klassifizierung gibt es noch mehr Metriken, die speziell für die Klassifizierung mit mehreren Klassen und Klassifizierungen mit mehreren Labels erstellt wurden, wie z. B. Kappa-Score, Präzision bei K, durchschnittliche Präzision bei K usw.
Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.