Metriche di valutazione nell'apprendimento automatico: le 10 principali metriche che dovresti conoscere

Pubblicato: 2021-01-05

Decidere la metrica giusta è un passaggio cruciale in qualsiasi progetto di Machine Learning. Ogni modello di Machine Learning deve essere valutato rispetto ad alcune metriche per verificare quanto bene ha appreso i dati ed eseguito sui dati di test. Questi sono chiamati Performance Metrics e sono diversi per i modelli di regressione e classificazione.

Alla fine di questo tutorial, saprai:

  • Metriche per la regressione
  • Metriche per diversi tipi di classificazione
  • Quando preferire quale tipo di metrica

Sommario

Metriche per la regressione

I problemi di regressione implicano la previsione di un obiettivo con valori continui da un insieme di caratteristiche indipendenti. Questo è un tipo di apprendimento supervisionato in cui confrontiamo la previsione con il valore effettivo e quindi calcoliamo il termine di differenza/errore. Minore è l'errore, migliori sono le prestazioni del modello. Abbiamo diversi tipi di metriche di regressione attualmente più utilizzate. Esaminiamoli uno per uno.

1. Errore quadratico medio

L'errore quadratico medio (MSE) è la metrica di regressione più utilizzata. Utilizza gli errori quadrati (Y_Pred – Y_actual) per calcolare gli errori. La quadratura comporta due importanti modifiche al consueto calcolo dell'errore. Uno, che l'errore può essere negativo e la quadratura degli errori trasformerà tutti gli errori in termini positivi e quindi possono essere facilmente aggiunti.

In secondo luogo, che la quadratura aumenta gli errori che sono già grandi e riduce gli errori con valori inferiori a 1. Questo effetto di ingrandimento penalizza i casi in cui l'errore è grande. MSE è altamente preferito perché è differenziabile in tutti i punti per calcolare il gradiente della funzione di perdita.

2. Errore al quadrato della media radice

Il difetto di MSE è che fa quadrare i termini di errore che portano alla sovrastima degli errori. Root Mean Squared Error (RMSE), d'altra parte, prende una radice quadrata per ridurre tale effetto. Ciò è utile quando non si desiderano grandi errori.

3. Errore assoluto medio

Errore assoluto medio (MAE) calcola l'errore prendendo un valore assoluto dell'errore che è Y_Pred – Y_Actual. Ciò è utile in quanto non sovrastima gli errori più grandi a differenza di MSE ed è anche robusto per i valori anomali. Pertanto, non è adatto per applicazioni che richiedono un trattamento speciale per i valori anomali. MAE è un punteggio lineare, il che significa che tutte le differenze individuali sono ponderate allo stesso modo.

4. Errore R al quadrato

R Squared è una misura di adattamento della bontà per i modelli di regressione. Calcola la dispersione dei punti dati lungo la retta di adattamento della regressione. Viene anche chiamato Coefficiente di Determinazione. Un valore R al quadrato più alto significa che c'è meno differenza tra il valore osservato e i valori effettivi.

Il valore R al quadrato continua ad aumentare man mano che vengono aggiunte sempre più funzionalità al modello. Ciò significa che R Squared non è la misura corretta delle prestazioni in quanto potrebbe fornire un grande R Square anche se le funzionalità non aggiungono alcun valore.

Nell'analisi di regressione, R al quadrato viene utilizzato per determinare la forza della correlazione tra le caratteristiche e l'obiettivo. In parole povere, misura la forza della relazione tra il tuo modello e la variabile dipendente su una scala da 0 a 100%. R al quadrato è il rapporto tra la somma residua dei quadrati (SSR) e la somma totale dei quadrati (SST). R sqr è definito come:

R Sqr = 1 – SSR/SST , dove

SSR è la somma dei quadrati della differenza tra il valore effettivo osservato Y e il valore previsto Y_Pred. SST è la somma dei quadrati della differenza tra il valore effettivo osservato Y e la media del valore osservato Y_Avg.

In genere, più R sqr, migliore è il modello. Ma è sempre così? No.

5. Errore al quadrato R regolato

L'errore R al quadrato corretto supera il difetto di R al quadrato di non essere in grado di stimare correttamente il miglioramento delle prestazioni del modello quando vengono aggiunte più funzionalità. Il valore R Square mostra un'immagine incompleta e può essere molto fuorviante.

In sostanza, il valore di R sqr aumenta sempre con l'aggiunta di nuove funzionalità, anche se la funzionalità sta diminuendo le prestazioni del modello. Potresti non sapere quando il tuo modello ha iniziato a adattarsi.

R Sqr rettificato si adatta a questo aumento di variabili e il suo valore diminuisce quando una funzione non migliora il modello. Usiamo R sqr aggiustato per confrontare la bontà di adattamento per i modelli di regressione che contengono numeri diversi di variabili indipendenti.

Leggi: Convalida incrociata in Machin Learning

Metriche per la classificazione

Proprio come le metriche di regressione, esistono anche diversi tipi di metriche per la classificazione. Diversi tipi di metriche vengono utilizzati per diversi tipi di classificazione e dati. Esaminiamoli uno per uno.

1. Precisione

La precisione è la metrica più semplice e diretta per la classificazione. Calcola semplicemente quale percentuale di previsioni è corretta dal numero totale di istanze. Ad esempio, se 90 istanze su 100 sono previste correttamente, l'accuratezza sarà del 90%. La precisione, tuttavia, non è la metrica corretta per la maggior parte delle attività di classificazione poiché non tiene conto dello squilibrio di classe.

2. Precisione, richiamo

Per un quadro migliore delle prestazioni del modello, è necessario vedere quanti falsi positivi sono stati previsti e quanti falsi negativi sono stati previsti dal modello. La precisione ci dice quanti dei positivi totali sono stati previsti come positivi. O in altre parole, la proporzione di istanze positive che sono state correttamente previste come positive rispetto alle previsioni positive totali. Recall ci dice quanti veri positivi sono stati previsti sul totale dei positivi effettivi. O in altre parole, fornisce la proporzione dei veri positivi previsti rispetto al numero totale dei positivi effettivi.

3. Matrice di confusione

Una matrice di confusione è una combinazione di Veri Positivi, Veri Negativi, Falsi Positivi e Falsi Negativi. Ci dice quanti sono stati previsti tra i veri aspetti positivi e negativi. È una matrice NxN dove N è il numero di classi. Dopotutto, Confusion Matrix non è così confuso!

4. Punteggio F1

Il punteggio F1 combina la precisione e il richiamo in un'unica metrica per un valore medio. Il punteggio F1 è in realtà la media armonica dei valori di Precisione e Richiamo. Questo è fondamentale perché se in alcuni casi il valore di richiamo è 1, ovvero 100% e il valore di precisione è 0, il punteggio F1 sarà 0,5 se prendiamo la media aritmetica di Precisione e richiamo invece della media armonica. Ma se prendiamo la media armonica, il punteggio F1 sarà 0. Questo ci dice che la media armonica penalizza maggiormente i valori estremi.

Scopri: 5 tipi di algoritmi di classificazione nell'apprendimento automatico

5. UAC-ROC

La precisione e il punteggio F1 non sono parametri validi quando si tratta di dati sbilanciati. La curva AUC (Area Under Curve) ROC (Receiver Operator Features) indica il grado di separabilità delle classi previsto dal modello. Più alto è il punteggio, maggiore è la capacità del modello di prevedere 0 come 0 e 1 come 1. La curva AUC ROC viene tracciata utilizzando il tasso di veri positivi (TPR) sull'asse Y e il tasso di falsi positivi sull'asse X.

TPR = TP/TP+FN

FPR = FP/TN+FP

Se AUC ROC risulta essere 1, significa che il modello prevede correttamente tutte le classi e c'è una completa separabilità.

Se è 0,5, significa che non c'è separabilità e il modello prevede tutti gli output casuali.

Se è 0, significa che il modello prevede le classi invertite. Cioè, 0s come 1s e 1s come 0s.

Prima che tu vada

In questo articolo abbiamo discusso le varie metriche delle prestazioni per la classificazione e la regressione. Queste sono le metriche più utilizzate e quindi è fondamentale conoscerle. Per la classificazione, ci sono ancora più metriche create specificamente per la classificazione multi-classe e la classificazione multi-etichetta come Punteggio Kappa, Precisione a K, Precisione media a K, ecc.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Guida la rivoluzione tecnologica guidata dall'intelligenza artificiale

DIPLOMA PG IN MACHINE LEARNING E INTELLIGENZA ARTIFICIALE
Per saperne di più