Métriques d'évaluation dans l'apprentissage automatique : les 10 principales métriques à connaître

Publié: 2021-01-05

Décider de la bonne métrique est une étape cruciale dans tout projet de Machine Learning. Chaque modèle d'apprentissage automatique doit être évalué par rapport à certaines métriques pour vérifier dans quelle mesure il a appris les données et s'est comporté sur les données de test. Celles-ci sont appelées les métriques de performance et sont différentes pour les modèles de régression et de classification.

A la fin de ce tutoriel, vous saurez :

Métriques de régression
Métriques pour différents types de classification
Quand préférer quel type de métrique

Table des matières

Métriques pour la régression

Les problèmes de régression impliquent de prédire une cible avec des valeurs continues à partir d'un ensemble de caractéristiques indépendantes. Il s'agit d'un type d'apprentissage supervisé où nous comparons la prédiction avec la valeur réelle, puis calculons le terme différence/erreur. Moins l'erreur est élevée, meilleures sont les performances du modèle. Nous avons différents types de métriques de régression qui sont les plus largement utilisées actuellement. Passons-les en revue un par un.

1. Erreur quadratique moyenne

L'erreur quadratique moyenne (MSE) est la mesure de régression la plus utilisée. Il utilise les erreurs au carré (Y_Pred – Y_actual) pour calculer les erreurs. La mise au carré entraîne deux modifications importantes du calcul d'erreur habituel. Premièrement, l'erreur peut être négative et la quadrature des erreurs transformera toutes les erreurs en termes positifs et pourra donc être facilement ajoutée.

Deuxièmement, que la mise au carré augmente les erreurs qui sont déjà grandes et réduit les erreurs avec des valeurs inférieures à 1. Cet effet grossissant pénalise les instances où l'erreur est grande. MSE est fortement préféré car il est différentiable en tous les points pour calculer le gradient de la fonction de perte.

2. Erreur quadratique moyenne

Le défaut de MSE est qu'il met au carré les termes d'erreur qui conduisent à une surestimation des erreurs. Root Mean Squared Error (RMSE), d'autre part, prend une racine carrée pour réduire cet effet. Ceci est utile lorsque de grandes erreurs ne sont pas souhaitées.

3. Erreur absolue moyenne

L'erreur absolue moyenne (MAE) calcule l'erreur en prenant une valeur absolue de l'erreur qui est Y_Pred – Y_Actual. Ceci est utile car il ne surestime pas les erreurs plus importantes contrairement à MSE et est également robuste aux valeurs aberrantes. Par conséquent, il ne convient pas aux applications qui nécessitent un traitement spécial pour les valeurs aberrantes. MAE est un score linéaire, ce qui signifie que toutes les différences individuelles sont pondérées de manière égale.

4. Erreur R au carré

R au carré est une mesure de qualité d'ajustement pour les modèles de régression. Il calcule la dispersion des points de données le long de la ligne d'ajustement de régression. Il est aussi appelé coefficient de détermination. Une valeur R au carré plus élevée signifie qu'il y a moins de différence entre la valeur observée et les valeurs réelles.

La valeur R au carré continue d'augmenter à mesure que de plus en plus de fonctionnalités sont ajoutées au modèle. Cela signifie que R Squared n'est pas la bonne mesure de performance car il pourrait donner un grand R Square même si les fonctionnalités n'ajoutent aucune valeur.

Dans l'analyse de régression, R au carré est utilisé pour déterminer la force de la corrélation entre les caractéristiques et la cible. En termes simples, il mesure la force de la relation entre votre modèle et la variable dépendante sur une échelle de 0 à 100 %. R au carré est le rapport entre la somme résiduelle des carrés (SSR) et la somme totale des carrés (SST). R²r est défini comme :

R Sqr = 1 – SSR/SST, où

SSR est la somme des carrés de la différence entre la valeur réelle observée Y et la valeur prédite Y_Pred. SST est la somme des carrés de la différence entre la valeur réelle observée Y et la moyenne de la valeur observée Y_Avg.

Généralement, plus le R² est grand, meilleur est le modèle. Mais en est-il toujours ainsi ? Non.

5. Erreur R au carré ajustée

L'erreur R au carré ajustée surmonte le défaut de R au carré de ne pas pouvoir estimer correctement l'amélioration des performances du modèle lorsque davantage de fonctionnalités sont ajoutées. La valeur R Square montre une image incomplète et peut être très trompeuse.

Essentiellement, la valeur R sqr augmente toujours lors de l'ajout de nouvelles fonctionnalités, même si la fonctionnalité diminue les performances du modèle. Vous ne savez peut-être pas quand votre modèle a commencé à sur-ajuster.

Le R carré ajusté tient compte de cette augmentation des variables et sa valeur diminue lorsqu'une caractéristique n'améliore pas le modèle. Nous utilisons R sqr ajusté pour comparer la qualité de l'ajustement pour les modèles de régression qui contiennent différents nombres de variables indépendantes.

Lire : Validation croisée dans l'apprentissage automatique

Métriques pour la classification

Tout comme les métriques de régression, il existe également différents types de métriques pour la classification. Différents types de mesures sont utilisés pour différents types de classification et de données. Passons-les en revue un par un.

1. Précision

La précision est la mesure la plus directe et la plus simple pour la classification. Il calcule simplement le pourcentage de prédictions correctes à partir du nombre total d'instances. Par exemple, si 90 instances sur 100 sont correctement prédites, la précision sera de 90 %. La précision, cependant, n'est pas la bonne mesure pour la plupart des tâches de classification car elle ne prend pas en compte le déséquilibre des classes.

2. Précision, Rappel

Pour une meilleure image des performances du modèle, nous devons voir combien de faux positifs ont été prédits et combien de faux négatifs ont été prédits par le modèle. La précision nous indique combien de positifs totaux ont été prédits comme positifs. Ou en d'autres termes, la proportion d'instances positives qui ont été correctement prédites comme positives par rapport au total des prédictions positives. Le rappel nous indique combien de vrais positifs ont été prédits sur le nombre total de positifs réels. Ou en d'autres termes, il donne la proportion de vrais positifs prédits par rapport au nombre total de positifs réels.

3. Matrice de confusion

Une matrice de confusion est une combinaison de vrais positifs, de vrais négatifs, de faux positifs et de faux négatifs. Il nous indique combien ont été prédits parmi les vrais positifs et négatifs réels. C'est une matrice NxN où N est le nombre de classes. Confusion Matrix n'est pas si déroutant après tout !

4. Score F1

Le score F1 combine la précision et le rappel en une seule mesure pour une valeur moyenne. Le score F1 est en fait la moyenne harmonique des valeurs de précision et de rappel. Ceci est crucial car si dans certains cas la valeur de rappel est 1, c'est-à-dire 100% et la valeur de précision est 0, le score F1 sera de 0,5 si nous prenons la moyenne arithmétique de Precision & Recall au lieu de la moyenne harmonique. Mais si nous prenons la moyenne harmonique, le score F1 sera de 0. Cela nous indique que la moyenne harmonique pénalise davantage les valeurs extrêmes.

Découvrez : 5 types d'algorithmes de classification dans l'apprentissage automatique

5. AUC-ROC

La précision et le score F1 ne sont pas de bons indicateurs lorsqu'il s'agit de données déséquilibrées. La courbe AUC (Area Under Curve) ROC (Receiver Operator Features) nous indique le degré de séparabilité des classes prédit par le modèle. Plus le score est élevé, plus la capacité du modèle à prédire les 0 comme des 0 et les 1 comme des 1 est grande. La courbe AUC ROC est tracée en utilisant le taux de vrais positifs (TPR) sur l'axe Y et le taux de faux positifs sur l'axe X.

TPR = TP/TP+FN

FPR = FP/TN+FP

Si AUC ROC s'avère être 1, cela signifie que le modèle prédit correctement toutes les classes et qu'il y a une séparabilité complète.

S'il est de 0,5, cela signifie qu'il n'y a pas de séparabilité et que le modèle prédit toutes les sorties aléatoires.

Si c'est 0, cela signifie que le modèle prédit les classes inversées. C'est-à-dire que les 0 sont des 1 et les 1 sont des 0.

Avant que tu partes

Dans cet article, nous avons discuté des différentes mesures de performance pour la classification et la régression. Ce sont les métriques les plus utilisées et il est donc crucial de les connaître. Pour la classification, il existe encore plus de métriques spécialement conçues pour la classification multi-classes et la classification multi-étiquettes telles que le score Kappa, la précision à K, la précision moyenne à K, etc.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Menez la révolution technologique basée sur l'IA

DIPLÔME PG EN APPRENTISSAGE MACHINE ET INTELLIGENCE ARTIFICIELLE

Apprendre encore plus