Métricas de evaluación en aprendizaje automático: 10 métricas principales que debe conocer
Publicado: 2021-01-05Decidir la métrica correcta es un paso crucial en cualquier proyecto de Machine Learning. Cada modelo de aprendizaje automático debe evaluarse con algunas métricas para verificar qué tan bien ha aprendido los datos y se ha desempeñado en los datos de prueba. Estos se denominan Métricas de rendimiento y son diferentes para los modelos de regresión y clasificación.
Al final de este tutorial, sabrás:
- Métricas para la regresión
- Métricas para diferentes tipos de clasificación
- Cuándo preferir qué tipo de métrica
Tabla de contenido
Métricas para regresión
Los problemas de regresión implican predecir un objetivo con valores continuos a partir de un conjunto de características independientes. Este es un tipo de aprendizaje supervisado en el que comparamos la predicción con el valor real y luego calculamos el término de diferencia/error. Cuanto menor es el error, mejor es el rendimiento del modelo. Tenemos diferentes tipos de métricas de Regresión que son las más utilizadas actualmente. Vamos a repasarlos uno por uno.
1. Error cuadrático medio
El error cuadrático medio (MSE) es la métrica de regresión más utilizada. Utiliza errores cuadráticos (Y_Pred – Y_actual) para calcular los errores. La elevación al cuadrado da como resultado dos cambios importantes en el cálculo habitual del error. Uno, que el error puede ser negativo y elevar al cuadrado los errores convertirá todos los errores en términos positivos y, por lo tanto, se pueden sumar fácilmente.
Segundo, que la elevación al cuadrado aumenta los errores que ya son grandes y reduce los errores con valores menores a 1. Este efecto magnificador penaliza las instancias donde el error es grande. MSE es muy preferido porque es diferenciable en todos los puntos para calcular el gradiente de la función de pérdida.
2. Error cuadrático medio de la raíz
La deficiencia de MSE es que eleva al cuadrado los términos de error, lo que conduce a una sobreestimación de los errores. Root Mean Squared Error (RMSE), por otro lado, toma una raíz cuadrada para reducir ese efecto. Esto es útil cuando no se desean errores grandes.

3. Error absoluto medio
El error absoluto medio (MAE) calcula el error tomando un valor absoluto del error que es Y_Pred – Y_Actual. Esto es útil ya que no sobrestima los errores más grandes a diferencia de MSE y también es resistente a los valores atípicos. Por lo tanto, no es adecuado para aplicaciones que requieren un tratamiento especial para valores atípicos. MAE es una puntuación lineal, lo que significa que todas las diferencias individuales se ponderan por igual.
4. Error R cuadrado
R Squared es una medida de bondad de ajuste para modelos de regresión. Calcula la dispersión de puntos de datos a lo largo de la línea de ajuste de regresión. También se le llama Coeficiente de Determinación. Un valor más alto de R Squared significa que hay menos diferencia entre el valor observado y los valores reales.
El valor de R Squared sigue aumentando a medida que se agregan más y más funciones al modelo. Esto significa que R Squared no es la medida correcta de rendimiento, ya que podría dar un gran R Square incluso si las características no agregan ningún valor.
En el análisis de regresión, R Squared se usa para determinar la fuerza de la correlación entre las características y el objetivo. En términos simples, mide la fuerza de la relación entre su modelo y la variable dependiente en una escala de 0 a 100 %. R Squared es la relación entre la Suma Residual de Cuadrados (SSR) y la Suma Total de Cuadrados (SST). R cuadrado se define como:
R Sqr = 1 – SSR/SST, donde
SSR es la suma de los cuadrados de la diferencia entre el valor real observado Y y el valor predicho Y_Pred. SST es la suma de los cuadrados de la diferencia entre el valor real observado Y y el promedio del valor observado Y_Avg.
En general, cuanto más R sqr, mejor es el modelo. ¿Pero es así siempre? No.
5. Error R cuadrado ajustado
El error R cuadrado ajustado supera la deficiencia de R Squared de no poder estimar correctamente la mejora en el rendimiento del modelo cuando se agregan más funciones. El valor de R Square muestra una imagen incompleta y puede ser muy engañoso.

En esencia, el valor R sqr siempre aumenta al agregar nuevas funciones, incluso si la función disminuye el rendimiento del modelo. Es posible que no sepa cuándo su modelo comenzó a sobreajustarse.
R Sqr ajustado se ajusta a este aumento de variables y su valor disminuye cuando una característica no mejora el modelo. Usamos R sqr ajustado para comparar la bondad de ajuste de los modelos de regresión que contienen diferentes cantidades de variables independientes.
Leer: Validación cruzada en el aprendizaje automático
Métricas para Clasificación
Al igual que las métricas de regresión, también existen diferentes tipos de métricas para la clasificación. Se utilizan diferentes tipos de métricas para diferentes tipos de clasificación y datos. Vamos a repasarlos uno por uno.
1. Precisión
La precisión es la métrica más directa y simple para la clasificación. Simplemente calcula qué porcentaje de predicciones son correctas del número total de instancias. Por ejemplo, si 90 de 100 instancias se predicen correctamente, la precisión será del 90 %. Sin embargo, la precisión no es la métrica correcta para la mayoría de las tareas de clasificación, ya que no tiene en cuenta el desequilibrio de clases.
2. Precisión, Recuperación
Para obtener una mejor imagen del rendimiento del modelo, necesitamos ver cuántos falsos positivos predijo y cuántos falsos negativos predijo el modelo. La precisión nos dice cuántos de los positivos totales se pronosticaron como positivos. O, en otras palabras, la proporción de instancias positivas que se predijeron correctamente como positivas del total de predicciones positivas. La recuperación nos dice cuántos positivos verdaderos se pronosticaron del total de positivos reales. O, en otras palabras, da la proporción de verdaderos positivos previstos del número total de positivos reales.
3. Matriz de confusión
Una matriz de confusión es una combinación de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. Nos dice cuántos fueron predichos de los verdaderos positivos y negativos reales. Es una matriz NxN donde N es el número de clases. Confusion Matrix no es tan confuso después de todo.
4. Puntuación F1
F1 Score combina la precisión y la recuperación en una métrica para obtener un valor promedio. La puntuación F1 es en realidad la media armónica de los valores de precisión y recuperación. Esto es crucial porque si en algún caso el valor de recuperación es 1, es decir, 100 % y el valor de precisión es 0, la puntuación F1 será 0,5 si tomamos la media aritmética de Precisión y recuperación en lugar de la media armónica. Pero si tomamos la media armónica, F1 Score será 0. Esto nos dice que la media armónica penaliza más los valores extremos.
Consulta: 5 tipos de algoritmos de clasificación en el aprendizaje automático
5. ABC-ROC
La precisión y la puntuación de F1 no son buenas métricas cuando se trata de datos desequilibrados. La curva AUC (Área bajo la curva) ROC (Características del operador del receptor) nos dice el grado de separabilidad de las clases predichas por el modelo. Cuanto mayor sea la puntuación, mayor será la capacidad del modelo para predecir 0 como 0 y 1 como 1. La curva AUC ROC se traza utilizando la tasa de verdaderos positivos (TPR) en el eje Y y la tasa de falsos positivos en el eje X.
TPR = TP/TP+FN
FPR = FP/TN+FP

Si AUC ROC resulta ser 1, significa que el modelo está prediciendo correctamente todas las clases y que existe una separabilidad completa.
Si es 0,5, significa que no hay separabilidad y que el modelo predice todas las salidas aleatorias.
Si es 0, significa que el modelo está prediciendo las clases invertidas. Es decir, 0s como 1s y 1s como 0s.
Antes de que te vayas
En este artículo, discutimos las diversas métricas de rendimiento para clasificación y regresión. Estas son las métricas más utilizadas y, por lo tanto, es crucial conocerlas. Para la clasificación, hay aún más métricas que se crean específicamente para la clasificación de múltiples clases y la clasificación de múltiples etiquetas, como la puntuación Kappa, la precisión en K, la precisión promedio en K, etc.
Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.