Métricas de avaliação em aprendizado de máquina: as 10 principais métricas que você deve conhecer
Publicados: 2021-01-05Decidir a métrica certa é uma etapa crucial em qualquer projeto de Machine Learning. Todo modelo de Machine Learning precisa ser avaliado em relação a algumas métricas para verificar o quão bem ele aprendeu os dados e se desempenhou nos dados de teste. Elas são chamadas de Métricas de Desempenho e são diferentes para modelos de regressão e classificação.
Ao final deste tutorial, você saberá:
- Métricas para regressão
- Métricas para diferentes tipos de classificação
- Quando preferir que tipo de métrica
Índice
Métricas de regressão
Os problemas de regressão envolvem a previsão de um alvo com valores contínuos a partir de um conjunto de características independentes. Este é um tipo de aprendizado supervisionado onde comparamos a previsão com o valor real e então calculamos o termo de diferença/erro. Quanto menor o erro, melhor é o desempenho do modelo. Temos diferentes tipos de métricas de Regressão que são mais utilizadas atualmente. Vamos analisá-los um por um.
1. Erro Quadrado Médio
O Erro Quadrado Médio (MSE) é a métrica de regressão mais usada. Ele usa erros quadráticos (Y_Pred – Y_actual) para calcular os erros. A quadratura resulta em duas mudanças importantes no cálculo de erro usual. Um, que o erro pode ser negativo e a quadratura dos erros transformará todos os erros em termos positivos e, portanto, podem ser facilmente adicionados.
Segundo, que o quadrado aumenta os erros que já são grandes e reduz os erros com valores menores que 1. Esse efeito de ampliação penaliza as instâncias onde o erro é grande. O MSE é altamente preferido porque é diferenciável em todos os pontos para calcular o gradiente da função de perda.
2. Erro quadrático médio da raiz
A desvantagem do MSE é que ele eleva ao quadrado os termos de erro que levam à superestimação dos erros. O erro quadrático médio da raiz (RMSE), por outro lado, usa uma raiz quadrada para reduzir esse efeito. Isso é útil quando grandes erros não são desejados.

3. Erro Absoluto Médio
O Erro Médio Absoluto (MAE) calcula o erro tomando um valor absoluto do erro que é Y_Pred – Y_Actual. Isso é útil, pois não superestima os erros maiores, ao contrário do MSE, e também é robusto a valores discrepantes. Portanto, não é adequado para aplicações que requerem tratamento especial para outliers. MAE é uma pontuação linear, o que significa que todas as diferenças individuais são ponderadas igualmente.
4. Erro ao quadrado R
R Squared é uma medida de ajuste de qualidade para modelos de regressão. Ele calcula a dispersão dos pontos de dados ao longo da linha de ajuste de regressão. Também é chamado de coeficiente de determinação. Um valor R ao quadrado mais alto significa que há menos diferença entre o valor observado e os valores reais.
O valor R Squared continua aumentando à medida que mais e mais recursos são adicionados ao modelo. Isso significa que R Squared não é a medida correta de desempenho, pois pode fornecer um R Square grande, mesmo que os recursos não estejam agregando nenhum valor.
Na Análise de Regressão, R Squared é usado para determinar a força da correlação entre os recursos e o destino. Em termos simples, ele mede a força da relação entre seu modelo e a variável dependente em uma escala de 0 a 100%. R Squared é a razão entre a Soma Residual dos Quadrados (SSR) e a Soma Total dos Quadrados (SST). R sqr é definido como:
R Sqr = 1 – SSR/SST , onde
SSR é a soma dos quadrados da diferença entre o valor real observado Y e o valor previsto Y_Pred. SST é a soma dos quadrados da diferença entre o valor observado real Y e a média do valor observado Y_Avg.
Geralmente, quanto mais R sqr, melhor é o modelo. Mas é assim sempre? Não.
5. Erro ao quadrado de R ajustado
O erro de R ao quadrado ajustado supera a deficiência do R ao quadrado de não ser capaz de estimar corretamente a melhoria no desempenho do modelo quando mais recursos são adicionados. O valor R Square mostra uma imagem incompleta e pode ser muito enganoso.

Em essência, o valor de R sqr sempre aumenta ao adicionar novos recursos, mesmo que o recurso esteja diminuindo o desempenho do modelo. Você pode não saber quando seu modelo começou a se ajustar demais.
Ajustado R Sqr se ajusta a esse aumento de variáveis e seu valor diminui quando um recurso não melhora o modelo. Usamos R sqr ajustado para comparar a qualidade do ajuste para modelos de regressão que contêm diferentes números de variáveis independentes.
Leia: Validação cruzada em aprendizado de máquina
Métricas para Classificação
Assim como as métricas de regressão, também existem diferentes tipos de métricas para classificação. Diferentes tipos de métricas são usados para diferentes tipos de classificação e dados. Vamos analisá-los um por um.
1. Precisão
A precisão é a métrica mais direta e simples para classificação. Ele apenas calcula qual porcentagem de previsões estão corretas a partir do número total de instâncias. Por exemplo, se 90 de 100 instâncias forem previstas corretamente, a precisão será de 90%. A precisão, no entanto, não é a métrica correta para a maioria das tarefas de classificação, pois não leva em consideração o desequilíbrio de classe.
2. Precisão, Recall
Para uma melhor imagem do desempenho do modelo, precisamos ver quantos falsos positivos foram previstos e quantos falsos negativos foram previstos pelo modelo. A precisão nos diz quantos dos positivos totais foram previstos como positivos. Ou, em outras palavras, a proporção de instâncias positivas que foram corretamente previstas como positivas em relação ao total de previsões positivas. Recall nos diz quantos verdadeiros positivos foram previstos do total de positivos reais. Ou, em outras palavras, fornece a proporção de positivos verdadeiros previstos em relação ao número total de positivos reais.
3. Matriz de confusão
Uma matriz de confusão é uma combinação de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos. Ele nos diz quantos foram previstos a partir dos verdadeiros positivos e negativos reais. É uma matriz NxN onde N é o número de classes. A Matriz de Confusão não é tão confusa assim!
4. Pontuação F1
O F1 Score combina a Precisão e o Recall em uma métrica para um valor médio. F1 Score é na verdade a média harmônica dos valores de Precisão e Recall. Isso é crucial porque se em algum caso o valor de recall for 1, ou seja, 100% e o valor de precisão for 0, a pontuação F1 será 0,5 se tomarmos a média aritmética de Precision & Recall em vez da média Harmônica. Mas se tomarmos a média Harmônica, o F1 Score será 0. Isso nos diz que a média Harmônica penaliza mais os valores extremos.
Confira: 5 Tipos de Algoritmos de Classificação em Machine Learning
5. AUC-ROC
Precisão e pontuação F1 não são boas métricas quando se trata de dados desequilibrados. A curva AUC (Area Under Curve) ROC (Receiver Operator Characteristics) nos informa o grau de separabilidade das classes previsto pelo modelo. Quanto maior a pontuação, maior é a capacidade do modelo de prever 0s como 0s e 1s como 1s. A curva AUC ROC é plotada usando a taxa de verdadeiro positivo (TPR) no eixo Y e a taxa de falso positivo no eixo X.
TPR = TP/TP+FN
FPR = FP/TN+FP

Se AUC ROC for 1, significa que o modelo está prevendo corretamente todas as classes e há separabilidade completa.
Se for 0,5, significa que não há separabilidade e o modelo está prevendo todas as saídas aleatórias.
Se for 0, significa que o modelo está prevendo as classes invertidas. Ou seja, 0s como 1s e 1s como 0s.
Antes de você ir
Neste artigo, discutimos as várias métricas de desempenho para classificação e regressão. Essas são as métricas mais utilizadas e, portanto, é crucial conhecê-las. Para classificação, existem ainda mais métricas feitas especificamente para classificação multiclasse e classificação multirrótulo, como pontuação Kappa, precisão em K, precisão média em K, etc.
Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.