机器学习中的评估指标：您应该知道的 10 大指标

已发表: 2021-01-05

确定正确的指标是任何机器学习项目的关键步骤。每个机器学习模型都需要根据一些指标进行评估，以检查它对数据的学习和对测试数据的执行情况。这些称为性能指标，对于回归和分类模型是不同的。

在本教程结束时，您将了解：

回归指标
不同类型分类的指标
何时更喜欢哪种类型的指标

回归指标

回归问题涉及从一组独立特征中预测具有连续值的目标。这是一种监督学习，我们将预测与实际值进行比较，然后计算差异/误差项。误差越小，模型的性能越好。我们有目前最广泛使用的不同类型的回归指标。让我们一一介绍。

1. 均方误差

均方误差 (MSE) 是最常用的回归度量。它使用平方误差 (Y_Pred – Y_actual) 来计算误差。平方导致通常误差计算的两个重要变化。一，误差可以是负数，对误差求平方会将所有误差转化为正数，因此可以很容易地添加。

其次，平方增加了已经很大的误差，减少了小于1的误差。这种放大效应惩罚了误差很大的情况。 MSE 是高度优选的，因为它在所有点上都是可微的，以计算损失函数的梯度。

2. 均方根误差

MSE 的缺点是它对误差项进行平方，导致对误差的估计过高。另一方面，均方根误差 (RMSE) 采用平方根来减少这种影响。这在不需要大错误时很有用。

3. 平均绝对误差

平均绝对误差 (MAE) 通过取误差的绝对值 Y_Pred – Y_Actual 来计算误差。这很有用，因为它不会像 MSE 那样高估更大的误差，并且对异常值也很稳健。因此，它不适用于需要对异常值进行特殊处理的应用。 MAE 是一个线性分数，这意味着所有个体差异的权重均等。

4. R 平方误差

R Squared 是回归模型的良好拟合度量。它计算数据点沿回归拟合线的散布。它也称为确定系数。较高的 R 平方值意味着观察值与实际值之间的差异较小。

随着越来越多的特征被添加到模型中，R 平方值不断增加。这意味着 R 平方不是性能的正确衡量标准，因为即使特征没有增加任何价值，它也可能给出较大的 R 平方。

在回归分析中，R Squared 用于确定特征与目标之间的相关强度。简单来说，它以 0 – 100% 的比例衡量模型与因变量之间的关系强度。 R 平方是残差平方和 (SSR) 与总平方和 (SST) 之间的比率。 R sqr 定义为：

R Sqr = 1 – SSR/SST ,其中

SSR 是实际观测值 Y 与预测值 Y_Pred 之差的平方和。 SST 是实际观测值 Y 与观测值 Y_Avg 的平均值之差的平方和。

通常，R sqr 越大，模型越好。但总是这样吗？不。

5. 调整后的 R 平方误差

Adjusted R Squared Error 克服了 R Squared 在添加更多特征时无法正确估计模型性能提升的缺点。 R 平方值显示不完整的图片，并且可能非常具有误导性。

本质上，R sqr 值总是随着添加新特征而增加，即使该特征正在降低模型的性能。您可能不知道您的模型何时开始过度拟合。

调整后的 R Sqr 会针对变量的增加进行调整，并且当特征不改进模型时，其值会减小。我们使用调整后的 R sqr 来比较包含不同数量自变量的回归模型的拟合优度。

阅读：机器学习中的交叉验证

分类指标

就像回归指标一样，分类指标也有不同类型。不同类型的指标用于不同类型的分类和数据。让我们一一介绍。

1. 准确性

准确度是分类最直接、最简单的指标。它只是从实例总数中计算正确的预测百分比。例如，如果 100 个实例中有 90 个被正确预测，那么准确度将为 90%。然而，准确性并不是大多数分类任务的正确指标，因为它没有考虑到类别不平衡。

2. 精确度、召回率

为了更好地了解模型性能，我们需要查看预测了多少假阳性以及模型预测了多少假阴性。精度告诉我们有多少总阳性被预测为阳性。或者换句话说，被正确预测为正例的正例在总正预测中的比例。回忆告诉我们，在实际阳性总数中预测了多少真实阳性。或者换句话说，它给出了预测的真阳性与实际阳性总数的比例。

3. 混淆矩阵

混淆矩阵是真阳性、真阴性、假阳性和假阴性的组合。它告诉我们有多少是从实际的正负数中预测出来的。它是一个 NxN 矩阵，其中 N 是类的数量。混淆矩阵毕竟不是那么令人困惑！

4. F1分数

F1 Score 将 Precision 和 Recall 结合到一个指标中，以获得平均值。 F1 Score 实际上是 Precision 和 Recall 值的调和平均值。这是至关重要的，因为如果在某些情况下召回值为 1，即 100% 并且精度值为 0，如果我们采用 Precision & Recall 的算术平均值而不是谐波平均值，则 F1 分数将为 0.5。但是如果我们取谐波平均值，F1 分数将为 0。这告诉我们谐波平均值对极端值的惩罚更多。

查看：机器学习中的 5 种分类算法

5. AUC-ROC

当涉及到不平衡的数据时，准确性和 F1 分数也不是很好的指标。 AUC（曲线下面积）ROC（接收操作员特征）曲线告诉我们模型预测的类的可分离程度。分数越高，模型预测 0 为 0 和 1 为 1 的能力越强。 AUC ROC 曲线使用 Y 轴上的真阳性率 (TPR) 和 X 轴上的假阳性率绘制。

TPR = TP/TP+FN

FPR = FP/TN+FP

如果 AUC ROC 为 1，则意味着模型正确地预测了所有的类并且存在完全可分性。

如果为 0.5，则表示不存在可分性，模型正在预测所有随机输出。

如果为 0，则表示模型正在预测倒排类别。即，0 为 1，1 为 0。

在你走之前

在本文中，我们讨论了分类和回归的各种性能指标。这些是最常用的指标，因此了解它们至关重要。对于分类，还有更多专门针对多类分类和多标签分类的指标，例如 Kappa Score、Precision at K、Average Precision at K 等。

如果您有兴趣了解有关机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为工作专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

引领人工智能驱动的技术革命

机器学习和人工智能的 PG 文凭

了解更多