机器学习中的评估指标:您应该知道的 10 大指标

已发表: 2021-01-05

确定正确的指标是任何机器学习项目的关键步骤。 每个机器学习模型都需要根据一些指标进行评估,以检查它对数据的学习和对测试数据的执行情况。 这些称为性能指标,对于回归和分类模型是不同的。

在本教程结束时,您将了解:

  • 回归指标
  • 不同类型分类的指标
  • 何时更喜欢哪种类型的指标

目录

回归指标

回归问题涉及从一组独立特征中预测具有连续值的目标。 这是一种监督学习,我们将预测与实际值进行比较,然后计算差异/误差项。 误差越小,模型的性能越好。 我们有目前最广泛使用的不同类型的回归指标。 让我们一一介绍。

1. 均方误差

均方误差 (MSE) 是最常用的回归度量。 它使用平方误差 (Y_Pred – Y_actual) 来计算误差。 平方导致通常误差计算的两个重要变化。 一,误差可以是负数,对误差求平方会将所有误差转化为正数,因此可以很容易地添加。

其次,平方增加了已经很大的误差,减少了小于1的误差。这种放大效应惩罚了误差很大的情况。 MSE 是高度优选的,因为它在所有点上都是可微的,以计算损失函数的梯度。

2. 均方根误差

MSE 的缺点是它对误差项进行平方,导致对误差的估计过高。 另一方面,均方根误差 (RMSE) 采用平方根来减少这种影响。 这在不需要大错误时很有用。

3. 平均绝对误差

平均绝对误差 (MAE) 通过取误差的绝对值 Y_Pred – Y_Actual 来计算误差。 这很有用,因为它不会像 MSE 那样高估更大的误差,并且对异常值也很稳健。 因此,它不适用于需要对异常值进行特殊处理的应用。 MAE 是一个线性分数,这意味着所有个体差异的权重均等。

4. R 平方误差

R Squared 是回归模型的良好拟合度量。 它计算数据点沿回归拟合线的散布。 它也称为确定系数。 较高的 R 平方值意味着观察值与实际值之间的差异较小。

随着越来越多的特征被添加到模型中,R 平方值不断增加。 这意味着 R 平方不是性能的正确衡量标准,因为即使特征没有增加任何价值,它也可能给出较大的 R 平方。

在回归分析中,R Squared 用于确定特征与目标之间的相关强度。 简单来说,它以 0 – 100% 的比例衡量模型与因变量之间的关系强度。 R 平方是残差平方和 (SSR) 与总平方和 (SST) 之间的比率。 R sqr 定义为:

R Sqr = 1 – SSR/SST ,其中

SSR 是实际观测值 Y 与预测值 Y_Pred 之差的平方和。 SST 是实际观测值 Y 与观测值 Y_Avg 的平均值之差的平方和。

通常,R sqr 越大,模型越好。 但总是这样吗? 不。

5. 调整后的 R 平方误差

Adjusted R Squared Error 克服了 R Squared 在添加更多特征时无法正确估计模型性能提升的缺点。 R 平方值显示不完整的图片,并且可能非常具有误导性。

本质上,R sqr 值总是随着添加新特征而增加,即使该特征正在降低模型的性能。 您可能不知道您的模型何时开始过度拟合。

调整后的 R Sqr 会针对变量的增加进行调整,并且当特征不改进模型时,其值会减小。 我们使用调整后的 R sqr 来比较包含不同数量自变量的回归模型的拟合优度。

阅读:机器学习中的交叉验证

分类指标

就像回归指标一样,分类指标也有不同类型。 不同类型的指标用于不同类型的分类和数据。 让我们一一介绍。

1. 准确性

准确度是分类最直接、最简单的指标。 它只是从实例总数中计算正确的预测百分比。 例如,如果 100 个实例中有 90 个被正确预测,那么准确度将为 90%。 然而,准确性并不是大多数分类任务的正确指标,因为它没有考虑到类别不平衡。

2. 精确度、召回率

为了更好地了解模型性能,我们需要查看预测了多少假阳性以及模型预测了多少假阴性。 精度告诉我们有多少总阳性被预测为阳性。 或者换句话说,被正确预测为正例的正例在总正预测中的比例。 回忆告诉我们,在实际阳性总数中预测了多少真实阳性。 或者换句话说,它给出了预测的真阳性与实际阳性总数的比例。

3. 混淆矩阵

混淆矩阵是真阳性、真阴性、假阳性和假阴性的组合。 它告诉我们有多少是从实际的正负数中预测出来的。 它是一个 NxN 矩阵,其中 N 是类的数量。 混淆矩阵毕竟不是那么令人困惑!

4. F1分数

F1 Score 将 Precision 和 Recall 结合到一个指标中,以获得平均值。 F1 Score 实际上是 Precision 和 Recall 值的调和平均值。 这是至关重要的,因为如果在某些情况下召回值为 1,即 100% 并且精度值为 0,如果我们采用 Precision & Recall 的算术平均值而不是谐波平均值,则 F1 分数将为 0.5。 但是如果我们取谐波平均值,F1 分数将为 0。这告诉我们谐波平均值对极端值的惩罚更多。

查看:机器学习中的 5 种分类算法

5. AUC-ROC

当涉及到不平衡的数据时,准确性和 F1 分数也不是很好的指标。 AUC(曲线下面积)ROC(接收操作员特征)曲线告诉我们模型预测的类的可分离程度。 分数越高,模型预测 0 为 0 和 1 为 1 的能力越强。 AUC ROC 曲线使用 Y 轴上的真阳性率 (TPR) 和 X 轴上的假阳性率绘制。

TPR = TP/TP+FN

FPR = FP/TN+FP

如果 AUC ROC 为 1,则意味着模型正确地预测了所有的类并且存在完全可分性。

如果为 0.5,则表示不存在可分性,模型正在预测所有随机输出。

如果为 0,则表示模型正在预测倒排类别。 即,0 为 1,1 为 0。

在你走之前

在本文中,我们讨论了分类和回归的各种性能指标。 这些是最常用的指标,因此了解它们至关重要。 对于分类,还有更多专门针对多类分类和多标签分类的指标,例如 Kappa Score、Precision at K、Average Precision at K 等。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

引领人工智能驱动的技术革命

机器学习和人工智能的 PG 文凭
了解更多