什么是机器学习中的过拟合和欠拟合？ [你需要学习的一切]

已发表: 2020-02-18

机器学习并不是最容易掌握的学科。过度拟合和欠拟合是机器学习社区中常见的许多术语中的几个。了解这些概念将为您未来的学习奠定基础。

我们将在本文中深入了解这些概念。我们还将讨论这些错误的基本概念、它们发生的原因以及如何修复它们。您还将了解一些有关数据模型及其与这些错误的关系的知识。

因此，无需拐弯抹角，让我们直接潜入：

什么是数据模型？

在我们开始讨论什么是过拟合和欠拟合之前，让我们先了解一下什么是模型。数据模型是使用输入进行预测的系统。你可以说模型是解决问题的理论。例如，如果你想预测多家公司的增长，你可以将它们的利润作为输入，并根据它们的收益和增长之间的关系产生结果。此示例的输出将是公司的预测增长。

因此，输入是公司的当前利润，而他们的增长预测是输出。这两者之间的关系就是模型。模型是生成输出所必需的。

该模型通过训练数据集了解输入和输出之间的关系。我们称输入特征和输出标签。因此，您也可能会在文章中看到这些名称。在模型的训练过程中，你会给它特征和标签，让它弄清楚它们之间的关系。完成训练后，您可以通过仅提供一组特征来试用该模型，您可以使用其正确预测。

在它生成预测后，您可以将它们与您拥有的正确预测进行比较，并查看模型的准确度。模型有多种形状。

数据训练和测试

当您是初学者时，您可能会为您的数据模型提供完美的功能，但现实世界中不会发生这种情况。现实世界中的数据充满了噪音和无用的信息。无论您的数据来源是什么，您都会发现其中存在一些不符合趋势的变量。

在我们的公司增长预测示例中，您知道他们的增长不会完全依赖于他们的利润。会有很多因素在起作用。在训练模型期间，您应该添加一些噪声以使其逼真。创建数据后，您必须将其分成两组进行训练和测试。

您将使用训练数据来帮助模型了解特征和标签之间的关系。您将使用测试数据来评估其性能。

数据世界中存在多种形式的模型。选择一个可能有点令人生畏，但通过一些练习，它会变得更容易。标准模型是多项式回归。这是一种线性回归形式，其中输入被提升到各种幂。这是一种线性回归，但它不会形成一条直线。阅读有关线性回归实现的更多信息。

您可以按其顺序定义多项式。多项式的阶数是其方程中 x 的最高幂。多项式的阶数也显示了它的次数。例如，直线方程有 1 度。

修复机器学习中过拟合和欠拟合的重要性

当您处理模型的多项式次数时，会发生过拟合和欠拟合。就像我们之前提到的，多项式的次数取决于方程中 x 的最高幂。该值表明您的模型有多灵活。如果您的模型具有较高的度数，它将具有更多的自由度。一个高度的模型可以覆盖很多数据对象。

另一方面，度数低于要求的模型将无法覆盖足够的数据对象。这两种情况都可能导致无用的污染结果。

前一个高于必要度的问题是过度拟合。第二个小于要求的度数的问题是欠拟合。如您所见，它们都可能对您的模型有害并损害您的结果。

如果您没有解决这些问题，您的模型将无法为您提供准确的结果，并且您将使用无用的标签。

现在我们知道了它们的基本概念，让我们详细讨论它们中的每一个：

什么是过拟合？

当机器学习算法开始在数据中记录噪声时，我们称之为过度拟合。简而言之，当算法开始过多关注小细节时。在机器学习中，结果是预测可能的输出，并且由于过度拟合，它会在很大程度上阻碍其准确性。我们知道这听起来像是一件好事，但事实并非如此。

机器学习中过拟合的一个严重例子是所有点都线性连接的图。我们想要捕捉趋势，但图表并没有做到这一点。

无法做出良好预测但从数据中学习一切可能的模型是无用的，因为它会导致不准确的结果。

发现过拟合怎么办？

我们可以通过简单地减少算法使用的数据量而不使系统过载来解决这个问题。高方差（过拟合）使事情变得更糟。一些用于解决过拟合的常规技术如下：

减少迭代

通过减少在过度拟合发生之前运行的重复次数，我们可以阻止它发生。您可以通过试错法找到确切的迭代次数。

正则化

它限制了接近于 0 的系数估计值。简单地说，我们可以说它告诉算法使用更宽松的模型而不是刚性模型。详细了解正则化以及如何避免过度拟合。

修剪（标准）

避免过度拟合的最简单和最常见的方法是修剪。它摆脱了几乎没有预测能力的任何节点。

五重交叉验证

使用交叉验证是检查过度拟合的不太复杂的方法之一。

什么是欠拟合？

顾名思义，欠拟合是指模型的拟合程度不足以为您提供结果。欠拟合数据模型不知道如何定位足够的数据对象。度数越低，图表最终会丢失大多数存在的特征。

换句话说，如果模型欠拟合，则模型“太简单”而无法生成结果。但是，解决这个问题要舒服得多，并且不需要像以前过拟合那样费力。

发现欠拟合怎么办？

如果你的模型欠拟合，你应该给它更多的特征。有了更多的特征，它就会有更大的假设空间。它可以使用该空间来生成准确的结果。与过拟合相比，检测欠拟合更舒适，因此识别此错误不会有任何问题。但是，在处理欠拟合模型时，您应该只增加特征而不是整个数据。在这种情况下，扩展数据会导致更多错误。

阅读：有趣的机器学习项目创意

击中甜蜜点

在机器学习中，您希望数据模型保持在欠拟合和过拟合之间。它既不能覆盖太多数据点，也不能太少。随着您将进一步训练您的模型，您可以进一步改进它并修复它的错误。您的模型的错误将随着训练集和测试集的数量开始下降。

在过拟合和欠拟合之间达到最佳平衡点的一个好方法是在模型的错误开始增加之前停止训练。这是一个通用的解决方案，除了我们在本文前面提到的方法之外，您还可以使用它。

结论

每个数据专业人员都面临过拟合和欠拟合的问题。训练数据模型并不容易，需要大量练习才能熟悉它们。但是，凭借经验，您将开始及早发现问题并完全避免错误的原因。

如果您想成为机器学习专家，熟悉此类错误至关重要。如果您有兴趣了解有关机器学习和数据科学的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为在职专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业，IIIT-B 校友身份，5 个以上实用的实践顶点项目和顶级公司的工作协助。

为未来的职业做准备

机器学习和人工智能的 PG 文凭

了解更多