深度学习中的正则化：你需要知道的一切

已发表: 2020-11-16

数据科学家或机器学习工程师面临的最大问题之一是创建在训练数据和新输入上表现良好的算法所涉及的复杂性。机器学习中使用了许多技术来最小化或完全消除测试错误。在某些情况下，这样做是在不太关心增加的训练错误的情况下完成的。所有这些技术放在一起通常被称为正则化。

简而言之，正则化是对学习算法进行的更改，以最小化其泛化误差，而无需过多地关注减少其训练误差。有几种可用的正则化技术，每一种都适用于学习算法或神经网络的不同方面，每一种都会导致不同的结果。

有一些正则化技术对学习模型施加了额外的限制，例如对参数值的约束。有些对参数值施加了限制。如果仔细选择正则化技术，它可以提高测试数据模型的性能。

为什么我们需要神经网络正则化？

深度神经网络是复杂的学习模型，由于其灵活地记忆单个训练集模式而不是对无法识别的数据采取通用方法，因此容易出现过度拟合。这就是神经网络正则化如此重要的原因。它可以帮助您保持学习模型易于理解，以允许神经网络概括它无法识别的数据。

让我们通过一个例子来理解这一点。假设我们有一个包含输入值和输出值的数据集。让我们还假设这些值之间存在真正的关系。现在，深度学习的目标之一是建立输入值和输出值之间的近似关系。因此，对于每个数据集，都有两个模型可以帮助我们定义这种关系——简单模型和复杂模型。

在简单模型中，存在一条直线，它只包含定义相关关系的两个参数。该模型的图形表示将具有一条直线，该直线紧密地穿过相关数据集的中心，确保该线与其下方和上方的点之间的距离非常小。

另请阅读：机器学习项目理念

另一方面，复杂模型有几个参数，具体取决于数据集。它遵循多项式方程，允许它通过每个训练数据点。随着复杂度的逐渐增加，训练误差将达到零值，模型将记住数据集的各个模式。与简单模型不同，即使它们在不同的数据集上进行训练，它们之间也不会有太大的不同，而对于复杂模型则不能这样说。

什么是偏差和方差？

简单来说，偏差是真实人口线与在不同数据集上训练的模型的平均值之间存在的距离的度量。偏差在决定我们是否会有一个好的预测区间方面起着非常重要的作用。它通过计算平均函数与真实关系的接近程度来做到这一点。

另请阅读：印度机器学习工程师的薪水

方差量化了平均函数的估计变化。方差确定了在特定数据集上建模的模型在整个预测过程中在不同数据集上进行训练时显示的偏差量。无论算法具有高偏差还是高方差，我们都可以进行一些修改以使其性能更好。

我们如何处理高偏差？

训练它更长的时间
使用具有隐藏单元或层的更大网络
尝试更好的神经网络架构或高级优化算法

我们如何处理高方差（过拟合）？

正则化
添加数据
寻找更好的神经网络架构

使用现有的深度学习算法，我们可以自由地继续训练更大的神经网络以最小化偏差，而不会对方差产生任何影响。同样，我们可以继续添加数据以最小化方差，而不会对偏差的值产生任何影响。此外，如果我们同时处理高偏差和高方差，我们可以通过使用正确的深度学习正则化技术来降低这两个值。

正如所讨论的，模型复杂性的增加导致方差值的增加和偏差值的减少。使用正确的正则化技术，您可以努力减少测试和训练错误，从而在方差和偏差之间进行理想的权衡。

正则化技术

以下是三种最常见的正则化技术：

1. 数据集扩充

最简单的概括方法是什么？答案很简单，但它的实现却并非如此。您只需要在更大的数据集上训练该模型。然而，这在大多数情况下是不可行的，因为我们主要处理有限的数据。可以针对多个机器学习问题执行的最佳解决方案是创建合成或虚假数据以添加到现有数据集中。因此，如果您正在处理图像数据，创建合成数据的最简单方法包括缩放、图片的像素平移和旋转。

2. 提前停止

导致过度拟合的一个非常常见的训练场景是在相对较大的数据集上训练模型时。在这种情况下，对模型进行较长时间的训练并不会提高其泛化能力；相反，它会导致过度拟合。

在训练过程中的某个点之后以及训练误差显着减少之后，验证误差开始增加。这意味着过度拟合已经开始。通过使用 Early Stopping 技术，一旦我们看到验证错误增加，我们就会停止模型的训练并保持参数不变。

3. L1 和 L2

L1 和 L2 构成了非常常用于训练模型的权重惩罚正则化技术。它的工作原理是使具有较大权重的模型比具有较小权重的模型更复杂。惩罚在所有这些中的作用是确保权重为零或非常小。唯一的例外是当存在大梯度来抵消时。权重惩罚也称为权重衰减，表示权重衰减到更小的单位或零。

L1 范数：它允许一些权重变大并将一些权重推向零。它惩罚权重的真实值。

L2 范数：它将所有权重推向更小的值。它惩罚权重的平方值。

结论

在这篇文章中，您了解了深度学习中的神经网络正则化及其技术。我们当然希望这一定已经清除了您围绕该主题的大部分疑问。

如果您有兴趣了解有关深度学习和人工智能的更多信息，请查看我们的机器学习和人工智能 PG 文凭课程，该课程专为在职专业人士设计，并提供 30 多个案例研究和作业、25 多个行业指导课程、5 多个实践手- 顶石项目，超过 450 小时的严格培训和顶级公司的就业帮助。

L1 相对于 L2 正则化的优势是什么？

由于 L1 正则化降低了 beta 系数或使其更小到几乎为零，因此对于终止不重要的特征至关重要。另一方面，L2 正则化统一减少权重，并且仅在数据本身存在多重共线性时应用。因此，L1 正则化可用于特征选择，使其优于 L2 正则化。

数据增强的好处和挑战是什么？

好处包括通过添加更多训练数据来提高预测模型的准确性，防止数据因更好的模型而变得稀缺，以及提高模型泛化输出的能力。它还降低了收集数据然后对其进行标记的成本。挑战包括开发新的研究来创建具有用于数据增强领域的高级应用的合成数据。此外，如果真实数据集包含偏差，那么增强数据也将包含偏差。

我们如何处理高偏差和高方差？

处理高偏差意味着对数据集进行更长时间的训练。为此，应该使用更大的网络和隐藏层。此外，应该应用更好的神经网络。为了处理高方差，必须启动正则化，必须添加额外的数据，并且类似地，必须构建更好的神经网络架构。