卷积神经网络：2022 年初学者终极指南

已发表: 2021-01-05

对“数据科学”的快速谷歌搜索将明确地向任何人揭示如何
在过去的五年里，这个领域变得很流行。除了数据科学，人工
智能、机器学习和深度学习也在
计算机科学领域。最新加入此列表的是卷积神经网络
网络——计算机视觉领域的一项创新。

一切从哪里开始？

2012 年，当 Alex Krizhevsky 赢得了
当年的 ImageNet 比赛。这场比赛类似于计算机的奥运会
视觉，当 Alex 使用它们时，分类错误从 26% 下降到 15%。

这是公司和计算机的“明确的激光希望之光”
科学家需要。从那时起，Instagram、Facebook、Pinterest 等公司纷纷涌现。
热情地实施了神经网络，以提供最佳体验
他们的观众。 阅读：神经网络教程。

卷积神经网络的生物学联系也将有助于使其
基础明确。 1962 年，Hubel 和 Wiesel 表明不同的神经元在
只有当特定的视觉线索出现时，视觉皮层才会被激发。一起，这些
神经元具有柱状结构，当被激发时，共同产生视觉
洞察力。

例如，一些神经元只有在暴露于水平边缘时才会触发。
其他人在存在垂直或对角边缘的情况下发射。因此，不同的神经元
响应不同的视觉组件并使我们能够看到。

卷积神经网络（也称为 CNN 或 ConvNet）是一种深度学习
算法。它采用输入图像，为图像的组件分配权重/偏差
图像，然后对整个图像进行分类。经过足够的训练，ConvNets
能够学习过滤器/分类，并且所需的预处理较低
与其他算法相比。阅读深度学习和神经网络之间的差异。

我们最终想要卷积神经网络做的是区分
在图像之间进行正确分类。它能够捕捉时间和
由于相关过滤器的应用，空间依赖性。

图像根据图像的分辨率和大小变成一个数组。

数组中的每个条目将包含一个从 0 到 255 的数字（如果 RGB 系统是
用过的）。该数字将代表该点的像素强度。

将所有这些数字作为输入，计算机将输出一个数字。这个号码
将表示图像属于某个类别（例如房屋，
路、公共汽车、狗、猫等）

看到上图，你可能会认为一个卷积层有很多层
神经网络，但实际上只有3个主要的。这些包括：
1.卷积层
2.池化层
3.全连接层
让我们更深入地研究其中的每一个。

这是卷积神经网络的核心层。它的参数是
由一组过滤器组成。这些过滤器很小，但它们覆盖了整个深度
输入音量。

在卷积层执行的主要任务是提取高层
特征。第一个（如上图所示）负责提取低
水平特征，如颜色、边缘等。随后的卷积层取出
高级特征，从而导致对图像的完整理解/细读。

该层旨在减少图像表示的空间大小。因此，它
还有助于减少神经网络中的计算和处理量。
此外，它还提取位置和旋转的主要特征
不变的。

一种池化是通过使用 Max 操作完成的。该操作选取
前一层每个神经元簇的最大值。另一种池化
是从集群返回平均值的平均池。
由于 Max pooling 还可以作为噪声抑制器，因此它的性能优于 Average
汇集。

如上图所示，除了池化层之外，还有多个池化层
卷积层。这些层数越多，低级特征越多
将被提取。但是，消耗的计算能力也会增加。

现在图像已经通过了所有当前的卷积和池化
层，特征提取完成。现在是图像分类的时候了。全连接层执行此任务。

作为最后一层，FC 层只是一个前馈神经网络。输入到
全连接层是最后一个池化/卷积的扁平化输出
层。展平意味着将 3 维矩阵或数组展开为向量。

对于每个 FC 层，都会进行特定的数学计算。向量通过所有全连接层后，在最后一层使用 softmax 激活函数。这用于计算输入属于特定任务的概率。

因此，最终结果是输入图像属于不同类别的不同概率。

对不同类型的图像和这些类型中的单个图像重复该过程。这会训练网络并教它区分狗和猫，玫瑰和向日葵。

卷积神经网络的底层技术正在不断完善。 网络经过大量训练以输出准确的概率。可以正确地说：在计算机视觉领域，CNN 本身就是一场革命。

您可以查看我们的机器学习和人工智能 PG 文凭，它提供实用的实践研讨会、一对一的行业导师、12 个案例研究和作业、IIIT-B 校友身份等。

机器学习和人工智能的 PG 文凭

了解更多