卷積神經網絡：2022 年初學者終極指南

已發表: 2021-01-05

對“數據科學”的快速谷歌搜索將明確地向任何人揭示如何
在過去的五年裡，這個領域變得很流行。除了數據科學，人工
智能、機器學習和深度學習也在
計算機科學領域。最新加入此列表的是卷積神經網絡
網絡——計算機視覺領域的一項創新。

一切從哪裡開始？

2012 年，當 Alex Krizhevsky 贏得了
當年的 ImageNet 比賽。這場比賽類似於計算機的奧運會
視覺，當 Alex 使用它們時，分類錯誤從 26% 下降到 15%。

這是公司和計算機的“明確的激光希望之光”
科學家需要。從那時起，Instagram、Facebook、Pinterest 等公司紛紛湧現。
熱情地實施了神經網絡，以提供最佳體驗
他們的觀眾。 閱讀：神經網絡教程。

卷積神經網絡的生物學聯繫也將有助於使其
基礎明確。 1962 年，Hubel 和 Wiesel 表明不同的神經元在
只有當特定的視覺線索出現時，視覺皮層才會被激發。一起，這些
神經元具有柱狀結構，當被激發時，共同產生視覺
洞察力。

例如，一些神經元只有在暴露於水平邊緣時才會觸發。
其他人在存在垂直或對角邊緣的情況下發射。因此，不同的神經元
響應不同的視覺組件並使我們能夠看到。

卷積神經網絡（也稱為 CNN 或 ConvNet）是一種深度學習
算法。它採用輸入圖像，為圖像的組件分配權重/偏差
圖像，然後對整個圖像進行分類。經過足夠的訓練，ConvNets
能夠學習過濾器/分類，並且所需的預處理較低
與其他算法相比。閱讀深度學習和神經網絡之間的差異。

我們最終想要卷積神經網絡做的是區分
在圖像之間進行正確分類。它能夠捕捉時間和
由於相關過濾器的應用，空間依賴性。

圖像根據圖像的分辨率和大小變成一個數組。

數組中的每個條目將包含一個從 0 到 255 的數字（如果 RGB 系統是
用過的）。該數字將代表該點的像素強度。

將所有這些數字作為輸入，計算機將輸出一個數字。這個號碼
將表示圖像屬於某個類別（例如房屋，
路、公共汽車、狗、貓等）

看到上圖，你可能會認為一個卷積層有很多層
神經網絡，但實際上只有3個主要的。這些包括：
1.卷積層
2.池化層
3.全連接層
讓我們更深入地研究其中的每一個。

這是卷積神經網絡的核心層。它的參數是
由一組過濾器組成。這些過濾器很小，但它們覆蓋了整個深度
輸入音量。

在卷積層執行的主要任務是提取高層
特徵。第一個（如上圖所示）負責提取低
水平特徵，如顏色、邊緣等。隨後的捲積層取出
高級特徵，從而導致對圖像的完整理解/細讀。

該層旨在減少圖像表示的空間大小。因此，它
還有助於減少神經網絡中的計算和處理量。
此外，它還提取位置和旋轉的主要特徵
不變的。

一種池化是通過使用 Max 操作完成的。該操作選取
前一層每個神經元簇的最大值。另一種池化
是從集群返回平均值的平均池。
由於 Max pooling 還可以作為噪聲抑制器，因此它的性能優於 Average
匯集。

如上圖所示，除了池化層之外，還有多個池化層
卷積層。這些層數越多，低級特徵越多
將被提取。但是，消耗的計算能力也會增加。

現在圖像已經通過了所有當前的捲積和池化
層，特徵提取完成。現在是圖像分類的時候了。全連接層執行此任務。

作為最後一層，FC 層只是一個前饋神經網絡。輸入到
全連接層是最後一個池化/卷積的扁平化輸出
層。展平意味著將 3 維矩陣或數組展開為向量。

對於每個 FC 層，都會進行特定的數學計算。向量通過所有全連接層後，在最後一層使用 softmax 激活函數。這用於計算輸入屬於特定任務的概率。

因此，最終結果是輸入圖像屬於不同類別的不同概率。

對不同類型的圖像和這些類型中的單個圖像重複該過程。這會訓練網絡並教它區分狗和貓，玫瑰和向日葵。

卷積神經網絡的底層技術正在不斷完善。 網絡經過大量訓練以輸出準確的概率。可以正確地說：在計算機視覺領域，CNN 本身就是一場革命。

您可以查看我們的機器學習和人工智能 PG 文憑，它提供實用的實踐研討會、一對一的行業導師、12 個案例研究和作業、IIIT-B 校友身份等。

機器學習和人工智能的 PG 文憑

了解更多