卷積神經網絡:2022 年初學者終極指南
已發表: 2021-01-05對“數據科學”的快速谷歌搜索將明確地向任何人揭示如何
在過去的五年裡,這個領域變得很流行。 除了數據科學,人工
智能、機器學習和深度學習也在
計算機科學領域。 最新加入此列表的是卷積神經網絡
網絡——計算機視覺領域的一項創新。
目錄
一切從哪裡開始?
2012 年,當 Alex Krizhevsky 贏得了
當年的 ImageNet 比賽。 這場比賽類似於計算機的奧運會
視覺,當 Alex 使用它們時,分類錯誤從 26% 下降到 15%。
這是公司和計算機的“明確的激光希望之光”
科學家需要。 從那時起,Instagram、Facebook、Pinterest 等公司紛紛湧現。
熱情地實施了神經網絡,以提供最佳體驗
他們的觀眾。 閱讀:神經網絡教程。
卷積神經網絡的生物學聯繫也將有助於使其
基礎明確。 1962 年,Hubel 和 Wiesel 表明不同的神經元在
只有當特定的視覺線索出現時,視覺皮層才會被激發。 一起,這些
神經元具有柱狀結構,當被激發時,共同產生視覺
洞察力。
例如,一些神經元只有在暴露於水平邊緣時才會觸發。
其他人在存在垂直或對角邊緣的情況下發射。 因此,不同的神經元
響應不同的視覺組件並使我們能夠看到。
什麼是卷積神經網絡?
卷積神經網絡(也稱為 CNN 或 ConvNet)是一種深度學習
算法。 它採用輸入圖像,為圖像的組件分配權重/偏差
圖像,然後對整個圖像進行分類。 經過足夠的訓練,ConvNets
能夠學習過濾器/分類,並且所需的預處理較低
與其他算法相比。 閱讀深度學習和神經網絡之間的差異。

我們最終想要卷積神經網絡做的是區分
在圖像之間進行正確分類。 它能夠捕捉時間和
由於相關過濾器的應用,空間依賴性。
它如何工作的基礎知識
圖像根據圖像的分辨率和大小變成一個數組。
數組中的每個條目將包含一個從 0 到 255 的數字(如果 RGB 系統是
用過的)。 該數字將代表該點的像素強度。

將所有這些數字作為輸入,計算機將輸出一個數字。 這個號碼
將表示圖像屬於某個類別(例如房屋,
路、公共汽車、狗、貓等)
CNN的結構
看到上圖,你可能會認為一個卷積層有很多層
神經網絡,但實際上只有3個主要的。 這些包括:
1.卷積層
2.池化層
3.全連接層
讓我們更深入地研究其中的每一個。
卷積層
這是卷積神經網絡的核心層。 它的參數是
由一組過濾器組成。 這些過濾器很小,但它們覆蓋了整個深度
輸入音量。
在卷積層執行的主要任務是提取高層
特徵。 第一個(如上圖所示)負責提取低
水平特徵,如顏色、邊緣等。隨後的捲積層取出
高級特徵,從而導致對圖像的完整理解/細讀。
池化層
該層旨在減少圖像表示的空間大小。 因此,它
還有助於減少神經網絡中的計算和處理量。
此外,它還提取位置和旋轉的主要特徵
不變的。
一種池化是通過使用 Max 操作完成的。 該操作選取
前一層每個神經元簇的最大值。 另一種池化
是從集群返回平均值的平均池。
由於 Max pooling 還可以作為噪聲抑制器,因此它的性能優於 Average
匯集。
如上圖所示,除了池化層之外,還有多個池化層
卷積層。 這些層數越多,低級特徵越多
將被提取。 但是,消耗的計算能力也會增加。
現在圖像已經通過了所有當前的捲積和池化
層,特徵提取完成。 現在是圖像分類的時候了。 全連接層執行此任務。
全連接層 (FCL)
作為最後一層,FC 層只是一個前饋神經網絡。 輸入到
全連接層是最後一個池化/卷積的扁平化輸出
層。 展平意味著將 3 維矩陣或數組展開為向量。

對於每個 FC 層,都會進行特定的數學計算。 向量通過所有全連接層後,在最後一層使用 softmax 激活函數。 這用於計算輸入屬於特定任務的概率。
因此,最終結果是輸入圖像屬於不同類別的不同概率。
對不同類型的圖像和這些類型中的單個圖像重複該過程。 這會訓練網絡並教它區分狗和貓,玫瑰和向日葵。
帶走
卷積神經網絡的底層技術正在不斷完善。 網絡經過大量訓練以輸出準確的概率。 可以正確地說:在計算機視覺領域,CNN 本身就是一場革命。
您可以查看我們的機器學習和人工智能 PG 文憑,它提供實用的實踐研討會、一對一的行業導師、12 個案例研究和作業、IIIT-B 校友身份等。