深度學習中的正則化：你需要知道的一切

已發表: 2020-11-16

數據科學家或機器學習工程師面臨的最大問題之一是創建在訓練數據和新輸入上表現良好的算法所涉及的複雜性。機器學習中使用了許多技術來最小化或完全消除測試錯誤。在某些情況下，這樣做是在不太關心增加的訓練錯誤的情況下完成的。所有這些技術放在一起通常被稱為正則化。

簡而言之，正則化是對學習算法進行的更改，以最小化其泛化誤差，而無需過多地關注減少其訓練誤差。有幾種可用的正則化技術，每一種都適用於學習算法或神經網絡的不同方面，每一種都會導致不同的結果。

有一些正則化技術對學習模型施加了額外的限制，例如對參數值的約束。有些對參數值施加了限制。如果仔細選擇正則化技術，它可以提高測試數據模型的性能。

為什麼我們需要神經網絡正則化？

深度神經網絡是複雜的學習模型，由於其靈活地記憶單個訓練集模式而不是對無法識別的數據採取通用方法，因此容易出現過度擬合。這就是神經網絡正則化如此重要的原因。它可以幫助您保持學習模型易於理解，以允許神經網絡概括它無法識別的數據。

讓我們通過一個例子來理解這一點。假設我們有一個包含輸入值和輸出值的數據集。讓我們還假設這些值之間存在真正的關係。現在，深度學習的目標之一是建立輸入值和輸出值之間的近似關係。因此，對於每個數據集，都有兩個模型可以幫助我們定義這種關係——簡單模型和復雜模型。

在簡單模型中，存在一條直線，它只包含定義相關關係的兩個參數。該模型的圖形表示將具有一條直線，該直線緊密地穿過相關數據集的中心，確保該線與其下方和上方的點之間的距離非常小。

另請閱讀：機器學習項目理念

另一方面，複雜模型有幾個參數，具體取決於數據集。它遵循多項式方程，允許它通過每個訓練數據點。隨著複雜度的逐漸增加，訓練誤差將達到零值，模型將記住數據集的各個模式。與簡單模型不同，即使它們在不同的數據集上進行訓練，它們之間也不會有太大的不同，而對於復雜模型則不能這樣說。

什麼是偏差和方差？

簡單來說，偏差是真實人口線與在不同數據集上訓練的模型的平均值之間存在的距離的度量。偏差在決定我們是否會有一個好的預測區間方面起著非常重要的作用。它通過計算平均函數與真實關係的接近程度來做到這一點。

另請閱讀：印度機器學習工程師的薪水

方差量化了平均函數的估計變化。方差確定了在特定數據集上建模的模型在整個預測過程中在不同數據集上進行訓練時顯示的偏差量。無論算法具有高偏差還是高方差，我們都可以進行一些修改以使其性能更好。

我們如何處理高偏差？

訓練它更長的時間
使用具有隱藏單元或層的更大網絡
嘗試更好的神經網絡架構或高級優化算法

我們如何處理高方差（過擬合）？

正則化
添加數據
尋找更好的神經網絡架構

使用現有的深度學習算法，我們可以自由地繼續訓練更大的神經網絡以最小化偏差，而不會對方差產生任何影響。同樣，我們可以繼續添加數據以最小化方差，而不會對偏差的值產生任何影響。此外，如果我們同時處理高偏差和高方差，我們可以通過使用正確的深度學習正則化技術來降低這兩個值。

正如所討論的，模型複雜性的增加導致方差值的增加和偏差值的減少。使用正確的正則化技術，您可以努力減少測試和訓練錯誤，從而在方差和偏差之間進行理想的權衡。

正則化技術

以下是三種最常見的正則化技術：

1. 數據集擴充

最簡單的概括方法是什麼？答案很簡單，但它的實現卻並非如此。您只需要在更大的數據集上訓練該模型。然而，這在大多數情況下是不可行的，因為我們主要處理有限的數據。可以針對多個機器學習問題執行的最佳解決方案是創建合成或虛假數據以添加到現有數據集中。因此，如果您正在處理圖像數據，創建合成數據的最簡單方法包括縮放、圖片的像素平移和旋轉。

2. 提前停止

導致過度擬合的一個非常常見的訓練場景是在相對較大的數據集上訓練模型時。在這種情況下，對模型進行較長時間的訓練並不會提高其泛化能力；相反，它會導致過度擬合。

在訓練過程中的某個點之後以及訓練誤差顯著減少之後，驗證誤差開始增加。這意味著過度擬合已經開始。通過使用 Early Stopping 技術，一旦我們看到驗證錯誤增加，我們就會停止模型的訓練並保持參數不變。

3. L1 和 L2

L1 和 L2 構成了非常常用於訓練模型的權重懲罰正則化技術。它的工作原理是使具有較大權重的模型比具有較小權重的模型更複雜。懲罰在所有這些中的作用是確保權重為零或非常小。唯一的例外是當存在大梯度來抵消時。權重懲罰也稱為權重衰減，表示權重衰減到更小的單位或零。

L1 範數：它允許一些權重變大並將一些權重推向零。它懲罰權重的真實值。

L2 範數：它將所有權重推向更小的值。它懲罰權重的平方值。

結論

在這篇文章中，您了解了深度學習中的神經網絡正則化及其技術。我們當然希望這一定已經清除了您圍繞該主題的大部分疑問。

如果您有興趣了解有關深度學習和人工智能的更多信息，請查看我們的機器學習和人工智能 PG 文憑課程，該課程專為在職專業人士設計，並提供 30 多個案例研究和作業、25 多個行業指導課程、5 多個實踐手- 頂石項目，超過 450 小時的嚴格培訓和頂級公司的就業幫助。

L1 相對於 L2 正則化的優勢是什麼？

由於 L1 正則化降低了 beta 係數或使其更小到幾乎為零，因此對於終止不重要的特徵至關重要。另一方面，L2 正則化統一減少權重，並且僅在數據本身存在多重共線性時應用。因此，L1 正則化可用於特徵選擇，使其優於 L2 正則化。

數據增強的好處和挑戰是什麼？

好處包括通過添加更多訓練數據來提高預測模型的準確性，防止數據因更好的模型而變得稀缺，以及提高模型泛化輸出的能力。它還降低了收集數據然後對其進行標記的成本。挑戰包括開發新的研究來創建具有用於數據增強領域的高級應用的合成數據。此外，如果真實數據集包含偏差，那麼增強數據也將包含偏差。

我們如何處理高偏差和高方差？

處理高偏差意味著對數據集進行更長時間的訓練。為此，應該使用更大的網絡和隱藏層。此外，應該應用更好的神經網絡。為了處理高方差，必須啟動正則化，必須添加額外的數據，並且類似地，必須構建更好的神經網絡架構。