什麼是機器學習中的過擬合和欠擬合? [你需要學習的一切]

已發表: 2020-02-18

機器學習並不是最容易掌握的學科。 過度擬合和欠擬合是機器學習社區中常見的許多術語中的幾個。 了解這些概念將為您未來的學習奠定基礎。

我們將在本文中深入了解這些概念。 我們還將討論這些錯誤的基本概念、它們發生的原因以及如何修復它們。 您還將了解一些有關數據模型及其與這些錯誤的關係的知識。

因此,無需拐彎抹角,讓我們直接潛入:

目錄

什麼是數據模型?

在我們開始討論什麼是過擬合和欠擬合之前,讓我們先了解一下什麼是模型。 數據模型是使用輸入進行預測的系統。 你可以說模型是解決問題的理論。 例如,如果你想預測多家公司的增長,你可以將它們的利潤作為輸入,並根據它們的收益和增長之間的關係產生結果。 此示例的輸出將是公司的預測增長。

因此,輸入是公司的當前利潤,而他們的增長預測是輸出。 這兩者之間的關係就是模型。 模型是生成輸出所必需的。

該模型通過訓練數據集了解輸入和輸出之間的關係。 我們稱輸入特徵和輸出標籤。 因此,您也可能會在文章中看到這些名稱。 在模型的訓練過程中,你會給它特徵和標籤,讓它弄清楚它們之間的關係。 完成訓練後,您可以通過僅提供一組特徵來試用該模型,您可以使用其正確預測。

在它生成預測後,您可以將它們與您擁有的正確預測進行比較,並查看模型的準確度。 模型有多種形狀。

數據訓練和測試

當您是初學者時,您可能會為您的數據模型提供完美的功能,但現實世界中不會發生這種情況。 現實世界中的數據充滿了噪音和無用的信息。 無論您的數據來源是什麼,您都會發現其中存在一些不符合趨勢的變量。

在我們的公司增長預測示例中,您知道他們的增長不會完全依賴於他們的利潤。 會有很多因素在起作用。 在訓練模型期間,您應該添加一些噪聲以使其逼真。 創建數據後,您必須將其分成兩組進行訓練和測試。

您將使用訓練數據來幫助模型了解特徵和標籤之間的關係。 您將使用測試數據來評估其性能。

數據世界中存在多種形式的模型。 選擇一個可能有點令人生畏,但通過一些練習,它會變得更容易。 標準模型是多項式回歸。 這是一種線性回歸形式,其中輸入被提升到各種冪。 這是一種線性回歸,但它不會形成一條直線。 閱讀有關線性回歸實現的更多信息。

您可以按其順序定義多項式。 多項式的階數是其方程中 x 的最高冪。 多項式的階數也顯示了它的次數。 例如,直線方程有 1 度。

修復機器學習中過擬合和欠擬合的重要性

當您處理模型的多項式次數時,會發生過擬合和欠擬合。 就像我們之前提到的,多項式的次數取決於方程中 x 的最高冪。 該值表明您的模型有多靈活。 如果您的模型具有較高的度數,它將具有更多的自由度。 一個高度的模型可以覆蓋很多數據對象。

另一方面,度數低於要求的模型將無法覆蓋足夠的數據對象。 這兩種情況都可能導致無用的污染結果。

前一個高於必要度的問題是過度擬合。 第二個小於要求的度數的問題是欠擬合。 如您所見,它們都可能對您的模型有害並損害您的結果。

如果您沒有解決這些問題,您的模型將無法為您提供準確的結果,並且您將使用無用的標籤。

現在我們知道了它們的基本概念,讓我們詳細討論它們中的每一個:

什麼是過擬合?

當機器學習算法開始在數據中記錄噪聲時,我們稱之為過度擬合。 簡而言之,當算法開始過多關注小細節時。 在機器學習中,結果是預測可能的輸出,並且由於過度擬合,它會在很大程度上阻礙其準確性。 我們知道這聽起來像是一件好事,但事實並非如此。

機器學習中過擬合的一個嚴重例子是所有點都線性連接的圖。 我們想要捕捉趨勢,但圖表並沒有做到這一點。

無法做出良好預測但從數據中學習一切可能的模型是無用的,因為它會導致不准確的結果。

發現過擬合怎麼辦?

我們可以通過簡單地減少算法使用的數據量而不使系統過載來解決這個問題。 高方差(過擬合)使事情變得更糟。 一些用於解決過擬合的常規技術如下:

減少迭代

通過減少在過度擬合發生之前運行的重複次數,我們可以阻止它發生。 您可以通過試錯法找到確切的迭代次數。

正則化

它限制了接近於 0 的係數估計值。簡單地說,我們可以說它告訴算法使用更寬鬆的模型而不是剛性模型。 詳細了解正則化以及如何避免過度擬合。

修剪(標準)

避免過度擬合的最簡單和最常見的方法是修剪。 它擺脫了幾乎沒有預測能力的任何節點。

五重交叉驗證

使用交叉驗證是檢查過度擬合的不太複雜的方法之一。

什麼是欠擬合?

顧名思義,欠擬合是指模型的擬合程度不足以為您提供結果。 欠擬合數據模型不知道如何定位足夠的數據對象。 度數越低,圖表最終會丟失大多數存在的特徵。

換句話說,如果模型欠擬合,則模型“太簡單”而無法生成結果。 但是,解決這個問題要舒服得多,並且不需要像以前過擬合那樣費力。

發現欠擬合怎麼辦?

如果你的模型欠擬合,你應該給它更多的特徵。 有了更多的特徵,它就會有更大的假設空間。 它可以使用該空間來生成準確的結果。 與過擬合相比,檢測欠擬合更舒適,因此識別此錯誤不會有任何問題。 但是,在處理欠擬合模型時,您應該只增加特徵而不是整個數據。 在這種情況下,擴展數據會導致更多錯誤。

閱讀:有趣的機器學習項目創意

擊中甜蜜點

在機器學習中,您希望數據模型保持在欠擬合和過擬合之間。 它既不能覆蓋太多數據點,也不能太少。 隨著您將進一步訓練您的模型,您可以進一步改進它並修復它的錯誤。 您的模型的錯誤將隨著訓練集和測試集的數量開始下降。

在過度擬合和欠擬合之間達到最佳平衡點的一個好方法是在模型的錯誤開始增加之前停止訓練。 這是一個通用的解決方案,除了我們在本文前面提到的方法之外,您還可以使用它。

結論

每個數據專業人員都面臨過擬合和欠擬合的問題。 訓練數據模型並不容易,需要大量練習才能熟悉它們。 但是,憑藉經驗,您將開始及早發現問題並完全避免錯誤的原因。

如果您想成為機器學習專家,熟悉此類錯誤至關重要。 如果您有興趣了解有關機器學習和數據科學的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為在職專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業,IIIT-B 校友身份,5 個以上實用的實踐頂點項目和頂級公司的工作協助。

為未來的職業做準備

機器學習和人工智能的 PG 文憑
了解更多