機器學習中的等滲回歸:理解機器學習中的回歸

已發表: 2020-12-21

有多種類型的回歸模型(算法)可用於訓練機器學習程序,例如線性回歸、邏輯回歸、嶺回歸和套索回歸。 其中,線性回歸模型是最基本、應用最廣泛的回歸模型。 機器學習中的等滲回歸基於線性回歸。 因此,在我們繼續等滲回歸之前,讓我們先看看機器學習中的線性回歸。

目錄

了解機器學習中的線性回歸

資源

線性回歸模型用於確定因變量和自變量之間的關係。 它假設兩個變量之間存在線性關係,由最佳擬合線表示。 方程 y= mx + c + e 用於表示線性回歸模型,其中:

m = 線的斜率

c=攔截

e= 模型中的錯誤

線性回歸模型容易受到異常值的影響,高度不靈活,因此不能用於大數據。 當此模型部署在大型測試數據上時,有多個實例位於線的斜率之外,也稱為殘差。 諸如 L1 和 L2 正則化之類的方法可用於降低直線斜率的陡度,但它們並沒有被證明是有用的。

必讀:機器學習模型解釋

這限制了機器學習算法的準確性。 正在採用一種新的機器學習等滲回歸方法來克服這一限制。 雖然目前還沒有普及,但這種方法非常強大,可以幫助提高機器學習程序的準確性。

了解機器學習中的等滲回歸

在深入研究技術內容之前,讓我們通俗地理解機器學習中的等滲回歸。

讓我們從解碼“等滲”這個詞開始。 “isotonic”一詞源於希臘語詞根,由“iso”和“tonic”兩部分組成。 在這裡,“iso”表示相等,“tonic”表示伸展。 因此,就機器學習算法而言,等滲回歸可以理解為沿線性回歸線的相等拉伸。 它適用於線性回歸模型。

讓我們看一下與等滲回歸相關的不同方面,這將有助於我們更好地理解它。

1.分段線性模型

如前所述,線性回歸線的斜率需要最小化,為此使用了L1和L2正則化方法。 等滲回歸方法完全不同,它通過創建閾值並將每個部分端到端連接的線性線劃分為分段部分。

例如,在上圖中,X 軸可以進一步劃分為多個較小的部分,例如以 10 為等間隔。這些間隔中的每一個都可以稱為 bin,例如 bin1、bin2、bin3、bin4 等在。 因此,線性方程現在變為,

y= m1x1 + m2x2 + m3x3 +….. mnxn + c,其中:

m1、m2、m3….mn = 各個 bin 的直線斜率。

這有助於最小化誤差並減小最佳擬合線的斜率。

2. 非負斜率

由於等滲函數是單調函數,所以解的斜率總是非負的。 從一個閾值移動到另一個閾值時,不允許降低斜率。 閾值中的最低點應始終大於前一個閾值中的最高點。

例如,設 x1、x2、x3、x4…xn 是考慮到 bin b1、b2、b3、b4…bn 中的斜率的數據點的值。 然後,根據規則,斜率應該是非負的。 因此,

f(x1) <= f(x2) <= f(x3) <= f(x4)…<= f(xn)。

因此,我們從較低的點(其中 f(x1) 是最低點)開始,然後隨著每個閾值逐漸移動到較高的點。 閾值的斜率可以為零(水平線),但永遠不能為負(向下斜率)。

閱讀:面向初學者的機器學習項目創意

在機器學習模型中使用等滲回歸的優勢

使用等滲回歸提供了兩個主要好處,這將在下面討論。

1. 多維縮放

如果您有多個輸入變量,等滲回歸非常有用。 我們可以將每個維度作為每個函數進行檢查,並以線性方式對其進行插值。 這允許簡單的多維縮放。

2. 概率值的校準

在邏輯回歸中,假設我們有一個變量 x,我們表示一個概率 p(1),其中變量的概率值不增加。 但是,實際上,現實世界中的概率值更高。 在這種情況下,出於校準目的或增加此類變量的概率,等滲回歸證明非常有用。

查看:機器學習面試問題

在機器學習模型中使用等滲回歸的缺點

使用等滲回歸有一個主要缺點,將在下面討論。

過擬合的風險

隨著等滲約束和預測器特徵的數量增加,超參數 (K) 過度擬合的風險很大,但可以使用交叉驗證工作流方法來管理該問題。

結論

目前,只有三種主要語言具有 Isotonic 回歸的開源包。 然而,看看在機器學習問題中使用等滲回歸的好處,等滲回歸包的範圍、使用和可用性在未來肯定會增加。

我們可以看到等滲回歸主要取代線性回歸和 L1 和 L2 歸一化方法。 因此,要為未來做好準備,有必要從現在開始更新並了解等滲回歸!

如果您有興趣了解有關機器學習中的等滲回歸或其他機器學習相關概念的更多信息,您可以查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,這是印度最暢銷的課程,獲得 4.5 星評級. 該課程有 450 多個小時的學習時間、30 多個案例研究和作業,並幫助學生學習與機器學習和 AI 相關的緊缺技能。

為什麼回歸在機器學習中很重要?

回歸分析是一種監督學習算法,是機器學習中的基本概念之一。 回歸用於通過嘗試估計一個變量的值如何影響另一個變量的值來建立不同變量之間的關係。 在機器學習領域,回歸包括複雜的數學算法,這些算法有助於根據一個或多個預測變量的連續變化值來估計特定目標變量的結果。 最流行的回歸分析是線性回歸,因為它很容易用於進行預測和預測。

機器學習和數據科學一樣嗎?

隨著數據科學和機器學習等流行語成為當今主流,許多人經常對它們的實際含義感到困惑。 讓我們試著在這裡快速解釋一下。 數據科學是指對組織產生的大量數據的研究。 數據科學家採用各種技術從這些數據中揭示有價值的見解,以便企業能夠獲得最大的利益並在競爭中保持領先地位。 機器學習不同於數據科學; 它採用數據科學技術來了解數據,然後用於訓練機器。 機器學習使用複雜的數學模型來幫助計算機在沒有人工干預的情況下學習。

機器學習和深度學習一樣嗎?

機器學習是人工智能的一個子集。 它採用的算法或模型可以分析數據,從中學習,然後應用這些學習來幫助計算機或機器在沒有明確的人工輸入的情況下做出決策。 另一方面,深度學習是機器學習的一個子領域。 它用於分層構建算法或數學模型,以開發類似於人腦結構的人工神經網絡。 該神經網絡可以自行學習,並使用自己的邏輯框架和分析數據做出智能決策。