數據挖掘中的回歸:不同類型的回歸技術 [2022]
已發表: 2021-01-01監督學習是一種使用已標記數據訓練機器學習算法的學習。 這意味著所有訓練數據的正確答案都是已知的。 訓練後,它被提供一組新的未知數據,監督學習算法對其進行分析,然後根據標記的訓練數據產生正確的結果。
無監督學習是使用不知道正確標籤的信息來訓練算法的地方。 在這裡,機器基本上必鬚根據各種模式或任何相關性將信息組合在一起,而無需事先對任何數據進行培訓。
回歸是一種有監督的機器學習技術,它試圖預測任何連續的值屬性。 它分析目標變量(依賴)與其預測變量(獨立)之間的關係。 回歸是數據分析的重要工具,可用於時間序列建模、預測等。
回歸涉及在各種數據點上擬合曲線或直線的過程。 這樣做的方式是使曲線和數據點之間的距離最小。
儘管線性回歸和邏輯回歸是最流行的類型,但還有許多其他類型的回歸可以應用,具體取決於它們在特定數據集上的表現。 這些不同的類型因所有因變量的數量和類型以及所形成的回歸曲線的種類而異。
查看:數據科學和數據挖掘之間的區別
目錄
線性回歸
線性回歸使用最佳擬合直線在目標(因)變量和一個或多個自變量之間形成關係。
它由以下等式表示:
Y = a + b*X + e ,
其中 a 是截距,b 是回歸線的斜率,e 是誤差。 X 和 Y 分別是預測變量和目標變量。 當 X 由多個變量(或特徵)組成時,它被稱為多元線性回歸。
使用最小二乘法獲得最佳擬合線。 此方法最小化每個數據點與回歸線的偏差的平方和。 由於所有偏差都是平方的,因此這裡不會抵消負距離和正距離。
多項式回歸
在多項式回歸中,自變量的冪在回歸方程中大於 1。 下面是一個例子:
Y = a + b*X^2
在這個特定的回歸中,最佳擬合線不是線性回歸中的直線。 但是,它是一條適合所有數據點的曲線。
當您想通過使曲線更複雜來減少錯誤時,實施多項式回歸可能會導致過度擬合。 因此,始終嘗試通過將曲線推廣到問題來擬合曲線。
邏輯回歸
當因變量具有二元性質(真或假,0 或 1,成功或失敗)時,使用邏輯回歸。 這裡的目標值 (Y) 範圍從 0 到 1,它通常用於分類類型的問題。 邏輯回歸不需要因變量和自變量具有線性關係,就像線性回歸中的情況一樣。

閱讀:數據挖掘項目理念
嶺回歸
嶺回歸是一種用於分析具有多重共線性問題的回歸數據的技術。 多重共線性是任何兩個自變量之間幾乎線性相關的存在。
當最小二乘估計具有低偏差但它們具有高方差時,就會發生這種情況,因此它們與真實值非常不同。 因此,通過向估計的回歸值添加一定程度的偏差,通過實施嶺回歸可以大大降低標準誤差。
套索回歸
A S S O 術語“ Selection 它是一種線性回歸 使用收縮。 在這種情況下,所有數據點都被降低(或縮小)到一個中心點,也稱為平均值。 套索過程最適合參數相對較少的簡單和稀疏模型。 這種類型的回歸也非常適合遭受多重共線性(就像山脊一樣)的模型。
獲得世界頂尖大學的數據科學認證。 加入我們的行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
結論
回歸分析基本上允許您比較在廣泛範圍內測量的不同類型特徵變量的影響。 例如基於總面積、地點、年齡、家具等的房價預測。這些結果在很大程度上有利於市場研究人員或數據分析師消除任何無用的特徵並評估最佳特徵集以建立準確的預測模型。
如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流,400 多個小時的學習和頂級公司的工作協助。
什麼是線性回歸?
線性回歸建立目標變量或因變量與一個或多個自變量之間的關係。 當我們的方程中有多個預測變量時,它就變成了多元回歸。
最小二乘法被認為是獲得最佳擬合線的最佳方法,因為該方法最小化了從每個數據點到回歸線的偏差的平方和。
什麼是回歸技術,為什麼需要它們?
這些是用於估計或預測變量之間關係的技術。 在兩個變量之間找到關係,一個是目標,另一個是預測變量(也稱為 x 和 y 變量)。
可以使用線性、邏輯、逐步、多項式、套索和脊等不同技術來識別這種關係。 這樣做是為了使用數據收集和在它們之間繪製圖表來生成預測。
線性回歸技術與邏輯回歸技術有何不同?
這兩種回歸技術之間的區別在於因變量的類型。 如果因變量是連續的,則使用線性回歸,而如果因變量是分類的,則使用邏輯回歸。
顧名思義,在線性技術中識別線性或直線。 而在邏輯技術中,S 曲線被識別為自變量是多項式。 線性情況下的結果是連續的,而在邏輯技術的情況下,結果可以是真或假、0 或 1 等類別。