回歸分析中的多重共線性:你需要知道的一切

已發表: 2020-12-23

目錄

介紹

回歸試圖確定一個因變量與一系列其他自變量之間關係的特徵和強度。 它有助於評估不同變量之間關係的強度,並為它們之間的未來關係建立模型。 回歸中的“多重共線性”是指與其他預測變量相關的預測變量,

什麼是多重共線性?

每當兩個或多個預測變量之間的相關性很高時,就會出現回歸中的多重共線性。 簡而言之,預測變量,也稱為多重共線性預測變量,可用於預測另一個變量。 這會導致產生冗餘信息,從而扭曲回歸模型中的結果。

多重共線性預測變量的示例是汽車的銷售價格和年齡、人的體重、身高或年收入和教育年限。

計算相關係數是檢測所有預測變量值對的多重共線性的最簡單方法。 如果 r,即相關係數恰好為 +1 或 -1,則稱為完美多重共線性。 如果相關係數恰好或接近 +1 或 -1,則只有在可能的情況下,才必須從模型中丟棄其中一個變量。

實驗數據很少見,但在觀察性研究中,多重共線性很常見。 當條件存在時,它可能導致回歸的不可靠和不穩定估計。 在分析結果的幫助下,可以乾擾其他一些問題,例如:

  • t 統計量通常很小,係數的置信區間很寬。 這意味著很難拒絕零假設。
  • 當偏回歸係數從一個樣本傳遞到另一個樣本時,它們的大小和/或符號可能會發生變化。
  • 標準誤差可能很大,偏回歸係數估計可能不精確。
  • 由於多重共線性,很難通過自變量來衡量因變量對因變量的影響。

閱讀:機器學習中的回歸模型類型

為什麼多重共線性是一個問題?

單個變量的變化會導致其餘變量的變化,這發生在自變量高度相關時。 因此,該模型導致了顯著波動的結果。 由於模型的結果會不穩定且變化很大,即使數據發生很小的變化,也會構成以下問題:

  • 係數的估計將是不穩定的,並且難以解釋模型。 也就是說,即使您的預測因素之一改變了 1 個單位,您也無法預測輸出差異的規模。
  • 如果每次都給出不同的結果,則很難為模型選擇重要變量列表。
  • 由於模型的不穩定性質,可能會導致過度擬合。 與使用訓練數據集獲得的準確度相比,如果將相同的模型應用於其他數據樣本,您會發現準確度顯著下降。

考慮到這種情況,如果只出現中度共線性問題,對您的模型來說可能並不麻煩。 但是,如果存在嚴重的共線性問題,總是建議解決問題。

多重共線性的原因是什麼?

有兩種類型:

  1. 回歸中的結構多重共線性:這通常是由研究人員或您在創建新的預測變量時引起的。
  2. 回歸中基於數據的多重共線性:這通常是由於實驗設計不佳、無法操縱的數據收集方法或純粹的觀察數據造成的。 在少數情況下,由於來自 100% 觀察性研究的數據收集,變量可以高度相關,並且研究人員方面沒有錯誤。 因此,總是建議盡可能通過提前設置預測變量的水平來進行實驗。

另請閱讀:線性回歸項目的想法和主題

其他原因可能還包括

  1. 缺乏數據。 在少數情況下,收集大量數據有助於解決問題。
  2. 用作虛擬變量的變量可能使用不正確。 例如,研究人員可能無法為每個類別添加一個虛擬變量或排除一個類別。
  3. 考慮回歸中的一個變量,它是回歸中其他變量的組合——例如,當它是儲蓄利息收入+債券和股票收入時,考慮“總投資收入”。
  4. 包括兩個幾乎或完全相同的變量。 例如,債券/儲蓄收入和投資收入,以公斤為單位的重量和以磅為單位的重量。

檢查是否發生多重共線性

您可以繪製所有自變量的相關矩陣。 或者,您可以使用 VIF,即每個自變量的方差膨脹因子。 它測量多元回歸變量集中的多重共線性。 VIF 的值與該變量與其餘變量之間的相關性成正比。 這意味著,VIF 值越高,相關性越高。

我們如何解決多重共線性問題?

  1. 變量的選擇:最簡單的方法是刪除一些相互高度相關的變量,只留下集合中最重要的變量。
  2. 變量的變換:第二種方法是變量變換,這將減少相關性並仍然設法保持特徵。
  3. 主成分分析主成分分析通常用於通過將數據分解為多個獨立因素來降低數據維度。 它有很多應用,例如可以通過減少預測因子的數量來簡化模型計算。

相關閱讀:機器學習中的線性回歸

結論

在構建回歸模型之前,您應該始終檢查多重共線性問題。 為了方便地查看每個自變量,建議使用 VIF 來查看它們是否與其他變量具有相當大的相關性。 當您不確定應該選擇哪些變量時,相關矩陣可以幫助選擇重要因素。 它還有助於理解為什麼一些變量具有高 VIF 值。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

機器學習中的序數回歸是什麼意思?

序數回歸是屬於回歸分析家族的一種回歸分析。 序數回歸分析數據並解釋一個因變量與兩個或多個自變量之間的關係作為預測研究。 當存在“有序”的眾多類別和獨立因素時,序數回歸用於預測因變量。 換句話說,它允許具有不同有序級別的因變量更容易地與一個或多個自變量交互。

多重共線性的存在會影響決策樹嗎?

如果兩個特徵在特定的機器學習模型中高度相關,那麼決策樹在拆分時只會選擇其中一個。 如果數據偏斜或不平衡,單個樹會導致貪婪方法,但隨機森林和梯度提升樹等集成學習方法使預測不受多重共線性的影響。 因此,隨機森林和決策樹不受多重共線性的影響。

邏輯回歸與線性回歸有何不同?

在一些方面,線性回歸不同於邏輯回歸。 邏輯回歸產生離散的評論​​和發現,但線性回歸產生連續和持續的輸出。 在線性回歸中,計算均方誤差,但在邏輯回歸中,計算最大似然估計。 最後,線性回歸的目標是確定與數據匹配的最佳線,但邏輯回歸通過將數據擬合到 sigmoid 曲線來保持領先。