線性回歸的假設:帶有示例的 5 個假設
已發表: 2020-12-22回歸用於衡量和量化因果關係。 回歸分析是一種統計技術,用於了解觀察到的模式與假設影響給定觀察到的模式的變量之間可能的因果關係的大小和方向。
例如,如果一種產品(例如潤膚霜)的價格降低 20%,人們可能會購買它,銷售額可能會增加。
在這裡,觀察到的模式是銷售額的增加(也稱為因變量)。 假定影響銷售的變量是價格(也稱為自變量)。
目錄
什麼是線性回歸?
線性回歸是一種統計技術,它對由自變量解釋的因變量的影響的大小和方向進行建模。 線性回歸常用於預測分析。
線性回歸解釋了變量的兩個重要方面,具體如下:
- 自變量集是否顯著解釋了因變量?
- 哪些變量在解釋可用的依賴項方面最重要? 它們以何種方式影響因變量? 影響通常由方程中β係數的大小和符號決定。
現在,讓我們看一下線性回歸的假設,這是在我們運行線性回歸模型之前必須理解的。

閱讀更多:線性回歸模型及其工作原理?
線性回歸的假設
線性關係
最重要的假設之一是,據說因變量和自變量之間存在線性關係。 如果您嘗試在非線性數據集中擬合線性關係,所提出的算法將無法將趨勢捕獲為線性圖,從而導致模型效率低下。 因此,它會導致不准確的預測。
如何判斷假設是否成立?
確定是否滿足此假設的簡單方法是創建散點圖 x 與 y。 如果數據點落在圖中的一條直線上,則因變量和自變量之間存在線性關係,假設成立。
如果違反了這個假設,你應該怎麼做?
如果因變量和自變量之間不存在線性關係,則對因變量、自變量或兩者應用非線性變換,例如對數、指數、平方根或倒數。
沒有自相關或獨立性
殘差(誤差項)彼此獨立。 換句話說,時間序列數據的連續誤差項之間沒有相關性。 誤差項中存在相關性會大大降低模型的準確性。 如果誤差項是相關的,則估計的標準誤差會嘗試縮小真實的標準誤差。
如何判斷假設是否成立?
進行 Durbin-Watson (DW) 統計檢驗。 這些值應介於 0-4 之間。 如果 DW=2,則無自相關; 如果 DW 介於 0 和 2 之間,則表示存在正相關。 如果 DW 介於 2 和 4 之間,則表示存在負相關。 另一種方法是根據殘差與時間的關係繪製圖表,並查看殘差值的模式。
如果違反了這個假設,你應該怎麼做?
如果違反假設,請考慮以下選項:
- 對於正相關,請考慮向因變量或自變量或這兩個變量添加滯後。
- 對於負相關,檢查是否沒有變量過度差異。
- 對於季節性相關性,請考慮在模型中添加一些季節性變量。
沒有多重共線性
自變量不應相關。 如果自變量之間存在多重共線性,則預測模型的結果具有挑戰性。 本質上,很難解釋因變量和自變量之間的關係。 換句話說,不清楚哪些自變量解釋了因變量。

標準誤往往會隨著相關變量而膨脹,從而擴大置信區間,導致估計不精確。
如何判斷假設是否成立?
使用散點圖可視化變量之間的相關性。 另一種方法是確定 VIF(方差膨脹因子)。 VIF<=4 意味著沒有多重共線性,而 VIF>=10 意味著嚴重的多重共線性。
如果違反了這個假設,你應該怎麼做?
通過轉換或組合相關變量來降低變量之間的相關性。
必讀: ML 中的回歸模型類型
同方差性
同方差性意味著殘差在每個 x 水平上都有恆定的方差。 沒有這種現像被稱為異方差。 異方差性通常出現在存在異常值和極值的情況下。
如何判斷假設是否成立?
創建一個散點圖,顯示殘差與擬合值。 如果數據點均勻分佈而沒有明顯的模式,則意味著殘差具有恆定的方差(同方差性)。 否則,如果看到漏斗形圖案,則意味著殘差分佈不均,並描繪出非常量的方差(異方差)。
如果違反了這個假設,你應該怎麼做?
- 轉換因變量
- 重新定義因變量
- 使用加權回歸
誤差項的正態分佈
最後一個需要檢查線性回歸的假設是誤差項的正態分佈。 如果誤差項不服從正態分佈,置信區間可能會變得太寬或太窄。
如何判斷假設是否成立?
使用 QQ(分位數-分位數)圖檢查假設。 如果圖表上的數據點形成一條直線對角線,則滿足該假設。

您還可以使用 Kolmogorov-Smironov 或 Shapiro-Wilk 檢驗等統計檢驗來檢查錯誤項的正態性。
如果違反了這個假設,你應該怎麼做?
- 驗證異常值是否對分佈有影響。 確保它們是真實值而不是數據輸入錯誤。
- 以對數、平方根或倒數的形式對因變量、自變量或這兩個變量應用非線性變換。
結論
通過應用上面討論的技術來利用回歸的真正力量,以確保不違反假設。 如果滿足線性回歸的所有假設,理解自變量對因變量的影響確實是可行的。
線性回歸的概念是數據科學和機器學習程序中不可或缺的元素。
如果您有興趣了解有關回歸模型和機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,專為在職專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和分配,IIIT-B 校友身份,5 個以上實用的實踐頂點項目和頂級公司的工作協助。
為什麼線性回歸需要同方差性?
同方差性描述了數據與平均值的相似程度或偏離程度。 這是一個重要的假設,因為參數統計測試對差異很敏感。 異方差性不會在係數估計中引起偏差,但會降低它們的精度。 精度越低,係數估計就越可能偏離正確的總體值。 為了避免這種情況,同方差性是斷言的關鍵假設。
線性回歸中多重共線性的兩種類型是什麼?
數據和結構多重共線性是多重共線性的兩種基本類型。 當我們從其他項中創建一個模型項時,我們會得到結構多重共線性。 換句話說,它不是出現在數據本身中,而是我們提供的模型的結果。 雖然數據多重共線性不是我們模型的產物,但它存在於數據本身中。 數據多重共線性在觀察性調查中更為常見。
使用 t 檢驗進行獨立檢驗的缺點是什麼?
使用配對樣本 t 檢驗時,重複測量而不是組設計之間的差異存在問題,這會導致結轉效應。 由於 I 類錯誤,t 檢驗不能用於多重比較。 在對一組樣本進行配對 t 檢驗時,很難拒絕原假設。 獲取樣本數據的主題是研究過程中耗時且成本高昂的一個方面。