知道為什麼廣義線性模型是一個了不起的綜合模型!
已發表: 2020-11-17目錄
了解基礎知識
GLM在處理從經典線性回歸模型到生存分析模型等不同回歸模型的個人中非常有名。 廣義線性模型(GLIM 或GLM)這個術語是由 McCullagh (1982) 和 Nelder (2nd edition 1989) 創造和熟悉的。 GLM ,在 Rutherford 2001 中描述的最簡單的形式,數據 = 模型 + 誤差。 它有一個有用的框架,是各種統計檢驗的基礎。
重新審視模型類別
- 經典線性回歸 (CLR) 模型,也稱為線性回歸模型
- 方差分析 (ANOVA) 模型。
- 預測獲勝機率的模型,例如機器故障的概率
- 用於解釋和預測事件計數的模型
- 用於估計生物和非生物壽命的模型,例如處理器或植物的生物年齡等。
廣義線性模型,顧名思義,就像所有上述模型的天篷,具有改進的計算和近似值。
廣義線性模型的結構
廣義線性模型(或GLM1 )由三個主要部分組成:
- 隨機分量:稱為噪聲模型或誤差模型的隨機分量是響應變量 (Y) 的概率分佈。
- 系統成分:線性預測變量是回歸變量的線性函數,如下所述:
ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
- 鏈接函數(用η 或 g(μ)表示):顧名思義,它是系統分量和隨機分量之間的鏈接
示例: μi = E(Yi),線性預測器 g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
廣義線性模型通過最大似然過程應用於數據。 這提供了回歸係數的估計和係數的估計漸近標準誤差。

計數數據的基本GLM是帶有日誌鏈接的 Poisson 模型。 然而,當響應變量是一個計數時,其條件方差的增加速度比其平均值的增加得更快,從而產生一種稱為過度離散的條件,並使泊松分佈的使用無效。 準泊松GLM添加了一個分散參數來處理過度分散的計數數據。

一般而言,準似然估計是一種允許過度分散的方法,即數據中的變異性比所使用的統計模型所預期的更顯著。
類似的模型基於負二項分佈,它不是指數族。 廣義線性模型中的負二項式不能由最大似然確定。 當數據中的零點多於與泊松分佈一致時,零膨脹泊松回歸模型可能最適合。
閱讀:機器學習模型解釋

廣義線性模型相對於傳統普通最小二乘 (OLS) 回歸的優勢
與 OLS 回歸相比,一般線性模型有很多優點,可以總結如下:
- 與 OLS 回歸不同,響應 Y 不需要每次都轉換為正態分佈。
- 建模更加靈活,因為選擇鏈接不同於選擇隨機組件。
- 如果鏈接產生附加效應,則不需要恆定方差。
- 我們擁有估計量的最佳屬性,因為模型是通過最大似然估計附加的。
- 對數線性和邏輯回歸模型的所有推理工具和模型檢查也適用於其他GLM 。
- 一個軟件包中通常只有一個進程(過程或函數)來捕獲上表中列出的所有模型; 例如,glm()(R 語言)或 PROC GENMOD(SAS)。
廣義線性模型的缺點
除了上面列出的優點外,還有兩個重要的缺點需要了解:
- 一些限制,如線性函數,在系統分量中只能有一個線性預測器。
- 響應不能相互依賴。
必讀:機器學習項目理念解釋
結論
如果我們總結以上所有信息,我們會發現GLM方便且複雜度較低。 使用GLM ,響應變量可以具有任何形式的指數分佈類型。 除此之外,它還可以處理分類預測變量。 一般線性模型具有易於解釋的相關性,並且可以清楚地了解每個預測變量如何影響結果。
如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。
什麼是泊松回歸模型?
廣義線性模型與廣義線性模型有何不同?
廣義線性模型有哪些假設?
大多數 GLM 假設與線性回歸模型相當,但一些線性回歸假設發生了變化。 假設 GLM 中的數據是獨立且隨機的。 錯誤也被認為是獨立的,儘管它們不必定期分佈。 雖然響應變量不需要獨立,但分佈應該屬於指數族。