知道为什么广义线性模型是一个了不起的综合模型!

已发表: 2020-11-17

目录

了解基础知识

GLM在处理从经典线性回归模型到生存分析模型等不同回归模型的个人中非常有名。 广义线性模型(GLIM 或GLM)这个术语是由 McCullagh (1982) 和 Nelder (2nd edition 1989) 创造和熟悉的。 GLM ,在 Rutherford 2001 中描述的最简单的形式,数据 = 模型 + 误差。 它有一个有用的框架,是各种统计检验的基础。

重新审视模型类别

  • 经典线性回归 (CLR) 模型,也称为线性回归模型
  • 方差分析 (ANOVA) 模型。
  • 预测获胜几率的模型,例如机器故障的概率
  • 用于解释和预测事件计数的模型
  • 用于估计生物和非生物寿命的模型,例如处理器或植物的生物年龄等。

广义线性模型顾名思义,就像所有上述模型的天篷,具有改进的计算和近似值。

广义线性模型的结构

广义线性模型(或GLM1 )由三个主要部分组成:

  1. 随机分量:称为噪声模型或误差模型的随机分量是响应变量 (Y) 的概率分布。
  2. 系统成分:线性预测变量是回归变量的线性函数,如下所述:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. 链接函数(用η 或 g(μ)表示):顾名思义,它是系统分量和随机分量之间的链接

示例: μi = E(Yi),线性预测器 g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

广义线性模型通过最大似然过程应用于数据。 这提供了回归系数的估计和系数的估计渐近标准误差。

计数数据的基本GLM是带有日志链接的 Poisson 模型。 然而,当响应变量是一个计数时,其条件方差的增加速度比其平均值的增加得更快,从而产生一种称为过度离散的条件,并使泊松分布的使用无效。 准泊松GLM添加了一个分散参数来处理过度分散的计数数据。

一般而言,准似然估计是一种允许过度分散的方法,即数据中的变异性比所使用的统计模型所预期的更显着。

类似的模型基于负二项分布,它不是指数族。 广义线性模型中的负二项式不能由最大似然确定。 当数据中的零点多于与泊松分布一致时,零膨胀泊松回归模型可能最适合。

阅读:机器学习模型解释

广义线性模型相对于传统普通最小二乘 (OLS) 回归的优势

与 OLS 回归相比,一般线性模型有很多优点,可以总结如下:

  • 与 OLS 回归不同,响应 Y 不需要每次都转换为正态分布。
  • 建模更加灵活,因为选择链接不同于选择随机组件。
  • 如果链接产生附加效应,则不需要恒定方差。
  • 我们拥有估计量的最佳属性,因为模型是通过最大似然估计附加的。
  • 对数线性和逻辑回归模型的所有推理工具和模型检查也适用于其他GLM
  • 一个软件包中通常只有一个进程(过程或函数)来捕获上表中列出的所有模型; 例如,glm()(R 语言)或 PROC GENMOD(SAS)。

广义线性模型的缺点

除了上面列出的优点外,还有两个重要的缺点需要了解:

  • 一些限制,如线性函数,在系统分量中只能有一个线性预测器。
  • 响应不能相互依赖。

必读:机器学习项目理念解释

结论

如果我们总结以上所有信息,我们会发现GLM方便且复杂度较低。 使用GLM ,响应变量可以具有任何形式的指数分布类型。 除此之外,它还可以处理分类预测变量。 一般线性模型具有易于解释的相关性,并且可以清楚地了解每个预测变量如何影响结果。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

什么是泊松回归模型?

广义线性模型与广义线性模型有何不同?

广义线性模型有哪些假设?

大多数 GLM 假设与线性回归模型相当,但一些线性回归假设发生了变化。 假设 GLM 中的数据是独立且随机的。 错误也被认为是独立的,尽管它们不必定期分布。 虽然响应变量不需要独立,但分布应该属于指数族。