回归分析中的多重共线性:你需要知道的一切
已发表: 2020-12-23目录
介绍
回归试图确定一个因变量与一系列其他自变量之间关系的特征和强度。 它有助于评估不同变量之间关系的强度,并为它们之间的未来关系建立模型。 回归中的“多重共线性”是指与其他预测变量相关的预测变量,
什么是多重共线性?
每当两个或多个预测变量之间的相关性很高时,就会出现回归中的多重共线性。 简而言之,预测变量,也称为多重共线性预测变量,可用于预测另一个变量。 这会导致产生冗余信息,从而扭曲回归模型中的结果。
多重共线性预测变量的示例是汽车的销售价格和年龄、人的体重、身高或年收入和教育年限。
计算相关系数是检测所有预测变量值对的多重共线性的最简单方法。 如果 r,即相关系数恰好为 +1 或 -1,则称为完美多重共线性。 如果相关系数恰好或接近 +1 或 -1,则只有在可能的情况下,才必须从模型中丢弃其中一个变量。
实验数据很少见,但在观察性研究中,多重共线性很常见。 当条件存在时,它可能导致回归的不可靠和不稳定估计。 在分析结果的帮助下,可以干扰其他一些问题,例如:
- t 统计量通常很小,系数的置信区间很宽。 这意味着很难拒绝零假设。
- 当偏回归系数从一个样本传递到另一个样本时,它们的大小和/或符号可能会发生变化。
- 标准误差可能很大,偏回归系数估计可能不精确。
- 由于多重共线性,很难通过自变量来衡量因变量对因变量的影响。
阅读:机器学习中的回归模型类型

为什么多重共线性是一个问题?
单个变量的变化会导致其余变量的变化,这发生在自变量高度相关时。 因此,该模型导致了显着波动的结果。 由于模型的结果会不稳定且变化很大,即使数据发生很小的变化,也会构成以下问题:
- 系数的估计将是不稳定的,并且难以解释模型。 也就是说,即使您的预测因素之一改变了 1 个单位,您也无法预测输出差异的规模。
- 如果每次都给出不同的结果,则很难为模型选择重要变量列表。
- 由于模型的不稳定性质,可能会导致过度拟合。 与使用训练数据集获得的准确度相比,如果将相同的模型应用于其他数据样本,您会发现准确度显着下降。
考虑到这种情况,如果只出现中度共线性问题,对您的模型来说可能并不麻烦。 但是,如果存在严重的共线性问题,总是建议解决问题。
多重共线性的原因是什么?
有两种类型:


- 回归中的结构多重共线性:这通常是由研究人员或您在创建新的预测变量时引起的。
- 回归中基于数据的多重共线性:这通常是由于实验设计不佳、无法操纵的数据收集方法或纯粹的观察数据造成的。 在少数情况下,由于来自 100% 观察性研究的数据收集,变量可以高度相关,并且研究人员方面没有错误。 因此,总是建议尽可能通过提前设置预测变量的水平来进行实验。
另请阅读:线性回归项目的想法和主题
其他原因可能还包括
- 缺乏数据。 在少数情况下,收集大量数据有助于解决问题。
- 用作虚拟变量的变量可能使用不正确。 例如,研究人员可能无法为每个类别添加一个虚拟变量或排除一个类别。
- 考虑回归中的一个变量,它是回归中其他变量的组合——例如,当它是储蓄利息收入+债券和股票收入时,考虑“总投资收入”。
- 包括两个几乎或完全相同的变量。 例如,债券/储蓄收入和投资收入,以公斤为单位的重量和以磅为单位的重量。
检查是否发生多重共线性
您可以绘制所有自变量的相关矩阵。 或者,您可以使用 VIF,即每个自变量的方差膨胀因子。 它测量多元回归变量集中的多重共线性。 VIF 的值与该变量与其余变量之间的相关性成正比。 这意味着,VIF 值越高,相关性越高。
我们如何解决多重共线性问题?
- 变量的选择:最简单的方法是删除一些相互高度相关的变量,只留下集合中最重要的变量。
- 变量的变换:第二种方法是变量变换,这将减少相关性并仍然设法保持特征。
- 主成分分析:主成分分析通常用于通过将数据分解为多个独立因素来降低数据维度。 它有很多应用,例如可以通过减少预测因子的数量来简化模型计算。
相关阅读:机器学习中的线性回归
结论
在构建回归模型之前,您应该始终检查多重共线性问题。 为了方便地查看每个自变量,建议使用 VIF 来查看它们是否与其他变量具有相当大的相关性。 当您不确定应该选择哪些变量时,相关矩阵可以帮助选择重要因素。 它还有助于理解为什么一些变量具有高 VIF 值。
如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。
机器学习中的序数回归是什么意思?
序数回归是属于回归分析家族的一种回归分析。 序数回归分析数据并解释一个因变量与两个或多个自变量之间的关系作为预测研究。 当存在“有序”的众多类别和独立因素时,序数回归用于预测因变量。 换句话说,它允许具有不同有序级别的因变量更容易地与一个或多个自变量交互。
多重共线性的存在会影响决策树吗?
如果两个特征在特定的机器学习模型中高度相关,那么决策树在拆分时只会选择其中一个。 如果数据偏斜或不平衡,单棵树会导致贪婪方法,但随机森林和梯度提升树等集成学习方法使预测不受多重共线性的影响。 因此,随机森林和决策树不受多重共线性的影响。
逻辑回归与线性回归有何不同?
在一些方面,线性回归不同于逻辑回归。 逻辑回归产生离散的评论和发现,但线性回归产生连续和持续的输出。 在线性回归中,计算均方误差,但在逻辑回归中,计算最大似然估计。 最后,线性回归的目标是确定与数据匹配的最佳线,但逻辑回归通过将数据拟合到 sigmoid 曲线来保持领先。