线性回归的假设:带有示例的 5 个假设

已发表: 2020-12-22

回归用于衡量和量化因果关系。 回归分析是一种统计技术,用于了解观察到的模式与假定影响给定观察到的模式的变量之间可能的因果关系的大小和方向。

例如,如果一种产品(例如润肤霜)的价格降低 20%,人们可能会购买它,销售额可能会增加。

在这里,观察到的模式是销售额的增加(也称为因变量)。 假定影响销售的变量是价格(也称为自变量)。

目录

什么是线性回归?

线性回归是一种统计技术,它对由自变量解释的因变量的影响的大小和方向进行建模。 线性回归常用于预测分析。

线性回归解释了变量的两个重要方面,具体如下:

  • 自变量集是否显着解释了因变量?
  • 哪些变量在解释可用的依赖项方面最重要? 它们以何种方式影响因变量? 影响通常由方程中β系数的大小和符号决定。

现在,让我们看一下线性回归的假设,这是在我们运行线性回归模型之前必须理解的。

阅读更多:线性回归模型及其工作原理?

线性回归的假设

线性关系

最重要的假设之一是,据说因变量和自变量之间存在线性关系。 如果您尝试在非线性数据集中拟合线性关系,所提出的算法将无法将趋势捕获为线性图,从而导致模型效率低下。 因此,它会导致不准确的预测。

如何判断假设是否成立?

确定是否满足此假设的简单方法是创建散点图 x 与 y。 如果数据点落在图中的一条直线上,则因变量和自变量之间存在线性关系,假设成立。

如果违反了这个假设,你应该怎么做?

如果因变量和自变量之间不存在线性关系,则对因变量、自变量或两者应用非线性变换,例如对数、指数、平方根或倒数。

没有自相关或独立性

残差(误差项)彼此独立。 换句话说,时间序列数据的连续误差项之间没有相关性。 误差项中存在相关性会大大降低模型的准确性。 如果误差项是相关的,则估计的标准误差会尝试缩小真实的标准误差。

如何判断假设是否成立?

进行 Durbin-Watson (DW) 统计检验。 这些值应介于 0-4 之间。 如果 DW=2,则无自相关; 如果 DW 介于 0 和 2 之间,则表示存在正相关。 如果 DW 介于 2 和 4 之间,则表示存在负相关。 另一种方法是根据残差与时间的关系绘制图表,并查看残差值的模式。

如果违反了这个假设,你应该怎么做?

如果违反假设,请考虑以下选项:

  • 对于正相关,请考虑向因变量或自变量或这两个变量添加滞后。
  • 对于负相关,检查是否没有变量过度差异。
  • 对于季节性相关性,请考虑在模型中添加一些季节性变量。

没有多重共线性

自变量不应相关。 如果自变量之间存在多重共线性,则预测模型的结果具有挑战性。 本质上,很难解释因变量和自变量之间的关系。 换句话说,不清楚哪些自变量解释了因变量。

标准误往往会随着相关变量而膨胀,从而扩大置信区间,导致估计不精确。

如何判断假设是否成立?

使用散点图可视化变量之间的相关性。 另一种方法是确定 VIF(方差膨胀因子)。 VIF<=4 意味着没有多重共线性,而 VIF>=10 意味着严重的多重共线性。

如果违反了这个假设,你应该怎么做?

通过转换或组合相关变量来降低变量之间的相关性。

必读: ML 中的回归模型类型

同方差性

同方差性意味着残差在每个 x 水平上都有恒定的方差。 没有这种现象被称为异方差。 异方差性通常出现在存在异常值和极值的情况下。

如何判断假设是否成立?

创建一个散点图,显示残差与拟合值。 如果数据点均匀分布而没有明显的模式,则意味着残差具有恒定的方差(同方差性)。 否则,如果看到漏斗形图案,则意味着残差分布不均,并描绘出非常量的方差(异方差)。

如果违反了这个假设,你应该怎么做?

  • 转换因变量
  • 重新定义因变量
  • 使用加权回归

误差项的正态分布

最后一个需要检查线性回归的假设是误差项的正态分布。 如果误差项不服从正态分布,置信区间可能会变得太宽或太窄。

如何判断假设是否成立?

使用 QQ(分位数-分位数)图检查假设。 如果图表上的数据点形成一条直线对角线,则满足该假设。

您还可以使用 Kolmogorov-Smironov 或 Shapiro-Wilk 检验等统计检验来检查错误项的正态性。

如果违反了这个假设,你应该怎么做?

  • 验证异常值是否对分布有影响。 确保它们是真实值而不是数据输入错误。
  • 以对数、平方根或倒数的形式对因变量、自变量或这两个变量应用非线性变换。

结论

通过应用上面讨论的技术来利用回归的真正力量,以确保不违反假设。 如果满足线性回归的所有假设,理解自变量对因变量的影响确实是可行的。

线性回归的概念是数据科学和机器学习程序中不可或缺的元素。

如果您有兴趣了解有关回归模型和更多机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为在职专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和分配,IIIT-B 校友身份,5 个以上实用的实践顶点项目和顶级公司的工作协助。

为什么线性回归需要同方差性?

同方差性描述了数据与平均值的相似程度或偏离程度。 这是一个重要的假设,因为参数统计测试对差异很敏感。 异方差性不会在系数估计中引起偏差,但会降低它们的精度。 精度越低,系数估计就越可能偏离正确的总体值。 为了避免这种情况,同方差性是断言的关键假设。

线性回归中多重共线性的两种类型是什么?

数据和结构多重共线性是多重共线性的两种基本类型。 当我们从其他项中创建一个模型项时,我们会得到结构多重共线性。 换句话说,它不是出现在数据本身中,而是我们提供的模型的结果。 虽然数据多重共线性不是我们模型的产物,但它存在于数据本身中。 数据多重共线性在观察性调查中更为常见。

使用 t 检验进行独立检验的缺点是什么?

使用配对样本 t 检验时,重复测量而不是组设计之间的差异存在问题,这会导致结转效应。 由于 I 类错误,t 检验不能用于多重比较。 在对一组样本进行配对 t 检验时,很难拒绝原假设。 获取样本数据的主题是研究过程中耗时且成本高昂的一个方面。