线性回归模型:它是什么以及它是如何工作的?

已发表: 2020-12-16

目录

介绍

回归分析是数据建模和分析的重要工具; 必须找到两个或多个变量之间的关系。 回归有助于将数据点放置在有助于建模和分析数据的曲线中。 回归允许在不同尺度上测量和表征变量,以评估预测模型和数据集。

必读:线性回归项目理念

回归模型

该模型涉及用于表示数据的系数值。 它包括用于估计这些系数的统计特性; 它是所有标准差、协方差和相关性的合并。 所有数据都必须可用。

回归模型是一个线性条件,它整合了信息值 (x) 的特定排列,其答案是该组信息值 (y) 的预期输出。 信息值 (x) 和输出都是数字。

线性方程为每个信息值或段分配一个比例因子,称为系数,用大写希腊字母 Beta (B) 表示。 同样添加了一个额外的系数,为线提供了额外的机会(例如在二维图上遍历),这通常称为捕获或倾斜系数。

例如,在一个基本回归(一个简单的 x 和一个简单的 y)中,模型的类型是:

y = B0 + B1*x

在更高的测量中,当我们有多个信息 (x) 时,这条线被称为平面或超平面。 沿着这些线描绘的是条件的类型和用于系数的特定质量(例如上述模型中的 B0 和 B1)。

讨论像回归这样的复发模型的多面性并不出人意料。 这暗示了模型中使用的系数数量。

在系数变为零时,它充分消除了信息变量对模型的影响,并随后消除了使用模型产生的预测的影响 (0 * x = 0)。 如果您查看正则化技术,这些技术可以通过压缩系数的最大大小来改变学习计算以减少复发模型的多面性,从而将一些系数降低到零,则这是相关的。

回归最好用一条直线表示,其中一个或多个变量用于建立关系。

模型背后的逻辑:

由于回归模型使用方程 y=mx+c

其中 y= 自变量

m=斜率

c=截距给定行

为了计算多个自变量,将实施多个回归模型。 这是创建完美功能模型的过程

  1. 导入库- 围绕机器学习模型的实施有一些基本参数。 第一个库应该包括 sklearn,因为它是 python 中的官方机器学习库。 Numpy 用于将数据转换为数组,并访问数据集的文件,实现了 Pandas。
  2. 加载相关数据集——它是在之前导入的 Panda 变量的帮助下完成的。
  3. 拆分变量- 指定并定义数组元素所需的自变量或因变量的数量。
  4. 测试和训练数据的拆分——整个数据集被分解为训练和测试域,以允许和促进从数据集中获取的随机值。
  5. 选择正确的模型——适当的选择需要一个反复试验的过程,其中相同的数据集将隐含在其他模型中。
  6. 输出预测- 模型将在由自变量的测试值支持的因变量上运行,这些模型的内置方法对呈现的每个值进行定性数学运算。

这将启动线性回归模型的实施。 如前所述,线性预测函数是为关系建模而实现的。 响应的条件均值为模型提供了移动响应的条件均值所需的预测变量。

此类预测和预测的目标是在不添加相应响应值的情况下容纳其他变量; 将实施拟合模型以对该响应做出必要的预测。

线性回归模型最适合与最小二乘法一起使用,例如,实现可能需要通过最小化偏差和成本函数的其他方式。 一般线性模型包括一个响应变量,该变量本质上是一个向量,而不是直接标量。 在建模过程中,条件线性仍然被假定为正。 它们在很大范围内变化,但最好将它们描述为与对数正态分布相关的偏态分布。

阅读:机器学习中的回归模型类型

警告

鉴于这两个变量是相关的,这并不排除一个导致另一个的特征。

如果尝试使用数据集的线性回归方程并且它有效,则并不一定意味着该方程是完美拟合的,可能还有其他具有类似前景的迭代。 为确保该技术是真实的,请尝试用数据点绘制一条线以找出方程的线性度。

总结

事实证明,线性回归方法提供了一种更好、更强大的统计方法,可以增加机会并找到事件的可预测性以及两个或多个感兴趣的变量之间的关系。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

提及使用线性回归模型时可能面临的一些问题。

线性回归有助于预测因变量的均值与独立因素之间的关系。 这变得有问题,因为有时解决问题的唯一方法是查看因变量的极值。 另一方面,分位数回归可用于解决此问题。 此外,线性回归假设呈现的数据是独立的,这在聚类问题的情况下是不正确的。

什么是回归中的线性相关系数?

相关系数只是简单线性回归中分析变量之间关系的一个方面。 事实上,它是最强大和最广泛使用的统计分析方法之一。 皮尔逊积矩相关系数是最常用的相关系数,它基本上是一个统计量,可以告诉我们两个变量之间的联系程度。 线性相关系数评估两个变量之间线性关联的强度。 完美的线性连接是其中一个变量的变化导致另一个变量的相同单位变化。

回归分析对任何业务都有什么帮助?

回归分析可帮助组织了解其数据点所代表的内容并将业务分析方法应用于它们,以便做出更好的决策。 业务分析师和数据专业人员使用这种复杂的统计工具来消除不必要的变量并选择最相关的变量。 组织正在使用数据驱动的决策制定,这消除了猜测或假设假设等老式技术,从而提高了工作绩效。