相关与回归:相关与回归之间的区别
已发表: 2020-12-17两个术语之间差异的基本需求与它提供的统计分析方法有关,以找到两个变量之间的相互联系。 这些联系中的每一个的度量以及这些预测的影响被用来识别我们日常生活中的那些分析模式。
这两个术语很容易混淆。 以下是如何通过关键注释突出显示它们的差异。 相关性与回归的主要区别在于衡量两个变量之间关系的程度; 让他们成为 x 和 y。 在这里,相关性用于衡量程度,而回归是确定一个变量如何影响另一个变量的参数。
来自世界顶级大学的最佳在线 AI 课程- 硕士、高级管理人员研究生课程和 ML 和 AI 高级证书课程,以加快您的职业生涯。
必读: R 中的多元线性回归
目录
相关系数
相关系数用于衡量变量的关联程度,通常称为皮尔逊相关系数,它来源于其来源。 该方法用于线性关联问题。 将其视为单词含义的组合,两个变量之间的联系,即相关性。
当一个变量倾向于从一个变量变为另一个变量时,无论是直接的还是间接的,它都被认为是相关的。 它被标记为一个变量对另一个变量没有影响。 为了更好地表示这种质量,让我们假设这些变量并将它们命名为 x 和 y。

相关系数的测量范围为 +1 到 0 和 -1。 当两个变量都增加时,相关性为正,如果一个变量增加,另一个变量减少,则相关性为负。
为了衡量这两个单位中的每一个的变化,它们被认为是积极的和消极的。
正变化意味着变量 x 和 y 沿相同方向移动。
负变化意味着变量 x 和 y 正朝着相反的方向移动。
如果对变量有正面或负面的影响,它就会创造一个机会来了解未来趋势的性质并预测它以满足最佳需求。 该假设将完全基于变量的性质,并将定义任何物理或数字事件的性质。
相关性的主要有益来源是,与回归方法相比,定义两个变量性质的简洁明了的总结率相当高。
回归
回归可以定义为解释两个独立变量之间关系的参数。 它更像是一个依赖特征,其中一个变量的作用会影响另一个变量的结果。 用最简单的术语来说,回归有助于确定变量如何相互影响。
基于回归的分析有助于找出两个变量之间的关系状态,假设 x 和 y。 这有助于创建对事件和结构的估计,以使未来的预测更具相关性。

基于回归分析的目的是估计完全基于两个变量即 x 和 y 的随机变量的值。 线性回归分析是最一致和最合适的,几乎适合所有数据点。 基于回归的主要优势是它创建的详细分析,这比相关性更复杂。 这创建了一个方程,可用于优化未来场景的数据结构。

阅读: ML 中的 6 种回归模型
相关与回归
下面列出了一些关键示例,这些示例将有助于更好地区分和理解两者。
- 回归将给出关系以了解 x 对 y 的影响,反之亦然。 通过适当的相关性,x 和 y 可以互换并获得相同的结果。
- 相关性基于单一统计格式或数据点,而回归是与方程完全不同的方面,并用一条线表示。
- 相关性有助于创建和定义两个变量之间的关系,另一方面,回归有助于找出一个变量如何影响另一个变量。
- 当变量发生变化时,回归中显示的数据建立了因果模式。 当两个变量的变化方向相同或相反时,对于此处的相关性,变量在任何方向上都有奇异的运动。
- 在相关性中,x 和 y 可以互换; 在回归中,它将不适用。
- 预测和优化仅适用于回归方法,在相关分析中不可行。
- 因果方法将试图通过回归来建立,而不是它。
何时使用
- 相关性——当迫切需要理解一个方向时,就会涉及两个或多个变量之间的关系。
- 回归——当需要优化和解释从 y 到 x 的数值响应时。 理解和创建 y 如何影响 x 的近似值。
总结
在寻找构建稳健模型、方程或预测响应的解决方案时,回归是最好的方法。 如果在摘要中寻找快速响应来确定关系的强度,则相关性将是最佳选择。
如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和 AI 执行 PG 计划,该计划专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT -B 校友身份,5 个以上实用的实践顶点项目和顶级公司的工作协助。
回归分析和相关分析有什么区别?
相关性和回归是基于多个变量分布的两种类型的分析。 它们对于描述两个连续定量变量之间联系的类型和程度很有用。 虽然这两个数学概念是同时研究的,但从前面的描述中可以清楚地看出,相关性和回归之间存在显着区别。 当研究人员想要确定被调查的变量是否相关时,如果是,它们的关系有多强,就会使用相关性。 皮尔逊相关系数通常被认为是最准确的相关性度量。 在回归分析中,形成两个变量之间的函数关系,以便对未来事件进行估计。
什么时候应该使用回归分析?
当您希望从一组独立因素中估计一个连续的相关值时,您可以使用回归分析。 如果因变量是二分类的,则应使用逻辑回归。 (如果这里因变量的两个水平之间的分裂接近 50-50,逻辑回归和线性回归都会产生类似的结果。)在回归中,自变量可以是连续的或二分的。 在回归分析中,可以使用远多于两个水平的自变量,但必须首先将它们转换为只有两个水平的变量。
相关性和回归斜率有什么区别?
两个数值变量 X 和 Y 之间关联的方向和强度通过相关性来衡量,相关性始终介于 -1.0 和 1.0 之间。 Y = a + bX 是一个简单的线性回归方程,将 X 与 Y 连接起来。两者都测量两个数值变量之间联系的程度和方向。 如果相关性 (r) 为负,则回归斜率 (b) 将为负。 如果相关性为正,则回归斜率将为正。