数据挖掘中的回归:不同类型的回归技术 [2022]

已发表: 2021-01-01

监督学习是一种使用已标记数据训练机器学习算法的学习。 这意味着所有训练数据的正确答案都是已知的。 训练后,它被提供一组新的未知数据,监督学习算法对其进行分析,然后根据标记的训练数据产生正确的结果。

无监督学习是使用不知道正确标签的信息来训练算法的地方。 在这里,机器基本上必须根据各种模式或任何相关性将信息组合在一起,而无需事先对任何数据进行培训。

回归是一种有监督的机器学习技术,它试图预测任何连续的值属性。 它分析目标变量(依赖)与其预测变量(独立)之间的关系。 回归是数据分析的重要工具,可用于时间序列建模、预测等。

回归涉及在各种数据点上拟合曲线或直线的过程。 这样做的方式是使曲线和数据点之间的距离最小。

尽管线性回归和逻辑回归是最流行的类型,但还有许多其他类型的回归可以应用,具体取决于它们在特定数据集上的表现。 这些不同的类型因所有因变量的数量和类型以及所形成的回归曲线的种类而异。

查看:数据科学和数据挖掘之间的区别

目录

线性回归

线性回归使用最佳拟合直线在目标(因)变量和一个或多个自变量之间形成关系。

它由以下等式表示:

Y = a + b*X + e ,

其中 a 是截距,b 是回归线的斜率,e 是误差。 X 和 Y 分别是预测变量和目标变量。 当 X 由多个变量(或特征)组成时,它被称为多元线性回归。

使用最小二乘法获得最佳拟合线。 此方法最小化每个数据点与回归线的偏差的平方和。 由于所有偏差都是平方的,因此这里不会抵消负距离和正距离。

多项式回归

在多项式回归中,自变量的幂在回归方程中大于 1。 下面是一个例子:

Y = a + b*X^2

在这个特定的回归中,最佳拟合线不是线性回归中的直线。 但是,它是一条适合所有数据点的曲线。

当您想通过使曲线更复杂来减少错误时,实施多项式回归可能会导致过度拟合。 因此,始终尝试通过将曲线推广到问题来拟合曲线。

逻辑回归

当因变量具有二元性质(真或假,0 或 1,成功或失败)时,使用逻辑回归。 这里的目标值 (Y) 范围从 0 到 1,它通常用于分类类型的问题。 逻辑回归不需要因变量和自变量具有线性关系,就像线性回归中的情况一样。

阅读:数据挖掘项目理念

岭回归

岭回归是一种用于分析具有多重共线性问题的回归数据的技术。 多重共线性是任何两个自变量之间几乎线性相关的存在。

当最小二乘估计具有低偏差但它们具有高方差时,就会发生这种情况,因此它们与真实值非常不同。 因此,通过向估计的回归值添加一定程度的偏差,通过实施岭回归可以大大降低标准误差。

套索回归

A S S O 术语Selection 它是一种线性回归 使用收缩 在这种情况下,所有数据点都被降低(或缩小)到一个中心点,也称为平均值。 套索过程最适合参数相对较少的简单和稀疏模型。 这种类型的回归也非常适合遭受多重共线性(就像山脊一样)的模型。

获得世界顶尖大学的数据科学认证加入我们的行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

结论

回归分析基本上允许您比较在广泛范围内测量的不同类型特征变量的影响。 例如基于总面积、地点、年龄、家具等的房价预测。这些结果在很大程度上有利于市场研究人员或数据分析师消除任何无用的特征并评估最佳特征集以建立准确的预测模型。

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭,该文凭专为在职专业人士而设,提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流,400 多个小时的学习和顶级公司的工作协助。

什么是线性回归?

线性回归建立目标变量或因变量与一个或多个自变量之间的关系。 当我们的方程中有多个预测变量时,它就变成了多元回归。

最小二乘法被认为是获得最佳拟合线的最佳方法,因为该方法最小化了从每个数据点到回归线的偏差的平方和。

什么是回归技术,为什么需要它们?

这些是用于估计或预测变量之间关系的技术。 在两个变量之间找到关系,一个是目标,另一个是预测变量(也称为 x 和 y 变量)。

可以使用线性、逻辑、逐步、多项式、套索和脊等不同技术来识别这种关系。 这样做是为了使用数据收集和在它们之间绘制图表来生成预测。

线性回归技术与逻辑回归技术有何不同?

这两种回归技术之间的区别在于因变量的类型。 如果因变量是连续的,则使用线性回归,而如果因变量是分类的,则使用逻辑回归。

顾名思义,在线性技术中识别线性​​或直线。 而在逻辑技术中,S 曲线被识别为自变量是多项式。 线性情况下的结果是连续的,而在逻辑技术的情况下,结果可以是真或假、0 或 1 等类别。