机器学习中的回归与分类:回归和分类之间的区别
已发表: 2020-11-12目录
介绍
在解决数据科学问题时,采用正确的方法至关重要,这通常意味着混淆和提出正确的解决方案之间的区别。 一开始,数据科学家往往会混淆这两者——无法找出对用正确方法解决问题很重要的小技术细节。
即使是经验丰富的数据科学家,这些差异也很容易混淆,这使得应用正确的方法变得具有挑战性。 在本次演讲中,我们将深入探讨两种重要的数据科学算法——分类和回归——的异同。
这两种方法都应该是任何数据科学家解决业务问题的必备工具。 因此,关键的理解对于选择正确的模型、进行适当的微调以及部署正确的解决方案来提升您的业务至关重要。
阅读:机器学习项目理念
回归与分类
首先,重要的相似性——回归和分类都属于有监督的机器学习方法。 什么是监督机器学习方法? 它是一组机器学习算法,使用真实世界的数据集(称为训练数据集)来训练模型以进行预测。
用于训练模型的数据需要标记好且干净; 该模型将从训练数据中学习自变量和预测变量之间的关系。 它与无监督机器学习方法形成对比,后者要求模型自行识别数据中的模式,从而通过检查数据集中固有的模式来找到映射函数。

有监督的机器学习方法试图求解映射函数 y = f(x),其中 x 指的是输入变量,y 是映射函数。 通过求解映射函数,可以快速方便地转移到真实世界的数据集中。
分类和回归函数以及任何其他有监督的机器学习方法都可以做到这一点。 但是显着的区别和回归方法是,在回归中,输出变量“y”是数字和连续的(可以是整数或浮点值) ,在分类算法中,输出变量“y”是离散的并且分类的。
因此,如果您要预测诸如工资、预期寿命、流失概率等变量,那么这些变量将是数字的且连续的。
例如,假设一家金融机构有兴趣对其贷款申请人进行分析,以评估他们违约的可能性。 数据科学家可以通过两种主要方式来解决这个问题——它可以为每个贷款申请人分配一个概率(这将是一个介于 0 和 1 之间的连续浮点数范围),或者它只是给出一组二进制输出——对应于通过/失败。
两种方法都将采用相同的输入变量集——例如申请人的信用记录、工资信息、人口统计、年龄、宏观经济状况等。但两种方法之间的区别在于,虽然前者对每个申请人进行评分,但这可能有助于进行相对论计算,例如一个人对抗另一个人的可能性有多大。
输出也可用于其他分析。 但是,在后一种情况下,该算法将单个配置文件的整个数据集分类为是或否,然后可以用来判断给予信用是否安全。 请注意,yes 和 no 类在子类中可能有相当大的变化。

但是在这里使用分类方法,我们对找出每个子组内的变化不感兴趣。 分类可用于其他目的,例如分类传入的电子邮件是垃圾邮件还是非垃圾邮件。
另一方面,天气预报(天气能够采用一系列连续值)通常需要回归方法。 相反,如果我们只对预测是否会下雨感兴趣,那么将相同的天气数据集放入分类系统可能会更合适。 因此,正如我们所见,用例将决定哪种算法更适合使用。
回归算法包括线性回归、多元回归、支持向量模型和回归树等。 分类方法利用决策树、朴素贝叶斯、逻辑回归等。
通过了解这些方法和算法之间的区别,您将能够更好地选择正确的方法并将其应用于您的特定业务用例,从而帮助您快速找到正确的解决方案。
分类和回归算法类型
让我们深入了解回归和分类中使用的每种算法类型。
线性回归——在线性回归中,两个变量之间的关系是通过绘制一条直线的最佳拟合线来估计的。 将需要其他测量来衡量绘制的最佳拟合线的强度,例如拟合强度、方差、标准偏差、r 平方值等。 详细了解机器学习中的回归模型。
多项式回归——在多项式回归模型中,测量“几个”输入变量与预测变量或“输出”变量之间的关系。 了解有关回归模型的更多信息。
决策树算法——在决策树算法中,数据集在决策树的帮助下进行分类——树的每个节点都是一个测试用例,树的每个节点出现的每个分支都对应一个可能的值的属性。
阅读:如何创建完美的决策树?

随机森林算法- 顾名思义,随机森林是通过添加几个决策树算法而构建的。 然后,该模型聚合来自不同决策树的输出并得出最终预测,该预测通过对单个决策树的多数投票进行。
决策树给出的最终输出比任何单个决策树提供的更准确。 '随机森林通常容易出现过拟合问题,但可以通过交叉验证和其他方法进行微调
K 最近邻- K 最近邻是一种稳健的分类算法,其工作原理是相似的事物彼此保持非常接近。 当新变量被放入预测算法时,它会尝试根据其与数据集的接近程度来分配给一个组。 了解有关 KNN 的更多信息。
结论
作为一名数据科学家,您需要对不同的分类和回归方法有一个基本和基本的了解,所涉及的技术将帮助您作为一名数据科学家应用正确的工具集,提出一个合适的解决方案,这将使您受益你的事。
如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。
