机器学习中的 5 种分类算法 [2022]

已发表: 2021-01-02

介绍

机器学习是人工智能中最重要的主题之一。它进一步分为监督学习和无监督学习，可以与标记和未标记的数据分析或数据预测相关。在监督学习中，我们还有另外两种类型的业务问题，称为回归和分类。

分类是一种机器学习算法，我们将标记的数据作为输入，我们需要将输出预测到一个类中。如果有两个类，则称为二元分类。如果有两个以上的类，则称为多类分类。在现实世界的场景中，我们倾向于看到这两种分类。

在本文中，我们将研究几种类型的分类算法及其优缺点。有很多可用的分类算法，但让我们关注以下 5 种算法：

逻辑回归
K 最近邻
决策树
随机森林
支持向量机

1. 逻辑回归

尽管名称暗示回归，但它是一种分类算法。逻辑回归是一种用于对数据进行分类的统计方法，其中有一个或多个独立变量或特征来确定结果，该结果是用具有两个或多个类别的变量 (TARGET) 测量的。其主要目标是找到描述目标变量和自变量之间关系的最佳拟合模型。

优点

1）易于实施、解释和高效训练，因为它不做任何假设并且分类速度很快。

2)可用于多类分类。

3）它不太容易过拟合，但在高维数据集中会过拟合。

缺点

1）当观察值小于特征时过度拟合。

2)仅适用于离散函数。

3）非线性问题无法解决。

4)难以学习复杂的模式，通常神经网络胜过它们。

2. K 最近邻

K-最近邻（KNN）算法使用“特征相似性”或“最近邻”技术来预测新数据点落入的集群。以下是我们可以更好地理解该算法的工作的几个步骤

第 1 步- 为了在机器学习中实现任何算法，我们需要准备好用于建模的清洁数据集。 假设我们已经有一个清理过的数据集，该数据集已分为训练和测试数据集。

第 2 步- 由于我们已经准备好数据集，我们需要选择 K（整数）的值，它告诉我们需要考虑多少最近的数据点来实现算法。 我们可以在文章的后期了解如何确定k值。

Step 3 - 此步骤是一个迭代步骤，需要应用于数据集中的每个数据点

使用任何距离度量计算测试数据和每行训练数据之间的距离
欧几里得距离
曼哈顿距离
闵可夫斯基距离
汉明距离。

许多数据科学家倾向于使用欧几里得距离，但我们可以在本文的后期了解每一个的意义。

我们需要根据我们在上述步骤中使用的距离度量对数据进行排序。

选择转换后的排序数据中的前 K 行。

然后它将根据这些行中最频繁的类为测试点分配一个类。

第 4 步- 结束

优点

易于使用、理解和解释。
计算时间快。
没有关于数据的假设。
预测准确率高。
多功能——可用于分类和回归业务问题。
也可用于多类问题。
在 Hyperparameter Tuning 步骤中，我们只有一个 Hyper 参数需要调整。

缺点

由于算法存储所有训练数据，因此计算成本高且需要高内存。
随着变量的增加，算法变慢。
它对不相关的特征非常敏感。
维度的诅咒。
选择 K 的最优值。
类不平衡数据集会导致问题。
数据中的缺失值也会导致问题。

阅读：机器学习项目理念

3. 决策树

决策树可用于分类和回归，因为它可以处理数字和分类数据。随着树的发展，它将数据集分解为越来越小的子集或节点。决策树具有决策和叶节点的输出，其中决策节点具有两个或多个分支，而叶节点表示决策。对应于最佳预测器的最顶层节点称为根节点。

优点

简单易懂
轻松可视化
更少的数据解释
处理数字和分类数据。

缺点

有时不能很好地概括
对输入数据的变化不稳定

4. 随机森林

随机森林是一种集成学习方法，可用于分类和回归。它通过构建多个决策树来工作，并通过在分类问题中的回归或多数投票中取所有决策树的平均值来输出结果。从名字本身就可以知道，一组树称为森林。

优点

可以处理大型数据集。
将输出变量的重要性。
可以处理缺失值。

缺点

它是一种黑盒算法。
缓慢的实时预测和复杂的算法。

5. 支持向量机

支持向量机是将数据集表示为空间中的点，这些点通过尽可能远的明显间隙或线分成类别。新数据点现在被映射到同一空间，并根据它们落在线的哪一侧或分离的哪一侧分类为属于一个类别。

优点

在高维空间中效果最佳。
在决策函数中使用训练数据点的子集，使其成为一种内存高效算法。

缺点

不会提供概率估计。
可以使用交叉验证计算概率估计，但它很耗时。

另请阅读：机器学习职业

结论

在本文中，我们讨论了 5 种分类算法、它们的简要定义、优缺点。这些只是我们介绍的几种算法，但还有更有价值的算法，例如朴素贝叶斯、神经网络、有序逻辑回归。人们无法判断哪种算法适用于哪个问题，因此最佳实践是尝试一些并根据评估指标选择最终模型。

如果您有兴趣了解有关机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为工作专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

使用逻辑回归的主要目的是什么？

逻辑回归主要用于统计概率。它使用逻辑回归方程来理解给定数据中存在的因变量和自变量之间的关系。这是通过估计单个事件的概率来完成的。逻辑回归模型与线性回归模型非常相似，但是，当数据中给出的因变量是二分法时，最好使用它们。

SVM 与逻辑回归有何不同？

尽管 SVM 提供了比逻辑回归模型更高的准确性，但它使用起来很复杂，因此对用户不友好。在数据量很大的情况下，不推荐使用SVM。虽然 SVM 用于解决回归和分类问题，但逻辑回归只能很好地解决分类问题。与 SVM 不同，过度拟合在使用逻辑回归时很常见。此外，与支持向量机相比，逻辑回归更容易受到异常值的影响。

回归树是一种决策树吗？

是的，回归树基本上是用于回归任务的决策树。回归模型用于理解因变量与通过拆分初始给定数据集实际产生的自变量之间的关系。只有当决策树由一个连续的目标变量组成时，才可以使用回归树。