聚类与分类：聚类与分类之间的区别

已发表: 2020-12-01

介绍

机器学习算法通常根据输出变量的类型和需要解决的问题类型进行分类。这些算法大致分为三种类型，即回归、聚类和分类。回归和分类是监督学习算法的类型，而聚类是一种无监督算法。

当输出变量是连续的时，它是一个回归问题，而当它包含离散值时，它是一个分类问题。当我们需要根据数据点的特征创建聚类时，通常会使用聚类算法。本文重点对聚类、分类进行简要介绍，并列出两者之间的一些区别。

无需编码经验。 360° 职业支持。来自 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭。

聚类

聚类是一种无监督机器学习算法。它用于将具有相似特征的数据点分组为集群。理想情况下，同一簇中的数据点应该表现出相似的属性，而不同簇中的点应该尽可能地不同。

聚类分为两类——硬聚类和软聚类。在硬聚类中，数据点仅分配给其中一个聚类，而在软聚类中，它提供了数据点位于每个聚类中的概率可能性。

聚类算法的类型

K-Means Clustering : – 它初始化预定义数量的 k 个集群，并使用距离度量来计算每个数据点与每个集群质心的距离。 它根据距离将数据点分配到 k 个集群之一。

Agglomerative Hierarchical Clustering (Bottom-Up Approach) ： – 将每个数据点视为一个集群，并根据距离度量和用于链接这些集群的标准合并这些数据点。

Divisive Hierarchical Clustering (Top-Down Approach) : – 将所有数据点初始化为一个集群，并根据距离度量和标准分割这些数据点。 Agglomerative and Divisive clustering 可以表示为一个树状图，并且通过引用它来选择要选择的集群的数量。

DBSCAN（基于密度的噪声应用空间聚类）： – 它是一种基于密度的聚类方法。 像 K-Means 这样的算法在相当分离的集群上工作得很好，并创建了球形的集群。 DBSCAN 用于数据为任意形状且对异常值不太敏感的情况。它将在一定半径内具有许多相邻数据点的数据点分组。

OPTICS (Ordering Points to identify Clustering Structure) : – 它是另一种基于密度的聚类方法，除了考虑更多参数外，它在过程中与 DBSCAN 相似。 但它在计算上比 DBSCAN 更复杂。此外，它不会将数据点分成集群，但它会创建一个可达性图，有助于解释创建集群。

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) : – 它通过生成数据摘要来创建集群。 它适用于庞大的数据集，因为它首先汇总数据，然后使用相同的数据创建集群。 但是，它只能处理可以在空间中表示的数字属性。

另请阅读：您应该知道的数据挖掘算法

应用

细分市场的消费群。
社交网络分析。
图像分割。
推荐系统。

数据科学高级认证、250 多个招聘合作伙伴、300 多个学习小时、0% EMI

聚类和分类之间的区别

类型： - 聚类是一种无监督学习方法，而分类是一种监督学习方法。
过程： – 在聚类中，数据点根据它们的相似性分组为聚类。 分类涉及将输入数据分类为来自输出变量的类标签之一。
预测： - 分类涉及基于模型构建的输入变量的预测。 聚类通常用于分析数据并从中得出推论以做出更好的决策。
数据拆分： - 分类算法需要将数据拆分为训练和测试数据，以预测和评估模型。 聚类算法不需要拆分数据来使用。
数据标签： - 分类算法处理标记数据，而聚类算法处理未标记数据。
阶段： - 分类过程涉及两个阶段 - 培训和测试。 聚类过程仅涉及数据的分组。
复杂性： - 由于分类处理更多的阶段，分类算法的复杂性高于仅旨在对数据进行分组的聚类算法。

结论

分类和聚类的方法不同，它们算法的预期结果也不同。简而言之，分类和聚类都用于解决不同的问题。本文简要介绍了分类和聚类。

我们还阅读了一些关于每种情况下使用的不同类型的算法以及一些应用程序。本文中列出的算法并不详尽。即它不是一个完整的列表，并且存在许多其他算法可用于解决此类问题。

如果您有兴趣学习数据科学，请查看我们的数据科学 PG 文凭，该文凭专为在职专业人士而设，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家指导、行业一对一辅导导师，400 多个小时的学习和顶级公司的工作协助。

聚类有哪些不同的方法和应用？

一个簇可以称为一组属于同一类的对象。简单来说，我们可以说集群是一组具有相似属性的对象。众所周知，聚类是机器学习中分析的重要过程。

不同的聚类方法

1. 基于分区的聚类
2.基于层次的聚类
3. 基于密度的聚类
4. 基于网格的聚类
5. 基于模型的聚类

聚类的不同应用

1.推荐引擎
2.市场和客户细分
3. 社交网络分析（SNA）
4.搜索结果聚类
5. 生物数据分析
6.医学影像分析
7. 识别癌细胞

这些是一些最广泛使用的方法和最流行的聚类应用。

分类有哪些不同的分类器和应用？

分类技术用于通过将数据分类为不同数量的类来为每个类添加标签。

分类器可以有两种类型：

1. 二元分类器 - 在这里，分类仅使用 2 个可能的结果或 2 个不同的类别进行。例如，男女分类、垃圾邮件和非垃圾邮件等。
2. 多类分类器——在这里，分类是用两个以上不同的类来执行的。例如，土壤类型的分类，音乐的分类等。

分类的应用是：

一、文件分类
生物识别
手写识别
语音识别

这些只是分类应用中的一小部分。在不同行业的几个地方，这是一个有用的概念。

机器学习中最常见的分类算法有哪些？

分类是完全依赖机器学习算法的自然语言处理任务。每个算法都用于解决特定问题。因此，每个算法都根据需求在不同的地方使用。

有很多分类算法可以用于数据集。在统计学中，分类研究非常广泛，任何特定算法的使用都将完全取决于您正在处理的数据集。以下是机器学习中最常见的分类算法：

1.支持向量机
2.朴素贝叶斯
3. 决策树
4. K-最近邻
5. 逻辑回归

这些分类算法用于使人类可能需要数百小时才能执行的多项分析任务变得简单而高效。