聚类与分类:聚类与分类之间的区别

已发表: 2020-12-01

目录

介绍

机器学习算法通常根据输出变量的类型和需要解决的问题类型进行分类。 这些算法大致分为三种类型,即回归、聚类和分类。 回归和分类是监督学习算法的类型,而聚类是一种无监督算法。

当输出变量是连续的时,它是一个回归问题,而当它包含离散值时,它是一个分类问题。 当我们需要根据数据点的特征创建聚类时,通常会使用聚类算法。 本文重点对聚类、分类进行简要介绍,并列出两者之间的一些区别。

无需编码经验。 360° 职业支持。 来自 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭。

分类

分类是一种有监督的机器学习算法。 对于任何给定的输入,分类算法有助于预测输出变量的类别。 可以有多种类型的分类,如二元分类、多类分类等。这取决于输出变量中的类数。

分类算法的类型

逻辑回归: - 它是可用于分类的线性模型之一。 它使用 sigmoid 函数来计算某个事件发生的概率。 它是二元变量分类的理想方法。

K-Nearest Neighbors (kNN) : – 它使用欧几里得距离、曼哈顿距离等距离度量来计算一个数据点与其他每个数据点的距离。 为了对输出进行分类,它需要每个数据点的 k 个最近邻居的多数票。

决策树:——它是一种非线性模型,克服了线性算法(如逻辑回归)的一些缺点。 它以包含节点和叶子的树结构的形式构建分类模型。 该算法涉及多个 if-else 语句,这些语句有助于将结构分解为更小的结构并最终提供最终结果。 它可以用于回归和分类问题。

随机森林: - 它是一种集成学习方法,涉及多个决策树来预测目标变量的结果。 每个决策树都提供自己的结果。 在分类问题的情况下,需要这些多棵决策树的多数票来对最终结果进行分类。 在回归问题的情况下,它取决策树预测值的平均值。

朴素贝叶斯: – 它是一种基于贝叶斯定理的算法。 它假定任何特定特征都独立于其他特征的包含。 即它们彼此不相关。 由于这种假设,它通常不适用于复杂数据,因为在大多数数据集中,特征之间存在某种关系。

支持向量机: - 它表示多维空间中的数据点。 然后在超平面的帮助下将这些数据点分为几类。 它为数据集中的 n 个特征绘制一个 n 维空间,然后尝试创建超平面,以便以最大边距划分数据点。

阅读:数据挖掘的常见示例。

应用

  • 电子邮件垃圾邮件检测。
  • 面部识别。
  • 确定客户是否会流失。
  • 银行贷款审批。

聚类

聚类是一种无监督机器学习算法。 它用于将具有相似特征的数据点分组为集群。 理想情况下,同一簇中的数据点应该表现出相似的属性,而不同簇中的点应该尽可能地不同。

聚类分为两类——硬聚类和软聚类。 在硬聚类中,数据点仅分配给其中一个聚类,而在软聚类中,它提供了数据点位于每个聚类中的概率可能性。

聚类算法的类型

K-Means Clustering : – 它初始化预定义数量的 k 个集群,并使用距离度量来计算每个数据点与每个集群质心的距离。 它根据距离将数据点分配到 k 个集群之一。

Agglomerative Hierarchical Clustering (Bottom-Up Approach) : – 将每个数据点视为一个集群,并根据距离度量和用于链接这些集群的标准合并这些数据点。

Divisive Hierarchical Clustering (Top-Down Approach) : – 将所有数据点初始化为一个集群,并根据距离度量和标准分割这些数据点。 Agglomerative and Divisive clustering 可以表示为一个树状图,并且通过引用它来选择要选择的集群的数量。

DBSCAN(基于密度的噪声应用空间聚类) : – 它是一种基于密度的聚类方法。 像 K-Means 这样的算法在相当分离的集群上工作得很好,并创建了球形的集群。 DBSCAN 用于数据为任意形状且对异常值不太敏感的情况。 它将在一定半径内具有许多相邻数据点的数据点分组。

OPTICS (Ordering Points to identify Clustering Structure) : – 它是另一种基于密度的聚类方法,除了考虑更多参数外,它在过程中与 DBSCAN 相似。 但它在计算上比 DBSCAN 更复杂。 此外,它不会将数据点分成集群,但它会创建一个可达性图,有助于解释创建集群。

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) : – 它通过生成数据摘要来创建集群。 它适用于庞大的数据集,因为它首先汇总数据,然后使用相同的数据创建集群。 但是,它只能处理可以在空间中表示的数字属性。

另请阅读:您应该知道的数据挖掘算法

应用

  • 细分市场的消费群。
  • 社交网络分析。
  • 图像分割。
  • 推荐系统。
数据科学高级认证、250 多个招聘合作伙伴、300 多个学习小时、0% EMI

聚类和分类之间的区别

  1. 类型: - 聚类是一种无监督学习方法,而分类是一种监督学习方法。
  2. 过程: – 在聚类中,数据点根据它们的相似性分组为聚类。 分类涉及将输入数据分类为来自输出变量的类标签之一。
  3. 预测: - 分类涉及基于模型构建的输入变量的预测。 聚类通常用于分析数据并从中得出推论以做出更好的决策。
  4. 数据拆分: - 分类算法需要将数据拆分为训练和测试数据,以预测和评估模型。 聚类算法不需要拆分数据来使用。
  5. 数据标签: - 分类算法处理标记数据,而聚类算法处理未标记数据。
  6. 阶段: - 分类过程涉及两个阶段 - 培训和测试。 聚类过程仅涉及数据的分组。
  7. 复杂性: - 由于分类处理更多的阶段,分类算法的复杂性高于仅旨在对数据进行分组的聚类算法。

结论

分类和聚类的方法不同,它们算法的预期结果也不同。 简而言之,分类和聚类都用于解决不同的问题。 本文简要介绍了分类和聚类。

我们还阅读了一些关于每种情况下使用的不同类型的算法以及一些应用程序。 本文中列出的算法并不详尽。 即它不是一个完整的列表,并且存在许多其他算法可用于解决此类问题。

如果您有兴趣学习数据科学,请查看我们的数据科学 PG 文凭,该文凭专为在职专业人士而设,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家指导、行业一对一辅导导师,400 多个小时的学习和顶级公司的工作协助。

聚类有哪些不同的方法和应用?

一个簇可以称为一组属于同一类的对象。 简单来说,我们可以说集群是一组具有相似属性的对象。 众所周知,聚类是机器学习中分析的重要过程。

不同的聚类方法

1. 基于分区的聚类
2.基于层次的聚类
3. 基于密度的聚类
4. 基于网格的聚类
5. 基于模型的聚类

聚类的不同应用

1.推荐引擎
2.市场和客户细分
3. 社交网络分析(SNA)
4.搜索结果聚类
5. 生物数据分析
6.医学影像分析
7. 识别癌细胞

这些是一些最广泛使用的方法和最流行的聚类应用。

分类有哪些不同的分类器和应用?

分类技术用于通过将数据分类为不同数量的类来为每个类添加标签。

分类器可以有两种类型:

1. 二元分类器 - 在这里,分类仅使用 2 个可能的结果或 2 个不同的类别进行。 例如,男女分类、垃圾邮件和非垃圾邮件等。
2. 多类分类器——在这里,分类是用两个以上不同的类来执行的。 例如,土壤类型的分类,音乐的分类等。

分类的应用是:

一、文件分类
生物识别
手写识别
语音识别

这些只是分类应用中的一小部分。 在不同行业的几个地方,这是一个有用的概念。

机器学习中最常见的分类算法有哪些?

分类是完全依赖机器学习算法的自然语言处理任务。 每个算法都用于解决特定问题。 因此,每个算法都根据需求在不同的地方使用。

有很多分类算法可以用于数据集。 在统计学中,分类研究非常广泛,任何特定算法的使用都将完全取决于您正在处理的数据集。 以下是机器学习中最常见的分类算法:

1.支持向量机
2.朴素贝叶斯
3. 决策树
4. K-最近邻
5. 逻辑回归

这些分类算法用于使人类可能需要数百小时才能执行的多项分析任务变得简单而高效。