机器学习中的聚类：解释了 3 种类型的聚类

已发表: 2020-11-30

介绍

机器学习是 2020 年最热门的技术之一，随着数据的日益增长，对机器学习的需求也呈指数级增长。机器学习是一个非常广泛的主题，在每个领域和行业都有不同的算法和用例。其中之一是无监督学习，我们可以在其中看到聚类的使用。

无监督学习是一种机器从未标记的数据中学习的技术。由于我们不知道标签，因此机器没有从中学习的正确答案，但机器本身会从给定数据中找到一些模式来提出业务问题的答案。

聚类是一种机器学习无监督学习技术，涉及对给定的未标记数据进行分组。在每个清理过的数据集中，通过使用聚类算法，我们可以将给定的数据点聚类到每个组中。聚类算法假设同一簇中的数据点应具有相似的属性，而不同簇中的数据点应具有高度不同的属性。

在本文中，我们将了解集群的需求、不同类型的集群以及它们的优缺点。

阅读：机器学习的先决条件

集群需要什么？

聚类是一种广泛使用的 ML 算法，它允许我们找到数据集中数据点之间的隐藏关系。

例子：

1) 客户根据之前客户的相似度进行细分，可用于推荐。

2）基于文本数据的集合，我们可以根据内容的相似性对数据进行组织，从而创建主题层次结构。

3) 图像处理主要用于生物学研究，用于识别潜在模式。

4) 垃圾邮件过滤。

5) 识别欺诈和犯罪活动。

6) 也可用于梦幻足球和运动。

聚类类型

机器学习中有许多类型的聚类算法。我们将在本文中讨论以下三种算法：

1) K-Means 聚类。

2）均值偏移聚类。

3) 星展扫描。

1. K-Means 聚类

K-Means 是机器学习中其他聚类算法中最流行的聚类算法。我们可以在很多顶级行业甚至很多入门课程中看到这种算法。它是在实施和理解方面最容易开始的模型之一。

Step-1我们首先选择一个随机数 k 使用并随机初始化它们各自的中心点。

Step-2然后通过计算该点与每个组中心之间的距离（欧几里德或曼哈顿）对每个数据点进行分类，然后将数据点聚类到中心最接近的聚类中。

Step-3我们通过取组中所有向量的平均值来重新计算组中心。

Step-4我们重复所有这些步骤进行多次迭代或直到组中心没有太大变化。

优点

1) 非常快。

2）很少的计算

3) 线性复杂度 O(n)。

缺点

1）选择k值。

2）不同运行中的不同聚类中心。

3) 缺乏一致性。

2.均值漂移聚类

均值偏移聚类是一种基于滑动窗口的算法，它试图识别数据点的密集区域。作为基于质心的算法，这意味着目标是定位每个类的中心点，然后通过将中心点的候选更新为滑动窗口中点的平均值来进行工作。

然后在后处理阶段过滤这些选定的候选窗口，以消除重复，这将有助于形成最终的中心集及其相应的类。

Step-1我们从一个以点 C（随机选择）为中心并以半径 r 为内核的圆形滑动窗口开始。 均值偏移是一种爬山算法，它涉及在每一步迭代地将该内核移动到更高密度的区域，直到我们达到收敛。

Step-2在每次迭代之后，通过将中心点移动到窗口内点的平均值，将滑动窗口移向更高密度的区域。 滑动窗口内的密度随着其内点数的增加而增加。移动窗口中点的平均值将逐渐向点密度较高的区域移动。

步骤 3在这一步中，我们继续基于平均值移动滑动窗口，直到没有方向可以在所选内核内获得更多点。

步骤 4步骤 1-2 使用多个滑动窗口完成，直到所有点都位于一个窗口内。 当多个滑动窗口倾向于重叠时，选择包含最多点的窗口。数据点现在根据它们所在的滑动窗口进行聚类。

优点

1）无需选择簇数。

2) 非常适合自然数据驱动的意义

缺点

1）唯一的缺点是窗口大小（r）的选择可能很重要。

3.基于密度的噪声应用空间聚类（DBSCAN）

DBSCAN 类似于 Mean-Shift 聚类，它也是一种基于密度的算法，但有一些变化。

Step-1它从任意起点开始，使用称为 epsilon 的距离提取该点的邻域。

Step-2如果有足够的点并且数据点成为聚类中的第一个新点，则开始聚类。 如果没有足够的数据，该点将被标记为噪声，点将被标记为已访问。

步骤 3 epsilon 内的点倾向于成为集群的一部分。 对集群内的所有点重复此过程。

步骤 4重复步骤 2 和 3，直到集群中的点被访问和标记。

Step-5在完成当前聚类后，将一个新的未访问点处理成一个新的聚类，从而将其分类为一个聚类或作为噪声。

优点

1）无需设置簇数。

2) 将异常值定义为噪声。

3）有助于很好地找到任意大小和任意形状的簇。

缺点

1) 在不同密度的集群上表现不佳。

2) 对高维数据表现不佳。

另请阅读：机器学习项目理念

结论

在本文中，我们了解了当前市场对聚类的需求，不同类型的聚类算法及其优缺点。聚类确实是机器学习中一个非常有趣的话题，还有很多其他类型的聚类算法值得学习。

如果您有兴趣了解有关机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为工作专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

高斯混合聚类是什么意思？

高斯混合模型通常用于查询数据的情况下执行硬聚类或软聚类。高斯混合模型为了更好地执行聚类做出了一些假设。基于这些假设，模型将属于单个分布的数据点组合在一起。这些是概率模型，它们使用软聚类方法来有效地执行聚类过程。

聚类中的轮廓系数是多少？

为了衡量聚类的执行情况，我们使用轮廓系数。基本上，测量两个簇之间的平均距离，然后使用公式计算轮廓宽度。这样，我们可以轻松地测量给定数据中存在的最佳聚类数，从而找出完成聚类的效率。

机器学习中的模糊聚类是什么意思？

当给定数据属于多个聚类或组时，使用模糊聚类方法，该方法适用于模糊 C 均值算法或模糊 K 均值算法。它是一种软聚类方法。根据聚类中心与图像点之间的距离，该方法为与每个聚类中心关联的每个图像点分配隶属度值。