机器学习中的聚类:解释了 3 种类型的聚类
已发表: 2020-11-30目录
介绍
机器学习是 2020 年最热门的技术之一,随着数据的日益增长,对机器学习的需求也呈指数级增长。 机器学习是一个非常广泛的主题,在每个领域和行业都有不同的算法和用例。 其中之一是无监督学习,我们可以在其中看到聚类的使用。
无监督学习是一种机器从未标记的数据中学习的技术。 由于我们不知道标签,因此机器没有从中学习的正确答案,但机器本身会从给定数据中找到一些模式来提出业务问题的答案。
聚类是一种机器学习无监督学习技术,涉及对给定的未标记数据进行分组。 在每个清理过的数据集中,通过使用聚类算法,我们可以将给定的数据点聚类到每个组中。 聚类算法假设同一簇中的数据点应具有相似的属性,而不同簇中的数据点应具有高度不同的属性。
在本文中,我们将了解集群的需求、不同类型的集群以及它们的优缺点。
阅读:机器学习的先决条件
集群需要什么?
聚类是一种广泛使用的 ML 算法,它允许我们找到数据集中数据点之间的隐藏关系。

例子:
1) 客户根据之前客户的相似度进行细分,可用于推荐。
2)基于文本数据的集合,我们可以根据内容的相似性对数据进行组织,从而创建主题层次结构。
3) 图像处理主要用于生物学研究,用于识别潜在模式。
4) 垃圾邮件过滤。
5) 识别欺诈和犯罪活动。
6) 也可用于梦幻足球和运动。
聚类类型
机器学习中有许多类型的聚类算法。 我们将在本文中讨论以下三种算法:
1) K-Means 聚类。
2)均值偏移聚类。
3) 星展扫描。
1. K-Means 聚类
K-Means 是机器学习中其他聚类算法中最流行的聚类算法。 我们可以在很多顶级行业甚至很多入门课程中看到这种算法。 它是在实施和理解方面最容易开始的模型之一。
Step-1我们首先选择一个随机数 k 使用并随机初始化它们各自的中心点。
Step-2然后通过计算该点与每个组中心之间的距离(欧几里德或曼哈顿)对每个数据点进行分类,然后将数据点聚类到中心最接近的聚类中。
Step-3我们通过取组中所有向量的平均值来重新计算组中心。
Step-4我们重复所有这些步骤进行多次迭代或直到组中心没有太大变化。
优点
1) 非常快。
2)很少的计算
3) 线性复杂度 O(n)。
缺点
1)选择k值。
2)不同运行中的不同聚类中心。
3) 缺乏一致性。
2.均值漂移聚类
均值偏移聚类是一种基于滑动窗口的算法,它试图识别数据点的密集区域。 作为基于质心的算法,这意味着目标是定位每个类的中心点,然后通过将中心点的候选更新为滑动窗口中点的平均值来进行工作。

然后在后处理阶段过滤这些选定的候选窗口,以消除重复,这将有助于形成最终的中心集及其相应的类。
Step-1我们从一个以点 C(随机选择)为中心并以半径 r 为内核的圆形滑动窗口开始。 均值偏移是一种爬山算法,它涉及在每一步迭代地将该内核移动到更高密度的区域,直到我们达到收敛。
Step-2在每次迭代之后,通过将中心点移动到窗口内点的平均值,将滑动窗口移向更高密度的区域。 滑动窗口内的密度随着其内点数的增加而增加。 移动窗口中点的平均值将逐渐向点密度较高的区域移动。
步骤 3在这一步中,我们继续基于平均值移动滑动窗口,直到没有方向可以在所选内核内获得更多点。
步骤 4步骤 1-2 使用多个滑动窗口完成,直到所有点都位于一个窗口内。 当多个滑动窗口倾向于重叠时,选择包含最多点的窗口。 数据点现在根据它们所在的滑动窗口进行聚类。
优点
1)无需选择簇数。
2) 非常适合自然数据驱动的意义
缺点
1)唯一的缺点是窗口大小(r)的选择可能很重要。
3.基于密度的噪声应用空间聚类(DBSCAN)
DBSCAN 类似于 Mean-Shift 聚类,它也是一种基于密度的算法,但有一些变化。
Step-1它从任意起点开始,使用称为 epsilon 的距离提取该点的邻域。
Step-2如果有足够的点并且数据点成为聚类中的第一个新点,则开始聚类。 如果没有足够的数据,该点将被标记为噪声,点将被标记为已访问。
步骤 3 epsilon 内的点倾向于成为集群的一部分。 对集群内的所有点重复此过程。
步骤 4重复步骤 2 和 3,直到集群中的点被访问和标记。
Step-5在完成当前聚类后,将一个新的未访问点处理成一个新的聚类,从而将其分类为一个聚类或作为噪声。
优点
1)无需设置簇数。
2) 将异常值定义为噪声。
3)有助于很好地找到任意大小和任意形状的簇。
缺点

1) 在不同密度的集群上表现不佳。
2) 对高维数据表现不佳。
另请阅读:机器学习项目理念
结论
在本文中,我们了解了当前市场对聚类的需求,不同类型的聚类算法及其优缺点。 聚类确实是机器学习中一个非常有趣的话题,还有很多其他类型的聚类算法值得学习。
如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。
高斯混合聚类是什么意思?
高斯混合模型通常用于查询数据的情况下执行硬聚类或软聚类。 高斯混合模型为了更好地执行聚类做出了一些假设。 基于这些假设,模型将属于单个分布的数据点组合在一起。 这些是概率模型,它们使用软聚类方法来有效地执行聚类过程。
聚类中的轮廓系数是多少?
为了衡量聚类的执行情况,我们使用轮廓系数。 基本上,测量两个簇之间的平均距离,然后使用公式计算轮廓宽度。 这样,我们可以轻松地测量给定数据中存在的最佳聚类数,从而找出完成聚类的效率。
机器学习中的模糊聚类是什么意思?
当给定数据属于多个聚类或组时,使用模糊聚类方法,该方法适用于模糊 C 均值算法或模糊 K 均值算法。 它是一种软聚类方法。 根据聚类中心与图像点之间的距离,该方法为与每个聚类中心关联的每个图像点分配隶属度值。
