什么是聚类和不同类型的聚类方法

已发表: 2020-12-01

考虑一下自己正在与您组织的首席营销官进行对话。该组织希望借助数据更好地了解客户，从而帮助其实现业务目标并为客户提供更好的体验。现在，这是集群派上用场的场景之一。

什么是聚类？

聚类是机器学习的一种无监督学习方法。在无监督学习方法中，推论是从不包含标记输出变量的数据集中得出的。它是一种探索性数据分析技术，使我们能够分析多变量数据集。

聚类是将数据集划分为一定数量的簇的任务，使得属于一个簇的数据点具有相似的特征。集群只不过是数据点的分组，因此集群内的数据点之间的距离最小。

换句话说，集群是相似数据点密度高的区域。它通常用于数据集的分析，在庞大的数据集中找到有洞察力的数据并从中得出推论。通常，簇呈球形，但这不是必需的，因为簇可以是任何形状。在我们的数据科学在线课程中了解聚类和更多数据科学概念。

这取决于我们使用的算法类型，它决定了如何创建集群。需要从数据集中得出的推论还取决于用户，因为没有良好聚类的标准。

聚类方法有哪些类型？

聚类本身可以分为两种类型，即。硬聚类和软聚类。在硬聚类中，一个数据点只能属于一个聚类。但是在软聚类中，提供的输出是属于每个预定义数量的聚类的数据点的概率似然。

基于密度的聚类

在这种方法中，集群是基于数据空间中表示的数据点的密度创建的。由于该区域中存在大量数据点而变得密集的区域被视为集群。

稀疏区域（数据点非常少的区域）中的数据点被视为噪声或异常值。在这些方法中创建的集群可以是任意形状。以下是基于密度的聚类算法的示例：

DBSCAN（基于密度的噪声应用空间聚类）

DBSCAN 根据距离度量和最小数据点数的标准将数据点组合在一起。它需要两个参数——eps和最小点数。 Eps 表示数据点应被视为邻居的接近程度。应完成最小点的标准，以将该区域视为密集区域。

OPTICS（识别聚类结构的订购点）

它的处理过程与 DBSCAN 相似，但它解决了前一种算法的一个缺点，即无法从任意密度的数据中形成集群。它考虑了另外两个参数，即核心距离和可达距离。核心距离通过为其设置最小值来指示所考虑的数据点是否为核心。

可达距离是核心距离的最大值，是用于计算两个数据点之间距离的距离度量值。关于可达距离要考虑的一件事是，如果其中一个数据点是核心点，则其值仍未定义。

HDBSCAN（基于层次密度的噪声应用空间聚类）

HDBSCAN 是一种基于密度的聚类方法，通过将 DBSCAN 方法转换为层次聚类算法来扩展它。

层次聚类

分层聚类组（凝聚或也称为自下而上方法）或划分（分裂或也称为自顶向下方法）基于距离度量的集群。在凝聚聚类中，每个数据点最初都充当一个集群，然后将这些集群一一分组。

Divisive 与 Agglomerative 相反，它从所有点开始到一个集群中，然后将它们划分为更多集群。这些算法创建所有现有集群的距离矩阵，并根据链接的标准执行集群之间的链接。数据点的聚类通过使用树状图来表示。有不同类型的链接：-

○ 单链接： - 在单链接中，两个集群之间的距离是这两个集群中点之间的最短距离。

○ Complete Linkage : – 在完全链接中，两个簇之间的距离是这两个簇中点之间的最远距离。

○ 平均链接： - 在平均链接中，两个集群之间的距离是集群中每个点与另一个集群中每个点的平均距离。

阅读：数据挖掘的常见示例。

模糊聚类

在模糊聚类中，任何聚类中数据点的分配都不是决定性的。在这里，一个数据点可以属于多个集群。它将结果作为数据点属于每个集群的概率提供。模糊聚类中使用的算法之一是模糊 c 均值聚类。

该算法在过程中类似于 K-Means 聚类，不同之处在于计算中涉及的参数，如模糊器和成员值。

分区聚类

这种方法是分析师创建集群的最流行的选择之一。在分区聚类中，根据数据点的特征对聚类进行分区。我们需要指定要为此聚类方法创建的聚类数量。这些聚类算法遵循一个迭代过程，根据距离在聚类之间重新分配数据点。属于这一类的算法如下： –

○ K-Means 聚类：– K-Means 聚类是使用最广泛的算法之一。 它根据用于聚类的距离度量将数据点划分为 k 个聚类。 “k”的值由用户定义。计算数据点和聚类质心之间的距离。

最接近集群质心的数据点被分配给该集群。在一次迭代之后，它会再次计算这些集群的质心，并且该过程会继续进行，直到完成预先定义的迭代次数或集群的质心在一次迭代后没有改变。

这是一种计算量非常大的算法，因为它在每次迭代中计算每个数据点与所有集群的质心的距离。这使得难以对大型数据集实施相同的操作。

PAM（围绕 Medoids 分区）

该算法也称为k-medoid算法。它在过程上也类似于 K-means 聚类算法，不同之处在于聚类中心的分配。在 PAM 中，聚类的中心点必须是输入数据点，而 K-means 聚类则不是这样，因为聚类中所有数据点的平均值可能不属于输入数据点。

○ CLARA (Clustering Large Applications) : – CLARA 是 PAM 算法的扩展，它减少了计算时间，使其在大型数据集上表现得更好。 为此，它在整个数据集中任意选择一部分数据作为实际数据的代表。它将 PAM 算法应用于数据的多个样本，并从多次迭代中选择最佳集群。

另请阅读：您应该知道的数据挖掘算法

基于网格的聚类

在基于网格的聚类中，数据集被表示为由网格（也称为单元格）组成的网格结构。该方法的算法中的整体方法与其他算法不同。

他们更关心数据点周围的价值空间，而不是数据点本身。这些算法的最大优点之一是降低了计算复杂度。这使得它适合处理庞大的数据集。

在将数据集划分为单元后，它会计算单元的密度，这有助于识别集群。一些基于网格聚类的算法如下：

○ STING（统计信息网格方法）： – 在 STING 中，数据集以分层方式递归划分。 每个单元进一步细分为不同数量的单元。它捕获单元格的统计测量值，有助于在短时间内回答查询。

○ WaveCluster : – 在该算法中，数据空间以小波的形式表示。 数据空间组成一个 n 维信号，有助于识别集群。信号中频率较低、幅度较大的部分表明数据点比较集中。这些区域被算法识别为簇。信号中频率高的部分代表簇的边界。更多细节，你可以参考这篇论文。

○ CLIQUE（Quest 中的聚类）： – CLIQUE 是基于密度和基于网格的聚类算法的组合。 它使用 Apriori 原理划分数据空间并识别子空间。它通过计算细胞的密度来识别集群。

尾注

在本文中，我们概述了什么是聚类以及聚类的不同方法及其示例。本文旨在帮助您开始使用集群。

这些聚类方法各有利弊，这限制了它们仅适用于某些数据集。当您对数据集进行分析时，不仅是算法，还有很多其他因素，如机器的硬件规格、算法的复杂性等。

作为分析师，您必须决定选择哪种算法以及在给定情况下哪种算法会提供更好的结果。一种算法适合所有策略不适用于任何机器学习问题。因此，请继续尝试并在集群世界中亲自动手。

如果您有兴趣学习数据科学，请查看我们的 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划专为在职专业人士创建，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

商业智能中使用了哪些不同类型的聚类方法？

聚类是一种用于数据挖掘的无向技术，用于识别数据中的几个隐藏模式，而无需提出任何特定假设。使用聚类背后的原因是识别某些对象之间的相似性并制作一组相似的对象。
有两种不同类型的聚类，一种是层次方法，一种是非层次方法。

1. 非层次聚类

在该方法中，将包含 N 个对象的数据集划分为 M 个簇。在商业智能中，使用最广泛的非层次聚类技术是 K-means。
2.层次聚类
在这种方法中，生成了一组嵌套集群。在这些嵌套簇中，每一对对象进一步嵌套形成一个大簇，直到最后只剩下一个簇。

什么时候使用集群？

聚类的主要功能是执行细分，无论是商店、产品还是客户。客户和产品可以根据不同的属性分为层次组。
聚类技术的另一种用途是检测欺诈交易等异常情况。在这里，检测到具有所有良好交易的集群并将其保存为样本。据说这是一个正常的集群。 每当此集群中出现异常情况时，它就属于可疑部分。发现这种方法对于检测体内异常细胞的存在非常有用。
除此之外，聚类被广泛用于分解大型数据集以创建更小的数据组。这提高了评估数据的效率。

集群的优势是什么？

由于几个原因，据说聚类比给定数据的随机抽样更有效。集群的两个主要优点是：
1. 需要更少的资源
集群从整个样本中创建一组较少的资源。因此，与随机抽样相比，对资源的需求较少。随机抽样需要差旅和管理费用，但这里并非如此。
2. 可行的选择
在这里，每个集群确定一整组人口，因为同质组是从整个人口中创建的。有了这个，在一个研究中包含更多的主题变得很容易。