数据挖掘中的聚类分析：应用、方法和要求

已发表: 2020-01-20

在这里，我们将讨论数据挖掘中的聚类分析。所以首先让我们知道什么是数据挖掘中的聚类，然后是它的介绍以及数据挖掘中对聚类的需求。我们还将讨论聚类分析在数据科学中的算法和应用。稍后我们将了解聚类分析和数据挖掘聚类方法中的不同方法。

什么是数据挖掘中的聚类？

在聚类中，一组不同的数据对象被归类为相似对象。一组是指一组数据。聚类分析根据数据的相似性将数据集划分为不同的组。在将数据分类为各个组之后，为该组分配一个标签。它有助于通过进行分类来适应变化。

阅读：数据挖掘的常见示例。

什么是数据挖掘中的聚类分析？

数据挖掘中的聚类分析是指找出组中彼此相似但与其他组中的对象不同的对象组。

数据挖掘聚类分析的应用

数据聚类分析有很多用途，例如图像处理、数据分析、模式识别、市场研究等等。使用数据聚类，公司可以在客户数据库中发现新的群体。数据分类也可以根据购买模式进行。

数据挖掘中的聚类有助于使用生物学领域的相似功能或基因对动植物进行分类。它有助于深入了解物种的结构。使用数据挖掘中的聚类来识别区域。在地球观测数据库中，识别出彼此相似的土地。

根据地理位置、价值和房屋类型，在城市中定义了一组房屋。数据挖掘中的聚类通过对 Internet 上的文件进行分类来帮助发现信息。它也用于检测应用。使用分析欺骗模式的数据挖掘中的聚类可以轻松检测信用卡中的欺诈行为。阅读有关数据科学在金融行业应用的更多信息。

它有助于理解每个集群及其特征。人们可以理解数据是如何分布的，它作为数据挖掘功能中的一种工具。

数据挖掘中聚类的要求

可解释性

聚类的结果应该是可用的、可理解的和可解释的。

帮助处理混乱的数据

通常，数据是混乱和非结构化的。它不能被快速分析，这就是信息聚类在数据挖掘中如此重要的原因。分组可以通过将数据组织成相似的数据对象组来赋予数据某种结构。数据专家在处理数据和发现新事物时变得更加自在。

高维

数据聚类还能够处理高维数据和小规模数据。

发现属性形状簇

使用聚类算法检测任意形状的簇。也可以找到具有球形的小尺寸簇。

多种数据类型的算法可用性

许多不同类型的数据可以与聚类算法一起使用。数据可以是二进制数据、分类数据和基于区间的数据。

阅读：你应该知道的数据挖掘算法

集群可扩展性

数据库通常非常庞大，难以处理。该算法应该是可扩展的以处理广泛的数据库，因此它需要是可扩展的。

数据挖掘聚类方法

1.分区聚类方法

在这种方法中，假设“m”分区是在数据库的“p”个对象上完成的。一个集群将由每个分区表示，并且 m < p。 K是对象分类后的组数。此分区聚类方法需要满足一些要求，它们是：-

一个目标应该只属于一个组。
任何团体都不应该没有一个单一的目的。

在这种类型的分区聚类方法中应该记住一些要点，它们是：

如果我们已经给出不，将会有一个初始分区。一个分区（比如 m）。
有一种技术称为迭代重定位，这意味着对象将从一组移动到另一组以改进分区。

2.层次聚类方法

在这种层次聚类方法中，给定的一组数据对象被创建为一种层次分解。层次分解的形成将决定分类的目的。有两种创建层次分解的方法，它们是：-

1. 分裂的方法

分裂方法的另一个名称是自上而下的方法。在此方法开始时，所有数据对象都保存在同一个集群中。通过使用连续迭代拆分组来创建更小的集群。不断迭代的方法将继续进行，直到满足终止条件。分组拆分或合并后无法撤消，这就是该方法不那么灵活的原因。

2. 凝聚法

这种方法的另一个名称是自下而上的方法。所有组在开始时都是分开的。然后它继续合并，直到所有组合并，或满足终止条件。

有两种方法可用于提高数据挖掘中的层次聚类质量，它们是：-

在层次聚类的每一次划分中，都应该仔细分析对象之间的联系。
可以使用分层凝聚算法进行分层凝聚的整合。在这种方法中，首先，对象被分组到微集群中。在将数据对象分组为微簇后，对微簇进行宏聚类。

3. 基于密度的聚类方法

在数据挖掘中的这种聚类方法中，密度是主要关注点。质量的概念被用作这种聚类方法的基础。在这种聚类方法中，聚类会不断增长。对于每个数据点，组的半径中应该至少有一个点。

4. 基于网格的聚类方法

在这种类型的基于网格的聚类方法中，使用对象一起形成网格。通过将对象空间量化为有限数量的单元来形成网格结构。

基于网格的聚类方法的优点：-

更快的处理时间：这种方法的处理时间比另一种方式快得多，因此可以节省时间。
此方法取决于否。量化每个维度的空间中的细胞数。

5. 基于模型的聚类方法

在这种类型的聚类方法中，每个聚类都被假设，以便它可以找到最适合模型的数据。在这种方法中，密度函数被聚类以定位组。

6. 基于约束的聚类方法

并入应用程序或面向用户的约束以执行聚类。用户的期望被称为约束。在这个分组的过程中，交流是非常互动的，这是由限制提供的。

哪些分类不被视为聚类分析？

Graph Partitioning - 区域不相同且仅基于相互协同和相关性进行分类的分类类型不是聚类分析。
查询结果——在这种类型的分类中，组是根据外部来源给出的规范创建的。它不计为聚类分析。
简单分割– 根据姓氏将名称划分为不同的注册组不符合聚类分析的条件。
监督分类——那些使用标签信息分类的分类不能说是聚类分析，因为聚类分析涉及基于模式的分组。

结论

所以现在我们已经了解了很多关于数据聚类的东西，比如数据挖掘中的数据聚类和聚类分析的方法和方法。

如果您有兴趣学习数据科学，请查看我们的 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划专为在职专业人士创建，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

聚类分析有哪些缺点？

聚类分析是一种统计方法，它不预先假定市场或客户行为的先验知识。每次进行统计分析时，一些聚类分析方法会产生一些不同的结果。之所以会出现这种情况，是因为没有一种万能的数据分析方法。对于刚接触聚类分析概念的学生来说，不断变化的数据输出可能会让他们感到困惑和恼火。

如何计算簇纯度和簇质量？

我们将数据点的总数乘以每个集群中准确的类标签的数量。纯度随着集群数量的增加而增加。例如，如果我们有一个模型将每个观察组织到自己的集群中，那么纯度就变成了一个。我们可以计算集群中所有对象的平均轮廓系数值，以确定其在集群内的适应度。数据集中所有对象的平均轮廓系数值可用于评估分组的质量。

K-means 和 K-medoids 有什么区别？

K-means 试图减少总平方误差，而 k-medoids 试图减少归类为集群中的点与选择作为集群中心的点之间的差异总和。与 k-means 方法不同，k-medoids 算法选择数据点作为中心（medoids 或 exemplars）。