你应该知道的 10 个最常见的数据挖掘算法

已发表: 2019-12-02

数据挖掘是在大型数据集中寻找模式和重复的过程,是计算机科学的一个领域。 数据挖掘技术和算法在人工智能和数据科学中得到了广泛的应用。 有很多算法,但让我们讨论数据挖掘算法列表中的前 10 种算法。

目录

十大数据挖掘算法

1. C4.5算法

C4.5 是顶级数据挖掘算法之一,由 Ross Quinlan 开发。 C4.5 用于从一组已经分类的数据中生成决策树形式的分类器。 这里的分类器是指一种数据挖掘工具,它获取我们需要分类的数据,并尝试预测新数据的类别。

每个数据点都有自己的属性。 C4.5 创建的决策树提出了一个关于属性值的问题,并根据这些值对新数据进行分类。 训练数据集用 lasses 标记,使 C4.5 成为监督学习算法。 与其他数据挖掘算法相比,决策树总是易于解释和解释,这使得 C4.5 快速且流行。

无需编码经验。 360° 职业支持。 来自 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭。

2. K-mean算法

作为最常见的聚类算法之一,k-means 的工作原理是根据对象之间的相似性从一组对象中创建 ak 数量的组。 不能保证组成员完全相似,但组成员与非组成员相比会更相似。 根据标准实现,k-means 是一种无监督学习算法,因为它在没有任何外部信息的情况下自行学习集群。

3. 支持向量机

在任务方面,支持向量机 (SVM) 的工作原理类似于 C4.5 算法,只是 SVM 根本不使用任何决策树。 SVM 学习数据集并定义超平面以将数据分为两类。 超平面是看起来像“ y = mx + b”的直线的方程。 SVM 夸大将您的数据投影到更高维度。 投影后,SVM 定义了最好的超平面来将数据分成两类。

4. Apriori 算法

Apriori 算法通过学习关联规则来工作。 关联规则是一种数据挖掘技术,用于学习数据库中变量之间的相关性。 一旦学习了关联规则,就会将其应用于包含大量事务的数据库。 Apriori 算法用于发现有趣的模式和相互关系,因此被视为一种无监督学习方法。 认为该算法效率很高,它消耗大量内存,占用大量磁盘空间并花费大量时间。

5. 期望最大化算法

期望最大化 (EM) 被用作聚类算法,就像用于知识发现的 k-means 算法一样。 EM 算法在迭代中工作以优化查看观察数据的机会。 接下来,它用未观察到的变量估计统计模型的参数,从而生成一些观察到的数据。 期望最大化(EM)算法又是无监督学习,因为我们使用它时没有提供任何标记的类信息

6. PageRank算法

PageRank 常被 Google 等搜索引擎使用。 它是一种链接分析算法,用于确定在对象网络中链接的对象的相对重要性。 链接分析是一种探索对象之间关联的网络分析。 谷歌搜索通过了解网页之间的反向链接来使用此算法。

这是谷歌用来确定网页的相对重要性并在谷歌搜索引擎上排名更高的方法之一。 PageRank 商标是 Google 的专利,PageRank 算法是斯坦福大学的专利。 PageRank 被视为一种无监督学习方法,因为它仅通过考虑链接来确定相对重要性,并且不需要任何其他输入。

7. Adaboost 算法

AdaBoost 是一种用于构建分类器的提升算法。 分类器是一种数据挖掘工具,它根据输入数据预测数据的类别。 Boosting算法是一种集成学习算法,它运行多种学习算法并将它们组合起来。

Boosting 算法采用一组弱学习器并将它们组合成一个强学习器。 弱学习器对数据的分类精度较低。 弱算法的最好例子是决策树桩算法,它基本上是一个单步决策树。 Adaboost 是完美的监督学习,因为它在迭代中工作,并且在每次迭代中,它使用标记数据集训练较弱的学习者。 Adaboost 是一种简单且非常直接的算法,可以实现。

在用户指定轮数后,每次连续的 AdaBoost 迭代都会重新定义每个最佳学习器的权重。 这使得 Adaboost 成为一种超级优雅的自动调整分类器的方法。 Adaboost 灵活、通用且优雅,因为它可以整合大多数学习算法,并且可以处理大量数据。

阅读:最常见的数据挖掘示例

8.kNN算法

kNN 是一种惰性学习算法,用作分类算法。 一个懒惰的学习者在训练过程中除了存储训练数据外不会做任何事情。 懒惰的学习者只有在新的未标记数据作为输入时才开始分类。 另一方面,C4.5、SVN 和 Adaboost 是急切的学习者,它们在训练过程中开始构建分类模型。 由于 kNN 被给定一个带标签的训练数据集,因此它被视为一种监督学习算法。

9. 朴素贝叶斯算法

朴素贝叶斯不是一个单一的算法,尽管它可以被看作是一个单一的算法有效地工作。 朴素贝叶斯是一堆分类算法放在一起。 算法家族使用的假设是,被分类数据的每个特征都独立于类中给出的所有其他特征。 朴素贝叶斯提供了一个带标签的训练数据集来构建表格。 因此它被视为一种监督学习算法。

数据科学高级认证、250 多个招聘合作伙伴、300 多个学习小时、0% EMI

10. 购物车算法

CART 代表分类和回归树。 它是一种决策树学习算法,可以将回归树或分类树作为输出。 在 CART 中,决策树节点恰好有 2 个分支。 就像 C4.5 一样,CART 也是一个分类器。 回归或分类树模型是使用用户提供的标记训练数据集构建的。 因此,它被视为一种监督学习技术

结论

所以这里是数据挖掘算法列表中的前 10 个数据。 我们希望这篇文章能够在这些算法的基础上有所启发。

如果您想了解有关数据科学的更多信息,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划旨在让在职专业人士在不离职的情况下提升自己的技能。 该课程提供一对一的行业导师、Easy EMI 选项、IIIT-B 校友身份等等。 查看以了解更多信息。

使用 CART 算法进行数据挖掘有哪些限制?

毫无疑问,CART 是最常用的数据挖掘算法之一,但它确实有一些缺点。 如果数据集发生微小变化,树结构就会变得不稳定,从而由于结构不稳定而导致方差。 如果类不平衡,则决策树学习器会创建欠拟合树。 这就是为什么在将数据集与决策树拟合之前强烈建议平衡数据集的原因。

k-means 算法中的“K”到底是什么意思?

在使用 k-mean 算法进行数据挖掘过程时,您必须找到一个目标数“k”,它是您在数据集中需要的质心数。 实际上,该算法试图将一些未标记的点分组到“k”个簇中。 因此,“k”代表您最终需要的集群数量。

在KNN算法中,欠拟合是什么意思?

顾名思义,欠拟合意味着模型不适合,或者换句话说,无法准确预测数据。 过拟合或欠拟合确实取决于您选择的“K”值。 在大型数据集的情况下选择较小的“K”值会增加过度拟合的机会。