数据挖掘中的 KDD 过程:您需要知道什么?
已发表: 2020-11-23作为一名在职专业人士,您熟悉数据、数据库、信息、处理等术语。您还必须遇到数据挖掘和数据仓库等术语。 稍后我们将详细讨论这两个术语,但还有一种更复杂的方法论,它包含了上面提到的两个术语:KDD。
目录
什么是 KDD?
KDD 被称为数据库中的知识发现,被定义为一种从原始数据库中查找、转换和提炼有意义的数据和模式以便在不同领域或应用程序中使用的方法。
上述陈述是 KDD 的概述或要点,但它是一个漫长而复杂的过程,涉及许多步骤和迭代。 现在,在我们深入研究 KDD 的本质之前,让我们尝试通过一个示例来定下基调。
假设附近有一条小河在流淌,而您恰好是手工艺爱好者、石头收藏家或随机探险家中的一个。 现在,您已经知道河床充满了石头、贝壳和其他随机物体。 这个前提是最重要的,没有它,一个人就无法到达源头。
接下来,根据您碰巧是谁,需求和要求可能会有所不同。 这是要理解的第二个最重要的事情。 因此,您继续收集可能躺在河床上的石头、贝壳、硬币或任何人工制品。 但这也会带来污垢和其他不需要的物体,您需要将其清除才能使物体准备好进一步使用。
在这个阶段,您可能需要根据需要返回收集更多物品,并且此过程将根据情况重复几次或完全跳过。
收集到的物品需要分成不同的类型以更好地适应您的应用,并且还需要进行切割、抛光或涂漆。 这个阶段称为转化阶段。
在此过程中,您将了解,例如,您更有可能在哪里找到具有某种颜色的较大石头——无论是在河岸附近还是在河流更深处,这些人工制品是否可能出现在上游或下游等等. 当你学习数据科学时,数据挖掘是一个重要的部分。
这有助于解码模式,有助于更有效和更快地完成任务。 您最终会发现精炼、可靠且高度特定于您的应用程序的知识。
现在,让我们详细了解数据挖掘中的 KDD。
阅读:印度的数据挖掘薪资
什么是数据挖掘中的 KDD?
数据挖掘中的 KDD是一种编程和分析方法,用于从数据库中对数据进行建模,以提取有用和适用的“知识”。 数据挖掘构成了 KDD 的支柱,因此对整个方法至关重要。
它利用几种本质上自学习的算法从处理后的数据中推断出有用的模式。 该过程是一个闭环恒定反馈,其中根据算法和模式解释的需求在各个步骤之间发生大量迭代。
典型 KDD 过程中涉及的步骤
1. 目标设定和应用理解
这是该过程的第一步,需要事先了解和了解要应用的领域。这是我们决定如何使用转换后的数据和数据挖掘得出的模式来提取知识的地方。 这个前提非常重要,如果设置错误,可能会导致错误的解释并对最终用户产生负面影响。
2. 数据选择与整合
在设定目标和目的后,需要根据可用性、可访问性重要性和质量选择收集的数据并将其分成有意义的集合。 这些参数对于数据挖掘至关重要,因为它们是数据挖掘的基础,并且会影响形成什么样的数据模型。

3. 数据清洗和预处理
此步骤涉及搜索丢失的数据并从数据集中删除嘈杂、冗余和低质量的数据,以提高数据的可靠性及其有效性。 某些算法用于根据特定于应用程序的属性搜索和消除不需要的数据。
4. 数据转换
此步骤准备要馈送到数据挖掘算法的数据。 因此,数据需要采用合并和汇总的形式。 数据根据功能、属性、特征等进行整合。
5. 数据挖掘
这是整个 KDD 的根或骨干过程。 这是使用算法从转换后的数据中提取有意义的模式的地方,这有助于预测模型。 它是一种分析工具,可帮助使用人工智能、高级数值和统计方法以及专业算法等技术从数据集中发现趋势。
6. 模式评估/解释
一旦从各种数据挖掘方法和迭代中获得了趋势和模式,这些模式就需要以离散形式表示,例如条形图、饼图、直方图等,以研究在之前的步骤中收集和转换的数据的影响。 这也有助于评估特定数据模型在领域的有效性。
7. 知识发现和使用
这是 KDD 过程的最后一步,需要从上一步中提取的“知识”以可视化格式(如表格、报告等)应用于特定应用程序或领域。这一步推动决策制定过程说申请。
阅读:您应该了解的数据挖掘技术
结论
当今世界,数据正在从不同类型和不同格式的众多来源中生成,例如经济交易、生物识别、科学、图片和视频等。每时每刻都在交易如此大量的信息,技术是最重要的可以提取果汁并提供可靠、高质量和有效的数据,用于各个领域的决策。 这就是 KDD 非常有用的地方。
如果您想了解数据科学,请查看upGrad 和 IIIT-B 的数据科学执行 PG 计划。 它是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、与行业导师的 1 对 1、400 多个小时的学习和顶级公司的工作协助。
为什么 KDD 很重要?
KDD 方法的主要目标是从海量数据库中提取信息。 它通过使用数据挖掘技术来确定什么是知识来实现这一点。 KDD 被定义为对重要数据源的有计划的、探索性的调查和建模。 KDD 是在海量复杂数据集中识别有效、实用和可理解模式的系统过程。 KDD 方法的基础是数据挖掘,它涉及对分析数据、构建模型和发现以前未知模式的算法进行推理。 该模型用于从数据中提取信息,然后对其进行分析和预测。
学习KDD难吗?
KDD 在当前的技术世界中非常有用。 学习 KDD 比较复杂。 想要学习 KDD 的学习者需要学习计算机科学、统计学、机器学习和数据科学。 除了原始分析步骤之外,它还包括数据库和数据管理、数据预处理、设计和推理因素、相关性指标、复杂性因素、发现结构的后处理、可视化和在线更新等方面。
