20 个数据挖掘面试题

已发表: 2020-02-10

这意味着 AI 和 ML 将有大量的工作范围，并且由于数据挖掘是两者不可或缺的一部分，因此您必须在数据挖掘方面打下坚实的基础。数据挖掘是指用于将原始数据转换为可供企业和组织使用的有意义的见解的技术。数据挖掘的一些基本方面包括数据和数据库管理、数据预处理、数据验证、在线更新以及发现隐藏在复杂数据集中的有价值的模式。从本质上讲，数据挖掘专注于对大量数据的自动分析，以从中提取隐藏的趋势和见解。这正是为什么如果你想在 AI/ML 中找到梦想的工作，你必须准备好回答面试官提出的任何数据挖掘问题。

学习世界顶尖大学的数据科学认证课程。 获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

在这篇文章中，我们整理了一份最常见的数据挖掘面试问题列表。它涵盖了每个 AI/ML 有志者必须了解的所有级别的数据挖掘面试问题和概念（基础和高级）。

所以，事不宜迟，让我们开始吧！

命名不同的数据挖掘技术并解释数据挖掘的范围。

不同的数据挖掘技术是：

预测——它发现独立实例和依赖实例之间的关系。例如，在考虑销售数据时，如果您希望预测未来的利润，则销售充当独立实例，而利润则是依赖实例。因此，根据销售和利润的历史数据，相关利润为预测值。
决策树——决策树的根用作具有多个答案的条件/问题。每个答案都会导致特定的数据，这些数据有助于根据数据确定最终决定。
顺序模式——指用于在交易数据或常规事件中发现相同模式的模式分析。例如，客户的历史数据有助于品牌识别过去一年发生的交易模式。
聚类分析——在这种技术中，自动形成具有相似特征的对象集群。聚类方法定义类，然后在每个类中放置合适的对象。
分类分析——在这种基于 ML 的方法中，特定集合中的每个项目都被分类到预定义的组中。它使用先进的技术，如线性规划、神经网络、决策树等。
关联规则学习——此方法基于单个事务中项目的关系创建模式。

数据挖掘的范围是：

预测趋势和行为——数据挖掘自动化了在大型数据集/数据库中识别预测信息的过程。
发现以前未知的模式- 数据挖掘工具扫描和抓取广泛而多样的数据库，以识别以前隐藏的趋势。这不过是一个模式发现过程。

数据挖掘的类型有哪些？

数据挖掘可以分为以下几种类型：

一体化
选择
数据清洗
模式评估
数据转换
知识表示

什么是数据清除？

数据清除是数据库管理系统中的一个关键过程。它有助于在数据库中维护相关数据。它是指通过消除或删除行和列的不必要的NULL值来清理垃圾数据的过程。每当您需要在数据库中加载新数据时，首先必须清除不相关的数据。

通过对数据库进行频繁的数据清理，可以清除占用大量数据库内存的垃圾数据，从而降低数据库的性能。

数据仓库和数据挖掘之间的根本区别是什么？

数据仓库是用于从不同来源提取数据的技术。然后将其清洁并储存以备将来使用。另一方面，数据挖掘是使用查询探索提取的数据，然后分析结果或结果的过程。它对于报告、战略规划和可视化数据中的宝贵见解至关重要。

解释数据挖掘的不同阶段。

数据挖掘的三个主要阶段：

探索——这个阶段主要集中于从多个来源收集数据，并为进一步的活动（如清理和转换）做准备。一旦数据被清理和转换，就可以对其进行分析以获得洞察力。

模型构建和验证——这个阶段涉及通过应用不同的模型来验证数据并比较结果以获得最佳性能。此步骤也称为模式识别。这是一个耗时的过程，因为用户必须手动识别哪种模式最适合轻松预测。

部署——一旦确定了最适合的预测模式，就会将其应用于数据集以获得估计的预测或结果。

数据挖掘查询有什么用？

数据挖掘查询有助于将模型应用于新数据，以生成单个或多个结果。查询可以更有效地检索符合特定模式的案例。它们提取训练数据的统计记忆，并帮助获得准确的模式以及代表模型中模式的典型案例的规则。此外，查询可以提取回归公式和其他计算来解释模式。他们还可以检索有关模型中使用的各个案例的详细信息。

什么是数据挖掘中的“离散”和“连续”数据？

在数据挖掘中，离散数据是有限的并且具有附加意义的数据。性别是离散数据的典型例子。另一方面，连续数据是以结构良好的方式持续变化的数据。年龄是连续数据的完美示例。

什么是 OLAP？ 它与 OLTP 有何不同？

OLAP（在线分析处理）是一种用于许多涉及复杂分析计算的商业智能应用程序的技术。除了复杂的计算，OLAP 还用于趋势分析和高级数据建模。使用 OLAP 系统的主要目的是最小化查询响应时间，同时提高报告的有效性。 OLAP 数据库将聚合的历史数据存储在多维模式中。作为一个多维数据库，OLAP 允许用户了解数据是如何通过不同来源的。

OLTP 代表在线交易和处理。它本质上不同于 OLAP，因为它用于涉及批量事务和大量数据的应用程序。这些应用主要存在于 BFSI 领域。 OLTP 架构是一种客户端-服务器架构，可以支持跨网络事务。

说出 OLAP 中可用的不同存储模型？

OLAP 中可用的不同存储模型有：

MOLAP（多维在线分析处理）——这是一种数据存储类型，其中数据存储在多维立方体中，而不是标准的关系数据库中。正是这个特性使得查询性能非常出色。
ROLAP（关系在线分析处理）——在这种数据存储中，数据存储在关系数据库中，因此能够处理大量数据。
HOLAP（混合在线分析处理）——这是 MOLAP 和 ROLAP 的组合。 HOLAP 使用 MOLAP 模型从多维数据集中提取汇总信息，而对于向下钻取功能，它使用 ROLAP 模型。

什么是“立方体”？

在数据挖掘中，术语“立方体”是指存储数据的数据存储空间。将数据存储在多维数据集中有助于加快数据分析过程。本质上，多维数据集是多维数据的逻辑表示。多维数据集的边缘具有维度成员，而多维数据集的主体包含数据值。

假设一家公司将其员工数据（记录）存储在一个多维数据集中。当它希望基于每周或每月评估员工绩效时，那么周/月就成为立方体的维度。

什么是数据聚合和泛化？

数据聚合是将数据组合或聚合在一起以创建用于数据分析的多维数据集的过程。泛化是用高级概念替换低级数据的过程，以便数据可以被泛化并产生有意义的见解。

解释决策树和时间序列算法。

在决策树算法中，每个节点要么是叶节点，要么是决策节点。每次你在算法中输入一个对象，它都会产生一个决定。使用数据的规律性创建决策树。通过使用“AND”或“OR”或“BOTH”可以到达将根节点连接到叶节点的所有路径。需要注意的是，决策树不受自动数据准备的影响。

时间序列算法用于值随时间不断变化的数据类型（例如，一个人的年龄）。当您训练算法并对其进行调整以预测数据集时，它可以成功地跟踪连续数据并做出准确的预测。时间序列算法创建一个特定的模型，可以根据原始数据集预测数据的未来趋势。

什么是聚类？

在数据挖掘中，聚类是用于将抽象对象分组为包含相似对象的类的过程。在这里，一组数据对象被视为一个组。因此，在分析过程中，数据分区发生在组中，然后根据相同的数据进行标记。聚类分析是数据挖掘的关键，因为它具有高度的可扩展性和维度，并且它还可以处理不同的属性、可解释性和混乱的数据。

数据聚类用于多种应用，包括图像处理、模式识别、欺诈检测和市场研究。

数据挖掘过程中常见的问题有哪些？

在数据挖掘过程中，您可能会遇到以下问题：

不确定性处理
处理缺失值
处理嘈杂的数据
算法的效率
结合领域知识
数据的大小和复杂性
数据选择
数据与发现的知识之间的不一致。

指定语法——兴趣度量规范、模式表示和可视化规范以及任务相关数据规范。

兴趣度量规范的语法是：

<interest_measure_name> 阈值 = 阈值

模式表示和可视化规范的语法是：

显示为 <result_form>

任务相关数据规范的语法是：

使用数据库 database_name

要么

使用数据仓库 data_warehouse_name

与 att_or_dim_list 相关

从关系/多维数据集 [where 条件] order by order_list

按 grouping_list 分组

说出数据挖掘中不同级别的分析？

数据挖掘中的各种分析级别是：

规则归纳
数据可视化
遗传算法
人工神经网络
最近邻法

什么是 STING？

STING 代表统计信息网格。它是一种基于网格的多分辨率聚类方法，其中所有对象都包含在矩形单元中。虽然单元保持在不同级别的分辨率中，但这些级别进一步排列在层次结构中。

什么是 ETL？ 列举一些最好的 ETL 工具。

ETL 代表提取、转换和加载。它是一种可以从指定数据源读取数据并提取所需数据子集的软件。在此之后，它使用规则和查找表转换数据并将其转换为所需的形式。最后，它使用 load 函数将结果数据加载到目标数据库中。

最好的 ETL 工具是：

甲骨文
从头算起
数据阶段
信息学
数据连接
仓库建设者

什么是元数据？

简而言之，元数据是导致更大数据集的汇总数据。元数据包含重要信息，如使用的列数、字段的顺序、字段的数据类型、固定宽度和限制宽度等。

数据挖掘的优势是什么？

数据挖掘有四个核心优势：

它有助于理解原始数据并探索、识别和理解隐藏在数据中的模式。
它有助于自动化在大型数据库中查找预测信息的过程，从而有助于及时识别以前隐藏的模式。
它有助于筛选和验证数据并了解数据的来源。
它促进更快、更好的决策制定，从而帮助企业采取必要的行动来增加收入和降低运营成本。

这就是为什么数据挖掘已成为众多行业不可或缺的一部分的原因，包括营销、广告、IT/ITES、商业智能，甚至政府情报。

我们希望这些数据挖掘面试问题及其答案能帮助您打破数据挖掘的僵局。虽然这些只是您必须知道的几个基本问题，但它们将帮助您进入流程并更深入地研究主题。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

使用决策树算法有什么缺点？

即使数据的微小变化也可能导致决策树结构发生重大变化，从而导致不稳定。与其他算法相比，决策树的计算有时可能相当复杂。由于所需的复杂性和时间，决策树训练相对昂贵。决策树技术在应用回归和预测连续值时失败了。

数据挖掘聚类和分类有什么区别？

聚类是一种无监督学习的技术，而分类是一种监督学习的方式。聚类是根据数据点的共性将数据点分组为聚类的过程。分类需要使用输出变量的类别标签之一来标记输入数据。聚类将数据集拆分为子组，允许将具有相似功能的示例组合在一起。它不依赖标记数据或训练集来工作。另一方面，分类是根据来自训练集的观察对新数据进行分类。

数据挖掘有什么缺点吗？

使用数据挖掘时会出现许多隐私问题。尽管数据挖掘以自己的方式为简单的数据收集开辟了道路。在精度方面，它仍然有一定的局限性。获得的数据可能不正确，从而产生决策问题。数据挖掘的数据收集过程使用了大量的技术。创建的每条数据都需要自己的存储和维护。因此，实施成本可能会飙升。