2022 年 30 大数据仓库面试问题和答案 [针对应届生和有经验者]

已发表: 2021-01-06

本文列出的数据仓库面试问题将对从事数据仓库和商业智能职业的人有所帮助。 随着机器学习的出现，需要分析大量数据以更快地获得洞察力并实施结果。那些数据处理步骤是数据存储、同化、获取和处理的日子已经一去不复返了。但随着数据量的增加，需要对此类数据进行处理并显示即时结果。

医疗保健、BFSI、公用事业和许多政府组织等所有企业都在转向数据科学中的数据仓库。因此，雇用了更多在数据仓库方面具有专业知识的专业人员，以便他们可以分析大量数据并提供相关见解。因此，数据仓库面试问题变得相关，可以轻松破解面试并获得重要知识。

如果您热衷于处理海量数据和管理数据库，那么数据仓库对您来说是一个很好的职业选择。在本文中，您将获得可以帮助您准备下一次面试的数据仓库面试问题。 这些问题从基础到专家级别，因此无论是新手还是经验丰富的专业人士都将从这些数据仓库面试问题中受益。

数据仓库面试问题

Q1：就数据仓库而言，数据分析是什么？

数据分析是检查原始数据以得出业务驱动的数据结论的科学。数据仓库支持数据分析。

Q2：定义一个面向主题的数据仓库？

面向主题的数据仓库围绕销售、客户和产品等特定点存储数据。

Q3：OLAP是什么意思，它的类型有哪些？

OLAP是一个处理、管理和收集多维数据进行管理的系统。它代表在线分析处理。

下面给出了四种类型的 OLAP 服务器：

混合OLAP
关系 OLAP
专用 SQL Server
多维OLAP

Q4：OLAP 和 OLTP 有什么区别？

OLAP 是一种用于数据分析的软件工具，有助于业务决策，而 OLTP 是一种用于三层架构的面向事务的应用程序。以下是 OLAP 和 OLTP 之间的一些区别：

OLAP（在线分析处理）	OLTP（在线事务处理）
它包含从不同数据库收集的历史数据。	它包含操作数据。
它用于数据分析、数据挖掘和决策制定。	它是面向应用程序的，用于各种与业务相关的任务。
它存储了大量的数据，并且以 TB 为单位。	它存储少量数据，以MB、GB等为单位存储。
它工作缓慢，因为数据量很大。	它的工作速度非常快，并且对 5% 的存储数据进行查询。
它只需要不时备份数据。	定期进行数据的备份和恢复。
它主要用于很少发生写操作的读操作。	它用于读取和写入操作。

Q5：OLAP 执行哪些功能？

OLAP 执行的一些主要功能是 Pivot、Drill-down、Roll-up、Slice 和 Dice。

Q6：什么是ER图？

ER 图代表实体关系图，它显示了数据库中实体之间的相互关系。

Q7：什么是SCD？

SCD 代表慢慢变化的维度，它适用于记录随时间变化的情况。

Q8：定义SCD的类型。

SCD 有 3 种类型，如下所示：

SCD 1：新记录替换原始记录。

SCD 2：新记录被添加到现有的客户表中

SCD 3：原始数据得到更改以输入新数据。

Q9：什么是雪花模式？

Snowflake Schema 是具有主维度表的模式。可以在主维度表中连接一个或多个维度。它是唯一可以与事实表连接的表。

问题 10：定义星型模式。

星型模式是指以一种可以在数据仓库环境中轻松恢复结果的方式管理表。

Q11：定义 BUS Schema。

如果存在事实表，则 BUS 模式包括标准化定义和确认维度套件。

Q 12：定义元数据。

它指的是关于数据的数据。元数据由字段排序、使用的几列、字段的数据类型、有限宽度和固定宽度等细节组成。

Q13：定义核心维度。

核心维度是一个维度表，主要用于数据集市或单个事实表。

Q14：定义数据仓库中的循环。

这些循环存在于数据仓库中的表之间。如果表之间存在任何循环，则查询生成需要更多时间并创建一个谜。因此，始终建议避免表之间的任何循环。

Q15：解释 XMLA。

XMLA 称为 XML for Analysis，它提供了从 OLAP、数据挖掘和 Internet 上可用的其他数据源访问数据的标准方法。它是一个使用发现和执行方法的简单对象访问协议。发现方法从互联网检索数据，执行方法用于针对不同数据源执行应用程序。

阅读：数据科学面试问题

Q16：解释数据库和数据仓库的区别。

数据库与数据仓库不同，因为数据库使用关系模型进行数据存储。相比之下，数据仓库使用其他模式，启动模式就是其中之一。以下是数据库和数据仓库之间的一些区别：

特征	数据库	数据仓库
数据类型	关系数据或面向对象的数据	大容量数据
运营	事务处理	数据建模和数据分析
方面	二维数据	多维数据
数据设计	基于 ER	星形和雪花模式
数据大小	小的	大
功能性	高性能和可用性	高灵活性

Q17：在数据仓库中定义Cube。

数据仓库中的立方体是多维数据的表示。立方体的主体由数据值组成，立方体的边缘包含维度成员。

问题 18。 解释数据仓库的类型？

数据仓库有以下3种类型：

企业数据仓库：在企业数据仓库中，来自各个功能区域的组织数据集中合并。 这有助于数据的提取和转换，从而提供数据模型中任何对象的详细概述。
操作数据存储：此数据仓库有助于直接从数据库访问数据，还支持事务处理。 它整合了来自不同来源的对比数据，为后期的各种业务运营提供支持。
数据集市：此数据仓库存储特定功能区域的数据。 此外，它包含子集形式的数据，然后将其存储在数据仓库中。它减少了大量数据，供用户有效分析并获得洞察力。

Q19：多维 OLAP 和关系 OLAP，哪个工作得更快？

多维 OLAP 的工作速度比关系 OLAP 快。

多维 OLAP：在 MOLAP 中，数据存储在多维立方体中。 数据以专有格式存储，例如 PowerOLAP.olp 文件。这些产品与excel兼容，使数据交互变得容易。
关系 OLAP：在关系 OLAP 产品中，可以使用 SQL 访问关系数据库，SQL 是用于在 RDBMS 中操作数据的标准语言。 在执行处理时，它接受客户端请求，然后将其转换为 SQL 查询，然后传递到 RDBMS。

Q20：解释分裂层次聚类和凝聚聚类的区别。

在凝聚层次聚类方法中，簇从下到上读取，这意味着程序先读取子组件，然后读取父组件。另一方面，分裂层次聚类使用从上到下的方法，其中先读取父级的数据，然后再读取子级的数据。

在凝聚层次方法中，对象是存在的，每个对象都建立自己的集群，所有这些集群一起构成一个大集群。该方法主要包括连续合并，直到创建单个大集群，而在分裂集群方法中，集群的划分发生。父集群被分成更小的集群。集群的这种划分一直持续到每个集群由一个对象组成。

了解更多：数据科学与数据挖掘：数据科学与数据挖掘之间的区别

Q21：数据仓库中的变色龙法是什么？

Chameleon 是数据仓库中的层次聚类方法。该方法适用于由节点和边组成的稀疏图。这些节点代表数据项，边代表权重。通过这种表示，可以轻松地创建和访问数据集，克服现有方法的缺点。该方法分两个阶段工作：

在第一阶段，图被分区，其中数据项被划分为许多子集群。
在第二阶段，搜索真正的集群，然后将其与第一阶段创建的其他子集群组合。

Q22：执行计划是什么，优化器在执行计划的过程中采用了什么方法？

执行计划是优化器用来选择执行 SQL 查询的步骤组合的计划。优化器选择最有效的步骤组合来执行 SQL 查询。优化器在执行计划中使用两种方法，即基于规则的和基于成本的。

Q23：ETL（提取、转换和加载）中使用了哪些不同的工具？

以下是 ETL 工具列表：

信息学
甲骨文
数据阶段
数据连接
从头算起
仓库建设者

Q24：元数据和数据字典有何不同？

元数据描述数据。它包含有关数据的所有信息，例如数据来源、收集数据的人员和数据格式。了解有关存储在数据仓库中的数据的信息至关重要。另一方面，数据字典是数据库的基本定义。数据字典由数据库中存在的文件、每个文件中存在的记录数以及有关数据库中字段的所有信息组成。

Q25：定义虚拟数据仓库。

虚拟数据仓库提供完整数据的集体视图。它就像元数据的逻辑数据模型，没有历史数据。虚拟数据仓库是转换原始数据并以可供决策者使用的形式呈现的最佳方式。数据表示为允许最终用户以虚拟化形式查看数据的语义图。

另请阅读：数据分析师面试问答

Q26：设计数据仓库的方法有哪些？

数据仓库设计主要有两种方法：

Inmon 方法：这是一种自上而下的方法，首先创建数据仓库，然后构建数据集市。 在这种方法中，数据仓库充当企业信息工厂的中心，而数据仓库充当逻辑框架。
Kimball 方法：这是一种自下而上的方法，首先创建数据集市。 然后数据集市整合形成完整的数据仓库。不同数据集市的集成称为数据仓库总线架构。

Q27：什么是实时数据仓库，它有什么好处？

实时数据仓库是一种数据仓库概念，它在实时数据发生时立即捕获并使其在数据仓库中可用。

实时数据仓库的好处：

它有助于轻松做出决策。
它删除了批处理窗口。
它解决了与理想数据加载相关的问题。
它提供了一种在数据库中运行转换的优化方式。
它提供数据的快速恢复。

Q28：解释 ETL 循环的 3 层架构。

ETL 循环由以下 3 层组成：

暂存层：该层存储从多个数据结构中提取的数据。
数据集成层：来自暂存层的数据在集成层的帮助下传输到数据库中。 然后，这些数据被组织成分层组，也称为维度、聚合和事实。维度和事实共同构成模式。
访问层：最终用户通过访问层访问数据并进行数据分析。

Q29：什么是数据清除？

数据清除是从数据存储中永久删除数据的方法。它与数据删除不同，因为数据删除只是暂时删除数据，而数据清除是永久删除数据，空闲空间用于其他目的。数据清除采用不同的方法。如果需要，可以归档清除的数据。

Q30：定义项目中的测试阶段。

ETL 测试包括五个阶段，如下所述：

需求和数据源识别
数据采集
业务逻辑的实现
数据构建和发布
报告

另请查看：数据科学与大数据：数据科学与大数据之间的区别

加起来

这些是最常见的数据仓库面试问题，肯定会帮助你准备下一次面试。 如果您想了解更多关于数据仓库的知识，那么您可以访问upGrad并获得更深入的知识。您可以找到有助于正确理解数据仓库面试问题的相关信息。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

我如何开始数据仓库的职业生涯？

由于每个组织越来越多地收集和使用数据，因此数据仓库已成为一种需求旺盛的工作职位。每个组织都在寻找能够处理数据并将其转化为可操作的见解的专业人员，以便从数据中获得见解。

进入数据仓库的一些必要技能是：

1. 一流的研究、解决问题和分析能力。
2. 计算机科学或任何其他相关领域（如 IT）的学士学位。
3. 正确了解关系数据库理论
4. 3-5年数据库系统工作经验
5. 有数据建模和架构工作经验
6. 指挥口头和书面交流。
7. 善于倾听了解技术人员和非技术人员提供的信息

这些是在数据仓库领域建立职业生涯所需的一些技能。

我如何开始数据仓库的职业生涯？

在数据仓库领域建立自己的职业生涯需要满足某些要求。

1.首先，任何个人都需要拥有计算机科学或相关领域的学士学位。
2. 至少 2 年的 SQL Server 编码和管理经验很重要。
3. 了解服务器集成和使用ETL工具
4. 正确了解数据仓库和数据建模技术
5. MS办公基本技能

参加课程可以使整个过程对您来说非常简单。不同的大学和平台提供了大量的数据库管理和数据库管理培训课程。稍后，您可以从事入门级工作以获取经验并了解该领域的来龙去脉。

任何公司的数据仓库都有哪些不同阶段？

根据公司规模、年龄和行业，数据仓库的阶段将在下面提到的四个范围内。

1.离线数据库
2.离线数据仓库
3.实时数据仓库
4. 集成数据仓库

每个公司都从第一阶段开始，并试图到达第四阶段，将业务系统中的所有内容集成起来。数据仓库的正常运行可以使数据仓库经理更容易分析数据并从中产生可操作的见解。