面向初学者和有经验的前 28 名数据工程师面试问题和答案

已发表: 2020-03-11

准备面试但不知道怎么做? 您可以从我们的数据工程师面试问题和答案列表开始。

数据工程师面试是最难破解的面试之一。 你应该知道的太多了。 但请不要担心,因为我们的面试问题清单会在这方面为您提供帮助。 浏览完此列表后,您就会知道招聘人员可能会问的许多突出问题的答案。 此外,此列表将使您了解在准备面试时应该学习和学习的内容。

让我们开始吧。

顶级数据工程师面试问答

Q.1 – 什么是数据工程?

数据工程是一种用于开发和设计信息系统的软件工程方法。 它侧重于数据的收集和分析。 虽然数据科学家使用大数据执行各种任务,但之前必须有人收集所有这些数据,然后由数据工程师执行该任务。 数据工程师还负责数据库的开发和维护。 数据工程师将原始数据转换为可用数据。

Q.2 – 您对数据建模的理解是什么?

当您为信息系统创建数据模型以便跟踪其数据时,这称为数据建模。 这些数据模型成为 DB(数据库)中的表。 例如,如果你想分析你的客户行为,你数据库中的每个客户都是一个数据模型。 它是与规则相关的数据值的概念表示。

Q.3 – 什么是 Hadoop?

Hadoop 是实用程序的开源软件集合,允许您使用多台计算机网络来解决与大数据相关的问题。 它具有各种组件,可让您处理大量数据。 Hadoop 的开发者是 Apache 基金会。 其广泛的实用程序和组件集合允许您高效地执行许多强大的大数据应用程序。

Q.4 – Hadoop 有哪些不同的组件?

Hadoop主要由4个组件组成,分别是HDFS、MapReduce、YARN和Hadoop Common。

HDFS是存储Hadoop所有数据的文件系统。 它作为分布式存储系统具有高带宽。

MapReduce 处理大量数据; YARN 是 Hadoop 的资源管理器,并相应地分配所需的资源。 Hadoop Common 是一组可以在 Hadoop 中使用的库和实用程序。

Q.5 – HDFS 代表什么?

HDFS 是一个 Hadoop 组件。 HDFS 代表 Hadoop 分布式文件系统。

Q.6 – 什么是 NameNode?

NameNode 是 HDFS 中数据存储的一部分,用于跟踪集群中存在的不同文件。 NameNodes 不存储数据。 它们存储 DataNodes 的元数据,HDFS 存储其实际数据。

Q.7 – 非结构化数据和结构化数据有什么区别?

系统将非结构化数据存储在非托管文件结构中,而结构化数据的存储是 DBMS。 结构化数据的模式缩放具有挑战性,但使用非结构化数据很容易做到。 您可以将 ELT(提取、转换和加载)用于结构化数据。 另一方面,您需要执行批处理或数据输入。

Q.8 – 数据建模中有多少种设计模式? 这些是什么?

数据建模中有两种设计模式,分别是:雪花模式和星型模式。

Q.9 – 当 Block Scanner 发现损坏的数据块时会发生什么? 解释。

这是流行的数据工程师面试问题之一。 所以一定要在Block Scanner发现损坏的数据块之前做好准备,DataNode会报告给NameNode。 然后,NameNode 开始使用其现有模型之一制作损坏块的副本。 如果系统不删除损坏的数据块,它会创建与复制因子一样多的副本。 复制计数必须相同。

Q.10 – 命名 Hadoop 中存在的所有 XML 配置文件。

Hadoop 中的 XML 配置文件有 HDFS-site、Mapred-site、Yarn-site 和 Core-site。

Q.11 – HDFS 中的块是什么? 什么是块扫描仪?

在 Hadoop 中,块是数据的最小单位。 块扫描器是检查和验证 DataNode 上存在的块的组件。 Hadoop 将大数据文件分成小数据块以便于存储。

Q.12- DataNode 向 NameNode 发送什么消息?

DataNodes 向 NameNodes 发送信号以通知它们它们正在工作。 这些信号的名称是心跳。 如果一个 DataNodes 未能发送心跳,NameNode 确定它已经死亡并停止运行。

Q.13 – 陈述大数据的中心 V。

大数据的四个中心 V 是 Velocity、Variety、Volume 和 Veracity。

Q.14 – COSHH 是什么意思?

COSHH 代表基于分类和优化的异构 Hadoop 系统调度。

Q.15 – 你能描述一下星型模式吗?

星型模式的结构类似于星型; 这就是它得名的原因。 星形的中心可以有一个事实表,其中包含与之关联的各种维度表。 数据工程师使用它来查询大量数据集。

Q.16 – 什么是雪花模式?

雪花模式是星型模式的一种形式。 唯一的区别是,它有额外的维度,它的名字来源于它的雪花状结构。 它具有规范化的维度表,因此它具有其他表。

Q.17- Hadoop中Reducer的核心方法是什么?

Reducer 中有几个核心方法。 第一个是 setup() 配置参数,cleanup() 清理临时数据集,Reducer 对每个 reduce 任务运行 reduce() 方法。

Q.18 – 什么是 FSCK?

FSCK 代表文件系统检查。 它是 HDFS 的一个命令,它使用这个命令来检测文件中的问题和不一致。

Q.19 – Hadoop 是否有多种模式? 如果是这样,它们是什么?

是的,Hadoop 具有三种不同的模式。 它们是:独立模式、完全分布式模式和伪分布式模式。

Q.20 – YARN 代表什么?

YARN 代表又一个资源谈判者。

Q.21 – 您如何保护 Hadoop?

为此,您将首先启用静态和传输中的加密。 您需要使用在 Hadoop 中使用的协议的安全版本。 您将允许 SASL 保护 RPC 数据。 您可以通过 hadoop.rpc.protection 属性启用 SASL。

您还将保护身份验证通道。 客户端可以使用身份验证通道的时间戳来获取服务票证,然后您可以将其用于自我身份验证。

Q.22 – 您能详细介绍一下 HDFS(Hadoop 分布式文件系统)吗?

Hadoop 能够处理分布式文件系统,例如 FS、HFTP 和 S3。 Google 文件系统是 HDFS 的基础,它可以运行在由小型系统组成的大型集群上。

Q.23 – Snowflake 和 Star Schema 有什么区别?

在星型模式中,您有更高的数据冗余机会,而雪花模式则不是这种情况。 Star schema 的 DB 设计比 Snowflake 更直接。 雪花模式的复杂连接减慢了它的多维数据集处理速度,而星型模式不会发生这种情况。

Q.24 – Hadoop 中的心跳是什么?

在Hadoop中,有两种节点,NameNode和DataNode。 NameNode 负责存储 DataNode 的元数据并跟踪它们的状态。 DataNode 向 NameNode 发送信号以通知它们它们还活着并且正在工作。 这个信号就是心跳。

Q.25 – 您对大数据的理解是什么?

当您拥有大量无法使用传统方法处理的非结构化和结构化数据时,称为大数据。 大数据是分析和使用高度复杂的数据集来收集信息的领域。 传统的数据分析方法不能很好地处理如此大量的复杂数据。 在大数据中,数据工程师的任务是分析原始数据并将其转换为可用数据。

Q.26 – 数据工程师应该知道哪些科目和编程语言?

数据工程师应该了解趋势分析、机器学习、SQL、Hive QL、概率、回归和线性代数。 数据工程师可以知道许多其他学科,但这些是必须的。

Q.27 – Hadoop 中的 DAS 和 NAS 有什么区别?

这是最流行的数据工程师面试问题之一,所以要特别注意它的答案。 DAS 代表直接附加存储,NAS 代表网络附加存储。 NAS 的存储容量为 10^9 到 10^12 字节。 另一方面,DAS 的存储容量为 10^9 字节。 NAS的管理成本也远低于DAS。

Q.28 – Hadoop 中节点之间的距离是什么意思? 你会怎么计算呢?

在 Hadoop 中,两个节点之间的距离等于到它们最近节点的长度之和。 您可以使用 getDistance() 来查找 Hadoop 中两个节点之间的距离。

学习世界顶尖大学的数据科学课程获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

结论

在这些面试问题的帮助下,我们相信你会很容易地做好准备。 数据工程面试不必有压力。 确保你在会议前有足够的睡眠,很多人会太着急。

如果您对数据工程或面试有任何疑问,请随时向我们提问。 我们很乐意为您提供帮助。

数据工程师的任务和职责是什么?

对于数据工程师来说,他们的主要职责是为分析或操作目的准备数据。 作为 IT 行业的一部分,这些工程师创建了连接来自多个源系统的数据的数据管道。 他们在构建数据以用于分析应用程序之前组合、整合和净化数据。 大多数公司的分析团队由数据工程师和数据科学家组成,他们使数据更易于访问并最大限度地利用公司的大数据环境。 工程师将可用格式的数据提供给数据科学家,他们使用这些信息来执行预测分析、机器学习和数据挖掘应用程序的查询和算法。

作为数据工程师需要具备哪些技能?

数据库系统的开发和管理知识是数据工程师必备的。 熟练掌握SQL、Python、R等编程语言,对机器学习和算法有基本的了解。 数据工程师还应该了解仓储解决方案和 ETL(提取、传输、加载)工具。 数据科学是一门高度协作的学科,数据工程师与各种利益相关者合作,从数据分析师到首席技术官。 因此,软技能,如良好的沟通能力和高度的合作能力,应该是每个数据工程师技能组合的一部分。

数据工程是一条好的职业道路吗? 数据工程师平均能挣多少钱?

根据 Dice 2020 技术工作报告,数据工程是 2019 年技术领域增长最快的职业选择,可用机会数量同比增长 50%。 随着对信息管理需求的增长,它在技术世界中越来越重要,并已成为一种有利可图的职业选择。 入门级工资为 4,57,532 卢比,数据工程师的工资随着经验年限的增加而上涨。 具有 1-4 年经验的数据工程师的平均工资为 7,20,395 卢比,而具有 5-9 年经验的职业中期数据工程师和具有 10-19 年经验的经验丰富的数据工程师的平均总收入为 ₹分别为 12,94,336 和 18,67,992 卢比。