2022 年必须知道的 35 个大数据面试问题和答案:适合应届生和有经验的人
已发表: 2021-01-05参加大数据面试,想知道您将经历哪些问题和讨论? 在参加大数据面试之前,最好先了解一下大数据面试问题的类型,以便在心理上为它们准备答案。
为了帮助您,我创建了顶级大数据面试问题和答案指南,以了解大数据面试问题的深度和真实意图。
你不会相信这个项目如何改变了学生的职业生涯
我们正处于大数据和分析的时代。 随着数据为我们周围的一切提供动力,对熟练数据专业人员的需求突然激增。 组织总是在寻找能够帮助他们理解大量数据的高技能人才。
这里的关键词是“技能提升”,因此大数据面试并不是小菜一碟。 在参加大数据面试之前,您必须了解一些基本的大数据面试问题。 这些将帮助您找到解决方法。
这些问题的排列顺序将帮助您从基础知识中学习并达到一定程度的高级水平。
大数据面试问答
1. 定义大数据并解释大数据的 Vs。

这是最具介绍性但最重要的大数据面试问题之一。 答案很简单:
大数据可以定义为复杂的非结构化或半结构化数据集的集合,这些数据集有可能提供可操作的见解。
大数据的四个 V 是——
Volume –谈论数据量
多样性——谈论各种数据格式
速度——谈论数据增长的不断增加的速度
真实性——谈论可用数据的准确程度
初学者大数据教程:所有你需要知道的
2. Hadoop与大数据有什么关系?
当我们谈论大数据时,我们谈论的是 Hadoop。 所以,这是你在面试中肯定会遇到的另一个大数据面试问题。
Hadoop 是一个开源框架,用于存储、处理和分析复杂的非结构化数据集,以获取洞察力和智能。
3.定义HDFS和YARN,说说各自的组件。
现在我们处于 Hadoop 领域,您可能面临的下一个大数据面试问题将围绕着同样的问题展开。
HDFS 是 Hadoop 的默认存储单元,负责在分布式环境中存储不同类型的数据。
HDFS 有以下两个组件:
NameNode –这是主节点,拥有 HDFS 中所有数据块的元数据信息。
DataNode -这些是充当从节点并负责存储数据的节点。
YARN 是 Yet Another Resource Negotiator 的缩写,负责管理资源并为上述流程提供执行环境。
YARN 的两个主要组成部分是——
ResourceManager –负责根据需要为各个 NodeManager 分配资源。
NodeManager –在每个 DataNode 上执行任务。
您需要注意的 7 个有趣的大数据项目
4. 商品硬件是什么意思?
这是您在参加的任何面试中最有可能遇到的另一个大数据面试问题。
商品硬件是指运行 Apache Hadoop 框架所需的最少硬件资源。 任何支持 Hadoop 最低要求的硬件都称为“商品硬件”。
5. 定义和描述术语 FSCK。
FSCK 代表文件系统检查。 它是用于运行描述 HDFS 状态的 Hadoop 摘要报告的命令。 它只检查错误而不纠正错误。 此命令可以在整个系统或文件子集上执行。
6. Hadoop中JPS命令的作用是什么?
JPS 命令用于测试所有 Hadoop 守护程序的工作。 它专门测试诸如 NameNode、DataNode、ResourceManager、NodeManager 等守护进程。
(在任何大数据采访中,你都可能会发现一个关于 JPS 及其重要性的问题。)
大数据:必须了解的工具和技术
7. 命名用于启动和关闭 Hadoop 守护程序的不同命令。
这是最重要的大数据面试问题之一,可帮助面试官评估您对命令的了解。
启动所有守护进程:
./sbin/start-all.sh
要关闭所有守护程序:
./sbin/stop-all.sh
8. 为什么我们需要 Hadoop 进行大数据分析?
这个 Hadoop 面试问题测试您对大数据和分析的实际方面的认识。
在大多数情况下,Hadoop 有助于探索和分析大型非结构化数据集。 Hadoop 提供有助于分析的存储、处理和数据收集功能。
9. 解释 Hadoop 的不同特性。
在许多大数据面试问答中列出,对此的最佳答案是——
开源——Hadoop 是一个开源平台。 它允许根据用户和分析要求重写或修改代码。
可扩展性——Hadoop 支持向新节点添加硬件资源。
数据恢复 – Hadoop 遵循复制,允许在发生任何故障时恢复数据。
数据局部性——这意味着 Hadoop 将计算转移到数据上,而不是反过来。 这样,整个过程加快了。
10. 定义 NameNode、Task Tracker 和 Job Tracker 的端口号。
NameNode –端口 50070
任务跟踪器 –端口 50060
作业跟踪器 -端口 50030
11. HDFS 中的索引是什么意思?
HDFS 根据数据块的大小索引数据块。 数据块的末尾指向存储下一块数据块的地址。 DataNode 存储数据块,而 NameNode 存储这些数据块。
流行文化中的大数据应用
12. Hadoop 中的边缘节点是什么?
边缘节点是指网关节点,充当 Hadoop 集群和外部网络之间的接口。 这些节点运行客户端应用程序和集群管理工具,也用作暂存区。 边缘节点需要企业级存储能力,单个边缘节点通常足以满足多个 Hadoop 集群的需求。
13. Hadoop 中的边缘节点使用了哪些数据管理工具?
这个大数据面试问题旨在测试您对各种工具和框架的认识。
Oozie、Ambari、Pig 和 Flume 是与 Hadoop 中的边缘节点一起使用的最常见的数据管理工具。
14.解释Reducer的核心方法。
一个reducer的核心方法有3种。 他们是-
setup() –这用于配置不同的参数,如堆大小、分布式缓存和输入数据。
reduce() -每个键调用一次的参数,相关的 reduce 任务
cleanup() –清除所有临时文件并仅在 reducer 任务结束时调用。
15. 谈谈在 HBase 中用于删除目的的不同墓碑标记。
这个大数据面试问题深入探讨了您对 HBase 及其工作的了解。
HBase 中有三个主要的墓碑标记用于删除。 他们是-
族删除标记 -用于标记列族的所有列。
版本删除标记 -用于标记单个列的单个版本。
列删除标记 -用于标记单个列的所有版本。
大数据工程师:神话与现实
16. 大数据如何为企业增值?
最常见的大数据面试问题之一。 在目前的情况下,大数据就是一切。 如果您有数据,那么您将拥有最强大的工具。 大数据分析可帮助企业将原始数据转化为有意义且可操作的洞察力,从而塑造其业务战略。 大数据对业务最重要的贡献是数据驱动的业务决策。 大数据使组织可以根据有形的信息和见解做出决策。
此外,预测分析允许公司为不同的买家角色制定定制的建议和营销策略。 大数据工具和技术共同帮助增加收入、简化业务运营、提高生产力并提高客户满意度。 事实上,今天没有利用大数据的任何人都将失去大量机会。
17. 您如何部署大数据解决方案?
您可以通过三个步骤部署大数据解决方案:
- 数据摄取——这是部署大数据解决方案的第一步。 您首先从多个来源收集数据,无论是社交媒体平台、日志文件、业务文档,还是与您的业务相关的任何内容。 可以通过实时流或批处理作业提取数据。
- 数据存储– 提取数据后,您必须将数据存储在数据库中。 它可以是 HDFS 或 HBase。 虽然 HDFS 存储非常适合顺序访问,但 HBase 非常适合随机读/写访问。
- 数据处理——部署解决方案的最后一步是数据处理。 通常,数据处理是通过 Hadoop、Spark、MapReduce、Flink 和 Pig 等框架完成的。
18. NFS 与 HDFS 有何不同?

网络文件系统 (NFS) 是最古老的分布式文件存储系统之一,而 Hadoop 分布式文件系统 (HDFS) 直到最近在大数据热潮之后才成为人们关注的焦点。
下表突出显示了 NFS 和 HDFS 之间的一些最显着差异:
NFS | 高密度文件系统 |
它既可以存储也可以处理少量数据。 | 它明确设计用于存储和处理大数据。 |
数据存储在专用硬件中。 | 数据被划分为分布在硬件本地驱动器上的数据块。 |
在系统故障的情况下,您无法访问数据。 | 即使在系统故障的情况下也可以访问数据。 |
由于 NFS 在单台机器上运行,因此没有机会实现数据冗余。 | HDFS 在机器集群上运行,因此复制协议可能会导致数据冗余。 |
19.列出HDFS中文件或目录级别的不同文件权限。
常见的大数据面试题之一。 Hadoop 分布式文件系统 (HDFS) 对文件和目录具有特定的权限。 HDFS 中有三个用户级别——所有者、组和其他。 对于每个用户级别,都有三个可用权限:
- 读(r)
- 写(w)
- 执行(x)。
这三个权限仅适用于文件和目录。
对于文件——
- r 权限用于读取文件
- w 权限用于写入文件。
尽管有执行(x)权限,但您不能执行 HDFS 文件。
对于目录 -
- r 权限列出特定目录的内容。
- w 权限创建或删除目录。
- X 权限用于访问子目录。
20. 详细说明覆盖 HDFS 中复制因子的过程。
在 HDFS 中,有两种方法可以覆盖复制因子——基于文件和基于目录。
基于文件
在这种方法中,复制因子根据使用 Hadoop FS shell 的文件而变化。 以下命令用于此目的:
$hadoop fs –setrep –w2/my/test_file
这里,test_file 指的是复制因子将设置为 2 的文件名。
基于目录
此方法根据目录更改复制因子,因此特定目录下所有文件的复制因子都会更改。 以下命令用于此目的:
$hadoop fs –setrep –w5/my/test_dir
这里,test_dir 是指复制因子和其中包含的所有文件将设置为 5 的目录的名称。
21. 说出可以运行 Hadoop 的三种模式。
任何大数据面试中最常见的问题之一。 三种模式是:
- 独立模式——这是 Hadoop 的默认模式,它使用本地文件系统进行输入和输出操作。 独立模式的主要目的是调试。 它不支持 HDFS,也缺少 mapred-site.xml、core-site.xml 和 hdfs-site.xml 文件所需的自定义配置。
- 伪分布式模式- 也称为单节点集群,伪分布式模式包括同一台机器内的 NameNode 和 DataNode。 在这种模式下,所有 Hadoop 守护进程都将在单个节点上运行,因此主节点和从节点是相同的。
- 完全分布式模式——这种模式被称为多节点集群,其中多个节点同时运行以执行Hadoop作业。 在这里,所有 Hadoop 守护进程都运行在不同的节点上。 所以,主节点和从节点是分开运行的。
22.解释“过度拟合”。
过拟合是指当函数被一组有限的数据点紧密拟合(影响)时发生的建模错误。 过度拟合会导致模型过于复杂,从而进一步难以解释手头数据中的特殊性或特质。 由于它对模型的泛化能力产生不利影响,因此确定过拟合模型的预测商变得具有挑战性。 这些模型在应用于外部数据(不属于样本数据的数据)或新数据集时无法执行。
过度拟合是机器学习中最常见的问题之一。 当一个模型在训练集上表现更好但在测试集上惨遭失败时,它被认为是过度拟合的。 但是,有很多方法可以防止过拟合问题,例如交叉验证、剪枝、提前停止、正则化和组装。
23.什么是特征选择?
特征选择是指从特定数据集中仅提取所需特征的过程。 从不同来源提取数据时,并非所有数据都始终有用——不同的业务需求需要不同的数据洞察力。 这是特征选择的用武之地,用于识别和选择与特定业务需求或数据处理阶段相关的那些特征。
特征选择的主要目标是简化 ML 模型,使其分析和解释更容易。 特征选择增强了模型的泛化能力并消除了维数问题,从而防止了过度拟合的可能性。 因此,特征选择可以更好地理解所研究的数据,提高模型的预测性能,并显着减少计算时间。
特征选择可以通过三种技术完成:
- 过滤器方法
在这种方法中,选择的特征不依赖于指定的分类器。 变量排名技术用于为排序目的选择变量。 在分类过程中,变量排序技术考虑了特征的重要性和有用性。 卡方检验、方差阈值和信息增益是过滤器方法的一些示例。
- 包装方法
在这种方法中,用于特征子集选择的算法作为归纳算法的“包装器”存在。 归纳算法的功能就像一个“黑匣子”,它产生一个分类器,该分类器将进一步用于特征分类。 包装方法的主要缺点或限制是,要获得特征子集,您需要执行繁重的计算工作。 遗传算法、顺序特征选择和递归特征消除是包装器方法的示例。
- 嵌入式方法
嵌入式方法结合了两全其美——它包括过滤器和包装器方法的最佳特性。 在此方法中,变量选择是在训练过程中完成的,因此您可以识别对给定模型最准确的特征。 L1 正则化技术和岭回归是嵌入式方法的两个流行示例。
24. 定义“异常值”。
异常值是指与随机样本中的其他值有异常距离的数据点或观察值。 换句话说,离群值是远离组的值; 它们不属于数据集中的任何特定集群或组。 异常值的存在通常会影响模型的行为——它们会误导 ML 算法的训练过程。 异常值的一些不利影响包括更长的训练时间、不准确的模型和糟糕的结果。
但是,异常值有时可能包含有价值的信息。 这就是为什么必须对它们进行彻底调查并进行相应处理的原因。
25. 列举一些异常值检测技术。
再次,最重要的大数据面试问题之一。 以下是六种异常值检测方法:
- 极值分析——此方法确定数据分布的统计尾部。 单变量数据上的“z 分数”等统计方法是极值分析的完美示例。
- 概率和统计模型——这种方法从数据的“概率模型”中确定“不太可能的实例”。 一个很好的例子是使用“期望最大化”来优化高斯混合模型。
- 线性模型——这种方法将数据建模为较低的维度。 基于邻近的模型——在这种方法中,与数据组隔离的数据实例由集群、密度或最近邻分析确定。
- 信息论模型——这种方法旨在将异常值检测为增加数据集复杂性的不良数据实例。
- 高维异常值检测——此方法根据更高维度的距离度量来识别异常值的子空间。
26. 解释 Hadoop 中的机架感知。
机架意识是流行的大数据面试问题之一。 Rach 感知是一种算法,它根据机架信息识别和选择离 NameNode 更近的 DataNode。 它应用于 NameNode 以确定如何放置数据块及其副本。 在安装过程中,默认假设所有节点属于同一个机架。
机架意识有助于:
- 提高数据的可靠性和可访问性。
- 提高集群性能。
- 提高网络带宽。
- 尽可能将散装流量保持在机架内。
- 在机架完全故障的情况下防止数据丢失。
27. NameNode宕机后能恢复吗? 如果是这样,怎么做?
是的,当 NameNode 宕机时可以恢复它。 以下是您的操作方法:
- 使用 FsImage(文件系统元数据副本)启动一个新的 NameNode。
- 与客户端一起配置 DataNode,以便它们可以确认和引用新启动的 NameNode。
- 当新创建的 NameNode 完成加载 FsImage 的最后一个检查点(现在已经从 DataNode 接收到足够的块报告)加载过程时,它将准备好开始为客户端服务。
但是,NameNode 的恢复过程仅适用于较小的集群。 对于大型 Hadoop 集群,恢复过程通常会消耗大量时间,从而使其成为一项颇具挑战性的任务。
28. 命名 MapReduce 框架的配置参数。
MapReduce 框架中的配置参数包括:
- 数据的输入格式。
- 数据的输出格式。
- 分布式文件系统中作业的输入位置。
- 分布式文件系统中作业的输出位置。
- 包含地图功能的类
- 包含reduce函数的类
- 包含映射器、reducer 和驱动程序类的 JAR 文件。
29. 什么是分布式缓存? 它有什么好处?
没有这个问题,任何大数据面试问答指南都不会完整。 Hadoop 中的分布式缓存是 MapReduce 框架提供的用于缓存文件的服务。 如果为特定作业缓存文件,Hadoop 会使其在内存和同时执行 map 和 reduce 任务的系统中的各个 DataNode 上可用。 这允许您快速访问和读取缓存文件以填充代码中的任何集合(如数组、哈希图等)。
分布式缓存提供以下好处:
- 它分发简单的只读文本/数据文件和其他复杂类型,如 jar、档案等。
- 它跟踪缓存文件的修改时间戳,突出显示在成功执行作业之前不应修改的文件。
30. Hadoop中的SequenceFile是什么?
在 Hadoop 中,SequenceFile 是一个包含二进制键值对的平面文件。 它最常用于 MapReduce I/O 格式。 映射输出在内部存储为提供读取器、写入器和排序器类的 SequenceFile。
共有三种 SequenceFile 格式:
- 未压缩的键值记录
- 记录压缩的键值记录(仅压缩“值”)。
- 块压缩键值记录(在这里,键和值都分别收集在“块”中,然后进行压缩)。
31. 解释 JobTracker 的作用。
常见的大数据面试题之一。 JobTracker 的主要功能是资源管理,本质上就是管理TaskTracker。 除此之外,JobTracker 还跟踪资源可用性并处理任务生命周期管理(跟踪任务的进度及其容错)。
JobTracker 的一些关键特性是:
- 它是一个在单独节点(而不是 DataNode)上运行的进程。
- 它与 NameNode 通信以识别数据位置。
- 它跟踪 MapReduce 工作负载的执行。
- 它根据可用槽分配 TaskTracker 节点。
- 它监控每个 TaskTracker 并将整体作业报告提交给客户端。
- 它找到最佳 TaskTracker 节点以在特定节点上执行特定任务。
32. 命名 Hadoop 中常见的输入格式。
Hadoop 具有三种常见的输入格式:
- 文本输入格式——这是 Hadoop 中的默认输入格式。
- 序列文件输入格式 - 此输入格式用于按序列读取文件。
- 键值输入格式——这种输入格式用于纯文本文件(文件被分成几行)。
33. Hadoop 中对数据局部性的需求是什么?
重要的大数据面试题之一。 在 HDFS 中,数据集作为块存储在 Hadoop 集群的 DataNode 中。 当 MapReduce 作业正在执行时,各个 Mapper 处理数据块(输入拆分)。 如果数据不存在于 Mapper 执行作业的同一节点中,则必须将数据从其所在的 DataNode 通过网络复制到 Mapper DataNode。
当一个 MapReduce 作业有超过一百个 Mapper 并且每个 Mapper DataNode 尝试同时从集群中的另一个 DataNode 复制数据时,会导致网络拥塞,从而对系统的整体性能产生负面影响。 这就是 Data Locality 进入场景的地方。 Data Locality 不是将大量数据移动到计算中,而是将数据计算移动到靠近实际数据驻留在 DataNode 上的位置。 这有助于提高系统的整体性能,而不会造成不必要的延迟。
34. Hadoop 中实现安全性的步骤是什么?
在 Hadoop 中,使用 Kerberos(一种网络身份验证协议)来实现安全性。 Kerberos 旨在通过密钥加密为客户端/服务器应用程序提供强大的身份验证。
当您使用 Kerberos 访问服务时,您必须经历三个步骤,每个步骤都涉及与服务器的消息交换。 步骤如下:
- 身份验证——这是通过身份验证服务器对客户端进行身份验证的第一步,之后将时间戳 TGT(Ticket Granting Ticket)提供给客户端。
- 授权——在第二步中,客户端使用 TGT 从 TGS(Ticket Granting Server)请求服务票证。
- 服务请求——在最后一步,客户端使用服务票证向服务器验证自己的身份。
35. 如何处理大数据中的缺失值?
我们的大数据面试问答指南中的最后一个问题。 缺失值是指列中不存在的值。 当观察中的变量没有数据值时,就会发生这种情况。 如果缺失值处理不当,势必会导致错误的数据,进而产生错误的结果。 因此,强烈建议在处理数据集之前正确处理缺失值。 通常,如果缺失值的数量很少,则数据会被丢弃,但如果缺失值很多,则数据插补是首选的行动方案。
在统计学中,有不同的方法来估计缺失值。 这些包括回归、多数据插补、列表/成对删除、最大似然估计和近似贝叶斯引导。
结论
我们希望我们的大数据问答指南对您有所帮助。 我们将定期更新指南,让您随时了解最新情况。
如果您有兴趣了解有关大数据的更多信息,请查看我们的 PG 大数据软件开发专业文凭课程,该课程专为在职专业人士设计,提供 7 多个案例研究和项目,涵盖 14 种编程语言和工具,实用的动手操作研讨会,超过 400 小时的严格学习和顶级公司的就业帮助。
从世界顶级大学在线学习软件开发课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
