应届生最常见的 Hadoop 管理员面试问题 [2022]

已发表: 2021-01-03

Hadoop 管理员被认为是业内收入最高的专业人士之一。 最重要的是,数据的收集和使用每天都呈指数级增长。 随着这种增长,对能够轻松使用 Hadoop 的人员的需求也在增加。 在本博客中,我们将向您介绍一些针对 Hadoop 专业人士的重要面试问题。

必须阅读 Hadoop 面试问题和答案

Q1。 解释Hadoop的一些行业应用。

答: Apache Hadoop,通常称为 Hadoop,是一个开源编程阶段,用于对大量信息进行适应性和传播分析。 它对组织内产生的有组织和无组织信息进行快速、卓越和实用的调查。 今天几乎所有的办公室和领域都在使用它。

Hadoop的一些主要工业用途:

  • 监督道路上的交通。
  • 流媒体准备。
  • 内容管理和归档邮件。
  • 利用 Hadoop 集群准备啮齿动物大脑神经元体征。
  • 欺诈识别。
  • 以阶段为重点的促销活动正在利用 Hadoop 捕获和分解快照传输、交换、视频和在线媒体信息。
  • 通过在线媒体阶段监督内容、帖子、图片和录音。
  • 持续调查客户信息以改善业务执行。
  • 公共领域领域,例如洞察力、守卫、数字保护和逻辑探索。
  • 获得对非结构化信息的准入,例如,来自临床小工具、专家笔记、临床通信、临床信息、实验室结果、成像报告和货币信息的收益。

Q2。 将 Hadoop 与并行计算系统进行比较。

答: Hadoop 是一个分布式记录框架,允许您在远程机器上存储和处理海量信息,处理任何不需要的重复信息。

Hadoop 的本质优势在于,由于信息存储在称为节点的几个集线器中,因此更容易以适当的方式处理它。 每个集线器或节点都可以处理存储在其上的信息,而不是投入精力一遍又一遍地移动信息。

令人惊讶的是,在 RDBMS 处理框架中,我们可以不断地查询信息。 但是,将信息存储在表、记录和部分中并不高效,尤其是当数据量很大时。

阅读:如何成为 Hadoop 管理员?

Q3 列出可以运行 Hadoop 的不同模式。

A:独立模式:Hadoop 的默认方法,它利用本地存储框架来获取输入并给出输出。 由于易于调试选项,此模式本质上是使用的,并且它不支持 HDFS。

mapred-site.xml、center site.xml 和 hdfs-site.xml 记录不需要自定义设置。 这种模式比其他模式工作得快很多。

  • 伪分布式模式(单节点集群) :在这种模式下,对于我们之前谈到的所有 3 条记录,我们都需要单独设置。 对于这种模式,所有守护进程都在一个节点上运行,沿着这些思路,主集线器和从集线器本质上是相同的。
  • 完全分布式模式(Multi-hub Cluster) :这种模式被定义为Hadoop的创建时期,其中信息被利用并分散在Hadoop集群上的几个节点上。 单独的集线器被分配为主和从。

Q4:解释 InputSplit 和 HDFS 块之间的主要区别。

答:块可以定义为信息和数据的物理表示,而拆分是块中存在的任何数据的逻辑表示。 Split 作为块和映射器之间的桥梁。

假设我们有 2 个块:

  • ii nnteell
  • 我买了

如果我们按照 map 的原则,它会从 ii 到 ll 读取 Block 1,但在这种情况下不知道如何读取 Block 2。 为了解决这个问题,我们需要一个块 1 和块 2 的逻辑包,可以很容易地作为一个块读取。 这就是斯普利特发挥作用的地方。

此外,split利用InputFormat形成一个key-value对,对reader进行多条记录,进一步处理到map中,供InputSplit后续处理。 它还为我们提供了存储的灵活性,使我们能够增加拆分大小以减少正在形成的地图的总数。

Q5:列举一些在 Hadoop 中使用的常见输入格式。

A: Hadoop 中主要有 3 种输入格式:

  • 文本输入格式:这在 Hadoop 中用作默认值。
  • 键值输入格式:当文本文件被分成几行时主要首选。
  • 顺序文件输入格式:主要用于顺序读取文件。

另请阅读:Hadoop 项目理念和主题

Q6:列出任何 Hadoop 应用程序的主要组件。

答: Hadoop 的主要组件是-

  • 用于存储数据的 HBase
  • Apache Flume、Sqoop、Chukwa – 用作数据集成组件
  • Ambari、Oozie 和 ZooKeeper——用于数据管理和监控的组件
  • Thrift 和 Avro – 数据序列化组件
  • Apache Mahout 和 Drill——用于数据智能目的
  • Hadoop 通用
  • 高密度文件系统
  • Hadoop MapReduce
  • 猪和蜂巢

问题 7: 什么是“机架意识”?

答: Hadoop 中的 NameNode 使用 Rack Awareness 系统来决定块及其副本在 Hadoop 组中的位置。 类似机架内的 DataNode 之间的流量受到机架定义的限制。 在这个系统中,一个块的前两个副本将存储在一个机架中,第三个副本将存储在不同的块中。

结论

希望您喜欢我们关于Hadoop 管理员面试问题的博客 但是,在面试之前掌握一套详尽的 Hadoop 技能和知识非常重要。 您可以在此处参考我们博客上的一些重要 Hadoop 教程,

Hadoop 教程:学习大数据 Hadoop 2022 的终极指南

什么是 Hadoop? Hadoop、特性和用例简介

如果您是数据爱好者并想了解更多关于大数据的信息,请查看我们的 PG 大数据软件开发专业文凭课程。 该计划专为当前员工而设计,包含 7 个以上的案例研究和项目。 它涵盖 14 种编程语言和工具,最重要的是实用的实践研讨会,以及 400 多个小时的参与,但严格的学习和顶级公司的工作安置帮助。

从世界顶级大学在线学习软件开发课程获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

今天就规划你的职业生涯

IIIT Bangalore 大数据高级证书课程