Hadoop 教程：学习大数据 Hadoop 2022 的终极指南

已发表: 2021-01-05

Hadoop 在大数据领域是如此流行的名称，以至于今天，“ Hadoop 教程”已成为 Web 上搜索最多的术语之一。但是，如果您不了解 Hadoop，它是一个开源大数据框架，旨在通过利用简单的编程模型，在跨多个计算机集群的分布式环境中存储和处理大量数据。

它的设计方式可以从单个服务器扩展到成百上千台机器，每台机器都提供本地存储和计算。 阅读： Hadoop 的未来范围。

Doug Cutting和Mike Cafarella开发了 Hadoop。关于 Hadoop 历史的一个有趣的事实是，Hadoop 是以 Cuting 孩子的玩具大象命名的。 Cuting 的孩子有一头名叫 Hadoop 的黄色玩具大象，这就是大数据框架的起源故事！

在我们深入研究Hadoop 教程之前，必须正确掌握基础知识。基础，我们指的是大数据。

什么是大数据？

大数据是一个术语，用于指代大量结构化和非结构化（每天生成）的数据，超出了传统数据处理系统的处理能力。

根据 Gartner 著名的大数据定义，它是指种类繁多、数量不断增加且速度快的数据。可以分析大数据以获得可以促进数据驱动的业务决策的见解。这就是大数据的真正价值所在。

体积

每天，来自各种来源的大量数据产生，包括社交媒体、数字设备、物联网和企业。必须处理这些数据以识别和提供有意义的见解。

速度

它表示组织接收和处理数据的速率。每个企业/组织都有一个特定的时间框架来处理大量流动的数据。虽然有些数据需要实时处理能力，但有些数据可以根据需要进行处理和分析。

种类

由于数据是从许多不同的来源生成的，自然地，它是高度多样化和多样化的。虽然传统的数据类型大多是结构化的并且非常适合关系数据库，但大数据有半结构化和非结构化的数据类型（文本、音频和视频等）。为什么需要它？

Hadoop初学者教程

在谈论大数据时，存在三个核心挑战：

贮存

第一个问题是在哪里存储如此庞大的数据量？传统系统无法满足要求，因为它们提供的存储容量有限。

异构数据

第二个问题是大数据是高度多样化的（结构化、半结构化、非结构化）。那么问题来了——如何存储这些不同格式的数据？

处理速度

最后一个问题是处理速度。由于大数据的数量庞大且不断增长，因此加快处理如此大量异构数据的时间是一项挑战。

为了克服这些核心挑战，Hadoop 应运而生。它的两个主要组件——HDFS 和 YARN 旨在帮助解决存储和处理问题。 HDFS 通过分布式存储数据来解决存储问题，而 YARN 通过大幅减少处理时间来处理处理部分。

Hadoop 是一个独特的大数据框架，因为：

它具有灵活的文件系统，可消除 ETL 瓶颈。
它可以经济地扩展并部署在商品硬件上。
它提供了存储和挖掘任何类型数据的灵活性。另外，它不受单一模式的限制。
它擅长处理复杂的数据集——横向扩展架构将工作负载划分到多个节点。

Hadoop的核心组件

Hadoop 集群由两个主要组件组成——HDFS（Hadoop 分布式文件系统）和 YARN（又一个资源协商器）。

高密度文件系统

HDFS 负责分布式存储。它具有主从拓扑结构，其中 Master 是高端机器，而 Slave 是廉价计算机。在 Hadoop 架构中，Master 应该部署在健壮的配置硬件上，因为它构成了Hadoop 集群的中心。

HDFS 将大数据分成几个块，然后以分布式方式存储在从节点集群上。主节点负责管理、维护和监控从节点，而从节点充当实际的工作节点。要在 Hadoop 集群上执行任务，用户必须连接到主节点。

HDFS 进一步分为两个守护进程：

名称节点

它在主机上运行并执行以下功能 -

它维护、监视和管理 DataNode。
它接收来自 DataNode 的心跳报告和块报告。
它捕获集群中所有块的元数据，包括位置、文件大小、权限、层次结构等。
它在编辑日志中记录对元数据所做的所有更改，例如文件的删除、创建和重命名。

数据节点

它在从机上运行并执行以下功能 -

它存储实际的业务数据。
它服务于用户的读写请求。
它根据 NameNode 的命令创建、删除、复制块。
它每三秒向 NameNode 发送一个心跳报告。

纱

如前所述，YARN 负责 Hadoop 中的数据处理。 YARN 背后的中心思想是将资源管理和作业调度的任务分开。它有两个组成部分：

资源管理器

它在主节点上运行。
它跟踪来自节点管理器的心跳。
它有两个子部分——调度程序和应用程序管理器。当 Scheduler 为正在运行的应用程序分配资源时，ApplicationManager 接受作业提交并协商第一个容器以执行应用程序。

节点管理器

它在各个从属机器上运行。
它管理容器并监控每个容器的资源利用率。
它将心跳报告发送到资源管理器。

Hadoop 教程：学习 Hadoop 的先决条件

要开始您的 Hadoop 教程并熟悉该框架，您必须具备两个基本先决条件：

熟悉基本的 Linux 命令

由于 Hadoop 是在 Linux 操作系统（最好是 Ubuntu）上设置的，因此您必须精通基础级别的 Linux 命令。

熟悉基本的 Java 概念

当您开始学习 Hadoop 教程时，您还可以同时开始学习 Java 的基本概念，包括抽象、封装、继承和多态等等。

Hadoop的特点

以下是使其流行的 Hadoop 的主要功能

1) 可靠

Hadoop 具有高度的容错性和可靠性。如果任何一个节点出现故障，它不会导致整个集群崩溃——另一个节点将替换故障节点。因此，Hadoop 集群可以继续运行而不会动摇。

2) 可扩展

Hadoop 具有高度可扩展性。它可以与可以使框架更具可扩展性的云平台集成。

3) 经济

Hadoop 框架不仅可以部署在配置硬件上，还可以部署在商用硬件（廉价机器）上。这使得 Hadoop 成为寻求扩展的中小型公司的经济选择。

4）分布式存储和处理

Hadoop 将任务和文件分别划分为若干子任务和块。这些子任务和块独立运行，并以分布式方式存储在整个机器集群中。

为什么要学习 Hadoop？

根据最近的一份研究报告， Hadoop大数据分析市场预计将从 67.1 亿美元（截至 2016 年）增长到 2022 年的 406.9 亿美元，复合年增长率为 43.4%。这只能表明，在未来几年，对大数据的投资将是巨大的。自然，对大数据框架和 Hadoop 等技术的需求也将加速增长。

当这种情况发生时，对熟练的 Hadoop 专业人员（如 Hadoop 开发人员、Hadoop 架构师、Hadoop 管理员等）的需求将呈指数级增长。

这就是为什么现在是学习 Hadoop、掌握 Hadoop 技能和掌握 Hadoop 工具的理想时机。鉴于大数据人才的供需存在巨大的技能差距，这为越来越多的年轻有志者转向这一领域提供了一个完美的场景。

由于人才短缺，公司愿意向应得的专业人士支付巨额的年度薪酬和薪酬待遇。因此，如果您现在投入时间和精力来获取 Hadoop 技能，那么您的职业生涯图在不久的将来肯定会向上倾斜。

结论：Hadoop 是未来的技术。当然，它可能不是课程的一个组成部分，但它是并且将是组织运作的一个组成部分。所以，抓紧时间赶上这波浪潮；一个繁荣而充实的职业在时间结束时等待着你。

如果您有兴趣了解有关大数据的更多信息，请查看我们的 PG 大数据软件开发专业文凭课程，该课程专为在职专业人士设计，提供 7 多个案例研究和项目，涵盖 14 种编程语言和工具，实用的动手操作研讨会，超过 400 小时的严格学习和顶级公司的就业帮助。

从世界顶级大学在线学习软件开发课程。获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

掌握未来的技术 - 大数据

IIIT Bangalore 大数据高级证书课程