您应该了解的 20 大 HDFS 命令 [2022]

已发表: 2021-01-01

Hadoop 是一种 Apache 开源结构，可以通过简单的编程模式在批量工作站上分布式处理大规模数据集。它在分布式存储环境中运行，该环境具有众多具有最佳可扩展性功能的计算机集群。阅读有关 HDFS 及其架构的更多信息。

HDFS 的目标

1. 提供大规模分布式文件系统

10k 个节点、1 亿个文件和 10 PB

2. 批处理的优化

提供非常全面的聚合容量

3.假设商品硬件

它检测硬件故障并恢复它

如果硬件出现故障，可以使用现有文件

4. 最佳智能客户端智能解决方案

客户可以找到脚手架的位置

客户端可以直接从数据节点访问数据

5. 数据一致性

客户端可以附加到现有文件

它是一次写入多次读取的访问模型

6. 文件复制块和可用性

文件可以在 128 MB 块大小的多节点块中中断并重复使用

7. 内存中的元数据

整个元数据存储在主存储器中

元数据位于文件列表、块列表和数据节点列表中

事务日志，它记录文件创建和文件删除

8. 数据正确性

它使用校验和来验证和转换数据。

它的客户端计算每 512 个字节的校验和。客户端从节点检索数据及其校验和

如果验证失败，客户端可以使用 replica-process 。

9. 数据流水线过程

它的客户端从第一个节点开始写入的初始步骤

第一个数据节点将数据传输到管道的下一个数据节点

写入所有模型后，客户端继续下一步以在文件中写入下一个块

HDFS 架构

Hadoop 分布式文件系统 (HDFS)被结构化为块。 HDFS 架构被描述为主/从架构。 Namenode 和数据节点组成了HDFS 架构。

Namenode：它充当管理文件系统命名空间的主服务器，并为客户端提供正确的访问方法。

它提供了包含特定文件的数据块的所有数据节点。借助这一点，当系统启动时，它每次都从数据节点恢复数据。
HDFS 包含一个文件方法命名空间，该命名空间与 Namenode 一起执行，用于文件“打开、关闭和重命名”等常见操作，甚至用于目录。

Datanode：是HDFS集群中的第二个技术规范。 它通常在 HDFS 集群中的每个节点上运行一个。

DataNodes 是像从机一样执行的方法，以集群模式驻留在每台计算机上，并实现原始存储。它们为客户端服务、读取和写入请求。

HDFS 前 20 个命令

以下是所有HDFS 命令的列表：

1.获取HDFS根目录下所有文件的列表

命令：用法： hdfs dfs [通用选项] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<path>…]
注意：这里选择从根目录开始的路径，就像一般的Linux文件系统一样。 绿色标记中的 -h 表明它是人类可读的大小，如推荐的那样。 Blue Mark 中的 -R 表明它不同于众多的实践到子目录。

2. 帮助

命令： fs -帮助
注意：它打印输出所有命令的长输出

3. 将所有文件连接到单个文件中的目录中

命令： hdfs dfs [通用选项] -getmerge [-nl] <src> <localdst>
注意：这将在本地系统目录中生成一个新文件，该文件包含根目录中的所有文件并将所有文件连接在一起。 -nl 选项，以红色标记，在文件之间组合换行符。借助此命令，您可以在选择中组合小记录的集合以进行不同的操作。

4.以 MB 为单位显示注册目录的磁盘使用情况： /dir

命令： hdfs dfs [通用选项] -du [-s] [-h] <路径> ...
注意：蓝色标记的-h 为您提供了一个可读的大小输出，即千兆字节。

5.修改文件的复制因子

命令： hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby。 日志
注意：它是针对复制因子，按文件计数，可以在每个 Hadoop 集群中复制。

6. 复制本地

命令： hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
注意：此命令用于将文件从本地文件系统复制到 Hadoop FS

7.-rm -r

命令： hadoop fs -rm -r /root/journaldev_bigdata
注意：借助 rm -r 命令，我们可以删除整个 HDFS 目录

8.删除

命令： hadoop fs -expunge
注意：此删除将片段执行为空。

9. fs -du

命令： hadoop fs -du /root/journaldev_bigdata/
注意：该命令有助于HDFS目录下文件的磁盘使用。

10.mkdir

命令： hadoop fs -mkdir /root/journaldev_bigdata
注意：此命令用于检查文件的健康状况。

11.文本

命令： hadoop fs -text <src>
注意：此命令用于以文本格式显示 .“sample zip”文件。

12.统计

命令： hadoop fs -stat [格式] <路径>
注意：此 stat 命令用于打印有关目录中存在的“测试”文件的信息。

13. chmod : (Hadoop chmod 命令用法)

命令： hadoop fs -chmod [-R] <模式> <路径>
注意：此命令用于更改“testfile”的文件权限。

14.追加文件

命令：hadoop fs -appendToFile <localsrc> <dest>
注意：此命令可用于将本地文件系统中的 localfile1、localfile2 立即附加到目录中指定为 'appendfile' 的文件中。

校验和

命令： hadoop fs -checksum <src>
注意：这是返回校验和信息的 shell 命令。

数数

命令： hadoop fs -count [选项] <路径>
注意：此命令用于从给定文件的指定路径计算文件、目录和字节的数量。

命令： hadoop fs -find <路径> ... <表达式>
注意：此命令用于查找与上述表达式匹配的所有文件。

合并

命令： hadoop fs -getmerge <src> <localdest>
注意：此命令用于“MergeFile into Local”。

19. 触摸

命令：hadoop fs –touchz /目录/文件名
注意：此命令在 HDFS 中生成一个文件大小对应于 0 字节的文件。

fs -ls

命令：hadoop fs -ls
注意：此命令在默认目录下生成可用文件和子目录的列表。

阅读： Hadoop 生态系统和组件

结论

希望本文能帮助您了解在 Hadoop 文件系统上执行操作的HDFS 命令。 这篇文章描述了所有基本的HDFS 命令。

如果您有兴趣了解有关大数据的更多信息，请查看我们的 PG 大数据软件开发专业文凭课程，该课程专为在职专业人士设计，提供 7 多个案例研究和项目，涵盖 14 种编程语言和工具，实用的动手操作研讨会，超过 400 小时的严格学习和顶级公司的就业帮助。

从世界顶级大学在线学习软件开发课程。获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

掌握未来的技术 - 大数据

IIIT Bangalore 大数据高级证书课程