您應該了解的 20 大 HDFS 命令 [2022]

已發表: 2021-01-01

Hadoop 是一種 Apache 開源結構，可以通過簡單的編程模式在批量工作站上分佈式處理大規模數據集。它在分佈式存儲環境中運行，該環境具有眾多具有最佳可擴展性功能的計算機集群。閱讀有關 HDFS 及其架構的更多信息。

HDFS 的目標

1. 提供大規模分佈式文件系統

10k 個節點、1 億個文件和 10 PB

2. 批處理的優化

提供非常全面的聚合容量

3.假設商品硬件

它檢測硬件故障並恢復它

如果硬件出現故障，可以使用現有文件

4. 最佳智能客戶端智能解決方案

客戶可以找到腳手架的位置

客戶端可以直接從數據節點訪問數據

5. 數據一致性

客戶端可以附加到現有文件

它是一次寫入多次讀取的訪問模型

6. 文件複製塊和可用性

文件可以在 128 MB 塊大小的多節點塊中中斷並重複使用

7. 內存中的元數據

整個元數據存儲在主存儲器中

元數據位於文件列表、塊列表和數據節點列表中

事務日誌，它記錄文件創建和文件刪除

8. 數據正確性

它使用校驗和來驗證和轉換數據。

它的客戶端計算每 512 個字節的校驗和。客戶端從節點檢索數據及其校驗和

如果驗證失敗，客戶端可以使用 replica-process 。

9. 數據流水線過程

它的客戶端從第一個節點開始寫入的初始步驟

第一個數據節點將數據傳輸到管道的下一個數據節點

寫入所有模型後，客戶端繼續下一步以在文件中寫入下一個塊

HDFS 架構

Hadoop 分佈式文件系統 (HDFS)被結構化為塊。 HDFS 架構被描述為主/從架構。 Namenode 和數據節點組成了HDFS 架構。

Namenode：它充當管理文件系統命名空間的主服務器，並為客戶端提供正確的訪問方法。

它提供了包含特定文件的數據塊的所有數據節點。借助這一點，當系統啟動時，它每次都從數據節點恢復數據。
HDFS 包含一個文件方法命名空間，該命名空間與 Namenode 一起執行，用於文件“打開、關閉和重命名”等常見操作，甚至用於目錄。

Datanode：是HDFS集群中的第二個技術規範。 它通常在 HDFS 集群中的每個節點上運行一個。

DataNodes 是像從機一樣執行的方法，以集群模式駐留在每台計算機上，並實現原始存儲。它們為客戶端服務、讀取和寫入請求。

HDFS 前 20 個命令

以下是所有HDFS 命令的列表：

1.獲取HDFS根目錄下所有文件的列表

命令：用法： hdfs dfs [通用選項] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<path>…]
注意：這裡選擇從根目錄開始的路徑，就像一般的Linux文件系統一樣。 綠色標記中的 -h 表明它是人類可讀的大小，如推薦的那樣。 Blue Mark 中的 -R 表明它不同於眾多的實踐到子目錄。

2. 幫助

命令： fs -幫助
注意：它打印輸出所有命令的長輸出

3. 將所有文件連接到單個文件中的目錄中

命令： hdfs dfs [通用選項] -getmerge [-nl] <src> <localdst>
注意：這將在本地系統目錄中生成一個新文件，該文件包含根目錄中的所有文件並將所有文件連接在一起。 -nl 選項，以紅色標記，在文件之間組合換行符。借助此命令，您可以在選擇中組合小記錄的集合以進行不同的操作。

4.以 MB 為單位顯示註冊目錄的磁盤使用情況： /dir

命令： hdfs dfs [通用選項] -du [-s] [-h] <路徑> ...
注意：藍色標記的-h 為您提供了一個可讀的大小輸出，即千兆字節。

5.修改文件的複制因子

命令： hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby。 日誌
注意：它是針對複制因子，按文件計數，可以在每個 Hadoop 集群中復制。

6. 複製本地

命令： hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
注意：此命令用於將文件從本地文件系統複製到 Hadoop FS

7.-rm -r

命令： hadoop fs -rm -r /root/journaldev_bigdata
注意：借助 rm -r 命令，我們可以刪除整個 HDFS 目錄

8.刪除

命令： hadoop fs -expunge
注意：此刪除將片段執行為空。

9. fs -du

命令： hadoop fs -du /root/journaldev_bigdata/
注意：該命令有助於HDFS目錄下文件的磁盤使用。

10.mkdir

命令： hadoop fs -mkdir /root/journaldev_bigdata
注意：此命令用於檢查文件的健康狀況。

11.文本

命令： hadoop fs -text <src>
注意：此命令用於以文本格式顯示 .“sample zip”文件。

12.統計

命令： hadoop fs -stat [格式] <路徑>
注意：此 stat 命令用於打印有關目錄中存在的“測試”文件的信息。

13. chmod : (Hadoop chmod 命令用法)

命令： hadoop fs -chmod [-R] <模式> <路徑>
注意：此命令用於更改“testfile”的文件權限。

14.追加文件

命令：hadoop fs -appendToFile <localsrc> <dest>
注意：此命令可用於將本地文件系統中的 localfile1、localfile2 立即附加到目錄中指定為 'appendfile' 的文件中。

校驗和

命令： hadoop fs -checksum <src>
注意：這是返回校驗和信息的 shell 命令。

數數

命令： hadoop fs -count [選項] <路徑>
注意：此命令用於從給定文件的指定路徑計算文件、目錄和字節的數量。

命令： hadoop fs -find <路徑> ... <表達式>
注意：此命令用於查找與上述表達式匹配的所有文件。

合併

命令： hadoop fs -getmerge <src> <localdest>
注意：此命令用於“MergeFile into Local”。

19. 觸摸

命令：hadoop fs –touchz /目錄/文件名
注意：此命令在 HDFS 中生成一個文件大小對應於 0 字節的文件。

fs -ls

命令：hadoop fs -ls
注意：此命令在默認目錄下生成可用文件和子目錄的列表。

閱讀： Hadoop 生態系統和組件

結論

希望本文能幫助您了解在 Hadoop 文件系統上執行操作的HDFS 命令。 這篇文章描述了所有基本的HDFS 命令。

如果您有興趣了解有關大數據的更多信息，請查看我們的 PG 大數據軟件開發專業文憑課程，該課程專為在職專業人士設計，提供 7 多個案例研究和項目，涵蓋 14 種編程語言和工具，實用的動手操作研討會，超過 400 小時的嚴格學習和頂級公司的就業幫助。

從世界頂級大學在線學習軟件開發課程。獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

掌握未來的技術 - 大數據

IIIT Bangalore 大數據高級證書課程