あなたが知っておくべきトップ20のHDFSコマンド[2022]

公開: 2021-01-01

HadoopはApacheオープンソース構造であり、単純なプログラミングパターンでワークステーションのバッチ上で大規模なデータセットの分散処理を可能にします。 最高のスケーラビリティ機能を備えた多数のコンピュータクラスタを備えた分散ストレージ環境で動作します。 HDFSとそのアーキテクチャについてもっと読む。

目次

HDFSの目標

1.大規模な分散ファイルシステムを提供します

10,000ノード、1億ファイル、10 PB

2.バッチ処理の最適化

非常に包括的な集約容量を提供します

3.コモディティハードウェアを想定します

ハードウェア障害を検出して回復します

ハードウェアに障害が発生した場合に既存のファイルを消費する可能性

4.最高のスマートクライアントインテリジェンスソリューション

クライアントは足場の場所を見つけることができます

クライアントはデータノードから直接データにアクセスできます

5.データの一貫性

クライアントは既存のファイルに追加できます

これは、Write-once-Read-manyアクセスモデルです。

6.ファイルレプリケーションとユーザビリティのチャンク

ファイルは、128 MBのブロックサイズのマルチノードブロックで中断され、再利用される可能性があります

7.メモリ内のメタデータ

メタデータ全体がメインメモリに保存されます

メタデータは、ファイルのリスト、ブロックのリスト、およびデータノードのリストにあります

トランザクションログ、ファイルの作成と削除を記録します

8.データの正確性

チェックサムを使用して、データを検証および変換します。

そのクライアントは、512バイトごとにチェックサムを計算します。 クライアントはノードからデータとそのチェックサムを取得します

検証が失敗した場合、クライアントはレプリカプロセスを使用できます

9.データパイプライン化プロセス

そのクライアントは、最初のノードから書き込みの最初のステップを開始します

最初のデータノードは、パイプラインの次のデータノードにデータを送信します

すべてのモデルが書き込まれると、クライアントは次のステップに進み、ファイルに次のブロックを書き込みます

HDFSアーキテクチャ

Hadoop分散ファイルシステム(HDFS)はブロックに構造化されています。 HDFSアーキテクチャは、マスター/スレーブアーキテクチャとして説明されています。 Namenodeとdatanodeは、 HDFSアーキテクチャを構成します。

  1. Namenode:ファイルシステムの名前空間を管理するためのマスターサーバーとして機能し、クライアントに適切なアクセスアプローチを提供します。
  • 特定のファイルのデータブロックを構成するすべてのデータノードを提供します。 これにより、システムが起動すると、毎回データノードからデータが復元されます。
  • HDFSには、ファイルの「開く、閉じる、名前の変更」などの一般的な操作、さらにはカタログ用にNamenodeで実行されるファイルメソッド名前空間が組み込まれています。
  1. データノード:これは、HDFSクラスターの2番目の技術仕様です。 通常、HDFSクラスターのノードごとに1つ機能します。
  • DataNodeは、スレーブのように動作し、クラスターモードで各コンピューターにとどまり、元のストレージを実装するメソッドです。 これらは、クライアントの要求を処理、読み取り、および書き込みます。

HDFSトップ20コマンド

これがすべてのHDFSコマンドのリストです

1.HDFSルートディレクトリ内のすべてのファイルのリストを取得するには

  • コマンド:使用法: hdfsdfs[汎用オプション]-ls[-c] [-h] [-q] [-R] [-t] [-S][-u][<path>…]
  • 注:ここでは、一般的なLinuxファイルシステムと同様に、ルートからパスを選択します。 緑のマークの-hは、推奨されているように、人間が読めるサイズであることを示しています。 -ブルーマークのRは、サブディレクトリで練習することは多くのものとは異なることを示しています。

2.ヘルプ

  • コマンド: fs –ヘルプ
  • 注:すべてのコマンドを出力する長い出力を出力します

3.すべてのファイルを単一のファイル内のカタログに連結します

  • コマンド: hdfsdfs[汎用オプション]-getmerge[-nl] <src> <localdst>
  • 注:これにより、ローカルシステムディレクトリに新しいファイルが生成されます。このファイルは、ルートディレクトリからすべてのファイルを運び、すべてを連結します。 -赤でマークされているnlオプションは、ファイル間で改行を結合します。 このコマンドを使用すると、別の操作の選択範囲内で小さなレコードのコレクションを組み合わせることができます。

4.レジスタディレクトリのディスク使用量をメガバイト単位で表示します: / dir

  • コマンド: hdfsdfs[汎用オプション]-du[-s][-h]<パス>…
  • 注:青でマークされている-hは、読み取り可能なサイズの出力、つまりギガバイトを提供します。

5.ファイルのレプリケーション係数を変更する

  • コマンド: hadoop fs -setrep -w 1 / root / journaldev_bigdata/derby。 ログ
  • 注:これは、ファイルごとにカウントされるレプリケーションファクター用であり、各Hadoopクラスターでレプリケートできます。

6. copyFromLocal

  • コマンド: hadoop fs -copyFromLocal derby.log / root / journaldev_bigdata
  • 注:このコマンドは、ローカルファイルシステムからHadoopFSにファイルをコピーするためのものです。

7.-rm -r

  • コマンド: hadoop fs -rm -r / root / journaldev_bigdata
  • 注: rm-rコマンドを使用すると、HDFSディレクトリ全体を削除できます。

8.消去

  • コマンド: hadoop fs -expunge
  • 注:この消去は、空のフラグメントを実行します。

9. fs -du

  • コマンド: hadoop fs -du / root / journaldev_bigdata /
  • 注:このコマンドは、ディレクトリー内のHDFS下のファイルのディスク使用に役立ちます。

10.mkdir

  • コマンド: hadoop fs -mkdir / root / journaldev_bigdata
  • 注:このコマンドは、ファイルの状態を確認するために使用されます。

11.テキスト

  • コマンド: hadoop fs -text <src>
  • 注:このコマンドは、「samplezip」ファイルをテキスト形式で視覚化するために使用されます。

12.統計

  • コマンド: hadoop fs -stat [format] <path>
  • 注:このstatコマンドは、ディレクトリーにある「test」ファイルに関する情報を出力するために使用されます。

13. chmod: (Hadoop chmodコマンドの使用法)

  • コマンド: hadoop fs -chmod [-R] <mode> <path>
  • :このコマンドは、「testfile」のファイル権限を変更するために使用されます。

14. appendToFile

  • コマンド:hadoop fs -appendToFile <localsrc> <dest>
  • 注:このコマンドは、ローカルファイルシステム内のlocalfile1、localfile2を、カタログで「appendfile」として指定されたファイルに即座に追加するために使用できます。
  1. チェックサム
  • コマンド: hadoop fs -checksum <src>
  • 注:これは、チェックサム情報を返すシェルコマンドです。
  1. カウント
  • コマンド: hadoop fs -count [options] <path>
  • :このコマンドは、指定されたファイルの指定されたパスからのファイル、ディレクトリー、およびバイトの数をカウントするために使用されます。
  1. 探す
  • コマンド: hadoop fs-find<path>…<expression>
  • 注:このコマンドは、上記の式に一致するすべてのファイルを検索するために使用されます
  1. getmerge
  • コマンド: hadoop fs -getmerge <src> <localdest>
  • 注:このコマンドは、「MergeFileintoLocal」に使用されます。

19. touchz

  • コマンド:hadoop fs –touchz / directory / filename
  • 注:このコマンドは、0バイトに対応するファイルサイズのファイルをHDFSに生成します。
  1. fs -ls
  • コマンド:hadoop fs -ls
  • 注:このコマンドは、デフォルトのディレクトリーの下に使用可能なファイルとサブディレクトリーのリストを生成します。

読む: Hadoopエコシステムとコンポーネント

結論

この記事が、Hadoopファイルシステムで操作を実行するためのHDFSコマンドの理解に役立つことを願っています。 この記事では、すべての基本的なHDFSコマンドについて説明しました

ビッグデータについて詳しく知りたい場合は、ビッグデータプログラムのソフトウェア開発スペシャライゼーションのPGディプロマをチェックしてください。このプログラムは、働く専門家向けに設計されており、7つ以上のケーススタディとプロジェクトを提供し、14のプログラミング言語とツール、実践的なハンズオンをカバーしています。ワークショップ、トップ企業との400時間以上の厳格な学習と就職支援。

世界のトップ大学からオンラインでソフトウェア開発コース学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

未来のテクノロジーをマスターする-ビッグデータ

IIITバンガロアからのビッグデータの高度な証明書プログラム