Die 20 wichtigsten HDFS-Befehle, die Sie kennen sollten [2022]

Veröffentlicht: 2021-01-01

Hadoop ist eine Open-Source-Struktur von Apache, die mit einfachen Programmiermustern die verteilte Verarbeitung großer Datensätze über Stapel von Arbeitsstationen ermöglicht. Es arbeitet in einer verteilten Speicherumgebung mit zahlreichen Computerclustern mit den besten Skalierbarkeitsfunktionen. Lesen Sie mehr über HDFS und seine Architektur.

Inhaltsverzeichnis

Ziele von HDFS

1. Es bietet ein groß angelegtes verteiltes Dateisystem

10.000 Knoten, 100 Millionen Dateien und 10 PB

2. Optimierung der Stapelverarbeitung

Bietet eine sehr umfassende aggregierte Kapazität

3. Angenommen, Commodity-Hardware

Es erkennt Hardwarefehler und stellt sie wieder her

Möglichkeiten, die vorhandene Datei zu konsumieren, wenn die Hardware ausfällt

4. Beste intelligente Client-Intelligence-Lösung

Der Bauherr kann den Standort der Gerüste finden

Der Client kann direkt von den Datenknoten auf die Daten zugreifen

5. Datenkonsistenz

Der Client kann an die vorhandenen Dateien anhängen

Es ist das Write-once-Read-many-Zugriffsmodell

6. Teile der Dateireplikation und Benutzerfreundlichkeit

Dateien lassen sich in Multi-Node-Blöcken in den 128 MB-Blockgrößen brechen und wiederverwenden

7. Metadaten im Speicher

Die gesamten Metadaten werden im Hauptspeicher gespeichert

Metadaten befinden sich in der Liste von Dateien, einer Liste von Blöcken und einer Liste von Datenknoten

Transaktionsprotokolle, es zeichnet Dateierstellung und Dateilöschungen auf

8. Richtigkeit der Daten

Es verwendet die Prüfsumme, um die Daten zu validieren und umzuwandeln.

Sein Client berechnet die Prüfsumme pro 512 Bytes. Der Client ruft die Daten und ihre Prüfsumme von den Knoten ab

Wenn Validierungen fehlschlagen, kann der Client den Replikatprozess verwenden .

9. Datenpipelining-Prozess

Sein Client beginnt mit dem ersten Schritt des Schreibens von den ersten Knoten

Die ersten Datenknoten übertragen die Daten an den nächsten Datenknoten der Pipeline

Wenn alle Modelle geschrieben sind, fährt der Client mit dem nächsten Schritt fort, um den nächsten Block in die Datei zu schreiben

HDFS-Architektur

Das Hadoop Distributed File System (HDFS) ist in Blöcken strukturiert. Die HDFS-Architektur wird als Master/Slave-Architektur beschrieben. Namenode und Data Node bilden die HDFS-Architektur.

Namenode: Es fungiert als Master-Server für die Verwaltung des Dateisystem-Namensraums und bietet auch den richtigen Zugriffsansatz für die Clients.

Es stellt alle Datenknoten bereit, die Datenblöcke für eine bestimmte Datei umfassen. Mit dessen Hilfe stellt das System beim Start jedes Mal die Daten aus den Datenknoten wieder her.
HDFS enthält einen Namensraum für Dateimethoden, der mit dem Namenode für allgemeine Vorgänge wie das „Öffnen, Schließen und Umbenennen“ von Dateien und sogar für den Katalog ausgeführt wird.

Datanode: Es ist die zweite Technikspezifikation im HDFS-Cluster. Es funktioniert normalerweise einer pro Knoten im HDFS-Cluster.

DataNodes sind die Methoden, die wie Slaves funktionieren, auf jedem Computer in einem Clustermodus bleiben und den ursprünglichen Speicher implementieren. Sie bedienen, lesen und schreiben Anfragen für die Clients.

Die 20 wichtigsten HDFS-Befehle

Hier ist eine Liste aller HDFS-Befehle :

1. Um die Liste aller Dateien im HDFS-Stammverzeichnis abzurufen

Befehl: Verwendung: hdfs dfs [allgemeine Optionen] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<Pfad>…]
Hinweis: Wählen Sie hier den Pfad aus dem Stammverzeichnis, genau wie beim allgemeinen Linux-Dateisystem. -h in Green Mark zeigt, dass es sich um menschenlesbare Größen handelt, wie empfohlen. -R in Blue Mark zeigt, dass es sich von zahlreichen unterscheidet, in Unterverzeichnisse zu praktizieren.

2. Hilfe

Befehl: fs – Hilfe
Hinweis: Es druckt die lange Ausgabe, die alle Befehle druckt

3. Verketten Sie alle Dateien zu einem Katalog innerhalb einer einzigen Datei

Befehl: hdfs dfs [allgemeine Optionen] -getmerge [-nl] <src> <localdst>
Hinweis: Dadurch wird eine neue Datei im lokalen Systemverzeichnis generiert, die alle Dateien aus einem Stammverzeichnis enthält und alle miteinander verkettet. Die rot markierte Option -nl kombiniert Zeilenumbrüche zwischen den Dateien. Mit Hilfe dieses Befehls können Sie eine Sammlung kleiner Datensätze innerhalb einer Auswahl für eine andere Operation zusammenfassen.

4. Zeigen Sie die Festplattennutzung in Megabyte für das Registrierungsverzeichnis an: /dir

Befehl: hdfs dfs [allgemeine Optionen] -du [-s] [-h] <Pfad> …
Hinweis: Das blau markierte -h gibt Ihnen eine lesbare Ausgabe der Größe, dh Gigabyte.

5. Ändern des Replikationsfaktors für eine Datei

Befehl: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Protokoll
Hinweis: Es handelt sich um Replikationsfaktoren, die nach einer Datei zählen, die in jedem Hadoop-Cluster repliziert werden kann.

6. copyFromLocal

Befehl: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
Hinweis: Dieser Befehl dient zum Kopieren einer Datei vom lokalen Dateisystem nach Hadoop FS

7.-rm-r

Befehl: hadoop fs -rm -r /root/journaldev_bigdata
Hinweis: Mit Hilfe des Befehls rm-r können wir ein ganzes HDFS-Verzeichnis entfernen

8. Löschen

Befehl: hadoop fs -expunge
Hinweis: Diese Löschung führt Fragmente leer aus.

9. fs-du

Befehl: hadoop fs -du /root/journaldev_bigdata/
Hinweis: Dieser Befehl hilft bei der Festplattennutzung von Dateien unter HDFS in einem Verzeichnis.

10.mkdir

Befehl: hadoop fs -mkdir /root/journaldev_bigdata
Hinweis: Dieser Befehl wird verwendet, um den Zustand der Dateien zu überprüfen.

11.text

Befehl: hadoop fs -text <src>
Hinweis: Dieser Befehl wird verwendet, um die „Beispiel-ZIP“-Datei im Textformat anzuzeigen.

12. Stat

Befehl: hadoop fs -stat [Format] <Pfad>
Hinweis: Dieser stat-Befehl wird verwendet, um die Informationen über die im Verzeichnis vorhandene 'test'-Datei auszudrucken.

13. chmod : (Verwendung des Hadoop-Befehls chmod)

Befehl: hadoop fs -chmod [-R] <Modus> <Pfad>
Hinweis : Dieser Befehl wird zum Ändern der Dateiberechtigung für „testfile“ verwendet.

14. appendToFile

Befehl : hadoop fs -appendToFile <localsrc> <dest>
Hinweis: Dieser Befehl kann zum sofortigen Anhängen von localfile1, localfile2 im lokalen Dateisystem an die im Katalog als 'appendfile' angegebene Datei verwendet werden.

Prüfsumme

Befehl: hadoop fs -checksum <src>
Hinweis: Dies ist der Shell-Befehl, der die Prüfsummeninformationen zurückgibt.

Anzahl

Befehl: hadoop fs -count [Optionen] <Pfad>
Hinweis : Dieser Befehl wird zum Zählen der Anzahl von Dateien, Verzeichnissen und Bytes aus dem angegebenen Pfad der angegebenen Datei verwendet.

Finden

Befehl: hadoop fs -find <Pfad> … <Ausdruck>
Hinweis: Dieser Befehl wird verwendet, um alle Dateien zu finden, die mit dem erwähnten Ausdruck übereinstimmen .

verschmelzen

Befehl: hadoop fs -getmerge <src> <localdest>
Hinweis: Dieser Befehl wird für „MergeFile into Local“ verwendet.

19. touchz

Befehl : hadoop fs –touchz /Verzeichnis/Dateiname
Hinweis: Dieser Befehl erzeugt eine Datei in HDFS mit einer Dateigröße, die 0 Byte entspricht.

fs -ls

Befehl : hadoop fs -ls
Hinweis: Dieser Befehl generiert eine Liste der verfügbaren Dateien und Unterverzeichnisse im Standardverzeichnis.

Lesen Sie: Hadoop-Ökosystem und -Komponenten

Fazit

Hoffentlich hat Ihnen dieser Artikel dabei geholfen, HDFS-Befehle zum Ausführen von Operationen auf dem Hadoop-Dateisystem zu verstehen. Der Artikel hat alle grundlegenden HDFS-Befehle beschrieben .

Wenn Sie mehr über Big Data erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt und praktische praktische Übungen enthält Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.

Lernen Sie Softwareentwicklungskurse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Meistern Sie die Technologie der Zukunft – Big Data

Advanced Certificate Program in Big Data vom IIIT Bangalore