Die 20 wichtigsten HDFS-Befehle, die Sie kennen sollten [2022]
Veröffentlicht: 2021-01-01Hadoop ist eine Open-Source-Struktur von Apache, die mit einfachen Programmiermustern die verteilte Verarbeitung großer Datensätze über Stapel von Arbeitsstationen ermöglicht. Es arbeitet in einer verteilten Speicherumgebung mit zahlreichen Computerclustern mit den besten Skalierbarkeitsfunktionen. Lesen Sie mehr über HDFS und seine Architektur.
Inhaltsverzeichnis
Ziele von HDFS
1. Es bietet ein groß angelegtes verteiltes Dateisystem
10.000 Knoten, 100 Millionen Dateien und 10 PB
2. Optimierung der Stapelverarbeitung
Bietet eine sehr umfassende aggregierte Kapazität
3. Angenommen, Commodity-Hardware

Es erkennt Hardwarefehler und stellt sie wieder her
Möglichkeiten, die vorhandene Datei zu konsumieren, wenn die Hardware ausfällt
4. Beste intelligente Client-Intelligence-Lösung
Der Bauherr kann den Standort der Gerüste finden
Der Client kann direkt von den Datenknoten auf die Daten zugreifen
5. Datenkonsistenz
Der Client kann an die vorhandenen Dateien anhängen
Es ist das Write-once-Read-many-Zugriffsmodell
6. Teile der Dateireplikation und Benutzerfreundlichkeit
Dateien lassen sich in Multi-Node-Blöcken in den 128 MB-Blockgrößen brechen und wiederverwenden
7. Metadaten im Speicher
Die gesamten Metadaten werden im Hauptspeicher gespeichert
Metadaten befinden sich in der Liste von Dateien, einer Liste von Blöcken und einer Liste von Datenknoten
Transaktionsprotokolle, es zeichnet Dateierstellung und Dateilöschungen auf
8. Richtigkeit der Daten
Es verwendet die Prüfsumme, um die Daten zu validieren und umzuwandeln.
Sein Client berechnet die Prüfsumme pro 512 Bytes. Der Client ruft die Daten und ihre Prüfsumme von den Knoten ab
Wenn Validierungen fehlschlagen, kann der Client den Replikatprozess verwenden .
9. Datenpipelining-Prozess
Sein Client beginnt mit dem ersten Schritt des Schreibens von den ersten Knoten
Die ersten Datenknoten übertragen die Daten an den nächsten Datenknoten der Pipeline
Wenn alle Modelle geschrieben sind, fährt der Client mit dem nächsten Schritt fort, um den nächsten Block in die Datei zu schreiben
HDFS-Architektur
Das Hadoop Distributed File System (HDFS) ist in Blöcken strukturiert. Die HDFS-Architektur wird als Master/Slave-Architektur beschrieben. Namenode und Data Node bilden die HDFS-Architektur.
- Namenode: Es fungiert als Master-Server für die Verwaltung des Dateisystem-Namensraums und bietet auch den richtigen Zugriffsansatz für die Clients.
- Es stellt alle Datenknoten bereit, die Datenblöcke für eine bestimmte Datei umfassen. Mit dessen Hilfe stellt das System beim Start jedes Mal die Daten aus den Datenknoten wieder her.
- HDFS enthält einen Namensraum für Dateimethoden, der mit dem Namenode für allgemeine Vorgänge wie das „Öffnen, Schließen und Umbenennen“ von Dateien und sogar für den Katalog ausgeführt wird.
- Datanode: Es ist die zweite Technikspezifikation im HDFS-Cluster. Es funktioniert normalerweise einer pro Knoten im HDFS-Cluster.
- DataNodes sind die Methoden, die wie Slaves funktionieren, auf jedem Computer in einem Clustermodus bleiben und den ursprünglichen Speicher implementieren. Sie bedienen, lesen und schreiben Anfragen für die Clients.
Die 20 wichtigsten HDFS-Befehle
Hier ist eine Liste aller HDFS-Befehle :
1. Um die Liste aller Dateien im HDFS-Stammverzeichnis abzurufen
- Befehl: Verwendung: hdfs dfs [allgemeine Optionen] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<Pfad>…]
- Hinweis: Wählen Sie hier den Pfad aus dem Stammverzeichnis, genau wie beim allgemeinen Linux-Dateisystem. -h in Green Mark zeigt, dass es sich um menschenlesbare Größen handelt, wie empfohlen. -R in Blue Mark zeigt, dass es sich von zahlreichen unterscheidet, in Unterverzeichnisse zu praktizieren.
2. Hilfe
- Befehl: fs – Hilfe
- Hinweis: Es druckt die lange Ausgabe, die alle Befehle druckt
3. Verketten Sie alle Dateien zu einem Katalog innerhalb einer einzigen Datei
- Befehl: hdfs dfs [allgemeine Optionen] -getmerge [-nl] <src> <localdst>
- Hinweis: Dadurch wird eine neue Datei im lokalen Systemverzeichnis generiert, die alle Dateien aus einem Stammverzeichnis enthält und alle miteinander verkettet. Die rot markierte Option -nl kombiniert Zeilenumbrüche zwischen den Dateien. Mit Hilfe dieses Befehls können Sie eine Sammlung kleiner Datensätze innerhalb einer Auswahl für eine andere Operation zusammenfassen.
4. Zeigen Sie die Festplattennutzung in Megabyte für das Registrierungsverzeichnis an: /dir

- Befehl: hdfs dfs [allgemeine Optionen] -du [-s] [-h] <Pfad> …
- Hinweis: Das blau markierte -h gibt Ihnen eine lesbare Ausgabe der Größe, dh Gigabyte.
5. Ändern des Replikationsfaktors für eine Datei
- Befehl: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Protokoll
- Hinweis: Es handelt sich um Replikationsfaktoren, die nach einer Datei zählen, die in jedem Hadoop-Cluster repliziert werden kann.
6. copyFromLocal
- Befehl: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
- Hinweis: Dieser Befehl dient zum Kopieren einer Datei vom lokalen Dateisystem nach Hadoop FS
7.-rm-r
- Befehl: hadoop fs -rm -r /root/journaldev_bigdata
- Hinweis: Mit Hilfe des Befehls rm-r können wir ein ganzes HDFS-Verzeichnis entfernen
8. Löschen
- Befehl: hadoop fs -expunge
- Hinweis: Diese Löschung führt Fragmente leer aus.
9. fs-du
- Befehl: hadoop fs -du /root/journaldev_bigdata/
- Hinweis: Dieser Befehl hilft bei der Festplattennutzung von Dateien unter HDFS in einem Verzeichnis.
10.mkdir
- Befehl: hadoop fs -mkdir /root/journaldev_bigdata
- Hinweis: Dieser Befehl wird verwendet, um den Zustand der Dateien zu überprüfen.
11.text
- Befehl: hadoop fs -text <src>
- Hinweis: Dieser Befehl wird verwendet, um die „Beispiel-ZIP“-Datei im Textformat anzuzeigen.
12. Stat
- Befehl: hadoop fs -stat [Format] <Pfad>
- Hinweis: Dieser stat-Befehl wird verwendet, um die Informationen über die im Verzeichnis vorhandene 'test'-Datei auszudrucken.
13. chmod : (Verwendung des Hadoop-Befehls chmod)
- Befehl: hadoop fs -chmod [-R] <Modus> <Pfad>
- Hinweis : Dieser Befehl wird zum Ändern der Dateiberechtigung für „testfile“ verwendet.
14. appendToFile

- Befehl : hadoop fs -appendToFile <localsrc> <dest>
- Hinweis: Dieser Befehl kann zum sofortigen Anhängen von localfile1, localfile2 im lokalen Dateisystem an die im Katalog als 'appendfile' angegebene Datei verwendet werden.
- Prüfsumme
- Befehl: hadoop fs -checksum <src>
- Hinweis: Dies ist der Shell-Befehl, der die Prüfsummeninformationen zurückgibt.
- Anzahl
- Befehl: hadoop fs -count [Optionen] <Pfad>
- Hinweis : Dieser Befehl wird zum Zählen der Anzahl von Dateien, Verzeichnissen und Bytes aus dem angegebenen Pfad der angegebenen Datei verwendet.
- Finden
- Befehl: hadoop fs -find <Pfad> … <Ausdruck>
- Hinweis: Dieser Befehl wird verwendet, um alle Dateien zu finden, die mit dem erwähnten Ausdruck übereinstimmen .
- verschmelzen
- Befehl: hadoop fs -getmerge <src> <localdest>
- Hinweis: Dieser Befehl wird für „MergeFile into Local“ verwendet.
19. touchz
- Befehl : hadoop fs –touchz /Verzeichnis/Dateiname
- Hinweis: Dieser Befehl erzeugt eine Datei in HDFS mit einer Dateigröße, die 0 Byte entspricht.
- fs -ls
- Befehl : hadoop fs -ls
- Hinweis: Dieser Befehl generiert eine Liste der verfügbaren Dateien und Unterverzeichnisse im Standardverzeichnis.
Lesen Sie: Hadoop-Ökosystem und -Komponenten
Fazit
Hoffentlich hat Ihnen dieser Artikel dabei geholfen, HDFS-Befehle zum Ausführen von Operationen auf dem Hadoop-Dateisystem zu verstehen. Der Artikel hat alle grundlegenden HDFS-Befehle beschrieben .
Wenn Sie mehr über Big Data erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt und praktische praktische Übungen enthält Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.
Lernen Sie Softwareentwicklungskurse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.
