Top 20 de comenzi HDFS despre care ar trebui să știți [2022]
Publicat: 2021-01-01Hadoop este o structură Apache open-source care permite procesarea distribuită de seturi de date la scară largă pe loturi de stații de lucru cu modele de programare simple. Funcționează într-un mediu de stocare distribuit cu numeroase grupuri de computere cu cele mai bune caracteristici de scalabilitate. Citiți mai multe despre HDFS și arhitectura sa.
Cuprins
Obiectivele HDFS
1. Oferă un sistem de fișiere distribuit la scară largă
10.000 de noduri, 100 de milioane de fișiere și 10 PB
2. Optimizarea procesării loturilor
Oferă o capacitate agregată foarte cuprinzătoare
3. Să presupunem că hardware-ul de marfă

Detectează defecțiunea hardware și o recuperează
Posibilități de a consuma fișierul existent dacă hardware-ul eșuează
4. Cea mai bună soluție inteligentă pentru clienți
Clientul poate găsi locația schelelor
Clientul poate accesa datele direct din nodurile de date
5. Consistența datelor
Clientul poate adăuga fișiere existente
Este modelul de acces Write-once-Read-many
6. Bucăți de replicare și utilizare a fișierelor
Fișierele pot fi o întrerupere a blocurilor cu mai multe noduri în dimensiunile blocurilor de 128 MB și le pot reutiliza
7. Meta-date în memorie
Întreaga metadate sunt stocate în memoria principală
Metadatele sunt în lista de fișiere, o listă de blocuri și o listă de noduri de date
Jurnalele de tranzacții, înregistrează crearea și ștergerea fișierelor
8. Corectitudinea datelor
Utilizează suma de control pentru a valida și transforma datele.
Clientul său calculează suma de control pe 512 octeți. Clientul preia datele și suma de control a acestora de la noduri
Dacă validările eșuează, clientul poate utiliza replica-process .
9. Procesul de canalizare a datelor
Clientul său începe pasul inițial de scriere de la primele noduri
Primele noduri de date transmit datele următorului nod de date către conductă
Când toate modelele sunt scrise, clientul trece la pasul următor pentru a scrie următorul bloc în fișier
Arhitectura HDFS
Sistemul de fișiere distribuit Hadoop (HDFS) este structurat în blocuri. Arhitectura HDFS este descrisă ca fiind una master/slave. Namenode și nodul de date alcătuiesc arhitectura HDFS.
- Namenode: funcționează ca un server principal pentru gestionarea spațiului de nume al sistemului de fișiere și oferă, de asemenea, abordarea de acces corectă clienților.
- Furnizează toate nodurile de date care cuprind blocuri de date pentru un anumit fișier. Cu ajutorul acestuia, atunci când sistemul pornește, restaurează de fiecare dată datele din nodurile de date.
- HDFS încorporează un spațiu de nume al metodei fișierului care este executat cu Namenode pentru operațiuni comune, cum ar fi „deschiderea, închiderea și redenumirea” fișierului și chiar pentru catalog.
- Datanode: Este a doua specificație a tehnicii din clusterul HDFS. De obicei funcționează câte unul pe nod în clusterul HDFS.
- DataNodes sunt metodele care funcționează ca niște sclavi, rămân pe fiecare computer într-un mod cluster și implementează stocarea originală. Ei servesc, citesc și scriu cereri pentru clienți.
HDFS Top 20 comenzi
Iată o listă cu toate comenzile HDFS :
1. Pentru a obține lista tuturor fișierelor din directorul rădăcină HDFS
- Comanda: Utilizare: hdfs dfs [opțiuni generice] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<cale>…]
- Notă: Aici, alegeți calea de la rădăcină, la fel ca sistemul general de fișiere Linux. -h în marca verde arată că este în dimensiuni care pot fi citite de om, așa cum este recomandat. -R în Blue Mark arată că este diferit de multe să exersezi în subdirectoare.
2. Ajutor
- Comanda: fs – ajutor
- Notă: Tipărește rezultatul lung care tipărește toate comenzile
3. Concatenați toate fișierele într-un catalog într-un singur fișier
- Comanda: hdfs dfs [opțiuni generice] -getmerge [-nl] <src> <localdst>
- Notă: Acest lucru va genera un nou fișier în directorul de sistem local care transportă toate fișierele dintr-un director rădăcină și le concatenă pe toate împreună. Opțiunea -nl, care este marcată cu roșu, combină linii noi între fișiere. Cu ajutorul acestei comenzi, puteți combina o colecție de înregistrări mici într-o selecție pentru o operație diferită.
4. Afișați utilizarea discului în megaocteți pentru directorul de înregistrare: /dir

- Comanda: hdfs dfs [opțiuni generice] -du [-s] [-h] <cale>...
- Notă: -h, care este marcat cu albastru, vă oferă o ieșire lizibilă de dimensiune, adică Gigabytes.
5. Modificarea factorului de replicare pentru un fișier
- Comanda: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Buturuga
- Notă: este pentru factorii de replicare, care se numără după un fișier, care poate fi replicat în fiecare cluster Hadoop.
6. copyFromLocal
- Comanda: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
- Notă: Această comandă este pentru copierea unui fișier din sistemul de fișiere local pe Hadoop FS
7.-rm -r
- Comanda: hadoop fs -rm -r /root/journaldev_bigdata
- Notă: Cu ajutorul comenzii rm-r, putem elimina un întreg director HDFS
8. Eliminare
- Comanda: hadoop fs -expunge
- Notă: Această ștergere realizează fragmente goale.
9. fs -du
- Comanda: hadoop fs -du /root/journaldev_bigdata/
- Notă: Această comandă ajută la utilizarea pe disc a fișierelor din HDFS într-un director.
10.mkdir
- Comanda: hadoop fs -mkdir /root/journaldev_bigdata
- Notă: Această comandă este utilizată pentru a verifica starea de sănătate a fișierelor.
11.text
- Comanda: hadoop fs -text <src>
- Notă: Această comandă este folosită pentru a vizualiza fișierul .„zip eșantion” în format text.
12. Stat
- Comanda: hadoop fs -stat [format] <cale>
- Notă: Această comandă stat este folosită pentru a tipări informațiile despre fișierul „test” prezent în director.
13. chmod : (Utilizarea comenzii Hadoop chmod)
- Comanda: hadoop fs -chmod [-R] <mod> <cale>
- Notă : Această comandă este folosită pentru a modifica permisiunea fișierului pe „testfile”.
14. appendToFile

- Comanda : hadoop fs -appendToFile <localsrc> <dest>
- Notă: Această comandă poate fi folosită pentru a adăuga instantaneu localfile1, localfile2 în sistemul de fișiere local în fișierul specificat ca „appendfile” în catalog.
- Sumă de control
- Comanda: hadoop fs -checksum <src>
- Notă: Aceasta este comanda shell care returnează informațiile despre suma de control.
- Numara
- Comanda: hadoop fs -count [opțiuni] <cale>
- Notă : Această comandă este folosită pentru numărarea numărului de fișiere, directoare și octeți din calea specificată a fișierului dat.
- Găsi
- Comanda: hadoop fs -find <cale> … <expresie>
- Notă: Această comandă este folosită pentru a găsi toate fișierele care se potrivesc cu expresia menționată .
- getmerge
- Comanda: hadoop fs -getmerge <src> <localdest>
- Notă: Această comandă este folosită pentru „MergeFile into Local”.
19. touchz
- Comanda : hadoop fs –touchz /directory/filename
- Notă: Această comandă generează un fișier în HDFS cu o dimensiune a fișierului corespunzătoare la 0 octeți.
- fs -ls
- Comanda : hadoop fs -ls
- Notă: Această comandă generează o listă de fișiere și subdirectoare disponibile în directorul implicit.
Citiți: Ecosistem și componente Hadoop
Concluzie
Sperăm că acest articol v-a ajutat să înțelegeți comenzile HDFS pentru a executa operațiuni pe sistemul de fișiere Hadoop. Articolul a descris toate comenzile HDFS fundamentale .
Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.
Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.
