Top 20 de comenzi HDFS despre care ar trebui să știți [2022]

Publicat: 2021-01-01

Hadoop este o structură Apache open-source care permite procesarea distribuită de seturi de date la scară largă pe loturi de stații de lucru cu modele de programare simple. Funcționează într-un mediu de stocare distribuit cu numeroase grupuri de computere cu cele mai bune caracteristici de scalabilitate. Citiți mai multe despre HDFS și arhitectura sa.

Cuprins

Obiectivele HDFS

1. Oferă un sistem de fișiere distribuit la scară largă

10.000 de noduri, 100 de milioane de fișiere și 10 PB

2. Optimizarea procesării loturilor

Oferă o capacitate agregată foarte cuprinzătoare

3. Să presupunem că hardware-ul de marfă

Detectează defecțiunea hardware și o recuperează

Posibilități de a consuma fișierul existent dacă hardware-ul eșuează

4. Cea mai bună soluție inteligentă pentru clienți

Clientul poate găsi locația schelelor

Clientul poate accesa datele direct din nodurile de date

5. Consistența datelor

Clientul poate adăuga fișiere existente

Este modelul de acces Write-once-Read-many

6. Bucăți de replicare și utilizare a fișierelor

Fișierele pot fi o întrerupere a blocurilor cu mai multe noduri în dimensiunile blocurilor de 128 MB și le pot reutiliza

7. Meta-date în memorie

Întreaga metadate sunt stocate în memoria principală

Metadatele sunt în lista de fișiere, o listă de blocuri și o listă de noduri de date

Jurnalele de tranzacții, înregistrează crearea și ștergerea fișierelor

8. Corectitudinea datelor

Utilizează suma de control pentru a valida și transforma datele.

Clientul său calculează suma de control pe 512 octeți. Clientul preia datele și suma de control a acestora de la noduri

Dacă validările eșuează, clientul poate utiliza replica-process .

9. Procesul de canalizare a datelor

Clientul său începe pasul inițial de scriere de la primele noduri

Primele noduri de date transmit datele următorului nod de date către conductă

Când toate modelele sunt scrise, clientul trece la pasul următor pentru a scrie următorul bloc în fișier

Arhitectura HDFS

Sistemul de fișiere distribuit Hadoop (HDFS) este structurat în blocuri. Arhitectura HDFS este descrisă ca fiind una master/slave. Namenode și nodul de date alcătuiesc arhitectura HDFS.

Namenode: funcționează ca un server principal pentru gestionarea spațiului de nume al sistemului de fișiere și oferă, de asemenea, abordarea de acces corectă clienților.

Furnizează toate nodurile de date care cuprind blocuri de date pentru un anumit fișier. Cu ajutorul acestuia, atunci când sistemul pornește, restaurează de fiecare dată datele din nodurile de date.
HDFS încorporează un spațiu de nume al metodei fișierului care este executat cu Namenode pentru operațiuni comune, cum ar fi „deschiderea, închiderea și redenumirea” fișierului și chiar pentru catalog.

Datanode: Este a doua specificație a tehnicii din clusterul HDFS. De obicei funcționează câte unul pe nod în clusterul HDFS.

DataNodes sunt metodele care funcționează ca niște sclavi, rămân pe fiecare computer într-un mod cluster și implementează stocarea originală. Ei servesc, citesc și scriu cereri pentru clienți.

HDFS Top 20 comenzi

Iată o listă cu toate comenzile HDFS :

1. Pentru a obține lista tuturor fișierelor din directorul rădăcină HDFS

Comanda: Utilizare: hdfs dfs [opțiuni generice] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<cale>…]
Notă: Aici, alegeți calea de la rădăcină, la fel ca sistemul general de fișiere Linux. -h în marca verde arată că este în dimensiuni care pot fi citite de om, așa cum este recomandat. -R în Blue Mark arată că este diferit de multe să exersezi în subdirectoare.

2. Ajutor

Comanda: fs – ajutor
Notă: Tipărește rezultatul lung care tipărește toate comenzile

3. Concatenați toate fișierele într-un catalog într-un singur fișier

Comanda: hdfs dfs [opțiuni generice] -getmerge [-nl] <src> <localdst>
Notă: Acest lucru va genera un nou fișier în directorul de sistem local care transportă toate fișierele dintr-un director rădăcină și le concatenă pe toate împreună. Opțiunea -nl, care este marcată cu roșu, combină linii noi între fișiere. Cu ajutorul acestei comenzi, puteți combina o colecție de înregistrări mici într-o selecție pentru o operație diferită.

4. Afișați utilizarea discului în megaocteți pentru directorul de înregistrare: /dir

Comanda: hdfs dfs [opțiuni generice] -du [-s] [-h] <cale>...
Notă: -h, care este marcat cu albastru, vă oferă o ieșire lizibilă de dimensiune, adică Gigabytes.

5. Modificarea factorului de replicare pentru un fișier

Comanda: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Buturuga
Notă: este pentru factorii de replicare, care se numără după un fișier, care poate fi replicat în fiecare cluster Hadoop.

6. copyFromLocal

Comanda: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
Notă: Această comandă este pentru copierea unui fișier din sistemul de fișiere local pe Hadoop FS

7.-rm -r

Comanda: hadoop fs -rm -r /root/journaldev_bigdata
Notă: Cu ajutorul comenzii rm-r, putem elimina un întreg director HDFS

8. Eliminare

Comanda: hadoop fs -expunge
Notă: Această ștergere realizează fragmente goale.

9. fs -du

Comanda: hadoop fs -du /root/journaldev_bigdata/
Notă: Această comandă ajută la utilizarea pe disc a fișierelor din HDFS într-un director.

10.mkdir

Comanda: hadoop fs -mkdir /root/journaldev_bigdata
Notă: Această comandă este utilizată pentru a verifica starea de sănătate a fișierelor.

11.text

Comanda: hadoop fs -text <src>
Notă: Această comandă este folosită pentru a vizualiza fișierul .„zip eșantion” în format text.

12. Stat

Comanda: hadoop fs -stat [format] <cale>
Notă: Această comandă stat este folosită pentru a tipări informațiile despre fișierul „test” prezent în director.

13. chmod : (Utilizarea comenzii Hadoop chmod)

Comanda: hadoop fs -chmod [-R] <mod> <cale>
Notă : Această comandă este folosită pentru a modifica permisiunea fișierului pe „testfile”.

14. appendToFile

Comanda : hadoop fs -appendToFile <localsrc> <dest>
Notă: Această comandă poate fi folosită pentru a adăuga instantaneu localfile1, localfile2 în sistemul de fișiere local în fișierul specificat ca „appendfile” în catalog.

Sumă de control

Comanda: hadoop fs -checksum <src>
Notă: Aceasta este comanda shell care returnează informațiile despre suma de control.

Numara

Comanda: hadoop fs -count [opțiuni] <cale>
Notă : Această comandă este folosită pentru numărarea numărului de fișiere, directoare și octeți din calea specificată a fișierului dat.

Găsi

Comanda: hadoop fs -find <cale> … <expresie>
Notă: Această comandă este folosită pentru a găsi toate fișierele care se potrivesc cu expresia menționată .

getmerge

Comanda: hadoop fs -getmerge <src> <localdest>
Notă: Această comandă este folosită pentru „MergeFile into Local”.

19. touchz

Comanda : hadoop fs –touchz /directory/filename
Notă: Această comandă generează un fișier în HDFS cu o dimensiune a fișierului corespunzătoare la 0 octeți.

fs -ls

Comanda : hadoop fs -ls
Notă: Această comandă generează o listă de fișiere și subdirectoare disponibile în directorul implicit.

Citiți: Ecosistem și componente Hadoop

Concluzie

Sperăm că acest articol v-a ajutat să înțelegeți comenzile HDFS pentru a executa operațiuni pe sistemul de fișiere Hadoop. Articolul a descris toate comenzile HDFS fundamentale .

Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.

Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.

Stăpânește Tehnologia Viitorului - Big Data

Program de certificat avansat în Big Data de la IIIT Bangalore