I 20 migliori comandi HDFS che dovresti conoscere [2022]

Pubblicato: 2021-01-01

Hadoop è una struttura open source Apache che consente l'elaborazione distribuita di set di dati su larga scala su batch di workstation con schemi di programmazione semplici. Opera in un ambiente di archiviazione distribuito con numerosi cluster di computer con le migliori caratteristiche di scalabilità. Leggi di più su HDFS e la sua architettura.

Sommario

Obiettivi di HDFS

1. Fornisce un file system distribuito su larga scala

10.000 nodi, 100 milioni di file e 10 PB

2. Ottimizzazione dell'elaborazione batch

Fornisce una capacità aggregata molto completa

3. Assumere hardware di base

Rileva guasti hardware e li ripristina

Possibilità di consumare il file esistente in caso di guasto dell'hardware

4. La migliore soluzione di Smart Client Intelligence

Il cliente può trovare la posizione degli scaffold

Il client può accedere ai dati direttamente dai nodi di dati

5. Coerenza dei dati

Il client può aggiungere ai file esistenti

È il modello di accesso Write-once-Read- many

6. Pezzi di replica e usabilità dei file

I file possono essere un'interruzione nei blocchi multinodo nelle dimensioni del blocco di 128 MB e riutilizzarli

7. Metadati in memoria

L'intero Meta-dati è archiviato nella memoria principale

I metadati si trovano nell'elenco dei file, in un elenco di blocchi e in un elenco di nodi di dati

Registri delle transazioni, registra la creazione e l'eliminazione dei file

8. Correttezza dei dati

Utilizza il checksum per convalidare e trasformare i dati.

Il suo client calcola il checksum per 512 byte. Il client recupera i dati e il relativo checksum dai nodi

Se le convalide hanno esito negativo, il client può utilizzare il replica-process .

9. Processo di pipeline dei dati

Il suo client inizia la fase iniziale di scrittura dai primi nodi

I primi nodi di dati trasmettono i dati al nodo di dati successivo alla pipeline

Quando tutti i modelli sono stati scritti, il client passa al passaggio successivo per scrivere il blocco successivo nel file

Architettura HDFS

Hadoop Distributed File System (HDFS) è strutturato in blocchi. L'architettura HDFS è descritta come master/slave. Namenode e data node costituiscono l' architettura HDFS.

  1. Namenode: funziona come un server master per la gestione dello spazio dei nomi del file system e fornisce anche il giusto approccio di accesso ai client.
  • Fornisce tutti i nodi di dati che comprendono blocchi di dati per un particolare file. Con l'aiuto di ciò, all'avvio del sistema, ripristina ogni volta i dati dai nodi di dati.
  • HDFS incorpora uno spazio dei nomi del metodo file che viene eseguito con il Namenode per operazioni comuni come "apertura, chiusura e ridenominazione di file" e persino per il catalogo.
  1. Datanode: è la seconda specifica tecnica nel cluster HDFS. Di solito funziona uno per nodo nel cluster HDFS.
  • I DataNode sono metodi che funzionano come slave, rimangono su ciascun computer in modalità cluster e implementano l'archiviazione originale. Servono, leggono e scrivono le richieste per i clienti.

I 20 migliori comandi di HDFS

Ecco un elenco di tutti i comandi HDFS :

1. Per ottenere l'elenco di tutti i file nella directory principale di HDFS

  • Comando: Utilizzo: hdfs dfs [opzioni generiche] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<percorso>...]
  • Nota: qui, scegli il percorso dalla radice, proprio come il file system Linux generale. -h in Green Mark mostra che è in dimensioni leggibili dall'uomo, come consigliato. -R in Blue Mark mostra che è diverso da numerosi esercitarsi nelle sottodirectory.

2. Aiuto

  • Comando: fs – aiuto
  • Nota: stampa l'output lungo che stampa tutti i comandi

3. Concatenare tutti i file in un catalogo all'interno di un unico file

  • Comando: hdfs dfs [opzioni generiche] -getmerge [-nl] <src> <localdst>
  • Nota: questo genererà un nuovo file nella directory di sistema locale che trasporta tutti i file da una directory principale e concatena tutti insieme. -nl opzione, che è contrassegnata in rosso, combina le nuove righe tra i file. Con l'aiuto di questo comando, puoi combinare una raccolta di piccoli record all'interno di una selezione per un'operazione diversa.

4. Mostra l'utilizzo del disco in Megabyte per la directory di registro: /dir

  • Comando: hdfs dfs [opzioni generiche] -du [-s] [-h] <percorso> …
  • Nota: l'opzione -h, contrassegnata in blu, fornisce un output di dimensioni leggibili, ovvero Gigabyte.

5. Modifica del fattore di replica per un file

  • Comando: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. tronco d'albero
  • Nota: serve per i fattori di replica, che contano in base a un file, che può essere replicato in ogni cluster Hadoop.

6. copia da locale

  • Comando: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
  • Nota: questo comando serve per la copia di un file dal file system locale a Hadoop FS

7.-rm -r

  • Comando: hadoop fs -rm -r /root/journaldev_bigdata
  • Nota: con l'aiuto del comando rm-r, possiamo rimuovere un'intera directory HDFS

8. Elimina

  • Comando: hadoop fs -expunge
  • Nota: questa cancellazione esegue frammenti vuoti.

9. fs -du

  • Comando: hadoop fs -du /root/journaldev_bigdata/
  • Nota: questo comando aiuta a utilizzare il disco dei file in HDFS in una directory.

10.mkdir

  • Comando: hadoop fs -mkdir /root/journaldev_bigdata
  • Nota: questo comando viene utilizzato per controllare lo stato dei file.

11.testo

  • Comando: hadoop fs -text <src>
  • Nota: questo comando viene utilizzato per visualizzare il file .“sample zip” in formato testo.

12. Stat

  • Comando: hadoop fs -stat [formato] <percorso>
  • Nota: questo comando stat viene utilizzato per stampare le informazioni sul file 'test' presente nella directory.

13. chmod: (Utilizzo del comando di Hadoop chmod)

  • Comando: hadoop fs -chmod [-R] <modalità> <percorso>
  • Nota : questo comando viene utilizzato per modificare l'autorizzazione del file su "testfile".

14. appendToFile

  • Comando : hadoop fs -appendToFile <localsrc> <dest>
  • Nota: questo comando può essere utilizzato per aggiungere istantaneamente localfile1, localfile2 nel filesystem locale nel file specificato come 'appendfile' nel catalogo.
  1. somma di controllo
  • Comando: hadoop fs -checksum <src>
  • Nota: questo è il comando della shell che restituisce le informazioni di checksum.
  1. Contano
  • Comando: hadoop fs -count [opzioni] <percorso>
  • Nota : questo comando viene utilizzato per contare il numero di file, directory e byte dal percorso specificato del file specificato.
  1. Trovare
  • Comando: hadoop fs -find <percorso> … <espressione>
  • Nota: questo comando viene utilizzato per trovare tutti i file che corrispondono all'espressione menzionata .
  1. getmerge
  • Comando: hadoop fs -getmerge <src> <localdest>
  • Nota: questo comando viene utilizzato per "UnisciFile in locale".

19. touchz

  • Comando : hadoop fs –touchz /directory/nomefile
  • Nota: questo comando genera un file in HDFS con una dimensione del file corrispondente a 0 byte.
  1. fs -ls
  • Comando : hadoop fs -ls
  • Nota: questo comando genera un elenco di file e sottodirectory disponibili nella directory predefinita.

Leggi: Ecosistema e componenti Hadoop

Conclusione

Si spera che questo articolo ti abbia aiutato a comprendere i comandi HDFS per eseguire operazioni sul filesystem Hadoop. L'articolo ha descritto tutti i comandi HDFS fondamentali .

Se sei interessato a saperne di più sui Big Data, dai un'occhiata al nostro PG Diploma in Software Development Specialization nel programma Big Data, progettato per professionisti che lavorano e fornisce oltre 7 casi di studio e progetti, copre 14 linguaggi e strumenti di programmazione, pratiche pratiche workshop, oltre 400 ore di apprendimento rigoroso e assistenza all'inserimento lavorativo con le migliori aziende.

Impara i corsi di sviluppo software online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Padroneggia la tecnologia del futuro - Big Data

Programma di certificazione avanzato in Big Data da IIIT Bangalore