Top 20 des commandes HDFS à connaître [2022]

Publié: 2021-01-01

Hadoop est une structure open source Apache qui permet le traitement distribué d'ensembles de données à grande échelle sur des lots de postes de travail avec des modèles de programmation simples. Il fonctionne dans un environnement de stockage distribué avec de nombreux clusters d'ordinateurs avec les meilleures fonctionnalités d'évolutivité. En savoir plus sur HDFS et son architecture.

Table des matières

Objectifs de HDFS

1. Il fournit un système de fichiers distribué à grande échelle

10 000 nœuds, 100 millions de fichiers et 10 Po

2. Optimisation du traitement par lots

Fournit une capacité agrégée très complète

3. Supposons que le matériel de base

Il détecte une panne matérielle et la récupère

Possibilités de consommer le fichier existant en cas de panne du matériel

4. Meilleure solution d'intelligence client intelligente

Le client peut trouver l'emplacement des échafaudages

Le client peut accéder aux données directement à partir des nœuds de données

5. Cohérence des données

Le client peut ajouter aux fichiers existants

C'est le modèle d'accès Write-once-Read-many

6. Morceaux de réplication de fichiers et convivialité

Les fichiers peuvent être une rupture dans les blocs multi-nœuds dans les tailles de bloc de 128 Mo et les réutiliser

7. Méta-données en mémoire

L'intégralité des métadonnées est stockée dans la mémoire principale

Les métadonnées se trouvent dans la liste des fichiers, une liste des blocs et une liste des nœuds de données

Transaction-logs, il enregistre la création de fichiers et les suppressions de fichiers

8. Exactitude des données

Il utilise la somme de contrôle pour valider et transformer les données.

Son client calcule la somme de contrôle par 512 octets. Le client récupère les données et leur somme de contrôle des nœuds

Si les validations échouent, le client peut utiliser le processus replica-process .

9. Processus de pipeline de données

Son client commence l'étape initiale d'écriture à partir des premiers nœuds

Les premiers nœuds de données transmettent les données au nœud de données suivant du pipeline

Lorsque tous les modèles sont écrits, le client passe à l'étape suivante pour écrire le bloc suivant dans le fichier

Architecture HDFS

Hadoop Distributed File System (HDFS) est structuré en blocs. L'architecture HDFS est décrite comme une architecture maître/esclave. Le nœud de nom et le nœud de données constituent l' architecture HDFS.

  1. Namenode : Il fonctionne comme un serveur maître pour gérer l'espace de noms du système de fichiers et fournit également la bonne approche d'accès aux clients.
  • Il fournit tous les nœuds de données comprenant des blocs de données pour un fichier particulier. Grâce à cela, lorsque le système démarre, il restaure à chaque fois les données des nœuds de données.
  • HDFS intègre un espace de noms de méthode de fichier qui est exécuté avec le Namenode pour les opérations courantes telles que "l'ouverture, la fermeture et le changement de nom" du fichier, et même pour le catalogue.
  1. Datanode : Il s'agit de la deuxième spécification technique du cluster HDFS. Cela fonctionne généralement un par nœud dans le cluster HDFS.
  • Les DataNodes sont les méthodes qui fonctionnent comme des esclaves, restent sur chaque ordinateur en mode cluster et implémentent le stockage d'origine. Ils servent, lisent et écrivent des demandes pour les clients.

Les 20 principales commandes HDFS

Voici une liste de toutes les commandes HDFS :

1. Pour obtenir la liste de tous les fichiers du répertoire racine HDFS

  • Commande : Utilisation : hdfs dfs [options génériques] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<chemin>…]
  • Remarque : Ici, choisissez le chemin à partir de la racine, tout comme le système de fichiers Linux général. -h dans Green Mark indique qu'il s'agit de tailles lisibles par l'homme, comme recommandé. -R dans Blue Mark montre qu'il est différent de plusieurs de pratiquer dans des sous-répertoires.

2. Aide

  • Commande : fs - aide
  • Remarque : Il imprime la sortie longue qui imprime toutes les commandes

3. Concaténer tous les fichiers dans un catalogue au sein d'un seul fichier

  • Commande : hdfs dfs [options génériques] -getmerge [-nl] <src> <localdst>
  • Remarque : cela générera un nouveau fichier sur le répertoire système local qui contient tous les fichiers d'un répertoire racine et les concatène tous ensemble. L'option -nl, marquée en rouge, combine les retours à la ligne entre les fichiers. Avec l'aide de cette commande, vous pouvez combiner une collection de petits enregistrements dans une sélection pour une opération différente.

4. Afficher l'utilisation du disque en mégaoctets pour le répertoire de registre : /dir

  • Commande : hdfs dfs [options génériques] -du [-s] [-h] <chemin> …
  • Remarque : Le -h, qui est marqué en bleu, vous donne une sortie lisible de taille, c'est-à-dire Gigabytes.

5. Modifier le facteur de réplication d'un fichier

  • Commande : hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Journal
  • Remarque : Il s'agit des facteurs de réplication, qui comptent par fichier, qui peuvent être répliqués dans chaque cluster Hadoop.

6. copierDeLocal

  • Commande : hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
  • Remarque : Cette commande est destinée à la copie d'un fichier du système de fichiers local vers Hadoop FS

7.-rm -r

  • Commande : hadoop fs -rm -r /root/journaldev_bigdata
  • Remarque : à l'aide de la commande rm-r, nous pouvons supprimer un répertoire HDFS entier

8. Supprimer

  • Commande : hadoop fs -expunge
  • Remarque : Cette suppression effectue des fragments vides.

9. fs-du

  • Commande : hadoop fs -du /root/journaldev_bigdata/
  • Remarque : Cette commande aide à l'utilisation du disque des fichiers sous HDFS dans un répertoire.

10.mkdir

  • Commande : hadoop fs -mkdir /root/journaldev_bigdata
  • Remarque : Cette commande est utilisée pour vérifier l'intégrité des fichiers.

11.texte

  • Commande : hadoop fs -text <src>
  • Remarque : Cette commande permet de visualiser le fichier .« sample zip » au format texte.

12. Statistique

  • Commande : hadoop fs -stat [format] <chemin>
  • Remarque : Cette commande stat permet d'imprimer les informations sur le fichier 'test' présent dans le répertoire.

13. chmod : (Utilisation de la commande Hadoop chmod)

  • Commande : hadoop fs -chmod [-R] <mode> <chemin>
  • Remarque : Cette commande est utilisée pour modifier la permission du fichier sur "testfile".

14. ajouter au fichier

  • Commande : hadoop fs -appendToFile <localsrc> <dest>
  • Remarque : Cette commande peut être utilisée pour ajouter instantanément le localfile1, localfile2 dans le système de fichiers local dans le fichier spécifié comme 'appendfile' dans le catalogue.
  1. Somme de contrôle
  • Commande : hadoop fs -checksum <src>
  • Remarque : Il s'agit de la commande shell qui renvoie les informations de somme de contrôle.
  1. Compter
  • Commande : hadoop fs -count [options] <chemin>
  • Remarque : Cette commande est utilisée pour compter le nombre de fichiers, de répertoires et d'octets à partir du chemin spécifié du fichier donné.
  1. Trouver
  • Commande : hadoop fs -find <chemin> … <expression>
  • Remarque : Cette commande est utilisée pour rechercher tous les fichiers correspondant à l'expression mentionnée .
  1. fusionner
  • Commande : hadoop fs -getmerge <src> <localdest>
  • Remarque : Cette commande est utilisée pour « MergeFile into Local ».

19. touchez

  • Commande : hadoop fs –touchz /répertoire/nomfichier
  • Remarque : Cette commande génère un fichier dans HDFS avec une taille de fichier correspondant à 0 octet.
  1. fs-ls
  • Commande : hadoop fs -ls
  • Remarque : Cette commande génère une liste des fichiers et sous-répertoires disponibles sous le répertoire par défaut.

Lire : Écosystème et composants Hadoop

Conclusion

J'espère que cet article vous a aidé à comprendre les commandes HDFS pour exécuter des opérations sur le système de fichiers Hadoop. L'article a décrit toutes les commandes HDFS fondamentales .

Si vous souhaitez en savoir plus sur le Big Data, consultez notre programme PG Diploma in Software Development Specialization in Big Data qui est conçu pour les professionnels en activité et fournit plus de 7 études de cas et projets, couvre 14 langages et outils de programmation, pratique pratique ateliers, plus de 400 heures d'apprentissage rigoureux et d'aide au placement dans les meilleures entreprises.

Apprenez des cours de développement de logiciels en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Maîtrisez la technologie du futur - Big Data

Programme de certificat avancé en Big Data de l'IIIT Bangalore