Los 20 comandos principales de HDFS que debe conocer [2022]

Publicado: 2021-01-01

Hadoop es una estructura de código abierto de Apache que permite el procesamiento distribuido de conjuntos de datos a gran escala en lotes de estaciones de trabajo con patrones de programación simples. Opera en un entorno de almacenamiento distribuido con numerosos clústeres de computadoras con las mejores características de escalabilidad. Lea más sobre HDFS y su arquitectura.

Tabla de contenido

Objetivos de HDFS

1. Proporciona un sistema de archivos distribuidos a gran escala

10k nodos, 100 millones de archivos y 10 PB

2. Optimización del procesamiento por lotes

Proporciona una capacidad agregada muy completa

3. Asumir hardware básico

Detecta fallas de hardware y las recupera

Posibilidades de consumir el archivo existente si el hardware falla

4. La mejor solución inteligente de inteligencia de clientes

El cliente puede encontrar la ubicación de los andamios

El cliente puede acceder a los datos directamente desde los nodos de datos.

5. Consistencia de datos

El cliente puede agregar a los archivos existentes

Es el modelo de acceso Write-once-Read-many

6. Fragmentos de replicación de archivos y usabilidad

Los archivos pueden ser una ruptura en bloques de múltiples nodos en los tamaños de bloque de 128 MB y reutilizarlos

7. Metadatos en la memoria

Todos los metadatos se almacenan en la memoria principal

Los metadatos están en la lista de archivos, una lista de bloques y una lista de nodos de datos

Registros de transacciones, registra la creación y eliminación de archivos

8. Corrección de datos

Utiliza la suma de comprobación para validar y transformar los datos.

Su cliente calcula la suma de comprobación por 512 bytes. El cliente recupera los datos y su suma de comprobación de los nodos.

Si las validaciones fallan, el cliente puede usar el proceso de réplica .

9. Proceso de canalización de datos

Su cliente inicia el paso inicial de escritura desde los primeros nodos

Los primeros nodos de datos transmiten los datos al siguiente nodo de datos a la canalización

Cuando se escriben todos los modelos, el cliente pasa al siguiente paso para escribir el siguiente bloque en el archivo.

Arquitectura HDFS

El sistema de archivos distribuidos de Hadoop (HDFS) está estructurado en bloques. La arquitectura HDFS se describe como maestra/esclava. El nodo de nombre y el nodo de datos conforman la arquitectura HDFS.

Namenode: funciona como un servidor maestro para administrar el espacio de nombres del sistema de archivos y también proporciona el enfoque de acceso correcto a los clientes.

Proporciona todos los nodos de datos que comprenden bloques de datos para un archivo en particular. Con la ayuda de esto, cuando el sistema se inicia, restaura los datos de los nodos de datos cada vez.
HDFS incorpora un espacio de nombres de método de archivo que se ejecuta con Namenode para operaciones comunes como "abrir, cerrar y renombrar" archivos, e incluso para catalogar.

Datanode: es la segunda especificación técnica en el clúster HDFS. Suele funcionar uno por nodo en el clúster HDFS.

Los DataNodes son los métodos que funcionan como esclavos, permanecen en cada computadora en un modo de clúster e implementan el almacenamiento original. Atienden, leen y escriben solicitudes para los clientes.

Los 20 comandos principales de HDFS

Aquí hay una lista de todos los comandos HDFS :

1. Para obtener la lista de todos los archivos en el directorio raíz de HDFS

Comando: Uso: hdfs dfs [opciones genéricas] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<ruta>…]
Nota: aquí, elija la ruta desde la raíz, al igual que el sistema de archivos general de Linux. -h en Green Mark muestra que está en tamaños legibles por humanos, como se recomienda. -R en Blue Mark muestra que es diferente de numerosos para practicar en subdirectorios.

2. Ayuda

Comando: fs – ayuda
Nota: Imprime la salida larga que imprime todos los comandos.

3. Concatenar todos los archivos en un catálogo dentro de un solo archivo

Comando: hdfs dfs [opciones genéricas] -getmerge [-nl] <src> <localdst>
Nota: Esto generará un nuevo archivo en el directorio del sistema local que lleva todos los archivos desde un directorio raíz y los concatena todos juntos. La opción -nl, que está marcada en rojo, combina saltos de línea entre los archivos. Con la ayuda de este comando, puede combinar una colección de pequeños registros dentro de una selección para una operación diferente.

4. Mostrar uso de disco en megabytes para el directorio de registro: /dir

Comando: hdfs dfs [opciones genéricas] -du [-s] [-h] <ruta> …
Nota: La -h, que está marcada en azul, le da una salida legible de tamaño, es decir, Gigabytes.

5. Modificar el factor de replicación de un archivo

Comando: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Iniciar sesión
Nota: Es para factores de replicación, que cuentan por archivo, que se pueden replicar en cada clúster de Hadoop.

6. copiar de local

Comando: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
Nota: este comando es para copiar un archivo del sistema de archivos local a Hadoop FS

7.-rm -r

Comando: hadoop fs -rm -r /root/journaldev_bigdata
Nota: con la ayuda del comando rm-r, podemos eliminar un directorio HDFS completo

8. Eliminar

Comando: hadoop fs -expurgar
Nota: Esta eliminación realiza fragmentos vacíos.

9. fs-du

Comando: hadoop fs -du /root/journaldev_bigdata/
Nota: Este comando ayuda al uso del disco de archivos bajo HDFS en un directorio.

10.mkdir

Comando: hadoop fs -mkdir /root/journaldev_bigdata
Nota: este comando se utiliza para comprobar el estado de los archivos.

11.texto

Comando: hadoop fs -text <src>
Nota: Este comando se utiliza para visualizar el archivo .“sample zip” en formato de texto.

12. Estadística

Comando: hadoop fs -stat [formato] <ruta>
Nota: Este comando stat se usa para imprimir la información sobre el archivo 'test' presente en el directorio.

13. chmod: (Uso del comando Hadoop chmod)

Comando: hadoop fs -chmod [-R] <modo> <ruta>
Nota : este comando se usa para cambiar el permiso del archivo en "testfile".

14. agregar al archivo

Comando : hadoop fs -appendToFile <localsrc> <destino>
Nota: este comando se puede usar para agregar localfile1, localfile2 instantáneamente en el sistema de archivos local en el archivo especificado como 'appendfile' en el catálogo.

Suma de verificación

Comando: hadoop fs -checksum <src>
Nota: Este es el comando de shell que devuelve la información de la suma de comprobación.

Contar

Comando: hadoop fs -count [opciones] <ruta>
Nota : este comando se usa para contar la cantidad de archivos, directorios y bytes de la ruta especificada del archivo dado.

Encontrar

Comando: hadoop fs -find <ruta> … <expresión>
Nota: este comando se utiliza para buscar todos los archivos que coincidan con la expresión mencionada .

fusionarse

Comando: hadoop fs -getmerge <src> <localdest>
Nota: Este comando se usa para "Combinar archivo en local".

19. toquez

Comando : hadoop fs –touchz /directorio/nombre de archivo
Nota: Este comando genera un archivo en HDFS con un tamaño de archivo correspondiente a 0 bytes.

fs-ls

Comando : hadoop fs -ls
Nota: este comando genera una lista de archivos y subdirectorios disponibles en el directorio predeterminado.

Leer: Ecosistema y componentes de Hadoop

Conclusión

Con suerte, este artículo lo ayudó a comprender los comandos HDFS para ejecutar operaciones en el sistema de archivos Hadoop. El artículo ha descrito todos los comandos fundamentales de HDFS .

Si está interesado en saber más sobre Big Data, consulte nuestro programa PG Diploma in Software Development Specialization in Big Data, que está diseñado para profesionales que trabajan y proporciona más de 7 estudios de casos y proyectos, cubre 14 lenguajes y herramientas de programación, prácticas talleres, más de 400 horas de aprendizaje riguroso y asistencia para la colocación laboral con las mejores empresas.

Aprenda cursos de desarrollo de software en línea de las mejores universidades del mundo. Obtenga Programas PG Ejecutivos, Programas de Certificado Avanzado o Programas de Maestría para acelerar su carrera.

Domina la Tecnología del Futuro - Big Data

Programa de Certificado Avanzado en Big Data de IIIT Bangalore