Los 20 comandos principales de HDFS que debe conocer [2022]
Publicado: 2021-01-01Hadoop es una estructura de código abierto de Apache que permite el procesamiento distribuido de conjuntos de datos a gran escala en lotes de estaciones de trabajo con patrones de programación simples. Opera en un entorno de almacenamiento distribuido con numerosos clústeres de computadoras con las mejores características de escalabilidad. Lea más sobre HDFS y su arquitectura.
Tabla de contenido
Objetivos de HDFS
1. Proporciona un sistema de archivos distribuidos a gran escala
10k nodos, 100 millones de archivos y 10 PB
2. Optimización del procesamiento por lotes
Proporciona una capacidad agregada muy completa
3. Asumir hardware básico

Detecta fallas de hardware y las recupera
Posibilidades de consumir el archivo existente si el hardware falla
4. La mejor solución inteligente de inteligencia de clientes
El cliente puede encontrar la ubicación de los andamios
El cliente puede acceder a los datos directamente desde los nodos de datos.
5. Consistencia de datos
El cliente puede agregar a los archivos existentes
Es el modelo de acceso Write-once-Read-many
6. Fragmentos de replicación de archivos y usabilidad
Los archivos pueden ser una ruptura en bloques de múltiples nodos en los tamaños de bloque de 128 MB y reutilizarlos
7. Metadatos en la memoria
Todos los metadatos se almacenan en la memoria principal
Los metadatos están en la lista de archivos, una lista de bloques y una lista de nodos de datos
Registros de transacciones, registra la creación y eliminación de archivos
8. Corrección de datos
Utiliza la suma de comprobación para validar y transformar los datos.
Su cliente calcula la suma de comprobación por 512 bytes. El cliente recupera los datos y su suma de comprobación de los nodos.
Si las validaciones fallan, el cliente puede usar el proceso de réplica .
9. Proceso de canalización de datos
Su cliente inicia el paso inicial de escritura desde los primeros nodos
Los primeros nodos de datos transmiten los datos al siguiente nodo de datos a la canalización
Cuando se escriben todos los modelos, el cliente pasa al siguiente paso para escribir el siguiente bloque en el archivo.
Arquitectura HDFS
El sistema de archivos distribuidos de Hadoop (HDFS) está estructurado en bloques. La arquitectura HDFS se describe como maestra/esclava. El nodo de nombre y el nodo de datos conforman la arquitectura HDFS.
- Namenode: funciona como un servidor maestro para administrar el espacio de nombres del sistema de archivos y también proporciona el enfoque de acceso correcto a los clientes.
- Proporciona todos los nodos de datos que comprenden bloques de datos para un archivo en particular. Con la ayuda de esto, cuando el sistema se inicia, restaura los datos de los nodos de datos cada vez.
- HDFS incorpora un espacio de nombres de método de archivo que se ejecuta con Namenode para operaciones comunes como "abrir, cerrar y renombrar" archivos, e incluso para catalogar.
- Datanode: es la segunda especificación técnica en el clúster HDFS. Suele funcionar uno por nodo en el clúster HDFS.
- Los DataNodes son los métodos que funcionan como esclavos, permanecen en cada computadora en un modo de clúster e implementan el almacenamiento original. Atienden, leen y escriben solicitudes para los clientes.
Los 20 comandos principales de HDFS
Aquí hay una lista de todos los comandos HDFS :
1. Para obtener la lista de todos los archivos en el directorio raíz de HDFS
- Comando: Uso: hdfs dfs [opciones genéricas] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<ruta>…]
- Nota: aquí, elija la ruta desde la raíz, al igual que el sistema de archivos general de Linux. -h en Green Mark muestra que está en tamaños legibles por humanos, como se recomienda. -R en Blue Mark muestra que es diferente de numerosos para practicar en subdirectorios.
2. Ayuda
- Comando: fs – ayuda
- Nota: Imprime la salida larga que imprime todos los comandos.
3. Concatenar todos los archivos en un catálogo dentro de un solo archivo
- Comando: hdfs dfs [opciones genéricas] -getmerge [-nl] <src> <localdst>
- Nota: Esto generará un nuevo archivo en el directorio del sistema local que lleva todos los archivos desde un directorio raíz y los concatena todos juntos. La opción -nl, que está marcada en rojo, combina saltos de línea entre los archivos. Con la ayuda de este comando, puede combinar una colección de pequeños registros dentro de una selección para una operación diferente.
4. Mostrar uso de disco en megabytes para el directorio de registro: /dir

- Comando: hdfs dfs [opciones genéricas] -du [-s] [-h] <ruta> …
- Nota: La -h, que está marcada en azul, le da una salida legible de tamaño, es decir, Gigabytes.
5. Modificar el factor de replicación de un archivo
- Comando: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Iniciar sesión
- Nota: Es para factores de replicación, que cuentan por archivo, que se pueden replicar en cada clúster de Hadoop.
6. copiar de local
- Comando: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
- Nota: este comando es para copiar un archivo del sistema de archivos local a Hadoop FS
7.-rm -r
- Comando: hadoop fs -rm -r /root/journaldev_bigdata
- Nota: con la ayuda del comando rm-r, podemos eliminar un directorio HDFS completo
8. Eliminar
- Comando: hadoop fs -expurgar
- Nota: Esta eliminación realiza fragmentos vacíos.
9. fs-du
- Comando: hadoop fs -du /root/journaldev_bigdata/
- Nota: Este comando ayuda al uso del disco de archivos bajo HDFS en un directorio.
10.mkdir
- Comando: hadoop fs -mkdir /root/journaldev_bigdata
- Nota: este comando se utiliza para comprobar el estado de los archivos.
11.texto
- Comando: hadoop fs -text <src>
- Nota: Este comando se utiliza para visualizar el archivo .“sample zip” en formato de texto.
12. Estadística
- Comando: hadoop fs -stat [formato] <ruta>
- Nota: Este comando stat se usa para imprimir la información sobre el archivo 'test' presente en el directorio.
13. chmod: (Uso del comando Hadoop chmod)
- Comando: hadoop fs -chmod [-R] <modo> <ruta>
- Nota : este comando se usa para cambiar el permiso del archivo en "testfile".
14. agregar al archivo

- Comando : hadoop fs -appendToFile <localsrc> <destino>
- Nota: este comando se puede usar para agregar localfile1, localfile2 instantáneamente en el sistema de archivos local en el archivo especificado como 'appendfile' en el catálogo.
- Suma de verificación
- Comando: hadoop fs -checksum <src>
- Nota: Este es el comando de shell que devuelve la información de la suma de comprobación.
- Contar
- Comando: hadoop fs -count [opciones] <ruta>
- Nota : este comando se usa para contar la cantidad de archivos, directorios y bytes de la ruta especificada del archivo dado.
- Encontrar
- Comando: hadoop fs -find <ruta> … <expresión>
- Nota: este comando se utiliza para buscar todos los archivos que coincidan con la expresión mencionada .
- fusionarse
- Comando: hadoop fs -getmerge <src> <localdest>
- Nota: Este comando se usa para "Combinar archivo en local".
19. toquez
- Comando : hadoop fs –touchz /directorio/nombre de archivo
- Nota: Este comando genera un archivo en HDFS con un tamaño de archivo correspondiente a 0 bytes.
- fs-ls
- Comando : hadoop fs -ls
- Nota: este comando genera una lista de archivos y subdirectorios disponibles en el directorio predeterminado.
Leer: Ecosistema y componentes de Hadoop
Conclusión
Con suerte, este artículo lo ayudó a comprender los comandos HDFS para ejecutar operaciones en el sistema de archivos Hadoop. El artículo ha descrito todos los comandos fundamentales de HDFS .
Si está interesado en saber más sobre Big Data, consulte nuestro programa PG Diploma in Software Development Specialization in Big Data, que está diseñado para profesionales que trabajan y proporciona más de 7 estudios de casos y proyectos, cubre 14 lenguajes y herramientas de programación, prácticas talleres, más de 400 horas de aprendizaje riguroso y asistencia para la colocación laboral con las mejores empresas.
Aprenda cursos de desarrollo de software en línea de las mejores universidades del mundo. Obtenga Programas PG Ejecutivos, Programas de Certificado Avanzado o Programas de Maestría para acelerar su carrera.
