Os 20 principais comandos HDFS que você deve conhecer [2022]

Publicados: 2021-01-01

O Hadoop é uma estrutura de código aberto do Apache que permite o processamento distribuído de conjuntos de dados em larga escala em lotes de estações de trabalho com padrões de programação simples. Ele opera em um ambiente de armazenamento distribuído com vários clusters de computadores com os melhores recursos de escalabilidade. Leia mais sobre HDFS e sua arquitetura.

Índice

Objetivos do HDFS

1. Fornece um sistema de arquivos distribuídos em grande escala

10 mil nós, 100 milhões de arquivos e 10 PB

2. Otimização do Processamento em Lote

Fornece capacidade agregada muito abrangente

3. Assumir Hardware de Mercadoria

Ele detecta falha de hardware e a recupera

Possibilidades de consumir o arquivo existente se o hardware falhar

4. Melhor solução de inteligência de cliente inteligente

O cliente pode encontrar a localização dos andaimes

O cliente pode acessar os dados diretamente dos nós de dados

5. Consistência de dados

O cliente pode anexar aos arquivos existentes

É o modelo de acesso Write-once-Read-muitos

6. Pedaços de Replicação de Arquivos e Usabilidade

Os arquivos podem ser uma quebra em blocos de vários nós nos tamanhos de bloco de 128 MB e reutilizá-los

7. Meta-dados na memória

Todos os Meta-dados são armazenados na memória principal

Os metadados estão na lista de arquivos, uma lista de blocos e uma lista de nós de dados

Logs de transações, registra a criação de arquivos e exclusões de arquivos

8. Correção de dados

Ele usa a soma de verificação para validar e transformar os dados.

Seu cliente calcula a soma de verificação por 512 bytes. O cliente recupera os dados e sua soma de verificação dos nós

Se as validações falharem, o cliente poderá usar o replica-process .

9. Processo de Pipeline de Dados

Seu cliente inicia a etapa inicial de escrita a partir dos primeiros nós

Os primeiros nós de dados transmitem os dados para o próximo nó de dados do pipeline

Quando todos os modelos são escritos, o cliente passa para a próxima etapa para escrever o próximo bloco no arquivo

Arquitetura HDFS

O Hadoop Distributed File System (HDFS) é estruturado em blocos. A arquitetura HDFS é descrita como mestre/escravo. Namenode e nó de dados compõem a arquitetura HDFS.

Namenode: Funciona como um servidor mestre para gerenciar o namespace do sistema de arquivos e também fornece a abordagem de acesso correta aos clientes.

Ele fornece todos os nós de dados que compõem os blocos de dados para um arquivo específico. Com a ajuda disso, quando o sistema é iniciado, ele restaura os dados dos nós de dados todas as vezes.
O HDFS incorpora um namespace de método de arquivo que é executado com o Namenode para operações comuns como “abrir, fechar e renomear” arquivo e até mesmo para catálogo.

Datanode: É a segunda especificação técnica no cluster HDFS. Geralmente funciona um por nó no cluster HDFS.

DataNodes são os métodos que funcionam como escravos, permanecem em cada computador em modo de cluster e implementam o armazenamento original. Eles atendem, lêem e gravam solicitações para os clientes.

Os 20 principais comandos do HDFS

Aqui está uma lista de todos os comandos HDFS :

1. Para obter a lista de todos os arquivos no diretório raiz do HDFS

Comando: Uso: hdfs dfs [opções genéricas] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<path>…]
Nota: Aqui, escolha o caminho da raiz, assim como o sistema de arquivos geral do Linux. -h na marca verde mostra que está em tamanhos legíveis, conforme recomendado. -R em Blue Mark mostra que é diferente de vários praticar em subdiretórios.

2. Ajuda

Comando: fs – ajuda
Nota: Ele imprime a saída longa que imprime todos os comandos

3. Concatene todos os arquivos em um catálogo em um único arquivo

Comando: hdfs dfs [opções genéricas] -getmerge [-nl] <src> <localdst>
Nota: Isso irá gerar um novo arquivo no diretório do sistema local que carrega todos os arquivos de um diretório raiz e concatena todos juntos. A opção -nl, marcada em vermelho, combina novas linhas entre os arquivos. Com a ajuda deste comando, você pode combinar uma coleção de pequenos registros em uma seleção para uma operação diferente.

4. Mostre o uso do disco em megabytes para o diretório de registro: /dir

Comando: hdfs dfs [opções genéricas] -du [-s] [-h] <caminho> …
Nota: O -h, que está marcado em azul, fornece uma saída legível de tamanho, ou seja, Gigabytes.

5. Modificando o fator de replicação de um arquivo

Comando: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. registro
Nota: É para fatores de replicação, que contam por um arquivo, que pode ser replicado em cada cluster do Hadoop.

6. copie do local

Comando: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
Nota: Este comando é para copiar um arquivo do sistema de arquivos local para o Hadoop FS

7.-rm -r

Comando: hadoop fs -rm -r /root/journaldev_bigdata
Nota: Com a ajuda do comando rm-r, podemos remover um diretório HDFS inteiro

8. Expurgar

Comando: hadoop fs -expunge
Nota: Este expurgo executa fragmentos vazios.

9. fs -du

Comando: hadoop fs -du /root/journaldev_bigdata/
Nota: Este comando ajuda no uso do disco de arquivos em HDFS em um diretório.

10.mkdir

Comando: hadoop fs -mkdir /root/journaldev_bigdata
Nota: Este comando é usado para verificar a integridade dos arquivos.

11.texto

Comando: hadoop fs -text <src>
Nota: Este comando é utilizado para visualizar o arquivo .“sample zip” em formato texto.

12. Estatística

Comando: hadoop fs -stat [formato] <caminho>
Nota: Este comando stat é usado para imprimir as informações sobre o arquivo 'test' presente no diretório.

13. chmod : (Uso do comando chmod do Hadoop)

Comando: hadoop fs -chmod [-R] <modo> <caminho>
Nota : Este comando é usado para alterar a permissão do arquivo em “testfile”.

14. anexar ao arquivo

Comando : hadoop fs -appendToFile <localsrc> <dest>
Nota: Este comando pode ser usado para anexar o localfile1, localfile2 instantaneamente no sistema de arquivos local no arquivo especificado como 'appendfile' no catálogo.

Soma de verificação

Comando: hadoop fs -checksum <src>
Nota: Este é o comando shell que retorna as informações da soma de verificação.

Contar

Comando: hadoop fs -count [opções] <caminho>
Nota : Este comando é usado para contar o número de arquivos, diretórios e bytes do caminho especificado do arquivo fornecido.

Encontrar

Comando: hadoop fs -find <caminho> … <expressão>
Nota: Este comando é usado para localizar todos os arquivos que correspondem à expressão mencionada .

getmerge

Comando: hadoop fs -getmerge <src> <localdest>
Nota: Este comando é usado para “MergeFile into Local”.

19. toque

Comando : hadoop fs –touchz /directory/filename
Nota: Este comando gera um arquivo em HDFS com tamanho de arquivo correspondente a 0 bytes.

fs -ls

Comando : hadoop fs -ls
Nota: Este comando gera uma lista de arquivos e subdiretórios disponíveis no diretório padrão.

Leia: Ecossistema e componentes do Hadoop

Conclusão

Espero que este artigo tenha ajudado você a entender os comandos do HDFS para executar operações no sistema de arquivos Hadoop. O artigo descreveu todos os comandos fundamentais do HDFS .

Se você estiver interessado em saber mais sobre Big Data, confira nosso programa PG Diploma in Software Development Specialization in Big Data, projetado para profissionais que trabalham e fornece mais de 7 estudos de caso e projetos, abrange 14 linguagens e ferramentas de programação, práticas práticas workshops, mais de 400 horas de aprendizado rigoroso e assistência para colocação de emprego com as principais empresas.

Aprenda cursos de desenvolvimento de software online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Domine a tecnologia do futuro - Big Data

Programa Avançado de Certificação em Big Data do ITT Bangalore