20 лучших команд HDFS, о которых вы должны знать [2022]

Опубликовано: 2021-01-01

Hadoop — это структура Apache с открытым исходным кодом, которая обеспечивает распределенную обработку крупномасштабных наборов данных на нескольких рабочих станциях с помощью простых шаблонов программирования. Он работает в распределенной среде хранения с многочисленными кластерами компьютеров с лучшими характеристиками масштабируемости. Узнайте больше о HDFS и ее архитектуре.

Оглавление

Цели HDFS

1. Предоставляет крупномасштабную распределенную файловую систему

10 тыс. узлов, 100 млн файлов и 10 ПБ

2. Оптимизация пакетной обработки

Обеспечивает очень полную совокупную емкость

3. Предположим, товарное оборудование

Он обнаруживает сбой оборудования и восстанавливает его

Возможности использования существующего файла в случае сбоя оборудования

4. Лучшее интеллектуальное решение для клиентов

Клиент может найти расположение строительных лесов

Клиент может получить доступ к данным непосредственно из узлов данных

5. Согласованность данных

Клиент может добавлять к существующим файлам

Это модель доступа с однократной записью и многократным чтением.

6. Фрагменты репликации файлов и удобство использования

Файлы можно разбивать на многоузловые блоки размером 128 МБ и повторно использовать их.

7. Метаданные в памяти

Все метаданные хранятся в основной памяти

Метаданные находятся в списке файлов, списке блоков и списке узлов данных.

Журналы транзакций, он записывает создание и удаление файлов.

8. Правильность данных

Он использует контрольную сумму для проверки и преобразования данных.

Его клиент вычисляет контрольную сумму на 512 байт. Клиент извлекает данные и их контрольную сумму из узлов

Если проверки не пройдены, клиент может использовать процесс-реплику .

9. Процесс конвейерной обработки данных

Его клиент начинает начальный шаг записи с первых узлов

Первые узлы данных передают данные следующему узлу данных в конвейер.

Когда все модели записаны, клиент переходит к следующему шагу, чтобы записать следующий блок в файл.

Архитектура HDFS

Распределенная файловая система Hadoop (HDFS) состоит из блоков. Архитектура HDFS описывается как master/slave. Namenode и узел данных составляют архитектуру HDFS.

  1. Namenode: он функционирует как главный сервер для управления пространством имен файловой системы, а также обеспечивает правильный подход к доступу для клиентов.
  • Он предоставляет все узлы данных, содержащие блоки данных для конкретного файла. С помощью этого при запуске система каждый раз восстанавливает данные с узлов данных.
  • HDFS включает в себя пространство имен файловых методов, которое выполняется с Namenode для обычных операций, таких как «открытие, закрытие и переименование файлов» и даже для каталогизации.
  1. Datanode: это вторая спецификация метода в кластере HDFS. Обычно он работает по одному на узел в кластере HDFS.
  • DataNodes — это методы, которые работают как подчиненные, остаются на каждом компьютере в режиме кластера и реализуют исходное хранилище. Они обслуживают, читают и пишут запросы для клиентов.

20 лучших команд HDFS

Вот список всех команд HDFS :

1. Чтобы получить список всех файлов в корневом каталоге HDFS

  • Команда: Применение: hdfs dfs [общие параметры] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<путь>…]
  • Примечание. Здесь выберите путь от корня, как и в обычной файловой системе Linux. -h в зеленой метке показывает, что он имеет удобочитаемый размер, как и рекомендуется. -R в Blue Mark показывает, что он отличается от многих других, чтобы практиковаться в подкаталогах.

2. Помощь

  • Команда: фс - помощь
  • Примечание. Он печатает длинный вывод, в котором печатаются все команды.

3. Объедините все файлы в каталог в одном файле.

  • Команда: hdfs dfs [общие параметры] -getmerge [-nl] <src> <localdst>
  • Примечание. Это создаст новый файл в локальном системном каталоге, который содержит все файлы из корневого каталога и объединяет все вместе. Опция -nl, отмеченная красным цветом, объединяет новые строки между файлами. С помощью этой команды вы можете объединить набор небольших записей в пределах выборки для другой операции.

4. Показать использование диска в мегабайтах для каталога регистрации: /dir

  • Команда: hdfs dfs [общие параметры] -du [-s] [-h] <путь> …
  • Примечание. Параметр -h, отмеченный синим цветом, дает удобочитаемый вывод размера, т. е. гигабайт.

5. Изменение коэффициента репликации файла

  • Команда: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. журнал
  • Примечание. Это относится к факторам репликации, которые учитываются файлом, который может быть реплицирован в каждом кластере Hadoop.

6. копировать из локального

  • Команда: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
  • Примечание. Эта команда предназначена для копирования файла из локальной файловой системы в Hadoop FS.

7.-рм-р

  • Команда: hadoop fs -rm -r /root/journaldev_bigdata
  • Примечание. С помощью команды rm-r мы можем удалить весь каталог HDFS.

8. Удалить

  • Команда: hadoop fs -expunge
  • Примечание. Это удаление делает фрагменты пустыми.

9. фс -ду

  • Команда: hadoop fs -du /root/journaldev_bigdata/
  • Примечание. Эта команда помогает использовать на диске файлы в HDFS в каталоге.

10.mkdir

  • Команда: hadoop fs -mkdir /root/journaldev_bigdata
  • Примечание. Эта команда используется для проверки работоспособности файлов.

11.текст

  • Команда: hadoop fs -text <источник>
  • Примечание. Эта команда используется для визуализации файла ."sample zip" в текстовом формате.

12. Стат.

  • Команда: hadoop fs -stat [формат] <путь>
  • Примечание. Эта команда stat используется для вывода информации о «тестовом» файле, присутствующем в каталоге.

13. chmod : (Использование команды Hadoop chmod)

  • Команда: hadoop fs -chmod [-R] <режим> <путь>
  • Примечание . Эта команда используется для изменения прав доступа к файлу «testfile».

14. добавить к файлу

  • Команда : hadoop fs -appendToFile <localsrc> <dest>
  • Примечание. Эту команду можно использовать для мгновенного добавления localfile1, localfile2 в локальной файловой системе в файл, указанный как «appendfile» в каталоге.
  1. Контрольная сумма
  • Команда: hadoop fs -checksum <src>
  • Примечание. Это команда оболочки, которая возвращает информацию о контрольной сумме.
  1. Считать
  • Команда: hadoop fs -count [параметры] <путь>
  • Примечание . Эта команда используется для подсчета количества файлов, каталогов и байтов по указанному пути данного файла.
  1. Находить
  • Команда: hadoop fs -find <путь> … <выражение>
  • Примечание. Эта команда используется для поиска всех файлов, соответствующих указанному выражению .
  1. объединяться
  • Команда: hadoop fs -getmerge <src> <localdest>
  • Примечание. Эта команда используется для «Объединить файл в локальный».

19. тачз

  • Команда : hadoop fs –touchz /каталог/имя файла
  • Примечание. Эта команда создает файл в HDFS с размером файла, соответствующим 0 байтам.
  1. фс-лс
  • Команда : хадуп фс -лс
  • Примечание. Эта команда создает список доступных файлов и подкаталогов в каталоге по умолчанию.

Читайте: Экосистема и компоненты Hadoop

Заключение

Надеюсь, эта статья помогла вам понять команды HDFS для выполнения операций в файловой системе Hadoop. В статье описаны все основные команды HDFS .

Если вам интересно узнать больше о больших данных, ознакомьтесь с нашей программой PG Diploma в области разработки программного обеспечения со специализацией в области больших данных, которая предназначена для работающих профессионалов и включает более 7 тематических исследований и проектов, охватывает 14 языков и инструментов программирования, практические занятия. семинары, более 400 часов интенсивного обучения и помощь в трудоустройстве в ведущих фирмах.

Изучайте онлайн-курсы по разработке программного обеспечения в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Освойте технологии будущего — большие данные

Расширенная программа сертификации в области больших данных от IIIT Bangalore