20 лучших команд HDFS, о которых вы должны знать [2022]
Опубликовано: 2021-01-01Hadoop — это структура Apache с открытым исходным кодом, которая обеспечивает распределенную обработку крупномасштабных наборов данных на нескольких рабочих станциях с помощью простых шаблонов программирования. Он работает в распределенной среде хранения с многочисленными кластерами компьютеров с лучшими характеристиками масштабируемости. Узнайте больше о HDFS и ее архитектуре.
Оглавление
Цели HDFS
1. Предоставляет крупномасштабную распределенную файловую систему
10 тыс. узлов, 100 млн файлов и 10 ПБ
2. Оптимизация пакетной обработки
Обеспечивает очень полную совокупную емкость
3. Предположим, товарное оборудование

Он обнаруживает сбой оборудования и восстанавливает его
Возможности использования существующего файла в случае сбоя оборудования
4. Лучшее интеллектуальное решение для клиентов
Клиент может найти расположение строительных лесов
Клиент может получить доступ к данным непосредственно из узлов данных
5. Согласованность данных
Клиент может добавлять к существующим файлам
Это модель доступа с однократной записью и многократным чтением.
6. Фрагменты репликации файлов и удобство использования
Файлы можно разбивать на многоузловые блоки размером 128 МБ и повторно использовать их.
7. Метаданные в памяти
Все метаданные хранятся в основной памяти
Метаданные находятся в списке файлов, списке блоков и списке узлов данных.
Журналы транзакций, он записывает создание и удаление файлов.
8. Правильность данных
Он использует контрольную сумму для проверки и преобразования данных.
Его клиент вычисляет контрольную сумму на 512 байт. Клиент извлекает данные и их контрольную сумму из узлов
Если проверки не пройдены, клиент может использовать процесс-реплику .
9. Процесс конвейерной обработки данных
Его клиент начинает начальный шаг записи с первых узлов
Первые узлы данных передают данные следующему узлу данных в конвейер.
Когда все модели записаны, клиент переходит к следующему шагу, чтобы записать следующий блок в файл.
Архитектура HDFS
Распределенная файловая система Hadoop (HDFS) состоит из блоков. Архитектура HDFS описывается как master/slave. Namenode и узел данных составляют архитектуру HDFS.
- Namenode: он функционирует как главный сервер для управления пространством имен файловой системы, а также обеспечивает правильный подход к доступу для клиентов.
- Он предоставляет все узлы данных, содержащие блоки данных для конкретного файла. С помощью этого при запуске система каждый раз восстанавливает данные с узлов данных.
- HDFS включает в себя пространство имен файловых методов, которое выполняется с Namenode для обычных операций, таких как «открытие, закрытие и переименование файлов» и даже для каталогизации.
- Datanode: это вторая спецификация метода в кластере HDFS. Обычно он работает по одному на узел в кластере HDFS.
- DataNodes — это методы, которые работают как подчиненные, остаются на каждом компьютере в режиме кластера и реализуют исходное хранилище. Они обслуживают, читают и пишут запросы для клиентов.
20 лучших команд HDFS
Вот список всех команд HDFS :
1. Чтобы получить список всех файлов в корневом каталоге HDFS
- Команда: Применение: hdfs dfs [общие параметры] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<путь>…]
- Примечание. Здесь выберите путь от корня, как и в обычной файловой системе Linux. -h в зеленой метке показывает, что он имеет удобочитаемый размер, как и рекомендуется. -R в Blue Mark показывает, что он отличается от многих других, чтобы практиковаться в подкаталогах.
2. Помощь
- Команда: фс - помощь
- Примечание. Он печатает длинный вывод, в котором печатаются все команды.
3. Объедините все файлы в каталог в одном файле.
- Команда: hdfs dfs [общие параметры] -getmerge [-nl] <src> <localdst>
- Примечание. Это создаст новый файл в локальном системном каталоге, который содержит все файлы из корневого каталога и объединяет все вместе. Опция -nl, отмеченная красным цветом, объединяет новые строки между файлами. С помощью этой команды вы можете объединить набор небольших записей в пределах выборки для другой операции.
4. Показать использование диска в мегабайтах для каталога регистрации: /dir

- Команда: hdfs dfs [общие параметры] -du [-s] [-h] <путь> …
- Примечание. Параметр -h, отмеченный синим цветом, дает удобочитаемый вывод размера, т. е. гигабайт.
5. Изменение коэффициента репликации файла
- Команда: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. журнал
- Примечание. Это относится к факторам репликации, которые учитываются файлом, который может быть реплицирован в каждом кластере Hadoop.
6. копировать из локального
- Команда: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
- Примечание. Эта команда предназначена для копирования файла из локальной файловой системы в Hadoop FS.
7.-рм-р
- Команда: hadoop fs -rm -r /root/journaldev_bigdata
- Примечание. С помощью команды rm-r мы можем удалить весь каталог HDFS.
8. Удалить
- Команда: hadoop fs -expunge
- Примечание. Это удаление делает фрагменты пустыми.
9. фс -ду
- Команда: hadoop fs -du /root/journaldev_bigdata/
- Примечание. Эта команда помогает использовать на диске файлы в HDFS в каталоге.
10.mkdir
- Команда: hadoop fs -mkdir /root/journaldev_bigdata
- Примечание. Эта команда используется для проверки работоспособности файлов.
11.текст
- Команда: hadoop fs -text <источник>
- Примечание. Эта команда используется для визуализации файла ."sample zip" в текстовом формате.
12. Стат.
- Команда: hadoop fs -stat [формат] <путь>
- Примечание. Эта команда stat используется для вывода информации о «тестовом» файле, присутствующем в каталоге.
13. chmod : (Использование команды Hadoop chmod)
- Команда: hadoop fs -chmod [-R] <режим> <путь>
- Примечание . Эта команда используется для изменения прав доступа к файлу «testfile».
14. добавить к файлу

- Команда : hadoop fs -appendToFile <localsrc> <dest>
- Примечание. Эту команду можно использовать для мгновенного добавления localfile1, localfile2 в локальной файловой системе в файл, указанный как «appendfile» в каталоге.
- Контрольная сумма
- Команда: hadoop fs -checksum <src>
- Примечание. Это команда оболочки, которая возвращает информацию о контрольной сумме.
- Считать
- Команда: hadoop fs -count [параметры] <путь>
- Примечание . Эта команда используется для подсчета количества файлов, каталогов и байтов по указанному пути данного файла.
- Находить
- Команда: hadoop fs -find <путь> … <выражение>
- Примечание. Эта команда используется для поиска всех файлов, соответствующих указанному выражению .
- объединяться
- Команда: hadoop fs -getmerge <src> <localdest>
- Примечание. Эта команда используется для «Объединить файл в локальный».
19. тачз
- Команда : hadoop fs –touchz /каталог/имя файла
- Примечание. Эта команда создает файл в HDFS с размером файла, соответствующим 0 байтам.
- фс-лс
- Команда : хадуп фс -лс
- Примечание. Эта команда создает список доступных файлов и подкаталогов в каталоге по умолчанию.
Читайте: Экосистема и компоненты Hadoop
Заключение
Надеюсь, эта статья помогла вам понять команды HDFS для выполнения операций в файловой системе Hadoop. В статье описаны все основные команды HDFS .
Если вам интересно узнать больше о больших данных, ознакомьтесь с нашей программой PG Diploma в области разработки программного обеспечения со специализацией в области больших данных, которая предназначена для работающих профессионалов и включает более 7 тематических исследований и проектов, охватывает 14 языков и инструментов программирования, практические занятия. семинары, более 400 часов интенсивного обучения и помощь в трудоустройстве в ведущих фирмах.
Изучайте онлайн-курсы по разработке программного обеспечения в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.
