Top 20 poleceń HDFS, o których powinieneś wiedzieć [2022]

Opublikowany: 2021-01-01

Hadoop to struktura open source Apache, która umożliwia rozproszone przetwarzanie zbiorów danych o dużej skali na partiach stacji roboczych z prostymi wzorcami programowania. Działa w rozproszonym środowisku pamięci masowej z licznymi klastrami komputerów o najlepszych cechach skalowalności. Przeczytaj więcej o HDFS i jego architekturze.

Spis treści

Cele HDFS

1. Zapewnia rozproszony system plików na dużą skalę

10 000 węzłów, 100 milionów plików i 10 PB

2. Optymalizacja przetwarzania wsadowego

Zapewnia bardzo wszechstronną zagregowaną pojemność

3. Załóżmy sprzęt towarowy

Wykrywa awarię sprzętu i naprawia ją

Możliwości wykorzystania istniejącego pliku w przypadku awarii sprzętu

4. Najlepsze rozwiązanie Smart Client Intelligence

Klient może znaleźć lokalizację rusztowań

Klient może uzyskać dostęp do danych bezpośrednio z węzłów danych

5. Spójność danych

Klient może dołączyć do istniejących plików

Jest to model dostępu typu zapis-raz-odczyt-wiele

6. Fragmenty replikacji plików i użyteczności

Pliki mogą stanowić przerwę w blokach wielowęzłowych w rozmiarach bloków 128 MB i można je ponownie wykorzystać

7. Metadane w pamięci

Całe metadane są przechowywane w pamięci głównej

Metadane znajdują się na liście plików, liście bloków i liście węzłów danych

Dzienniki transakcji, rejestruje tworzenie i usuwanie plików

8. Poprawność danych

Wykorzystuje sumę kontrolną do sprawdzania poprawności i przekształcania danych.

Jego klient oblicza sumę kontrolną na 512 bajtów. Klient pobiera dane i ich sumę kontrolną z węzłów

Jeśli walidacja nie powiedzie się, klient może użyć procesu replikacji .

9. Proces przesyłania danych

Jego klient rozpoczyna pierwszy krok pisania od pierwszych węzłów

Pierwsze węzły danych przesyłają dane do następnego węzła danych do potoku

Kiedy wszystkie modele zostaną zapisane, klient przechodzi do następnego kroku, aby zapisać kolejny blok w pliku

Architektura HDFS

Rozproszony system plików Hadoop (HDFS) jest podzielony na bloki. Architektura HDFS jest opisana jako master/slave. Namenode i data node tworzą architekturę HDFS.

  1. Namenode: Działa jako serwer główny do zarządzania przestrzenią nazw systemu plików, a także zapewnia właściwe podejście do dostępu do klientów.
  • Zapewnia wszystkie węzły danych zawierające bloki danych dla konkretnego pliku. Dzięki temu system podczas startu każdorazowo odtwarza dane z węzłów danych.
  • HDFS zawiera przestrzeń nazw metody pliku, która jest wykonywana za pomocą Namenode dla typowych operacji, takich jak „otwieranie, zamykanie i zmiana nazwy pliku”, a nawet dla katalogu.
  1. Datanode: Jest to druga specyfikacja techniki w klastrze HDFS. Zwykle działa jeden na węzeł w klastrze HDFS.
  • DataNodes to metody, które działają jak urządzenia podrzędne, pozostają na każdym komputerze w trybie klastra i implementują oryginalną pamięć masową. Obsługują, czytają i piszą prośby dla klientów.

20 najlepszych poleceń HDFS

Oto lista wszystkich poleceń HDFS :

1. Aby uzyskać listę wszystkich plików w katalogu głównym HDFS

  • Polecenie: Użycie: hdfs dfs [opcje ogólne] -ls [-c] [-h] [-q] [-R] [-t] [-S] [-u] [<ścieżka>…]
  • Uwaga: Tutaj wybierz ścieżkę z katalogu głównego, podobnie jak ogólny system plików Linux. -h w zielonym znaku wskazuje, że jest w rozmiarach czytelnych dla człowieka, zgodnie z zaleceniami. -R w Blue Mark pokazuje, że różni się od wielu ćwiczyć w podkatalogach.

2. Pomoc

  • Polecenie: fs – pomoc
  • Uwaga: Drukuje długie dane wyjściowe, które drukują wszystkie polecenia

3. Połącz wszystkie pliki w katalog w jednym pliku

  • Polecenie: hdfs dfs [opcje ogólne] -getmerge [-nl] <src> <localdst>
  • Uwaga: Spowoduje to wygenerowanie nowego pliku w lokalnym katalogu systemowym, który przenosi wszystkie pliki z katalogu głównego i łączy je wszystkie razem. Opcja -nl, która jest zaznaczona na czerwono, łączy nowe wiersze między plikami. Za pomocą tego polecenia można połączyć zbiór małych rekordów w ramach selekcji w celu wykonania innej operacji.

4. Pokaż użycie dysku w megabajtach dla katalogu rejestru: /dir

  • Polecenie: hdfs dfs [opcje ogólne] -du [-s] [-h] <ścieżka> …
  • Uwaga: -h, które jest zaznaczone na niebiesko, daje czytelne dane wyjściowe o rozmiarze, tj. Gigabajty.

5. Modyfikowanie współczynnika replikacji pliku

  • Polecenie: hadoop fs -setrep -w 1 /root/journaldev_bigdata/derby. Dziennik
  • Uwaga: dotyczy współczynników replikacji, liczonych według pliku, który można replikować w każdym klastrze Hadoop.

6. kopiujZLokalnego

  • Polecenie: hadoop fs -copyFromLocal derby.log /root/journaldev_bigdata
  • Uwaga: To polecenie służy do kopiowania pliku z lokalnego systemu plików do Hadoop FS

7.-rm -r

  • Polecenie: hadoop fs -rm -r /root/journaldev_bigdata
  • Uwaga: za pomocą polecenia rm-r możemy usunąć cały katalog HDFS

8. Zniszcz

  • Polecenie: hadoop fs -expunge
  • Uwaga: To usuwanie powoduje, że fragmenty są puste.

9. fs -du

  • Polecenie: hadoop fs -du /root/journaldev_bigdata/
  • Uwaga: To polecenie pomaga w użyciu dysku w systemie plików HDFS w katalogu.

10.mkdir

  • Polecenie: hadoop fs -mkdir /root/journaldev_bigdata
  • Uwaga: To polecenie służy do sprawdzania kondycji plików.

11. tekst

  • Polecenie: hadoop fs -text <src>
  • Uwaga: To polecenie służy do wizualizacji pliku .„sample zip” w formacie tekstowym.

12. Statystyka

  • Polecenie: hadoop fs -stat [format] <ścieżka>
  • Uwaga: To polecenie stat służy do drukowania informacji o pliku „test” znajdującym się w katalogu.

13. chmod : (Użycie polecenia chmod Hadoop)

  • Polecenie: hadoop fs -chmod [-R] <tryb> <ścieżka>
  • Uwaga : To polecenie służy do zmiany uprawnień do pliku w „pliku testowym”.

14. dołącz do pliku

  • Polecenie : hadoop fs -appendToFile <localsrc> <doc>
  • Uwaga: To polecenie może być użyte do natychmiastowego dołączenia localfile1, localfile2 w lokalnym systemie plików do pliku określonego w katalogu jako 'appendfile'.
  1. Suma kontrolna
  • Polecenie: hadoop fs -checksum <src>
  • Uwaga: To jest polecenie powłoki, które zwraca informację o sumie kontrolnej.
  1. Liczyć
  • Polecenie: hadoop fs -count [opcje] <ścieżka>
  • Uwaga : To polecenie służy do zliczania liczby plików, katalogów i bajtów z określonej ścieżki danego pliku.
  1. Znajdować
  • Polecenie: hadoop fs -find <ścieżka> … <wyrażenie>
  • Uwaga: To polecenie służy do wyszukiwania wszystkich plików, które pasują do wymienionego wyrażenia .
  1. połączyć
  • Polecenie: hadoop fs -getmerge <src> <localdest>
  • Uwaga: To polecenie jest używane do „Połącz plik do lokalnego”.

19. dotykać

  • Polecenie : hadoop fs –touchz /katalog/nazwa pliku
  • Uwaga: To polecenie generuje plik w HDFS o rozmiarze odpowiadającym 0 bajtom.
  1. fs -ls
  • Polecenie : hadoop fs -ls
  • Uwaga: To polecenie generuje listę dostępnych plików i podkatalogów w katalogu domyślnym.

Przeczytaj: Ekosystem i komponenty Hadoop

Wniosek

Mamy nadzieję, że ten artykuł pomógł ci w zrozumieniu poleceń HDFS do wykonywania operacji na systemie plików Hadoop. W artykule opisano wszystkie podstawowe polecenia HDFS .

Jeśli chcesz dowiedzieć się więcej o Big Data, sprawdź nasz program PG Diploma in Software Development Specialization in Big Data, który jest przeznaczony dla pracujących profesjonalistów i zawiera ponad 7 studiów przypadków i projektów, obejmuje 14 języków programowania i narzędzi, praktyczne praktyczne warsztaty, ponad 400 godzin rygorystycznej pomocy w nauce i pośrednictwie pracy w najlepszych firmach.

Ucz się kursów rozwoju oprogramowania online z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Opanuj technologię przyszłości — Big Data

Zaawansowany program certyfikacji w Big Data z IIIT Bangalore