35 pytań i odpowiedzi Must Know Big Data podczas wywiadu 2022: Dla nowicjuszy i doświadczonych

Opublikowany: 2021-01-05

Uczestniczysz w wywiadzie big data i zastanawiasz się, jakie są wszystkie pytania i dyskusje, przez które przejdziesz? Zanim weźmiesz udział w rozmowie kwalifikacyjnej dotyczącej dużych zbiorów danych, lepiej zorientuj się, jakiego rodzaju pytania dotyczą wywiadu dotyczącego dużych zbiorów danych, aby móc mentalnie przygotować na nie odpowiedzi.

Aby Ci pomóc, stworzyłem najczęstsze pytania i odpowiedzi dotyczące wywiadów na temat dużych zbiorów danych, aby zrozumieć głębię i prawdziwy cel pytań do wywiadów na temat dużych zbiorów danych.

Nie uwierzysz, jak ten program zmienił karierę studentów

Jesteśmy w erze Big Data i analityki. Ponieważ dane zasilają wszystko wokół nas, nastąpił nagły wzrost zapotrzebowania na wykwalifikowanych specjalistów od danych. Organizacje zawsze poszukują osób o wysokich kwalifikacjach, które mogą pomóc im zrozumieć ich stosy danych.

pytania do wywiadu dotyczącego dużych zbiorów danych

Słowem kluczowym jest tutaj „podwyższone umiejętności”, a zatem wywiady Big Data nie są tak naprawdę bułką z masłem. Jest kilka podstawowych pytań do rozmowy kwalifikacyjnej Big Data, które musisz znać, zanim weźmiesz udział w jednym z nich. Pomogą ci one znaleźć drogę.

Pytania zostały ułożone w kolejności, która pomoże Ci w podjęciu podstaw i osiągnięciu nieco zaawansowanego poziomu.

Pytania i odpowiedzi dotyczące wywiadu Big Data

1. Zdefiniuj Big Data i wyjaśnij Vs Big Data.

To jedno z najbardziej wstępnych, ale najważniejszych pytań do wywiadu Big Data. Odpowiedź na to jest dość prosta:

Big Data można zdefiniować jako zbiór złożonych, nieustrukturyzowanych lub częściowo ustrukturyzowanych zestawów danych, które mają potencjał dostarczania praktycznych spostrzeżeń.

najlepsze kursy krótkoterminowe

Cztery Vs Big Data to:
Głośność – mówi o ilości danych
Różnorodność – Rozmowy o różnych formatach danych
Velocity – Mówi o stale rosnącej prędkości, z jaką rosną dane
Veracity – mówi o stopniu dokładności dostępnych danych

Samouczek Big Data dla początkujących: wszystko, co musisz wiedzieć

2. W jaki sposób Hadoop jest powiązany z Big Data?

Kiedy mówimy o Big Data, mówimy o Hadoop. Jest to więc kolejne pytanie podczas rozmowy kwalifikacyjnej związane z Big Data, z którym na pewno spotkasz się podczas rozmowy kwalifikacyjnej.

Hadoop to platforma typu open source do przechowywania, przetwarzania i analizowania złożonych nieustrukturyzowanych zestawów danych w celu uzyskiwania wglądu i inteligencji.

3. Zdefiniuj HDFS i YARN i porozmawiaj o ich odpowiednich składnikach.

Teraz, gdy jesteśmy w strefie Hadoop, następne pytanie związane z wywiadem dotyczącym Big Data, z którym możesz się spotkać, będzie dotyczyło tego samego.

HDFS jest domyślną jednostką pamięci Hadoop i odpowiada za przechowywanie różnych typów danych w środowisku rozproszonym.

HDFS ma następujące dwa składniki:

NameNode — jest to węzeł główny, który zawiera informacje o metadanych dla wszystkich bloków danych w systemie HDFS.
DataNode – Są to węzły, które działają jako węzły podrzędne i są odpowiedzialne za przechowywanie danych.
YARN, skrót od Yet Another Resource Negotiator , odpowiada za zarządzanie zasobami i zapewnienie środowiska wykonawczego dla wspomnianych procesów.
Dwa główne składniki YARN to:
ResourceManager – Odpowiedzialny za przydzielanie zasobów do odpowiednich NodeManagerów w zależności od potrzeb.
NodeManager – Wykonuje zadania na każdym DataNode.
7 interesujących projektów Big Data, na które musisz uważać

4. Co masz na myśli mówiąc o sprzęcie towarowym?

To kolejne pytanie podczas rozmowy kwalifikacyjnej związane z Big Data, na które najprawdopodobniej natkniesz się podczas każdego wywiadu, na który zasiadasz.

Commodity Hardware odnosi się do minimalnych zasobów sprzętowych potrzebnych do uruchomienia platformy Apache Hadoop. Każdy sprzęt, który obsługuje minimalne wymagania Hadoop, jest znany jako „Sprzęt towarowy”.

5. Zdefiniuj i opisz pojęcie FSCK.

FSCK oznacza sprawdzanie systemu plików. Jest to polecenie służące do uruchamiania raportu podsumowującego usługi Hadoop, który opisuje stan systemu HDFS. Sprawdza tylko błędy i ich nie poprawia. To polecenie może być wykonane w całym systemie lub podzbiorze plików.

6. Do czego służy komenda JPS w Hadoop?

Komenda JPS służy do testowania działania wszystkich demonów Hadoop. W szczególności testuje demony, takie jak NameNode, DataNode, ResourceManager, NodeManager i inne.
(W każdym wywiadzie dotyczącym Big Data prawdopodobnie znajdziesz jedno pytanie dotyczące JPS i jego znaczenia.)
Big Data: narzędzia i technologie trzeba znać

7. Nazwij różne polecenia uruchamiania i zamykania demonów Hadoop.

To jedno z najważniejszych pytań do wywiadu Big Data, które pomoże ankieterowi ocenić Twoją wiedzę na temat poleceń.

Aby uruchomić wszystkie demony:
./sbin/start-all.sh

Aby wyłączyć wszystkie demony:
./sbin/stop-all.sh

8. Dlaczego potrzebujemy Hadoop do analizy Big Data?

Te pytania do rozmowy kwalifikacyjnej Hadoop sprawdzają Twoją świadomość w zakresie praktycznych aspektów Big Data i Analytics.

W większości przypadków Hadoop pomaga w eksplorowaniu i analizowaniu dużych i nieustrukturyzowanych zbiorów danych. Hadoop oferuje możliwości przechowywania, przetwarzania i gromadzenia danych, które pomagają w analityce.

9. Wyjaśnij różne cechy Hadoopa.

Wymienione w wielu pytaniach i odpowiedziach podczas wywiadów dotyczących Big Data, najlepszą odpowiedzią na to jest:

Open-Source – Hadoop to platforma typu open source. Pozwala na przepisanie lub modyfikację kodu zgodnie z wymaganiami użytkownika i analityki.
Skalowalność — Hadoop obsługuje dodawanie zasobów sprzętowych do nowych węzłów.
Odzyskiwanie danych — Hadoop podąża za replikacją, która umożliwia odzyskanie danych w przypadku jakiejkolwiek awarii.
Lokalizacja danych — oznacza to, że Hadoop przenosi obliczenia na dane, a nie na odwrót. W ten sposób cały proces przyspiesza.

10. Zdefiniuj numery portów dla NameNode, Task Tracker i Job Tracker.

NazwaNode – Port 50070
Śledzenie zadań — port 50060
Śledzenie zadań — port 50030

11. Co masz na myśli przez indeksowanie w HDFS?

HDFS indeksuje bloki danych na podstawie ich rozmiarów. Koniec bloku danych wskazuje adres, pod którym przechowywany jest następny fragment bloków danych. DataNodes przechowuje bloki danych, podczas gdy NameNode przechowuje te bloki danych.
Aplikacje Big Data w popkulturze

12. Czym są węzły brzegowe w Hadoop?

Węzły brzegowe to węzły bramy, które działają jako interfejs między klastrem Hadoop a siecią zewnętrzną. Węzły te uruchamiają aplikacje klienckie i narzędzia do zarządzania klastrami i są również używane jako obszary pomostowe. Węzły brzegowe wymagają możliwości przechowywania danych klasy korporacyjnej, a jeden węzeł brzegowy zwykle wystarcza dla wielu klastrów Hadoop.

13. Jakie są niektóre narzędzia do zarządzania danymi używane z węzłami Edge Nodes w Hadoop?

To pytanie do wywiadu Big Data ma na celu sprawdzenie Twojej świadomości w zakresie różnych narzędzi i ram.

Oozie, Ambari, Pig i Flume to najpopularniejsze narzędzia do zarządzania danymi współpracujące z węzłami Edge Nodes w Hadoop.

14. Wyjaśnij podstawowe metody Reduktora.

Istnieją trzy podstawowe metody reduktora. Oni są-

setup() — służy do konfigurowania różnych parametrów, takich jak rozmiar sterty, rozproszona pamięć podręczna i dane wejściowe.
Reduce() — parametr, który jest wywoływany raz na klawisz w odpowiednim zadaniu redukcji
cleanup() — czyści wszystkie pliki tymczasowe i wywoływane dopiero na końcu zadania reduktora.

15. Porozmawiaj o różnych znacznikach nagrobków używanych do usuwania w HBase.

To pytanie do wywiadu Big Data zagłębia się w Twoją wiedzę na temat HBase i jego działania.
Istnieją trzy główne znaczniki nagrobków używane do usuwania w HBase. Oni są-

Znacznik usunięcia rodziny — do zaznaczania wszystkich kolumn rodziny kolumn.
Znacznik usunięcia wersji — do oznaczania pojedynczej wersji pojedynczej kolumny.
Znacznik usunięcia kolumny — do oznaczania wszystkich wersji pojedynczej kolumny.
Inżynierowie Big Data: mity kontra rzeczywistość

16. W jaki sposób Big Data może zwiększyć wartość firmy?

Jedno z najczęstszych pytań w wywiadach dotyczących big data. W obecnym scenariuszu Big Data to wszystko. Jeśli masz dane, masz do dyspozycji najpotężniejsze narzędzie. Big Data Analytics pomaga firmom przekształcać surowe dane w znaczące i przydatne w działaniu spostrzeżenia, które mogą kształtować ich strategie biznesowe. Najważniejszym wkładem Big Data w biznes są decyzje biznesowe oparte na danych. Big Data umożliwia organizacjom opieranie swoich decyzji na konkretnych informacjach i spostrzeżeniach.

pytania do wywiadu dotyczącego dużych zbiorów danych

Ponadto Predictive Analytics umożliwia firmom tworzenie spersonalizowanych rekomendacji i strategii marketingowych dla różnych osób kupujących. Razem narzędzia i technologie Big Data pomagają zwiększyć przychody, usprawnić operacje biznesowe, zwiększyć produktywność i zwiększyć satysfakcję klientów. W rzeczywistości każdy, kto nie wykorzystuje dziś Big Data, traci ocean możliwości.

17. Jak wdrożyć rozwiązanie Big Data?

Rozwiązanie Big Data możesz wdrożyć w trzech krokach:

Pozyskiwanie danych – to pierwszy krok we wdrożeniu rozwiązania Big Data. Zaczynasz od zbierania danych z wielu źródeł, czy to z platform mediów społecznościowych, plików dziennika, dokumentów biznesowych, wszystkiego, co jest istotne dla Twojej firmy. Dane mogą być wyodrębniane poprzez przesyłanie strumieniowe w czasie rzeczywistym lub w zadaniach wsadowych.
Przechowywanie danych — po wyodrębnieniu danych należy je przechowywać w bazie danych. Może to być HDFS lub HBase. Podczas gdy pamięć masowa HDFS jest idealna do dostępu sekwencyjnego, HBase idealnie nadaje się do losowego dostępu do odczytu/zapisu.
Przetwarzanie danych – Ostatnim krokiem we wdrożeniu rozwiązania jest przetwarzanie danych. Zwykle przetwarzanie danych odbywa się za pośrednictwem platform, takich jak Hadoop, Spark, MapReduce, Flink i Pig, żeby wymienić tylko kilka.

18. Czym NFS różni się od HDFS?

Network File System (NFS) jest jednym z najstarszych rozproszonych systemów przechowywania plików, podczas gdy Hadoop Distributed File System (HDFS) znalazł się w centrum uwagi dopiero niedawno po wzroście Big Data.

Poniższa tabela przedstawia niektóre z najważniejszych różnic między NFS i HDFS:

NFS	HDFS
Może zarówno przechowywać, jak i przetwarzać niewielkie ilości danych.	Jest przeznaczony do przechowywania i przetwarzania Big Data.
Dane są przechowywane na dedykowanym sprzęcie.	Dane są podzielone na bloki danych, które są rozprowadzane na lokalnych dyskach sprzętu.
W przypadku awarii systemu nie masz dostępu do danych.	Dostęp do danych jest możliwy nawet w przypadku awarii systemu.
Ponieważ NFS działa na jednej maszynie, nie ma szans na nadmiarowość danych.	HDFS działa na klastrze maszyn, a zatem protokół replikacji może prowadzić do nadmiarowych danych.

19. Wymień różne uprawnienia do plików w HDFS dla plików lub poziomów katalogów.

Jedno z typowych pytań podczas wywiadów dotyczących big data. Rozproszony system plików Hadoop (HDFS) ma określone uprawnienia do plików i katalogów. W HDFS istnieją trzy poziomy użytkowników — właściciel, grupa i inni. Dla każdego z poziomów użytkownika dostępne są trzy uprawnienia:

przeczytaj (r)
napisz (w)
wykonaj(x).

Te trzy uprawnienia działają wyłącznie dla plików i katalogów.

Dla plików –

Uprawnienie r służy do odczytu pliku
Uprawnienie w służy do zapisywania pliku.

Chociaż istnieje uprawnienie do wykonywania(x), nie można uruchamiać plików HDFS.

Dla katalogów –

Uprawnienie r wyświetla zawartość określonego katalogu.
Uprawnienie w tworzy lub usuwa katalog.
Uprawnienie X umożliwia dostęp do katalogu podrzędnego.

20. Omów procesy, które nadpisują współczynniki replikacji w HDFS.

W HDFS istnieją dwa sposoby na nadpisanie współczynników replikacji – na podstawie pliku i na podstawie katalogu.

Na podstawie pliku

W tej metodzie współczynnik replikacji zmienia się w zależności od pliku korzystającego z powłoki Hadoop FS. Służy do tego następujące polecenie:

$hadoop fs – setrep –w2/my/test_file

Tutaj test_file odnosi się do nazwy pliku, którego współczynnik replikacji zostanie ustawiony na 2.

Na podstawie katalogu

Ta metoda zmienia współczynnik replikacji zgodnie z katalogiem, w związku z czym zmienia się współczynnik replikacji dla wszystkich plików w określonym katalogu. Służy do tego następujące polecenie:

$hadoop fs –setrep –w5/my/test_dir

Tutaj test_dir odnosi się do nazwy katalogu, dla którego współczynnik replikacji i wszystkie zawarte w nim pliki zostaną ustawione na 5.

21. Wymień trzy tryby, w których możesz uruchomić Hadoop.

Jedno z najczęstszych pytań w każdym wywiadzie dotyczącym big data. Trzy tryby to:

Tryb autonomiczny — jest to domyślny tryb usługi Hadoop, który używa lokalnego systemu plików zarówno do operacji wejścia, jak i wyjścia. Głównym celem trybu samodzielnego jest debugowanie. Nie obsługuje HDFS, a także nie ma niestandardowej konfiguracji wymaganej dla plików mapred-site.xml, core-site.xml i hdfs-site.xml.
Tryb pseudorozproszony — znany również jako klaster jednowęzłowy, tryb pseudorozproszony obejmuje zarówno NameNode, jak i DataNode na tej samej maszynie. W tym trybie wszystkie demony Hadoop będą działać na jednym węźle, a zatem węzły nadrzędny i podrzędny są takie same.
Tryb w pełni rozproszony — ten tryb jest znany jako klaster wielowęzłowy, w którym wiele węzłów działa jednocześnie w celu wykonywania zadań Hadoop . Tutaj wszystkie demony Hadoop działają na różnych węzłach. Tak więc węzły Master i Slave działają osobno.

22. Wyjaśnij „Przesadne dopasowanie”.

Nadmierne dopasowanie odnosi się do błędu modelowania, który występuje, gdy funkcja jest ściśle dopasowana (pod wpływem ograniczonego zestawu punktów danych). Nadmierne dopasowanie skutkuje nadmiernie złożonym modelem, który dodatkowo utrudnia wyjaśnienie osobliwości lub idiosynkrazji dostępnych danych. Ponieważ niekorzystnie wpływa to na zdolność modelu do uogólniania, trudno jest określić iloraz predykcyjny przesadnie dopasowanych modeli. Modele te nie działają w przypadku zastosowania do danych zewnętrznych (danych, które nie są częścią danych przykładowych) lub nowych zestawów danych.

Overfitting to jeden z najczęstszych problemów w uczeniu maszynowym. Model jest uważany za przesadnie dopasowany, gdy działa lepiej w zestawie uczącym, ale zawodzi w zestawie testowym. Istnieje jednak wiele metod zapobiegania problemowi nadmiernego dopasowania, takich jak walidacja krzyżowa, przycinanie, wczesne zatrzymywanie, regularyzacja i montaż.

23. Co to jest wybór funkcji?

Wybór funkcji odnosi się do procesu wyodrębniania tylko wymaganych funkcji z określonego zestawu danych. Gdy dane są wyodrębniane z różnych źródeł, nie wszystkie dane są przydatne przez cały czas — różne potrzeby biznesowe wymagają różnych spostrzeżeń dotyczących danych. W tym miejscu pojawia się wybór funkcji, aby zidentyfikować i wybrać tylko te funkcje, które są istotne dla określonego wymagania biznesowego lub etapu przetwarzania danych.

Głównym celem doboru cech jest uproszczenie modeli ML, aby ułatwić ich analizę i interpretację. Dobór cech zwiększa możliwości generalizacji modelu i eliminuje problemy wymiarowości, zapobiegając tym samym możliwościom nadmiernego dopasowania. W ten sposób wybór cech zapewnia lepsze zrozumienie badanych danych, poprawia wydajność predykcyjną modelu i znacznie skraca czas obliczeń.

Wyboru funkcji można dokonać za pomocą trzech technik:

Metoda filtrów

W tej metodzie wybrane cechy nie są zależne od wyznaczonych klasyfikatorów. Technika rankingu zmiennych służy do wybierania zmiennych do celów porządkowania. Podczas procesu klasyfikacji technika rankingu zmiennych uwzględnia wagę i użyteczność cechy. Test chi-kwadrat, próg wariancji i wzmocnienie informacji to tylko niektóre przykłady metody filtrów.

Metoda owijarek

W tej metodzie algorytm używany do wyboru podzbioru cech istnieje jako „opakowanie” wokół algorytmu indukcyjnego. Algorytm indukcyjny działa jak „czarna skrzynka”, która tworzy klasyfikator, który będzie dalej wykorzystywany w klasyfikacji cech. Główną wadą lub ograniczeniem metody opakowującej jest to, że aby uzyskać podzbiór cech, należy wykonać ciężką pracę obliczeniową. Algorytmy genetyczne, sekwencyjny wybór cech i rekursywna eliminacja cech są przykładami metody opakowującej.

Metoda wbudowana

Metoda osadzona łączy w sobie to, co najlepsze z obu światów – zawiera najlepsze cechy filtrów i metod owijających. W tej metodzie selekcja zmiennych odbywa się w trakcie procesu uczenia, co pozwala na zidentyfikowanie cech, które są najdokładniejsze dla danego modelu. Technika regularyzacji L1 i Regresja grzbietowa to dwa popularne przykłady metody osadzonej.

24. Zdefiniuj „Odstające”.

Wartość odstająca odnosi się do punktu danych lub obserwacji, która znajduje się w nienormalnej odległości od innych wartości w losowej próbce. Innymi słowy, wartości odstające to wartości, które są daleko od grupy; nie należą do żadnego konkretnego klastra ani grupy w zestawie danych. Obecność wartości odstających zwykle wpływa na zachowanie modelu – mogą wprowadzać w błąd proces uczenia algorytmów ML. Niektóre z negatywnych skutków wartości odstających obejmują dłuższy czas szkolenia, niedokładne modele i słabe wyniki.

Jednak wartości odstające mogą czasami zawierać cenne informacje. Dlatego muszą być dokładnie zbadane i odpowiednio potraktowane.

25. Wymień kilka technik wykrywania wartości odstających.

Znowu jedno z najważniejszych pytań do wywiadu Big Data. Oto sześć metod wykrywania wartości odstających:

Analiza wartości ekstremalnych — ta metoda określa statystyczne ogony rozkładu danych. Metody statystyczne, takie jak „wyniki z” na danych jednowymiarowych, są doskonałym przykładem analizy wartości ekstremalnych.
Modele probabilistyczne i statystyczne — ta metoda określa „nieprawdopodobne przypadki” na podstawie „probabilistycznego modelu” danych. Dobrym przykładem jest optymalizacja modeli mieszanin Gaussa przy użyciu „maksymalizacji oczekiwań”.
Modele liniowe — ta metoda modeluje dane w niższych wymiarach. Modele oparte na bliskości — w tym podejściu instancje danych, które są odizolowane od grupy danych, są określane przez analizę skupień, gęstości lub analizę najbliższego sąsiedztwa.
Modele teoretyczne — to podejście ma na celu wykrywanie wartości odstających jako złych instancji danych, które zwiększają złożoność zestawu danych.
High-Dimensional Outlier Detection — ta metoda identyfikuje podprzestrzenie dla wartości odstających na podstawie miar odległości w wyższych wymiarach.

26. Wyjaśnij świadomość szafy w Hadoop.

Rack Awareness to jedno z popularnych pytań do wywiadów dotyczących Big Data. Świadomość Rach to algorytm, który identyfikuje i wybiera DataNode bliższe NameNode na podstawie informacji o ich szafie. Jest stosowany do NameNode w celu określenia, w jaki sposób zostaną umieszczone bloki danych i ich repliki. Podczas procesu instalacji domyślnym założeniem jest, że wszystkie węzły należą do tej samej szafy.

Świadomość stojaka pomaga:

Popraw niezawodność i dostępność danych.
Popraw wydajność klastra.
Popraw przepustowość sieci.
Utrzymuj przepływ masowy w stojaku, kiedy tylko jest to możliwe.
Zapobiegaj utracie danych w przypadku całkowitej awarii szafy.

27. Czy możesz odzyskać NameNode, gdy jest wyłączony? Jeśli tak to jak?

Tak, możliwe jest odzyskanie NameNode, gdy nie działa. Oto jak możesz to zrobić:

Użyj FsImage (repliki metadanych systemu plików), aby uruchomić nowy NameNode.
Skonfiguruj DataNode wraz z klientami, aby mogli potwierdzać i odwoływać się do nowo uruchomionego NameNode.
Gdy nowo utworzony NameNode zakończy ładowanie ostatniego punktu kontrolnego procesu ładowania FsImage (który otrzymał już wystarczającą liczbę raportów blokowych z DataNodes), będzie gotowy do rozpoczęcia obsługi klienta.

Jednak proces odzyskiwania NameNode jest możliwy tylko w przypadku mniejszych klastrów. W przypadku dużych klastrów Hadoop proces odzyskiwania zwykle zajmuje dużo czasu, co czyni go dość trudnym zadaniem.

28. Nazwij parametry konfiguracyjne struktury MapReduce.

Parametry konfiguracyjne w strukturze MapReduce obejmują:

Format wejściowy danych.
Format wyjściowy danych.
Wejściowa lokalizacja zadań w rozproszonym systemie plików.
Wyjściowa lokalizacja zadań w rozproszonym systemie plików.
Klasa zawierająca funkcję map
Klasa zawierająca funkcję Reduce
Plik JAR zawierający klasy mapera, reduktora i sterownika.

29. Co to jest rozproszona pamięć podręczna? Jakie są jego zalety?

Żaden przewodnik dotyczący pytań i odpowiedzi dotyczących wywiadu dotyczącego Big Data nie będzie kompletny bez tego pytania. Rozproszona pamięć podręczna w Hadoop to usługa oferowana przez platformę MapReduce służąca do buforowania plików. Jeśli plik jest buforowany dla określonego zadania, Hadoop udostępnia go w poszczególnych DataNodes zarówno w pamięci, jak iw systemie, w którym jednocześnie wykonywane są zadania mapowania i redukcji. Pozwala to na szybki dostęp i odczytanie plików z pamięci podręcznej w celu wypełnienia dowolnej kolekcji (takiej jak tablice, mapy haszowania itp.) w kodzie.

Rozproszona pamięć podręczna oferuje następujące korzyści:

Dystrybuuje proste, tylko do odczytu pliki tekstowe/dane i inne złożone typy, takie jak słoiki, archiwa itp.
Śledzi znaczniki czasu modyfikacji plików pamięci podręcznej, które wyróżniają pliki, które nie powinny być modyfikowane, dopóki zadanie nie zostanie pomyślnie wykonane.

30. Co to jest SequenceFile w Hadoop?

W Hadoop SequenceFile to płaski plik zawierający binarne pary klucz-wartość. Jest najczęściej używany w formatach MapReduce I/O. Dane wyjściowe mapy są przechowywane wewnętrznie jako SequenceFile, który zapewnia klasy czytelnika, pisarza i sortera.

Istnieją trzy formaty SequenceFile:

Nieskompresowane rekordy klucz-wartość
Rejestruj skompresowane rekordy klucz-wartość (skompresowane są tylko „wartości”).
Blokuj skompresowane rekordy klucz-wartość (w tym przypadku zarówno klucze, jak i wartości są zbierane osobno w „blokach”, a następnie kompresowane).

31. Wyjaśnij rolę JobTrackera.

Jedno z typowych pytań podczas wywiadów dotyczących big data. Podstawową funkcją JobTracker jest zarządzanie zasobami, co zasadniczo oznacza zarządzanie TaskTrackerami. Oprócz tego JobTracker śledzi również dostępność zasobów i obsługuje zarządzanie cyklem życia zadań (śledzenie postępu zadań i ich odporności na błędy).

Niektóre kluczowe cechy JobTrackera to:

Jest to proces, który działa na oddzielnym węźle (nie na DataNode).
Komunikuje się z NameNode w celu zidentyfikowania lokalizacji danych.
Śledzi wykonywanie obciążeń MapReduce.
Przydziela węzły TaskTracker na podstawie dostępnych slotów.
Monitoruje każdy TaskTracker i przesyła klientowi ogólny raport z zadania.
Znajduje najlepsze węzły TaskTracker do wykonywania określonych zadań na poszczególnych węzłach.

32. Nazwij popularne formaty wejściowe w Hadoop.

Hadoop ma trzy popularne formaty wejściowe:

Format wprowadzania tekstu — jest to domyślny format wprowadzania w Hadoop.
Sequence File Input Format – Ten format wejściowy jest używany do odczytywania plików w sekwencji.
Key-Value Input Format – Ten format wejściowy jest używany dla zwykłych plików tekstowych (plików podzielonych na wiersze).

33. Jaka jest potrzeba lokalizacji danych w Hadoop?

Jedno z ważnych pytań do wywiadu dotyczącego dużych zbiorów danych. W systemie HDFS zestawy danych są przechowywane jako bloki w DataNodes w klastrze Hadoop. Gdy wykonywane jest zadanie MapReduce, pojedynczy program mapujący przetwarza bloki danych (podziały wejściowe). Jeśli dane nie są obecne w tym samym węźle, w którym program Mapper wykonuje zadanie, dane muszą zostać skopiowane z DataNode, w którym znajdują się w sieci, do DataNode programu Mapper.

Gdy zadanie MapReduce ma ponad sto Mapperów, a każdy Mapper DataNode próbuje jednocześnie kopiować dane z innego DataNode w klastrze, prowadzi to do przeciążenia sieci, co ma negatywny wpływ na ogólną wydajność systemu. W tym miejscu do scenariusza wkracza lokalizacja danych. Zamiast przenosić duży fragment danych do obliczeń, lokalizacja danych przenosi obliczenia blisko miejsca, w którym znajdują się rzeczywiste dane w węźle DataNode. Pomaga to poprawić ogólną wydajność systemu bez powodowania niepotrzebnych opóźnień.

34. Jakie są kroki, aby osiągnąć bezpieczeństwo w Hadoop?

W Hadoop Kerberos — protokół uwierzytelniania sieciowego — służy do zapewnienia bezpieczeństwa. Kerberos został zaprojektowany tak, aby oferować niezawodne uwierzytelnianie dla aplikacji klient/serwer za pomocą kryptografii klucza tajnego.

Kiedy używasz protokołu Kerberos w celu uzyskania dostępu do usługi, musisz wykonać trzy kroki, z których każdy obejmuje wymianę wiadomości z serwerem. Kroki są następujące:

Uwierzytelnianie — jest to pierwszy krok, w którym klient jest uwierzytelniany za pośrednictwem serwera uwierzytelniania, po czym klient otrzymuje bilet TGT ze znacznikiem czasu (Ticket Granting Ticket).
Autoryzacja – W drugim kroku klient używa biletu TGT do żądania biletu serwisowego z TGS (Serwer przyznający bilety).
Żądanie usługi — w ostatnim kroku klient używa biletu usługi do uwierzytelnienia się na serwerze.

35. Jak radzić sobie z brakami danych w Big Data?

Ostatnie pytanie w naszym przewodniku po pytaniach i odpowiedziach dotyczących wywiadu dotyczącego dużych zbiorów danych. Brakujące wartości odnoszą się do wartości, których nie ma w kolumnie. Występuje, gdy w obserwacji nie ma wartości danych dla zmiennej. Jeśli brakujące wartości nie są odpowiednio obsługiwane, może to prowadzić do błędnych danych, co z kolei będzie generować nieprawidłowe wyniki. Dlatego zdecydowanie zaleca się prawidłowe traktowanie brakujących wartości przed przetworzeniem zestawów danych. Zwykle, jeśli liczba braków danych jest niewielka, dane są usuwane, ale jeśli brakuje ich dużej ilości, preferowanym sposobem działania jest imputacja danych.

W Statystyce istnieją różne sposoby oszacowania brakujących wartości. Obejmują one regresję, wielokrotne imputacje danych, usuwanie listowe/parami, szacowanie maksymalnego prawdopodobieństwa i przybliżony bootstrap bayesowski.

Wniosek

Mamy nadzieję, że nasz przewodnik po pytaniach i odpowiedziach dotyczących Big Data będzie pomocny. Będziemy regularnie aktualizować przewodnik, aby być na bieżąco.

Jeśli chcesz dowiedzieć się więcej o Big Data, sprawdź nasz program PG Diploma in Software Development Specialization in Big Data, który jest przeznaczony dla pracujących profesjonalistów i zawiera ponad 7 studiów przypadków i projektów, obejmuje 14 języków programowania i narzędzi, praktyczne praktyczne warsztaty, ponad 400 godzin rygorystycznej pomocy w nauce i pośrednictwie pracy w najlepszych firmach.

Ucz się kursów rozwoju oprogramowania online z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Poprowadź rewolucję technologiczną opartą na danych

400+ godzin nauki. 14 języków i narzędzi. Status absolwentów IIIT-B.

Zaawansowany program certyfikacji w Big Data z IIIT Bangalore