28 najlepszych pytań i odpowiedzi na wywiad z inżynierem danych dla początkujących i doświadczonych

Opublikowany: 2020-03-11

Przygotowujesz się do rozmowy, ale nie wiesz, jak się do tego zabrać? Możesz zacząć od naszej listy pytań i odpowiedzi podczas rozmowy kwalifikacyjnej inżyniera danych.

Wywiady z inżynierami danych są jednymi z najtrudniejszych do złamania. Tyle powinieneś wiedzieć. Ale nie martw się, ponieważ nasza lista pytań do rozmowy kwalifikacyjnej pomoże Ci w tym zakresie. Po przejrzeniu tej listy poznasz odpowiedzi na wiele ważnych pytań, które może zadać rekruter. Ta lista da ci również wyobrażenie o tym, czego powinieneś się uczyć i czego nauczyć, przygotowując się do rozmowy kwalifikacyjnej.

Zacznijmy.

Najlepsze pytania i odpowiedzi dotyczące wywiadu z inżynierem danych

P.1 – Co to jest inżynieria danych?

Inżynieria danych to podejście inżynierii oprogramowania do tworzenia i projektowania systemów informatycznych. Koncentruje się na gromadzeniu i analizie danych. Podczas gdy analitycy danych wykonują różne zadania z wykorzystaniem danych big data, ktoś musi wcześniej zebrać wszystkie te dane, a inżynierowie danych wykonują to zadanie. Inżynierowie danych odpowiadają również za rozwój i utrzymanie baz danych. Inżynierowie danych przekształcają surowe dane w dane użyteczne.

P.2 – Co rozumiesz przez modelowanie danych?

Kiedy tworzysz model danych dla systemu informacyjnego, aby móc śledzić jego dane, nazywa się to modelowaniem danych. Te modele danych stają się tabelami w DB (bazie danych). Na przykład, jeśli chcesz analizować zachowania swoich klientów, każdy klient w Twojej bazie danych będzie modelem danych. Jest to koncepcyjna reprezentacja wartości danych związanych z regułami.

P.3 – Co to jest Hadoop?

Hadoop to kolekcja narzędzi typu open source, która umożliwia korzystanie z sieci wielu komputerów do rozwiązywania problemów związanych z dużymi zbiorami danych. Posiada różne komponenty, które pozwalają przetwarzać masowe ilości danych. Twórcą Hadoop jest fundacja Apache. Jego obszerna kolekcja narzędzi i komponentów umożliwia wydajne wykonywanie wielu zaawansowanych aplikacji do obsługi dużych zbiorów danych.

P.4 – Jakie są różne składniki Hadoop?

Hadoop składa się głównie z 4 komponentów i są to HDFS, MapReduce, YARN i Hadoop Common.

HDFS to system plików, który przechowuje wszystkie dane Hadoop. Ma dużą przepustowość jako rozproszony system pamięci masowej.

MapReduce przetwarza duże ilości danych; YARN to zarządzanie zasobami Hadoop i odpowiednio przydziela wymagane zasoby. Hadoop Common to grupa bibliotek i narzędzi, których można używać w Hadoop.

P.5 – Co oznacza HDFS?

HDFS to składnik Hadoop. HDFS oznacza rozproszony system plików Hadoop.

P.6 – Co to jest NameNode?

NameNode jest częścią przechowywania danych w HDFS i śledzi różne pliki obecne w klastrach. NameNodes nie przechowują danych. Przechowują metadane DataNodes, gdzie HDFS przechowuje swoje rzeczywiste dane.

P.7 – Jaka jest różnica między danymi nieustrukturyzowanymi a ustrukturyzowanymi?

Systemy przechowują nieustrukturyzowane dane w niezarządzanych strukturach plików, podczas gdy przechowywaniem danych strukturalnych jest DBMS. Skalowanie schematu danych ustrukturyzowanych jest trudne, ale jest dość łatwe w przypadku danych nieustrukturyzowanych. Dla uporządkowanych danych użyjesz ELT (Extract, Transform i Load). Z drugiej strony musisz wykonać przetwarzanie wsadowe lub wprowadzanie danych.

P.8 – Ile typów schematów projektowych występuje w modelowaniu danych? Czym oni są?

W modelowaniu danych istnieją dwa typy schematów projektowych, którymi są: Schemat płatka śniegu i Schemat gwiazdy.

P.9 – Co się stanie, gdy Block Scanner znajdzie uszkodzony blok danych? Wyjaśnić.

To jedno z popularnych pytań podczas wywiadów z inżynierami danych . Dlatego pamiętaj, aby przygotować go, zanim Gdy Skaner Bloków znajdzie uszkodzony blok danych, DataNode zgłosi go do NameNode. Następnie NameNode rozpoczyna tworzenie repliki uszkodzonego bloku przy użyciu jednego z istniejących modeli. Jeśli system nie usunie uszkodzonego bloku danych, tworzy tyle replik, ile jest współczynnika replikacji. Liczba replikacji musi być taka sama.

Q.10 – Nazwij wszystkie pliki konfiguracyjne XML obecne w Hadoop.

Pliki konfiguracyjne XML obecne w Hadoop to witryna HDFS, witryna Mapred, witryna przędzy i witryna rdzenia.

P.11 – Co to jest blok w HDFS? Co to jest skaner blokowy?

W Hadoop blok jest najmniejszą jednostką danych. Skaner bloków to komponent, który sprawdza i weryfikuje bloki obecne w DataNode. Hadoop dzieli duże pliki danych na małe bloki danych, aby ułatwić przechowywanie.

Q.12 – Jakie komunikaty DataNode wysyła do NameNode?

DataNodes wysyłają sygnały do NameNodes, aby poinformować ich, że działają. Nazwa tych sygnałów to bicie serca. A jeśli DataNode nie wyśle bicia serca, NameNode stwierdza, że przestał działać i przestał działać.

P.13 – Podaj centralne V Big Data.

Cztery centralne V big data to prędkość, różnorodność, objętość i prawdziwość.

P.14 – Co oznacza COSHH?

COSHH oznacza harmonogram oparty na klasyfikacji i optymalizacji dla heterogenicznych systemów Hadoop.

P.15: Czy możesz opisać Star Schema?

Schemat gwiazdy ma strukturę podobną do gwiazdy; dlatego ma swoją nazwę. W środku gwiazdy może znajdować się tabela faktów z powiązanymi z nią różnymi tabelami wymiarów. Inżynierowie danych używają go do tworzenia zapytań o znaczne zbiory danych.

P.16 – Co to jest schemat płatka śniegu?

Schemat płatka śniegu jest formą schematu gwiazdy. Jedyna różnica polega na tym, że ma dodatkowe wymiary, a swoją nazwę wywodzi od struktury przypominającej płatek śniegu. Posiada znormalizowane tabele wymiarów, dzięki czemu posiada inne tabele.

P17 – Jakie są podstawowe metody redukcji w Hadoop?

W Reduktorze jest kilka podstawowych metod. Pierwszym z nich jest setup(), który konfiguruje parametry, cleanup() czyści tymczasowe zestawy danych, a Reducer uruchamia metodę Reduce() przy każdym zredukowanym zadaniu.

P.18 – Co to jest FSCK?

FSCK oznacza kontrolę systemu plików. Jest to polecenie systemu HDFS i używa tego polecenia do wykrywania problemów i niespójności w pliku.

P.19 – Czy Hadoop ma wiele trybów? Jeśli tak, to czym one są?

Tak, Hadoop ma trzy różne tryby. Są to: tryb autonomiczny, tryb w pełni rozproszony i tryb rozproszony pseudo.

P.20 – Co oznacza YARN?

YARN to skrót od Yet Another Resource Negotiator.

P21 – Jak zabezpieczyć Hadoop?

W tym celu najpierw włączysz szyfrowanie w spoczynku i podczas przesyłania. Musisz używać bezpiecznych wersji protokołów używanych w Hadoop. Zezwolisz SASL na ochronę danych RPC. SASL można włączyć za pomocą właściwości hadoop.rpc.protection.

Zabezpieczysz również kanał uwierzytelniania. Klient może użyć znacznika czasu kanału uwierzytelniania w celu uzyskania biletu usługi, którego następnie można użyć do samodzielnego uwierzytelnienia.

Pytanie 22 – Czy możesz omówić HDFS (rozproszony system plików Hadoop)?

Hadoop może pracować z rozproszonymi systemami plików, takimi jak FS, HFTP i S3. System plików Google jest podstawą HDFS i może działać w dużym klastrze małych systemów.

P.23 – Jakie są różnice między Snowflake a Star Schema?

W schemacie Star masz większą szansę na nadmiarowość danych, co nie ma miejsca w przypadku schematu Snowflake. Projekt DB schematu Star jest prostszy niż Snowflake. Złożone sprzężenie schematu Snowflake spowalnia przetwarzanie kostki, co nie ma miejsca w przypadku schematu Star.

Pytanie 24: Czym jest bicie serca w Hadoop?

W Hadoop istnieją dwa rodzaje węzłów, NameNode i DataNode. NameNode odpowiada za przechowywanie metadanych DataNode i śledzenie ich statusu. DataNode wysyłają sygnały do NameNode, aby poinformować ich, że żyją i działają. Ten sygnał to bicie serca.

P25 – Co rozumiesz przez Big Data?

Kiedy masz ogromne ilości nieustrukturyzowanych i ustrukturyzowanych danych, których nie możesz przetworzyć konwencjonalnymi metodami, nazywamy to big data. Big data to dziedzina analizowania i wykorzystywania bardzo złożonych zbiorów danych do gromadzenia informacji. Tradycyjne metody analizy danych nie sprawdzają się przy tak dużej ilości złożonych danych. W przypadku dużych zbiorów danych inżynierowie danych mają za zadanie przeanalizować surowe dane i przekształcić je w dane użyteczne.

P.26 – Jakie tematy i języki programowania powinien znać inżynier danych?

Inżynier danych powinien znać analizę trendów, uczenie maszynowe, SQL, Hive QL, prawdopodobieństwo, regresję i algebrę liniową. Inżynier danych mógłby znać wiele innych tematów, ale są one niezbędne.

P.27 – Jakie są różnice między DAS i NAS w Hadoop?

To jedno z najpopularniejszych pytań podczas wywiadów z inżynierami danych, więc zwróć szczególną uwagę na odpowiedź. DAS oznacza Direct Attached Storage, a NAS oznacza Network Attached Storage. Pojemność pamięci NAS wynosi od 10^9 do 10^12 bajtów. Z drugiej strony DAS ma pojemność 10^9 bajtów. Koszty zarządzania NAS są również znacznie mniejsze niż DAS.

P.28 – Co oznacza odległość między węzłami w Hadoop? Jak byś to obliczył?

W Hadoop odległość między dwoma węzłami jest równa sumie długości do ich najbliższych węzłów. Możesz użyć getDistance(), aby znaleźć odległość między dwoma węzłami w Hadoop.

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Wniosek

Z pomocą tych pytań do rozmowy kwalifikacyjnej jesteśmy pewni, że przygotujesz się dość łatwo. Wywiady dotyczące inżynierii danych nie muszą być stresujące. Upewnij się, że masz wystarczająco dużo snu przed spotkaniem, wiele osób jest zbyt niespokojnych.

A jeśli masz jakiekolwiek pytania związane z inżynierią danych lub wywiadami, nie wahaj się zapytać nas. Chętnie Ci pomożemy.

Jakie są zadania i obowiązki inżynierów danych?

W przypadku inżynierów danych ich podstawowym obowiązkiem jest przygotowanie danych do celów analitycznych lub operacyjnych. W ramach branży IT inżynierowie ci tworzą potoki danych, które łączą dane z kilku systemów źródłowych. Łączą, konsolidują i oczyszczają dane przed ustrukturyzowaniem ich do wykorzystania w aplikacjach analitycznych. Większość zespołów analitycznych w firmach składa się z inżynierów danych i naukowców zajmujących się danymi, którzy zwiększają dostępność danych i maksymalizują środowisko big data firmy. Inżynierowie przekazują dane w użytecznych formatach analitykom danych, którzy wykorzystują te informacje do wykonywania zapytań i algorytmów na potrzeby analiz predykcyjnych, uczenia maszynowego i aplikacji do eksploracji danych.

Jakie umiejętności są wymagane do pracy jako inżynier danych?

Wiedza z zakresu rozwoju i zarządzania systemami baz danych jest koniecznością dla inżynierów danych. Powinni biegle posługiwać się językami programowania, takimi jak SQL, Python, R itp., oraz posiadać podstawową wiedzę na temat uczenia maszynowego i algorytmów. Inżynierowie danych powinni również wiedzieć o rozwiązaniach magazynowych i narzędziach ETL (Extract, Transfer, Load). Nauka o danych to dziedzina wymagająca współpracy, a inżynierowie danych współpracują z różnymi interesariuszami, od analityków danych po dyrektorów ds. technicznych. Dlatego umiejętności miękkie, takie jak dobre umiejętności komunikacyjne i wysokie umiejętności współpracy, powinny być częścią zestawu umiejętności każdego inżyniera danych.

Czy inżynieria danych to dobra ścieżka kariery? Ile średnio zarabia inżynier danych?

Według Dice 2020 Tech Job Report, inżynieria danych jest najszybciej rozwijającą się opcją kariery w technologii w 2019 roku, z 50% wzrostem liczby dostępnych możliwości rok do roku. Zyskuje na znaczeniu w świecie technologii i stała się lukratywną opcją kariery wraz ze wzrostem zapotrzebowania na zarządzanie informacją. Z podstawową pensją w wysokości 4 57532 jenów pensje inżynierów danych rosną wraz z rosnącym doświadczeniem. Inżynierowie danych z 1-4 letnim doświadczeniem zarabiają średnio 7 20 395 ₹, podczas gdy inżynierowie danych w połowie kariery z 5-9 letnim doświadczeniem i doświadczeni inżynierowie danych z 10-19 letnim doświadczeniem zarabiają średni całkowity dochód ₹ odpowiednio 1294336 i ₹1867992.