Top 30 pytań i odpowiedzi na wywiad w hurtowni danych w 2022 r. [Dla nowicjuszy i doświadczonych]

Opublikowany: 2021-01-06

Pytania dotyczące hurtowni danych wymienione w tym artykule będą pomocne dla tych, którzy są w karierze hurtowni danych i analityki biznesowej. Wraz z nadejściem uczenia maszynowego należy przeanalizować duże ilości danych, aby uzyskać wgląd i szybciej wdrożyć wyniki. Te czasy minęły, kiedy etapami przetwarzania danych były przechowywanie, asymilacja, pobieranie i przetwarzanie danych. Jednak wraz ze wzrostem ilości danych takie dane muszą zostać przetworzone i pokazywać natychmiastowe wyniki.

Wszystkie firmy, takie jak opieka zdrowotna, BFSI, przedsiębiorstwa użyteczności publicznej i wiele organizacji rządowych, przechodzą na hurtownię danych w nauce o danych. W wyniku tego zatrudnia się więcej specjalistów posiadających doświadczenie w zakresie hurtowni danych, aby mogli analizować duże ilości danych i dostarczać odpowiednich informacji. W ten sposób pytania dotyczące wywiadów w hurtowni danych stają się istotne, aby łatwo złamać wywiady i zdobyć ważną wiedzę.

Jeśli pasjonujesz się obsługą ogromnych danych i zarządzaniem bazami danych, hurtownia danych jest dla Ciebie świetną opcją kariery. W tym artykule otrzymasz pytania do rozmowy kwalifikacyjnej dotyczące hurtowni danych, które mogą Ci pomóc w przygotowaniu się do kolejnej rozmowy kwalifikacyjnej. Pytania są od poziomu podstawowego do eksperckiego, więc zarówno nowi, jak i doświadczeni profesjonaliści skorzystają z tych pytań do wywiadów dotyczących hurtowni danych .

Spis treści

Pytania do rozmowy kwalifikacyjnej na temat hurtowni danych

P1: Czym jest analiza danych w kontekście hurtowni danych?

Analiza danych to nauka polegająca na sprawdzaniu nieprzetworzonych danych w celu wyciągnięcia wniosków biznesowych z danych. Hurtownia danych umożliwia analizę danych.

P2: Zdefiniuj tematycznie zorientowaną hurtownię danych?

Hurtownie danych zorientowane na dany temat przechowują dane wokół określonego punktu, takiego jak sprzedaż, klient i produkt.

P3: Co oznacza OLAP i jakie są jego rodzaje?

OLAP to system, który przetwarza, zarządza i zbiera wielowymiarowe dane do zarządzania. Oznacza przetwarzanie analityczne online.

Poniżej podano cztery typy serwerów OLAP:

Hybrydowy OLAP
Relacyjne OLAP
Specjalistyczne serwery SQL
Wielowymiarowy OLAP

P4: Jaka jest różnica między OLAP a OLTP?

OLAP to narzędzie programowe służące do analizy danych, które pomaga w podejmowaniu decyzji biznesowych, podczas gdy OLTP to aplikacja zorientowana na transakcje, używana w architekturze trójwarstwowej. Poniżej znajdują się niektóre różnice między OLAP i OLTP:

OLAP (przetwarzanie analityczne online)	OLTP (przetwarzanie transakcji online)
Zawiera dane historyczne zebrane z różnych baz danych.	Zawiera dane operacyjne.
Jest używany w analityce danych, eksploracji danych i podejmowaniu decyzji.	Jest zorientowany na aplikacje i jest używany do różnych zadań związanych z biznesem.
Przechowuje ogromną ilość danych i jest w TB.	Przechowuje niewielką ilość danych i jest przechowywany w MB, GB itp.
Działa powoli, ponieważ rozmiar danych jest duży.	Działa bardzo szybko, a zapytania odbywają się na 5% przechowywanych danych.
Potrzebuje kopii zapasowej danych tylko od czasu do czasu.	Tworzenie kopii zapasowych i odzyskiwanie danych odbywa się regularnie.
Jest używany głównie do operacji odczytu, przy czym operacja zapisu występuje rzadko.	Jest używany zarówno do operacji odczytu, jak i zapisu.

P5: Jakie funkcje wykonuje OLAP?

Niektóre z podstawowych funkcji wykonywanych przez OLAP to Pivot, Drill-down, Roll-up, Slice i Dice.

P6: Co to jest diagram ER?

Diagram ER to skrót od Entity-Relationship Diagram, który pokazuje wzajemne relacje między jednostkami w bazie danych.

P7: Co to jest SCD?

SCD oznacza wolno zmieniające się wymiary i dotyczy takich przypadków, w których zapisy zmieniają się w czasie.

P8: Zdefiniuj typy SCD.

Istnieją 3 rodzaje SCD, jak podano poniżej:

SCD 1: Nowy rekord zastępuje oryginalny rekord.

SCD 2: Nowy rekord zostaje dodany do istniejącej tabeli klientów

SCD 3: Oryginalne dane otrzymują zmiany w celu wprowadzenia nowych danych.

P9: Co to jest schemat płatka śniegu?

Schemat płatka śniegu to schemat mający podstawową tabelę wymiarów. W tabeli wymiarów podstawowych można połączyć jeden lub więcej wymiarów. Jest to jedyny stół, który można połączyć z tabelą faktów.

Pytanie 10: Zdefiniuj schemat gwiazdy.

Star Schema odnosi się do zarządzania tabelą w taki sposób, aby wyniki można było łatwo odzyskać w środowisku hurtowni danych.

P11: Zdefiniuj schemat magistrali.

Schemat BUS zawiera zestaw ustandaryzowanych definicji i potwierdzonych wymiarów, jeśli istnieje tabela faktów.

P 12: Zdefiniuj metadane.

Odnosi się do danych o danych. Metadane zawierają szczegóły, takie jak kolejność pól, kilka użytych kolumn, typy danych pól, ograniczona szerokość i stała szerokość.

P13: Zdefiniuj wymiar podstawowy.

Wymiar podstawowy to tabela wymiarów używana głównie do zbiorczych danych lub pojedynczej tabeli faktów.

P14: Zdefiniuj pętle w hurtowni danych.

Te pętle istnieją między tabelami w hurtowni danych. Jeśli między tabelami występują pętle, generowanie zapytania zajmuje więcej czasu i tworzy zagadkę. Dlatego zawsze zaleca się unikanie jakichkolwiek pętli między tabelami.

P15: Wyjaśnij XMLA.

XMLA nazywa się XML for Analysis i oferuje standardową metodę dostępu do danych z OLAP, eksploracji danych i innych źródeł danych dostępnych w Internecie. Jest to prosty protokół dostępu do obiektów, który wykorzystuje metody wykrywania i wykonywania. Metoda wykrywania pobiera dane z Internetu, a metoda wykonywania służy do uruchamiania aplikacji na różnych źródłach danych.

Przeczytaj: Pytania do wywiadu dotyczącego nauki o danych

P16: Wyjaśnij różnice między bazą danych a hurtownią danych.

Baza danych różni się od hurtowni danych, ponieważ baza danych używa modelu relacyjnego do przechowywania danych. Natomiast hurtownia danych korzysta z innych schematów, a schemat startowy jest jednym z nich. Poniżej znajdują się niektóre różnice między bazą danych a hurtownią danych:

Funkcja	Baza danych	Hurtownia danych
Typ danych	Dane relacyjne lub dane obiektowe	Dane o dużej objętości
Operacje	Przetwarzanie transakcji	Modelowanie i analiza danych
Wymiary	Dane dwuwymiarowe	Dane wielowymiarowe
Projektowanie danych	Oparte na ER	Schemat gwiazdy i płatka śniegu
Rozmiar danych	Mały	Wielki
Funkcjonalność	Wysoka wydajność i dostępność	Wysoka elastyczność

P17: Zdefiniuj kostkę w hurtowni danych.

Kostki w hurtowni danych są reprezentacją danych wielowymiarowych. Treść kostki składa się z wartości danych, a krawędź kostki zawiera elementy wymiaru.

P18. Wyjaśnij rodzaje hurtowni danych?

Hurtownia danych ma 3 typy:

Hurtownia danych przedsiębiorstwa: W korporacyjnej hurtowni danych dane organizacyjne z różnych obszarów funkcjonalnych są scalane w sposób scentralizowany. Pomaga to w wyodrębnianiu i przekształcaniu danych, co zapewnia szczegółowy przegląd dowolnego obiektu w modelu danych.
Operacyjny magazyn danych: Ta hurtownia danych pomaga uzyskać dostęp do danych bezpośrednio z bazy danych, a także obsługuje przetwarzanie transakcji. Integruje dane kontrastowe z różnych źródeł, co później wspiera różne operacje biznesowe.
Data Mart: Ta hurtownia danych przechowuje dane dla określonego obszaru funkcjonalnego. Zawiera również dane w postaci podzbiorów, które następnie są przechowywane w hurtowni danych. Zmniejsza dużą ilość danych dla użytkowników w celu ich efektywnej analizy i uzyskania wglądu.

P19: Między wielowymiarowym OLAP a relacyjnym OLAP, który działa szybciej?

Wielowymiarowy OLAP działa szybciej niż relacyjny OLAP.

Wielowymiarowy OLAP: W MOLAP dane są przechowywane w wielowymiarowej kostce. Przechowywanie danych odbywa się w zastrzeżonych formatach, takich jak plik PowerOLAP.olp. Produkty te są kompatybilne z programem Excel i ułatwiają interakcję z danymi.
Relational OLAP: W produktach Relational OLAP dostęp do relacyjnej bazy danych można uzyskać za pomocą SQL, który jest standardowym językiem używanym do manipulowania danymi w RDBMS. Wykonując przetwarzanie, przyjmuje żądania klientów, które są następnie tłumaczone na zapytania SQL, a następnie przekazywane do RDBMS.

P20: Wyjaśnij różnice między podziałowym grupowaniem hierarchicznym a grupowaniem aglomeracyjnym.

W aglomeracyjnej metodzie grupowania hierarchicznego klastry są odczytywane od dołu do góry, co oznacza, że program najpierw odczytuje komponent podrzędny, a następnie element nadrzędny. Z drugiej strony, grupowanie hierarchiczne z podziałem wykorzystuje podejście od góry do dołu, w którym najpierw odczytywane są dane na poziomie nadrzędnym, a następnie na poziomie podrzędnym.

W aglomeracyjnej metodzie hierarchicznej obiekty są obecne, a każdy obiekt buduje swój klaster, a wszystkie te klastry razem tworzą duży klaster. Ta metoda polega głównie na ciągłym łączeniu, które występuje do momentu utworzenia jednego dużego klastra, podczas gdy w metodzie grupowania z podziałem następuje podział klastrów. Klaster nadrzędny zostaje podzielony na mniejsze klastry. Ten podział klastrów trwa, dopóki każdy klaster nie będzie składał się z jednego obiektu.

Dowiedz się więcej: Nauka o danych a eksploracja danych: różnica między nauką o danych a eksploracją danych

P21: Jaka jest metoda kameleona w hurtowni danych?

Chameleon to hierarchiczna metoda grupowania w hurtowni danych. Ta metoda działa na grafie rzadkim składającym się z węzłów i krawędzi. Te węzły reprezentują elementy danych, a krawędzie reprezentują wagi. Dzięki tej reprezentacji zestawy danych można tworzyć i uzyskiwać do nich dostęp z łatwością, pokonując wady istniejących metod. Metoda działa w dwóch fazach:

W pierwszej fazie wykres zostaje podzielony na partycje, w ramach którego elementy danych są podzielone na wiele podgrup.
W drugiej fazie przeszukiwane są prawdziwe klastry, które można następnie połączyć z innymi podklastrami utworzonymi w pierwszej fazie.

P22: Czym jest plan wykonania i jakie podejście stosuje optymalizator podczas planu wykonania?

Plan wykonania to plan używany przez optymalizator do wyboru kombinacji kroków wykonania zapytań SQL. Optymalizator wybiera najbardziej wydajną kombinację kroków wykonywania zapytań SQL. Optymalizator wykorzystuje w planie wykonania dwa podejścia, tj. oparte na regułach i oparte na kosztach.

P23: Jakie są różne narzędzia używane w ETL (wyodrębnianie, przekształcanie i ładowanie)?

Poniżej lista narzędzi ETL:

Informatyka
Wyrocznia
Etap danych
Złącze danych
Ab initio
Konstruktor magazynu

P24: Czym różnią się metadane i słowniki danych?

Metadane opisują dane. Zawiera wszystkie informacje o danych, takie jak źródło danych, kto je zebrał i format danych. Kluczowe jest zrozumienie informacji o danych przechowywanych w hurtowniach danych. Z drugiej strony słownik danych jest podstawową definicją bazy danych. Słownik danych składa się z plików znajdujących się w bazie danych, liczby rekordów występujących w każdym pliku oraz wszystkich informacji o polach w bazie danych.

P25: Zdefiniuj wirtualną hurtownię danych.

Wirtualna hurtownia danych oferuje zbiorczy widok kompletnych danych. Jest jak logiczny model danych metadanych i nie zawiera danych historycznych. Wirtualna hurtownia danych to najlepszy sposób na przetłumaczenie surowych danych i przedstawienie ich w takiej formie, aby były wykorzystywane przez decydentów. Dane są przedstawiane jako mapa semantyczna, która umożliwia użytkownikom końcowym przeglądanie danych w formie zwirtualizowanej.

Przeczytaj także: Pytania i odpowiedzi podczas wywiadu z analitykiem danych

P26: Jakie podejścia stosuje się do projektowania hurtowni danych?

Do projektowania hurtowni danych stosuje się głównie dwa podejścia:

Podejście Inmon: Jest to podejście odgórne, w którym najpierw tworzona jest hurtownia danych, a następnie budowane są hurtownie danych. W tym podejściu hurtownia danych pełni rolę centrum Fabryki Informacji Korporacyjnej, a hurtownia danych pełni rolę ramy logicznej.
Podejście Kimballa: Jest to podejście oddolne, w którym data mart jest tworzony jako pierwszy. Baza danych integruje się następnie, tworząc kompletną hurtownię danych. Integracja różnych baz danych nazywana jest architekturą magistrali hurtowni danych.

P27: Co to jest hurtownia danych w czasie rzeczywistym i jakie są jej zalety?

Hurtownia danych w czasie rzeczywistym to koncepcja hurtowni danych, która przechwytuje dane w czasie rzeczywistym natychmiast po ich wystąpieniu i udostępnia je w hurtowni danych.

Korzyści z hurtowni danych w czasie rzeczywistym:

Pomaga w łatwym podejmowaniu decyzji.
Usuwa okno wsadowe.
Rozwiązuje problem związany z idealnym ładowaniem danych.
Oferuje zoptymalizowany sposób uruchamiania przekształceń w bazie danych.
Oferuje szybkie odzyskiwanie danych.

P28: Wyjaśnij 3-warstwową architekturę cyklu ETL.

Cykl ETL składa się z poniżej 3 warstw:

Warstwa pomostowa: ta warstwa przechowuje dane wyodrębnione z wielu struktur danych.
Warstwa integracji danych: Dane z warstwy pomostowej są przesyłane do bazy danych za pomocą warstwy integracji. Dane te są następnie porządkowane w grupy hierarchiczne, zwane również wymiarami, agregatami i faktami. Wymiary i fakty razem tworzą schemat.
Warstwa dostępu: użytkownicy końcowi uzyskują dostęp do danych za pośrednictwem warstwy dostępu i przeprowadzają analizę danych.

P29: Co to jest czyszczenie danych?

Usuwanie danych to metoda trwałego usunięcia danych z magazynu danych. Różni się to od usuwania danych, ponieważ usuwanie danych usuwa dane tylko tymczasowo, podczas gdy czyszczenie danych usuwa dane na stałe, a wolne miejsce jest wykorzystywane do innych celów. Czyszczenie danych wykorzystuje różne metody. Wyczyszczone dane można w razie potrzeby zarchiwizować.

P30: Zdefiniuj fazy testowania w projekcie.

Test ETL składa się z pięciu etapów, jak wspomniano poniżej:

Identyfikacja wymagań i źródeł danych
Pozyskiwanie danych
Implementacja logiki biznesowej
Budowanie i publikowanie danych
Raportowanie

Sprawdź także: Data Science vs Big Data: różnica między Data Science a Big Data

Podsumowując

To były najczęściej zadawane pytania podczas rozmowy kwalifikacyjnej w hurtowni danych , które z pewnością pomogą Ci w przygotowaniu się do kolejnej rozmowy kwalifikacyjnej. Jeśli chcesz dowiedzieć się więcej o hurtowni danych, możesz odwiedzić upGrad i uzyskać bardziej dogłębną wiedzę. Możesz znaleźć odpowiednie informacje, które pomogą Ci w prawidłowym zrozumieniu pytań z wywiadu w hurtowni danych .

Jeśli jesteś zainteresowany nauką o danych, sprawdź program IIIT-B i upGrad Executive PG w dziedzinie Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1 -on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jak rozpocząć karierę w hurtowni danych?

Magazynowanie danych okazało się poszukiwanym stanowiskiem pracy ze względu na rosnące gromadzenie i wykorzystywanie danych w każdej organizacji. Każda organizacja poszukuje profesjonalistów, którzy potrafią przetwarzać dane i przekształcać je w praktyczne spostrzeżenia w celu uzyskania wglądu w dane.

Niektóre z umiejętności niezbędnych do wejścia do hurtowni danych to:

1. Najwyższej klasy umiejętności badawcze, rozwiązywania problemów i analizy.
2. Licencjat z informatyki lub innej pokrewnej dziedziny, takiej jak informatyka.
3. Właściwa znajomość teorii relacyjnych baz danych
4. Doświadczenie w pracy z systemami bazodanowymi od 3-5 lat
5. Doświadczenie w pracy z modelowaniem i architekturą danych
6. Zarządzanie komunikacją werbalną i pisemną.
7. Dobry w słuchaniu, aby zrozumieć informacje dostarczane przez członków technicznych i nietechnicznych

To tylko niektóre z umiejętności, od których trzeba zacząć pracować, aby budować swoją karierę w obszarze hurtowni danych.

Jak rozpocząć karierę w hurtowni danych?

Aby budować swoją karierę w obszarze hurtowni danych, trzeba spełnić pewne wymagania.

1. Po pierwsze, każda osoba musi posiadać tytuł licencjata w dziedzinie informatyki lub dziedzin pokrewnych.
2. Ważne jest co najmniej 2-letnie doświadczenie w kodowaniu i administrowaniu serwerami SQL.
3. Zrozumienie integracji serwerów i pracy z narzędziami ETL
4. Właściwa znajomość hurtowni danych i technik modelowania danych
5. Podstawowe umiejętności biurowe MS

Wybranie kursu może sprawić, że cały proces będzie dla Ciebie całkiem prosty. Istnieje wiele programów szkoleniowych oferowanych przez różne uczelnie i platformy do zarządzania bazami danych i administrowania bazami danych. Później możesz podjąć pracę na poziomie podstawowym, aby zdobyć doświadczenie i zrozumieć tajniki tej dziedziny.

Jakie są różne etapy hurtowni danych w każdej firmie?

W zależności od wielkości firmy, wieku i branży, etapy hurtowni danych będą mieścić się w czterech wymienionych poniżej.

1. Baza danych offline
2. Hurtownia danych offline
3. Hurtownia danych w czasie rzeczywistym
4. Zintegrowana Hurtownia Danych

Każda firma zaczyna od 1 etapu i stara się osiągnąć 4 etap, aby zintegrować wszystko z systemami biznesowymi. Właściwe funkcjonowanie hurtowni danych może ułatwić kierownikowi hurtowni danych analizę danych i generowanie z nich praktycznych wniosków.