Top 30 de întrebări și răspunsuri la interviu pentru depozitul de date în 2022 [pentru cei proaspăți și cu experiență]

Publicat: 2021-01-06

Întrebările de interviu pentru depozitul de date enumerate în acest articol vor fi utile pentru cei care se află în cariera de depozit de date și inteligență de afaceri. Odată cu apariția învățării automate, un volum mare de date trebuie analizat pentru a obține informații și pentru a implementa rezultatele mai rapid. Au trecut acele zile când pașii de procesare a datelor erau stocarea, asimilarea, preluarea și procesarea datelor. Dar, pe măsură ce volumul de date crește, astfel de date trebuie procesate și să arate rezultate instantanee.

Toate afacerile, cum ar fi asistența medicală, BFSI, utilitățile și multe organizații guvernamentale se transformă în depozitul de date în știința datelor. Ca urmare, sunt angajați mai mulți profesioniști cu experiență în depozitul de date, astfel încât să poată analiza volumele mari de date și să ofere informații relevante. Astfel, întrebările de interviu din depozitul de date devin pertinente pentru a sparge cu ușurință interviurile și pentru a obține cunoștințe importante.

Dacă sunteți pasionat de gestionarea datelor masive și de gestionarea bazelor de date, atunci un depozit de date este o opțiune excelentă de carieră pentru dvs. În acest articol, veți primi întrebările de interviu din depozitul de date care vă pot ajuta cu pregătirea următorului interviu. Întrebările sunt de la nivel de bază la nivel de expert, astfel încât atât profesioniștii mai proaspeți, cât și cei experimentați vor beneficia de aceste întrebări de interviu pentru depozitul de date .

Cuprins

Întrebări pentru interviu Data Warehouse

Î1: Ce este analiza datelor în ceea ce privește un depozit de date?

Data Analytics este știința care verifică datele brute pentru a trage concluzii bazate pe afaceri ale datelor. Depozitul de date permite analiza datelor.

Î2: Definiți un depozit de date orientat pe subiect?

Depozitele de date orientate pe subiect stochează date în jurul unui anumit punct, cum ar fi vânzările, clientul și produsul.

Î3: Ce înseamnă OLAP și care sunt tipurile sale?

OLAP este un sistem care procesează, gestionează și colectează date multidimensionale pentru management. Aceasta înseamnă procesare analitică online.

Există patru tipuri de servere OLAP prezentate mai jos:

OLAP hibrid
OLAP relațional
Servere SQL specializate
OLAP multidimensional

Î4: Care este diferența dintre OLAP și OLTP?

OLAP este un instrument software utilizat pentru analiza datelor care ajută la luarea deciziilor de afaceri, în timp ce OLTP este o aplicație orientată spre tranzacții, utilizată într-o arhitectură cu trei niveluri. Mai jos sunt câteva dintre diferențele dintre OLAP și OLTP:

OLAP (procesare analitică online)	OLTP (Procesarea tranzacțiilor online)
Conține datele istorice colectate din diferite baze de date.	Conține date operaționale.
Este utilizat în analiza datelor, extragerea datelor și luarea deciziilor.	Este orientat către aplicații și este utilizat pentru diverse sarcini legate de afaceri.
Stochează o cantitate imensă de date și este în TB.	Stochează o cantitate mică de date și este stocată în MB, GB etc.
Funcționează lent, deoarece dimensiunea datelor este mare.	Funcționează foarte rapid și interogările au loc pe 5% din datele stocate.
Are nevoie doar de copierea de rezervă a datelor din când în când.	Backup-ul și recuperarea datelor au loc în mod regulat.
Este folosit în principal pentru o operație de citire, operația de scriere care apare rar.	Este folosit atât pentru operațiuni de citire, cât și de scriere.

Î5: Ce funcții îndeplinește OLAP?

Câteva dintre funcțiile principale realizate de OLAP sunt Pivot, Drill-down, Roll-up, Slice și Dice.

Î6: Ce este diagrama ER?

ER Diagram înseamnă Entity-Relationship Diagram care arată interrelațiile dintre entitățile din baza de date.

Î7: Ce este SCD?

SCD înseamnă dimensiuni care se schimbă încet și se aplică în cazurile în care înregistrările se modifică în timp.

Î8: Definiți tipurile de SCD.

Există 3 tipuri de SCD, după cum este prezentat mai jos:

SCD 1: Noua înregistrare înlocuiește înregistrarea originală.

SCD 2: Noua înregistrare este adăugată la tabelul client existent

SCD 3: Datele originale sunt modificate pentru a introduce date noi.

Î9: Ce este o schemă fulg de zăpadă?

Snowflake Schema este o schemă având un tabel de dimensiuni primare. Unul sau mai multe dimensiuni pot fi unite în tabelul de dimensiuni primare. Este singurul tabel care se poate alătura cu tabelul de fapte.

Î 10: Definiți Schema Stelară.

Star Schema se referă la gestionarea tabelului într-un mod în care rezultatele pot fi recuperate cu ușurință în mediul de depozit de date.

Q11: Definiți schema BUS.

Schema BUS include suita de definiții standardizate și dimensiune confirmată dacă există un tabel de fapte.

Î 12: Definiți metadatele.

Se referă la date despre date. Metadatele constă în detalii precum ordonarea câmpurilor, mai multe coloane utilizate, tipurile de date ale câmpurilor, lățimea limitată și lățimea fixă.

Î13: Definiți dimensiunea de bază.

Core Dimension este un tabel de dimensiuni care este utilizat în principal pentru data mart sau un singur tabel de fapte.

Î14: Definiți buclele în depozitul de date.

Aceste bucle există între tabelele din depozitul de date. Dacă există bucle între tabele, atunci generarea interogării durează mai mult timp și creează o enigmă. Prin urmare, este întotdeauna recomandat să evitați orice bucle între mese.

Î15: Explicați XMLA.

XMLA se numește XML pentru analiză, care oferă metoda standard de acces la date din OLAP, data mining și alte surse de date disponibile pe internet. Este un protocol simplu de acces la obiect care utilizează metodele de descoperire și execuție. Metoda de descoperire preia datele de pe internet, iar metoda de execuție este folosită pentru a executa aplicații pe diferite surse de date.

Citiți: Întrebări de interviu pentru știința datelor

Î16: Explicați diferențele dintre baza de date și depozitul de date.

O bază de date este diferită de depozitul de date deoarece baza de date utilizează modelul relațional pentru stocarea datelor. În schimb, depozitul de date utilizează alte scheme și schema de pornire este una dintre ele. Mai jos sunt câteva dintre diferențele dintre o bază de date și un depozit de date:

Caracteristică	Bază de date	Depozitul de date
Tip de date	Date relaționale sau date orientate pe obiecte	Volum mare de date
Operațiuni	Procesarea tranzacției	Modelarea datelor și analiza datelor
Dimensiuni	Date bidimensionale	Date multidimensionale
Proiectarea datelor	Bazat ER	Schema stelelor și fulgilor de nea
Dimensiunea datelor	Mic	Mare
Funcționalitate	Performanță și disponibilitate ridicate	Flexibilitate ridicată

Î17: Definiți cubul în depozitul de date.

Cuburile dintr-un depozit de date sunt reprezentarea datelor multidimensionale. Corpul cubului este format din valori de date, iar marginea cubului conține membri de dimensiune.

Q18. Explicați tipurile de depozit de date?

Depozitul de date este de următoarele 3 tipuri:

Enterprise Data Warehouse: În Enterprise Data Warehouse, datele organizaționale din diferite zone funcționale sunt îmbinate într-un mod centralizat. Acest lucru ajută la extragerea și transformarea datelor, ceea ce oferă o imagine de ansamblu detaliată a oricărui obiect din modelul de date.
Magazin de date operaționale: Acest depozit de date ajută la accesarea datelor direct din baza de date și, de asemenea, sprijină procesarea tranzacțiilor. Acesta integrează date de contrast din diferite surse, ceea ce susține mai târziu diverse operațiuni de afaceri.
Data Mart: Acest depozit de date stochează datele pentru o anumită zonă funcțională. De asemenea, conține datele sub formă de subseturi, care apoi sunt stocate în depozitul de date. Reduce volumul mare de date pentru ca utilizatorii să le analizeze eficient și să obțină informații.

Î19: Între OLAP multidimensional și OLAP relațional, care funcționează mai rapid?

OLAP multidimensional funcționează mai rapid decât OLAP relațional.

OLAP multidimensional: în MOLAP, datele sunt stocate în cubul multidimensional. Stocarea datelor are loc în formate proprietare, cum ar fi fișierul PowerOLAP.olp. Aceste produse sunt compatibile cu Excel și facilitează interacțiunile cu datele.
OLAP relațional: În produsele OLAP relațional, baza de date relațională poate fi accesată cu SQL, care este un limbaj standard utilizat pentru manipularea datelor în RDBMS. În timpul procesării, acceptă cererile clientului, care sunt apoi traduse în interogări SQL și apoi sunt transmise în RDBMS.

Î20: Explicați diferențele dintre gruparea ierarhică divizionară și gruparea aglomerativă.

În metoda de grupare ierarhică aglomerativă, clusterele ajung să citească de jos în sus, ceea ce înseamnă că programul citește mai întâi subcomponenta și apoi părintele. Pe de altă parte, gruparea ierarhică divizionară utilizează abordarea de sus în jos în care datele de la nivelul părinte sunt citite mai întâi și apoi la nivel de copil.

În metoda ierarhică aglomerativă, obiectele sunt prezente și fiecare obiect își construiește clusterul și toate aceste clustere împreună formează un cluster mare. Această metodă constă în principal în fuziunea continuă care are loc până când se creează un singur cluster mare, în timp ce în metoda grupării divizive are loc divizarea clusterelor. Clusterul părinte este împărțit în clustere mai mici. Această împărțire a clusterelor continuă până când fiecare cluster este format dintr-un singur obiect.

Aflați mai multe: Data Science vs Data Mining: Diferența dintre Data Science și Data Mining

Î21: Care este metoda cameleonului într-un depozit de date?

Chameleon este metoda de grupare ierarhică în depozitul de date. Această metodă funcționează pe graficul rar format din noduri și muchii. Aceste noduri reprezintă elementele de date, iar marginile reprezintă greutățile. Cu această reprezentare, seturile de date pot fi create și accesate cu ușurință, depășind deficiențele metodelor existente. Metoda funcționează în două etape:

În prima fază, graficul este partiționat ca parte din care elementele de date sunt împărțite în mai multe sub-clustere.
În a doua fază, sunt căutate clusterele autentice care pot fi apoi combinate cu alte sub-clustere create în prima fază.

Î22: Ce este planul de execuție și ce abordare folosește optimizatorul în timpul planului de execuție?

Planul de execuție este planul folosit de optimizator pentru a alege combinația de pași pentru executarea interogărilor SQL. Optimizatorul selectează cea mai eficientă combinație de pași pentru executarea interogărilor SQL. Optimizatorul folosește cele două abordări din planul de execuție, adică bazată pe reguli și bazată pe costuri.

Î23: Care sunt diferitele instrumente utilizate în ETL (Extracție, transformare și încărcare)?

Mai jos este lista instrumentelor ETL:

Informatica
Oracol
Etapa de date
Data Junction
Ab Initio
Constructor de depozite

Î24: Cum sunt metadatele și dicționarele de date diferite?

Metadatele descriu datele. Conține toate informațiile despre date, cum ar fi, sursa datelor, cine a colectat datele și formatul datelor. Este crucial să înțelegeți informațiile despre datele stocate în depozitele de date. Pe de altă parte, un dicționar de date este definiția de bază a bazei de date. Dicționarul de date este format din fișierele care sunt prezente în baza de date, numărul de înregistrări prezente în fiecare fișier și toate informațiile despre câmpurile din baza de date.

Î25: Definiți depozitul de date virtual.

Un depozit virtual de date oferă o vedere colectivă a datelor complete. Este ca modelul de date logic al Metadatelor și nu are date istorice. Un depozit de date virtual este cel mai bun mod de a traduce datele brute și de a le prezenta într-o asemenea formă încât să fie folosită de factorii de decizie. Datele sunt reprezentate ca o hartă semantică care permite utilizatorilor finali să vizualizeze datele într-o formă virtualizată.

Citiți și: Întrebări și răspunsuri la interviu cu analist de date

Î26: Ce abordări sunt utilizate pentru proiectarea depozitului de date?

Există în principal două abordări utilizate pentru proiectarea depozitului de date:

Abordare Inmon: este abordarea de sus în jos în care mai întâi se creează depozitul de date, apoi sunt construite magazinele de date. În această abordare, depozitul de date acționează ca centru al Fabricii de informații corporative, iar depozitul de date acționează ca un cadru logic.
Abordarea Kimball: este abordarea de jos în sus în care se creează mai întâi data mart. Data mart-ul se integrează apoi pentru a forma întregul depozit de date. Integrarea diferitelor magazine de date se numește arhitectura magistrală de depozit de date.

Î27: Ce este un depozit de date în timp real și care sunt beneficiile acestuia?

Un depozit de date în timp real este conceptul de depozit de date care captează date în timp real imediat ce apar și le face disponibile în depozitul de date.

Beneficiile unui depozit de date în timp real:

Ajută la luarea ușoară a deciziilor.
Îndepărtează fereastra lotului.
Rezolvă problema legată de încărcarea ideală a datelor.
Oferă o modalitate optimizată de a rula transformările din baza de date.
Oferă recuperare rapidă a datelor.

Î28: Explicați arhitectura cu 3 straturi a ciclului ETL.

Ciclul ETL este format din mai puțin de 3 straturi:

Strat de pregătire: acest strat stochează datele extrase din mai multe structuri de date.
Stratul de integrare a datelor: Datele din stratul de staging se transferă în baza de date cu ajutorul stratului de integrare. Aceste date sunt apoi organizate în grupuri ierarhice, numite și dimensiuni, agregate și fapte. Dimensiunile și faptele formează împreună schema.
Stratul de acces: utilizatorii finali accesează datele prin nivelul de acces și efectuează analiza datelor.

Î29: Ce este curățarea datelor?

Curățarea datelor este metoda de eliminare permanentă a datelor din stocarea datelor. Este diferit de ștergerea datelor, deoarece ștergerea datelor elimină datele doar temporar, în timp ce curățarea datelor elimină datele definitiv, iar spațiul liber este utilizat în alte scopuri. Curățarea datelor utilizează metode diferite. Datele eliminate pot fi arhivate dacă este necesar.

Q30: Definiți fazele de testare într-un proiect.

Testul ETL constă în cinci etape, după cum este menționat mai jos:

Identificarea cerințelor și a surselor de date
Achizitie de date
Implementarea logicii de afaceri
Construirea și publicarea datelor
Raportare

Consultați și: Data Science vs Big Data: Diferența dintre Data Science și Big Data

Rezumând

Acestea au fost cele mai frecvente întrebări pentru interviul Data warehouse care vă vor ajuta cu siguranță la pregătirea următorului interviu. Dacă doriți să aflați mai multe despre Data warehouse, atunci puteți vizita upGrad și obțineți cunoștințe mai aprofundate. Puteți găsi informații relevante care vă vor ajuta să înțelegeți corect întrebările interviului pentru depozitul de date .

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Cum încep o carieră în depozitarea datelor?

Data Warehousing s-a dovedit a fi o poziție solicitată din cauza colectării și utilizării tot mai mari a datelor pentru fiecare organizație. Fiecare organizație caută profesioniști care să poată gestiona datele și să le transforme în informații utile pentru a obține informații din date.

Unele dintre abilitățile necesare pentru a intra în depozitarea datelor sunt:

1. Abilități de cercetare, rezolvare de probleme și analiză de top.
2. O diplomă de licență în Informatică sau orice alt domeniu conexe precum IT.
3. Cunoașterea corespunzătoare a teoriei bazelor de date relaționale
4. Experienta in lucrul cu sisteme de baze de date de 3-5 ani
5. Experiență în lucrul cu modelarea și arhitectura datelor
6. Comandă asupra comunicării verbale și scrise.
7. Bun la ascultare pentru a înțelege informațiile furnizate de membrii tehnici și non-tehnici

Acestea sunt câteva dintre abilitățile la care trebuie să începeți să lucrați pentru a-și construi cariera în domeniul depozitării de date.

Cum încep o carieră în depozitarea datelor?

Există anumite cerințe pe care trebuie să le îndepliniți pentru a-și construi cariera în domeniul depozitării de date.

1. În primul rând, orice persoană trebuie să dețină o diplomă de licență în informatică sau în domenii conexe.
2. O experienta de minim 2 ani in codificare si administrare SQL server este importanta.
3. Înțelegerea integrării serverului și lucrul cu instrumentele ETL
4. Cunoașterea corespunzătoare a tehnicilor de depozitare și modelare a datelor
5. Abilități de bază MS Office

A urma un curs poate face întregul proces destul de simplu pentru tine. Există o mulțime de programe de formare oferite de diferite universități și platforme pentru gestionarea bazelor de date și administrarea bazelor de date. Mai târziu, puteți prelua un loc de muncă la nivel de intrare pentru a câștiga experiență și pentru a înțelege dezavantajele domeniului.

Care sunt diferitele etape ale depozitării datelor în orice companie?

Pe baza dimensiunii companiei, a vârstei și a industriei, etapele de depozitare a datelor se vor încadra în cele patru menționate mai jos.

1. Baza de date offline
2. Depozitul de date offline
3. Depozit de date în timp real
4. Depozit de date integrat

Fiecare companie începe cu prima etapă și încearcă să ajungă la a 4-a etapă pentru a integra totul în sistemele de afaceri. Funcționarea corectă a depozitelor de date poate facilita pentru managerul depozitului de date să analizeze datele și să genereze informații utile din acestea.