Le 30 migliori domande e risposte per le interviste su Data Warehouse nel 2022 [per neofiti ed esperti]

Pubblicato: 2021-01-06

Le domande del colloquio sul data warehouse elencate in questo articolo saranno utili per coloro che sono nella carriera di data warehouse e business intelligence. Con l'avvento dell'apprendimento automatico, è necessario analizzare un grande volume di dati per ottenere informazioni dettagliate e implementare i risultati più velocemente. Quei giorni sono passati quando le fasi di elaborazione dei dati erano l'archiviazione, l'assimilazione, il recupero e l'elaborazione dei dati. Ma con l'aumento del volume dei dati, tali dati devono essere elaborati e mostrare risultati immediati.

Tutte le aziende come sanità, BFSI, servizi pubblici e molte organizzazioni governative stanno passando al data warehouse nella scienza dei dati. Di conseguenza, vengono assunti più professionisti con esperienza nel data warehouse in modo che possano analizzare i grandi volumi di dati e fornire approfondimenti pertinenti. Pertanto, le domande delle interviste sul data warehouse diventano pertinenti per decifrare facilmente le interviste e acquisire conoscenze importanti.

Se sei appassionato di gestione di enormi quantità di dati e di database, allora un data warehouse è un'ottima opzione di carriera per te. In questo articolo, riceverai le domande del colloquio sul data warehouse che possono aiutarti nella preparazione del tuo prossimo colloquio. Le domande vanno dal livello base a quello esperto, quindi sia i professionisti più freschi che quelli esperti trarranno vantaggio da queste domande di intervista sul data warehouse .

Sommario

Domande di intervista sul data warehouse

Q1: Che cos'è l'analisi dei dati in termini di data warehouse?

L'analisi dei dati è la scienza per controllare i dati grezzi per trarre conclusioni orientate al business dai dati. Il data warehouse consente l'analisi dei dati.

Q2: Definire un data warehouse orientato al soggetto?

I data warehouse orientati al soggetto archiviano i dati attorno a un punto specifico come vendite, clienti e prodotti.

Q3: Cosa significa OLAP e quali sono i suoi tipi?

OLAP è un sistema che elabora, gestisce e raccoglie dati multidimensionali per la gestione. Sta per Online Analytical Processing.

Esistono quattro tipi di server OLAP indicati di seguito:

OLAP ibrido
OLAP relazionale
Server SQL specializzati
OLAP multidimensionale

Q4: Qual è la differenza tra OLAP e OLTP?

OLAP è uno strumento software utilizzato per l'analisi dei dati che aiuta nelle decisioni aziendali mentre OLTP è un'applicazione orientata alle transazioni utilizzata in un'architettura a tre livelli. Di seguito sono riportate alcune delle differenze tra OLAP e OLTP:

OLAP (elaborazione analitica online)	OLTP (elaborazione delle transazioni online)
Contiene i dati storici raccolti da diversi database.	Contiene dati operativi.
Viene utilizzato nell'analisi dei dati, nel data mining e nel processo decisionale.	È orientato all'applicazione e viene utilizzato per varie attività aziendali.
Memorizza un'enorme quantità di dati ed è in TB.	Memorizza una piccola quantità di dati ed è archiviata in MB, GB, ecc.
Funziona lentamente perché la dimensione dei dati è grande.	Funziona molto velocemente e le query vengono eseguite sul 5% dei dati memorizzati.
Ha bisogno del backup dei dati solo di volta in volta.	Il backup e il ripristino dei dati avvengono regolarmente.
Viene utilizzato principalmente per un'operazione di lettura con operazioni di scrittura che si verificano raramente.	Viene utilizzato sia per le operazioni di lettura che di scrittura.

Q5: Quali funzioni esegue OLAP?

Alcune delle funzioni principali svolte da OLAP sono Pivot, Drill-down, Roll-up, Slice e Dice.

Q6: Che cos'è il diagramma ER?

ER Diagram sta per Entity-Relationship Diagram che mostra le interrelazioni tra le entità nel database.

D7: Che cos'è SCD?

SCD sta per dimensioni che cambiano lentamente e si applica a quei casi in cui i record cambiano nel tempo.

Q8: Definire i tipi di SCD.

Esistono 3 tipi di SCD come indicato di seguito:

SCD 1: il nuovo record sostituisce il record originale.

SCD 2: il nuovo record viene aggiunto alla tabella client esistente

SCD 3: i dati originali ottengono le modifiche per inserire nuovi dati.

Q9: Che cos'è uno schema di fiocchi di neve?

Snowflake Schema è uno schema con una tabella delle dimensioni principali. È possibile unire una o più dimensioni nella tabella delle dimensioni principali. È l'unica tabella che può unirsi alla tabella dei fatti.

Q 10: Definisci lo schema a stella.

Star Schema si riferisce alla gestione della tabella in modo che i risultati possano essere prontamente recuperati nell'ambiente del data warehouse.

Q11: Definire lo schema BUS.

Lo schema BUS include la suite di definizione standardizzata e dimensione confermata se è presente una tabella dei fatti.

Q 12: Definisci i metadati.

Si riferisce ai dati sui dati. I metadati sono costituiti da dettagli come l'ordine dei campi, diverse colonne utilizzate, tipi di dati dei campi, larghezza limitata e larghezza fissa.

Q13: Definire la dimensione centrale.

Core Dimension è una tabella delle dimensioni utilizzata principalmente per data mart o una singola tabella dei fatti.

Q14: Definire i loop nel data warehouse.

Questi loop esistono tra le tabelle nel data warehouse. Se tra le tabelle sono presenti dei loop, la generazione della query richiede più tempo e crea un enigma. Quindi è sempre consigliabile evitare qualsiasi loop tra le tabelle.

Q15: Spiega XMLA.

XMLA è chiamato XML for Analysis, che offre il metodo standard per accedere ai dati da OLAP, data mining e altre origini dati disponibili su Internet. È un semplice protocollo di accesso agli oggetti che utilizza i metodi di rilevamento ed esecuzione. Il metodo di rilevamento recupera i dati da Internet e il metodo di esecuzione viene utilizzato per eseguire applicazioni su origini dati diverse.

Leggi: Domande sull'intervista sulla scienza dei dati

Q16: Spiegare le differenze tra database e data warehouse.

Un database è diverso dal data warehouse poiché il database utilizza il modello relazionale per l'archiviazione dei dati. Al contrario, il data warehouse utilizza altri schemi e lo schema di avvio è uno di questi. Di seguito sono riportate alcune delle differenze tra un database e un data warehouse:

Caratteristica	Banca dati	Data Warehouse
Tipo di dati	Dati relazionali o dati orientati agli oggetti	Dati di grande volume
Operazioni	Transazione in corso	Modellazione e analisi dei dati
Dimensioni	Dati bidimensionali	Dati multidimensionali
Progettazione dei dati	basato sul pronto soccorso	Schema stella e fiocco di neve
Dimensione dei dati	Piccolo	Grande
Funzionalità	Alte prestazioni e disponibilità	Elevata flessibilità

Q17: Definire il cubo nel data warehouse.

I cubi in un Data warehouse sono la rappresentazione di dati multidimensionali. Il corpo del cubo è costituito da valori di dati e il bordo del cubo contiene membri dimensione.

Q18. Spiegare i tipi di un data warehouse?

Il Data warehouse è delle seguenti 3 tipologie:

Enterprise Data Warehouse: in Enterprise Data Warehouse, i dati organizzativi provenienti da varie aree funzionali vengono uniti in modo centralizzato. Questo aiuta nell'estrazione e nella trasformazione dei dati, che fornisce una panoramica dettagliata di qualsiasi oggetto nel modello di dati.
Archivio dati operativo: questo data warehouse aiuta ad accedere ai dati direttamente dal database e supporta anche l'elaborazione delle transazioni. Integra i dati di contrasto provenienti da diverse fonti, che supportano in seguito varie operazioni aziendali.
Data Mart: questo data warehouse archivia i dati per un'area funzionale specifica. Inoltre, contiene i dati sotto forma di sottoinsiemi, che vengono quindi archiviati nel data warehouse. Riduce il grande volume di dati che gli utenti possono analizzare in modo efficiente e ottenere informazioni dettagliate.

D19: Tra OLAP multidimensionale e OLAP relazionale, cosa funziona più velocemente?

L'OLAP multidimensionale funziona più velocemente dell'OLAP relazionale.

OLAP multidimensionale: in MOLAP, i dati vengono archiviati nel cubo multidimensionale. La memorizzazione dei dati avviene in formati proprietari come il file PowerOLAP.olp. Questi prodotti sono compatibili con Excel e semplificano le interazioni con i dati.
OLAP relazionale: nei prodotti OLAP relazionale, è possibile accedere al database relazionale con SQL, che è un linguaggio standard utilizzato per manipolare i dati in RDBMS. Durante l'elaborazione, accetta le richieste del client, che vengono quindi tradotte in query SQL e quindi passate all'RDBMS.

Q20: Spiegare le differenze tra il clustering gerarchico divisivo e il clustering agglomerato.

Nel metodo di clustering gerarchico agglomerato, i cluster vengono letti dal basso verso l'alto, il che significa che il programma legge prima il sottocomponente e poi il genitore. D'altra parte, il clustering gerarchico divisivo utilizza l'approccio dall'alto verso il basso in cui i dati a livello padre vengono letti prima e poi a livello figlio.

Nel metodo gerarchico agglomerato, gli oggetti sono presenti e ogni oggetto crea il proprio cluster e tutti questi cluster insieme formano un cluster di grandi dimensioni. Questo metodo consiste principalmente nell'unione continua che si verifica fino a quando non viene creato un unico grande cluster, mentre nel metodo del clustering divisivo si verifica la divisione dei cluster. Il cluster padre viene suddiviso in cluster più piccoli. Questa divisione di cluster continua fino a quando ogni cluster è costituito da un singolo oggetto.

Ulteriori informazioni: Data Science vs Data Mining: differenza tra Data Science e Data Mining

Q21: Qual è il metodo camaleontico in un data warehouse?

Chameleon è il metodo di raggruppamento gerarchico nel data warehouse. Questo metodo funziona sul grafo sparso costituito da nodi e archi. Questi nodi rappresentano gli elementi di dati e gli spigoli rappresentano i pesi. Con questa rappresentazione, i set di dati possono essere creati e accessibili con facilità superando le carenze dei metodi esistenti. Il metodo funziona in due fasi:

Nella prima fase, il grafico viene partizionato come parte del quale gli elementi di dati sono divisi in molti sottocluster.
Nella seconda fase vengono ricercati i veri cluster che possono poi essere combinati con altri sub-cluster creati nella prima fase.

Q22: Qual è il piano di esecuzione e quale approccio utilizza l'ottimizzatore durante il piano di esecuzione?

Il piano di esecuzione è il piano utilizzato dall'ottimizzatore per scegliere la combinazione di passaggi per l'esecuzione delle query SQL. L'ottimizzatore seleziona la combinazione più efficiente di passaggi per l'esecuzione delle query SQL. L'ottimizzatore utilizza i due approcci nel piano di esecuzione, ovvero basato su regole e basato sui costi.

Q23: Quali sono i diversi strumenti utilizzati in ETL (estrazione, trasformazione e caricamento)?

Di seguito è riportato l'elenco degli strumenti ETL:

Informatica
Oracolo
Fase dati
Giunzione dati
Dall'inizio
Costruttore di magazzini

Q24: In che cosa differiscono i metadati e i dizionari di dati?

I metadati descrivono i dati. Contiene tutte le informazioni sui dati come la fonte dei dati, chi ha raccolto i dati e il formato dei dati. È fondamentale comprendere le informazioni sui dati archiviati nei data warehouse. D'altra parte, un dizionario di dati è la definizione di base del database. Il dizionario dei dati è costituito dai file presenti nel database, dal conteggio dei record presenti in ciascun file e da tutte le informazioni sui campi nel database.

Q25: Definire il data warehouse virtuale.

Un data warehouse virtuale offre una visione collettiva dei dati completi. È come il modello di dati logici dei metadati e non ha dati storici. Un data warehouse virtuale è il modo migliore per tradurre i dati grezzi e presentarli in una forma tale da essere utilizzati dai responsabili delle decisioni. I dati sono rappresentati come una mappa semantica che consente agli utenti finali di visualizzare i dati in una forma virtualizzata.

Leggi anche: Domande e risposte sull'intervista all'analista di dati

Q26: Quali approcci vengono utilizzati per progettare il data warehouse?

Esistono principalmente due approcci utilizzati per la progettazione del data warehouse:

Approccio Inmon: è l'approccio top-down in cui prima viene creato il data warehouse, quindi vengono creati i data mart. In questo approccio, il data warehouse funge da centro della Corporate Information Factory e il data warehouse funge da struttura logica.
Approccio Kimball: è l'approccio dal basso in cui il data mart viene creato per primo. Il data mart si integra quindi per formare il data warehouse completo. L'integrazione di diversi data mart è denominata architettura del bus del data warehouse.

D27: Che cos'è un data warehouse in tempo reale e quali sono i suoi vantaggi?

Un data warehouse in tempo reale è il concetto di data warehouse che acquisisce i dati in tempo reale non appena si verificano e li rende disponibili nel data warehouse.

Vantaggi di un data warehouse in tempo reale:

Aiuta a prendere decisioni facili.
Rimuove la finestra batch.
Risolve il problema relativo al carico dati ideale.
Offre un modo ottimizzato per eseguire le trasformazioni nel database.
Offre un rapido recupero dei dati.

Q28: Spiegare l'architettura a 3 strati del ciclo ETL.

Il ciclo ETL è composto da sotto 3 livelli:

Livello di staging: questo livello memorizza i dati estratti da più strutture di dati.
Livello di integrazione dei dati: i dati del livello di staging vengono trasferiti nel database con l'aiuto del livello di integrazione. Questi dati vengono quindi organizzati in gruppi gerarchici, chiamati anche dimensioni, aggregati e fatti. Le dimensioni ei fatti insieme formano lo schema.
Livello di accesso: gli utenti finali accedono ai dati tramite il livello di accesso ed eseguono l'analisi dei dati.

Q29: Che cos'è l'eliminazione dei dati?

L'eliminazione dei dati è il metodo di rimozione permanente dei dati dall'archiviazione dei dati. È diverso dall'eliminazione dei dati poiché l'eliminazione dei dati rimuove solo temporaneamente i dati mentre l'eliminazione dei dati rimuove i dati in modo permanente e lo spazio libero viene utilizzato per altri scopi. L'eliminazione dei dati utilizza metodi diversi. I dati eliminati possono essere archiviati, se necessario.

Q30: Definire le fasi di test in un progetto.

Il test ETL consiste in cinque fasi come di seguito indicato:

Identificazione dei requisiti e delle fonti di dati
Acquisizione dei dati
Implementazione della logica aziendale
Costruzione e pubblicazione dei dati
Segnalazione

Dai un'occhiata anche a: Data Science vs Big Data: differenza tra Data Science e Big Data

Riassumendo

Queste sono state le domande più frequenti per i colloqui di Data warehouse che sicuramente ti aiuteranno nella preparazione del tuo prossimo colloquio. Se vuoi saperne di più su Data warehouse, puoi visitare upGrad e ottenere una conoscenza più approfondita. Puoi trovare informazioni rilevanti che ti aiuteranno a comprendere correttamente le domande del colloquio sul data warehouse .

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Come posso iniziare una carriera nel data warehousing?

Il data warehousing si è rivelato una posizione lavorativa molto richiesta a causa della crescente raccolta e utilizzo dei dati per ogni organizzazione. Ogni organizzazione è alla ricerca di professionisti in grado di gestire i dati e convertirli in insight utilizzabili per ottenere insight dai dati.

Alcune delle competenze necessarie per entrare nel data warehousing sono:

1. Capacità di ricerca, risoluzione dei problemi e analisi di prim'ordine.
2. Una laurea in Informatica o qualsiasi altro settore correlato come l'IT.
3. Conoscenza adeguata della teoria dei database relazionali
4. Esperienza nel lavoro con i sistemi di database per 3-5 anni
5. Esperienza nel lavoro con la modellazione dei dati e l'architettura
6. Comando sulla comunicazione verbale e scritta.
7. Buon ascolto per comprendere le informazioni fornite dai membri tecnici e non

Queste sono alcune delle competenze su cui è necessario iniziare a lavorare per costruire la propria carriera nel campo del data warehousing.

Come posso iniziare una carriera nel data warehousing?

Ci sono alcuni requisiti che è necessario soddisfare per costruire la propria carriera nel campo del data warehousing.

1. In primo luogo, ogni individuo deve possedere una laurea in informatica o settori affini.
2. È importante un'esperienza di almeno 2 anni nella codifica e amministrazione di server SQL.
3. Comprensione dell'integrazione del server e utilizzo degli strumenti ETL
4. Conoscenza adeguata delle tecniche di data warehousing e di modellazione dei dati
5. Competenze di base dell'ufficio MS

Partecipare a un corso può rendere l'intero processo piuttosto semplice per te. Ci sono molti programmi di formazione offerti da diverse università e piattaforme per la gestione dei database e l'amministrazione dei database. Successivamente, puoi intraprendere un lavoro di livello base per acquisire esperienza e comprendere i dettagli del campo.

Quali sono le diverse fasi del data warehousing in ogni azienda?

In base alle dimensioni dell'azienda, all'età e al settore, le fasi del data warehousing rientreranno nelle quattro menzionate di seguito.

1. Database offline
2. Data Warehouse offline
3. Data Warehouse in tempo reale
4. Data Warehouse integrato

Ogni azienda inizia con la 1a fase e cerca di raggiungere la 4a fase per integrare tutto nei sistemi aziendali. Il corretto funzionamento dei data warehouse può rendere più semplice per il responsabile del data warehouse l'analisi dei dati e la generazione di informazioni utili da essi.