Die 30 wichtigsten Fragen und Antworten zu Data Warehouse-Interviews im Jahr 2022 [Für Neueinsteiger und Erfahrene]

Veröffentlicht: 2021-01-06

Die in diesem Artikel aufgeführten Data Warehouse-Interviewfragen sind hilfreich für diejenigen, die in der Karriere von Data Warehouse und Business Intelligence tätig sind. Mit dem Aufkommen des maschinellen Lernens müssen große Datenmengen analysiert werden, um Erkenntnisse zu gewinnen und Ergebnisse schneller umzusetzen. Die Zeiten, in denen die Datenverarbeitungsschritte Datenspeicherung, -assimilation, -abruf und -verarbeitung waren, sind vorbei. Da das Datenvolumen jedoch zunimmt, müssen diese Daten verarbeitet werden und sofortige Ergebnisse liefern.

Alle Unternehmen wie das Gesundheitswesen, BFSI, Versorgungsunternehmen und viele Regierungsorganisationen wechseln zum Data Warehouse in Data Science. Infolgedessen werden mehr Fachleute mit Erfahrung im Data Warehouse eingestellt, damit sie die großen Datenmengen analysieren und relevante Erkenntnisse liefern können. Somit werden Data Warehouse-Interviewfragen relevant, um die Interviews leicht zu knacken und wichtige Erkenntnisse zu gewinnen.

Wenn Sie leidenschaftlich gerne mit riesigen Datenmengen umgehen und Datenbanken verwalten, dann ist ein Data Warehouse eine großartige Karriereoption für Sie. In diesem Artikel erhalten Sie die Data Warehouse-Interviewfragen , die Ihnen bei Ihrer nächsten Interviewvorbereitung helfen können. Die Fragen reichen von einfachen bis hin zu Experten-Fragen, sodass sowohl frischgebackene als auch erfahrene Fachleute von diesen Data-Warehouse-Interviewfragen profitieren .

Inhaltsverzeichnis

Fragen im Vorstellungsgespräch für Data Warehouse

F1: Was ist Datenanalyse in Bezug auf ein Data Warehouse?

Data Analytics ist die Wissenschaft, Rohdaten zu überprüfen, um geschäftsorientierte Schlussfolgerungen aus den Daten zu ziehen. Das Data Warehouse ermöglicht die Datenanalyse.

F2: Definieren Sie ein subjektorientiertes Data Warehouse?

Subjektorientierte Data Warehouses speichern Daten rund um einen bestimmten Punkt wie Umsatz, Kunde und Produkt.

F3: Was bedeutet OLAP und welche Typen gibt es?

OLAP ist ein System, das mehrdimensionale Daten für die Verwaltung verarbeitet, verwaltet und sammelt. Es steht für Online Analytical Processing.

Es gibt vier Arten von OLAP-Servern, die unten aufgeführt sind:

Hybrid-OLAP
Relationales OLAP
Spezialisierte SQL-Server
Mehrdimensionales OLAP

F4: Was ist der Unterschied zwischen OLAP und OLTP?

OLAP ist ein Softwaretool zur Datenanalyse, das bei Geschäftsentscheidungen hilft, während OLTP eine transaktionsorientierte Anwendung ist, die in einer dreistufigen Architektur verwendet wird. Nachfolgend sind einige der Unterschiede zwischen OLAP und OLTP aufgeführt:

OLAP (Online Analytical Processing)	OLTP (Online-Transaktionsverarbeitung)
Es enthält die historischen Daten, die aus verschiedenen Datenbanken gesammelt wurden.	Es enthält Betriebsdaten.
Es wird in der Datenanalyse, im Data Mining und in der Entscheidungsfindung verwendet.	Es ist anwendungsorientiert und wird für verschiedene betriebswirtschaftliche Aufgaben eingesetzt.
Es speichert eine riesige Menge an Daten und ist in TB.	Es speichert eine kleine Datenmenge und wird in MB, GB usw. gespeichert.
Es arbeitet langsam, da die Datenmenge groß ist.	Es arbeitet sehr schnell und Abfragen finden auf 5% der gespeicherten Daten statt.
Es benötigt nur von Zeit zu Zeit eine Datensicherung.	Sicherung und Wiederherstellung von Daten erfolgen regelmäßig.
Es wird hauptsächlich für eine Leseoperation verwendet, wobei eine Schreiboperation selten vorkommt.	Es wird sowohl für Lese- als auch für Schreiboperationen verwendet.

F5: Welche Funktionen führt OLAP aus?

Einige der Hauptfunktionen von OLAP sind Pivot, Drill-down, Roll-up, Slice und Dice.

Q6: Was ist das ER-Diagramm?

ER-Diagramm steht für Entity-Relationship-Diagramm, das die Beziehungen zwischen den Entitäten in der Datenbank zeigt.

F7: Was ist SCD?

SCD steht für sich langsam ändernde Dimensionen und gilt für solche Fälle, in denen sich Aufzeichnungen im Laufe der Zeit ändern.

Q8: Definieren Sie die Arten von SCD.

Es gibt 3 Arten von SCD, wie unten angegeben:

SCD 1: Der neue Datensatz ersetzt den ursprünglichen Datensatz.

SCD 2: Der neue Datensatz wird der bestehenden Kundentabelle hinzugefügt

SCD 3: Die Originaldaten werden geändert, um neue Daten einzugeben.

F9: Was ist ein Snowflake-Schema?

Das Snowflake-Schema ist ein Schema mit einer primären Dimensionstabelle. Eine oder mehrere Dimensionen können in der primären Dimensionstabelle zusammengeführt werden. Es ist die einzige Tabelle, die mit der Faktentabelle verknüpft werden kann.

F 10: Star-Schema definieren.

Star Schema bezieht sich auf die Verwaltung der Tabelle in einer Weise, dass Ergebnisse in der Data-Warehouse-Umgebung problemlos wiederhergestellt werden können.

Q11: BUS-Schema definieren.

Das BUS-Schema enthält die Suite aus standardisierter Definition und bestätigter Dimension, falls eine Faktentabelle vorhanden ist.

F 12: Metadaten definieren.

Es bezieht sich auf Daten über die Daten. Die Metadaten bestehen aus Details wie Reihenfolge der Felder, mehrere verwendete Spalten, Datentypen der Felder, begrenzte Breite und feste Breite.

Q13: Definieren Sie die Kerndimension.

Core Dimension ist eine Dimensionstabelle, die hauptsächlich für Data Marts oder eine einzelne Faktentabelle verwendet wird.

Q14: Definieren Sie die Schleifen im Data Warehouse.

Diese Schleifen bestehen zwischen den Tabellen im Data Warehouse. Wenn sich Schleifen zwischen den Tabellen befinden, dauert die Abfragegenerierung länger und schafft ein Rätsel. Es wird daher immer empfohlen, Schleifen zwischen den Tabellen zu vermeiden.

F15: Erklären Sie XMLA.

XMLA heißt XML for Analysis und bietet die Standardmethode für den Zugriff auf Daten aus OLAP, Data Mining und anderen über das Internet verfügbaren Datenquellen. Es ist ein einfaches Objektzugriffsprotokoll, das die Erkennungs- und Ausführungsmethoden verwendet. Die Erkennungsmethode ruft die Daten aus dem Internet ab, und die Ausführungsmethode wird verwendet, um Anwendungen für verschiedene Datenquellen auszuführen.

Lesen Sie: Interviewfragen für Data Science

F16: Erklären Sie die Unterschiede zwischen Datenbank und Data Warehouse.

Eine Datenbank unterscheidet sich vom Data Warehouse, da die Datenbank das relationale Modell zur Datenspeicherung verwendet. Im Gegensatz dazu verwendet das Data Warehouse andere Schemas und das Startschema ist eines davon. Nachfolgend sind einige der Unterschiede zwischen einer Datenbank und einem Data Warehouse aufgeführt:

Feature	Datenbank	Datenlager
Datentyp	Relationale Daten oder objektorientierte Daten	Große Datenmengen
Operationen	Transaktionsverarbeitung	Datenmodellierung und Datenanalyse
Maße	Zweidimensionale Daten	Mehrdimensionale Daten
Datendesign	ER-basiert	Stern- und Schneeflockenschema
Größe der Daten	Klein	Groß
Funktionalität	Hohe Leistung und Verfügbarkeit	Hohe Flexibilität

F17: Definieren Sie den Cube im Data Warehouse.

Cubes in einem Data Warehouse sind die Darstellung mehrdimensionaler Daten. Der Körper des Würfels besteht aus Datenwerten, und der Rand des Würfels enthält Dimensionselemente.

Q18. Erklären Sie die Arten eines Data Warehouse?

Das Data Warehouse umfasst die folgenden 3 Typen:

Enterprise Data Warehouse: Im Enterprise Data Warehouse werden die Organisationsdaten aus verschiedenen Funktionsbereichen zentral zusammengeführt. Dies hilft bei der Extraktion und Transformation von Daten, was einen detaillierten Überblick über jedes Objekt im Datenmodell bietet.
Operational Data Store: Dieses Data Warehouse hilft beim direkten Zugriff auf Daten aus der Datenbank und unterstützt auch die Transaktionsverarbeitung. Es integriert Kontrastdaten aus verschiedenen Quellen, was später verschiedene Geschäftsabläufe unterstützt.
Data Mart: Dieses Data Warehouse speichert die Daten für einen bestimmten Funktionsbereich. Außerdem enthält es die Daten in Form von Teilmengen, die dann im Data Warehouse gespeichert werden. Es reduziert das große Datenvolumen, damit Benutzer es effizient analysieren und Erkenntnisse gewinnen können.

Q19: Was zwischen multidimensionalem OLAP und relationalem OLAP ist schneller?

Mehrdimensionales OLAP arbeitet schneller als relationales OLAP.

Mehrdimensionales OLAP: In MOLAP werden die Daten im mehrdimensionalen Würfel gespeichert. Die Speicherung der Daten erfolgt in proprietären Formaten wie der Datei PowerOLAP.olp. Diese Produkte sind mit Excel kompatibel und machen die Dateninteraktionen einfach.
Relationales OLAP: Bei den relationalen OLAP-Produkten kann auf die relationale Datenbank mit SQL zugegriffen werden, einer Standardsprache, die zum Bearbeiten von Daten in RDBMS verwendet wird. Während der Verarbeitung akzeptiert es die Client-Anforderungen, die dann in SQL-Abfragen übersetzt und dann an das RDBMS weitergeleitet werden.

Q20: Erklären Sie die Unterschiede zwischen divisivem hierarchischem Clustering und agglomerativem Clustering.

Bei der agglomerativen hierarchischen Clustering-Methode werden die Cluster von unten nach oben gelesen, was bedeutet, dass das Programm zuerst die Unterkomponente und dann die übergeordnete Komponente liest. Auf der anderen Seite verwendet das divisive hierarchische Clustering den Top-to-Bottom-Ansatz, bei dem die Daten auf der übergeordneten Ebene zuerst und dann auf der untergeordneten Ebene gelesen werden.

Bei der agglomerativen hierarchischen Methode sind Objekte vorhanden, und jedes Objekt bildet seinen Cluster, und alle diese Cluster bilden zusammen einen großen Cluster. Diese Methode besteht hauptsächlich aus kontinuierlichem Zusammenführen, das auftritt, bis ein einzelner großer Cluster erstellt wird, während bei der divisiven Clustering-Methode die Aufteilung von Clustern erfolgt. Der übergeordnete Cluster wird in kleinere Cluster unterteilt. Diese Aufteilung der Cluster wird fortgesetzt, bis jeder Cluster aus einem einzelnen Objekt besteht.

Erfahren Sie mehr: Data Science vs. Data Mining: Unterschied zwischen Data Science und Data Mining

F21: Was ist die Chamäleon-Methode in einem Data Warehouse?

Chameleon ist die hierarchische Clustering-Methode im Data Warehouse. Diese Methode funktioniert auf dem dünnbesetzten Graphen, der aus Knoten und Kanten besteht. Diese Knoten stellen die Datenelemente dar, und Kanten stellen die Gewichtungen dar. Mit dieser Darstellung können die Datensätze mit Leichtigkeit erstellt und aufgerufen werden, wobei die Mängel bestehender Methoden überwunden werden. Die Methode arbeitet in zwei Phasen:

In der ersten Phase wird der Graph partitioniert, wobei die Datenelemente in viele Untercluster unterteilt werden.
In der zweiten Phase werden die echten Cluster gesucht, die dann mit anderen in der ersten Phase erstellten Sub-Clustern kombiniert werden können.

Q22: Was ist der Ausführungsplan und welchen Ansatz verwendet der Optimierer während des Ausführungsplans?

Der Ausführungsplan ist der Plan, der vom Optimierer verwendet wird, um die Kombination von Schritten für die Ausführung von SQL-Abfragen auszuwählen. Der Optimierer wählt die effizienteste Kombination von Schritten zum Ausführen der SQL-Abfragen aus. Der Optimierer verwendet die beiden Ansätze im Ausführungsplan, dh regelbasiert und kostenbasiert.

Q23: Welche verschiedenen Tools werden in ETL (Extraction, Transform und Load) verwendet?

Unten ist die Liste der ETL-Tools:

Informatik
Orakel
Datenphase
Datenknotenpunkt
Ab Anfang
Lagerbauer

F24: Wie unterscheiden sich Metadaten und Datenwörterbücher?

Metadaten beschreiben die Daten. Es enthält alle Informationen über Daten wie die Quelle der Daten, wer die Daten gesammelt hat und das Datenformat. Es ist entscheidend, die Informationen über die in den Data Warehouses gespeicherten Daten zu verstehen. Auf der anderen Seite ist ein Data Dictionary die grundlegende Definition der Datenbank. Das Datenwörterbuch besteht aus den Dateien, die in der Datenbank vorhanden sind, der Anzahl der in jeder Datei vorhandenen Datensätze und allen Informationen zu den Feldern in der Datenbank.

F25: Definieren Sie das virtuelle Data Warehouse.

Ein virtuelles Data Warehouse bietet eine kollektive Sicht auf die kompletten Daten. Es ist wie das logische Datenmodell der Metadaten und enthält keine historischen Daten. Ein virtuelles Data Warehouse ist der beste Weg, um Rohdaten zu übersetzen und in einer Form zu präsentieren, dass sie von Entscheidungsträgern verwendet werden. Daten werden als semantische Karte dargestellt, die es den Endbenutzern ermöglicht, die Daten in virtualisierter Form anzuzeigen.

Lesen Sie auch: Fragen und Antworten zum Vorstellungsgespräch für Datenanalysten

Q26: Welche Ansätze werden verwendet, um das Data Warehouse zu entwerfen?

Für das Data-Warehouse-Design werden hauptsächlich zwei Ansätze verwendet:

Inmon-Ansatz: Es ist der Top-Down-Ansatz, bei dem zuerst das Data Warehouse erstellt und dann die Data Marts erstellt werden. Bei diesem Ansatz fungiert das Data Warehouse als Zentrum der Corporate Information Factory und das Data Warehouse als logischer Rahmen.
Kimball-Ansatz: Es ist der Bottom-up-Ansatz, bei dem zuerst ein Data Mart erstellt wird. Der Data Mart integriert sich dann zum vollständigen Data Warehouse. Die Integration verschiedener Data Marts wird als Data Warehouse Bus Architektur bezeichnet.

F27: Was ist ein Echtzeit-Data Warehouse und welche Vorteile bietet es?

Ein Echtzeit-Data Warehouse ist das Data-Warehouse-Konzept, das Echtzeitdaten erfasst, sobald sie anfallen, und sie im Data Warehouse verfügbar macht.

Vorteile eines Echtzeit Data Warehouse:

Es hilft bei der einfachen Entscheidungsfindung.
Es entfernt das Stapelfenster.
Es löst das Problem im Zusammenhang mit der idealen Datenlast.
Es bietet eine optimierte Möglichkeit, die Transformationen in der Datenbank auszuführen.
Es bietet eine schnelle Wiederherstellung von Daten.

F28: Erklären Sie die 3-Schichten-Architektur des ETL-Zyklus.

Der ETL-Zyklus besteht aus den folgenden 3 Schichten:

Staging-Schicht: Diese Schicht speichert die aus mehreren Datenstrukturen extrahierten Daten.
Datenintegrationsschicht: Die Daten aus der Stagingschicht werden mit Hilfe der Integrationsschicht in die Datenbank übertragen. Diese Daten werden dann in hierarchischen Gruppen organisiert, die auch als Dimensionen, Aggregate und Fakten bezeichnet werden. Die Dimensionen und Fakten bilden zusammen das Schema.
Zugriffsschicht: Endbenutzer greifen über die Zugriffsschicht auf die Daten zu und führen die Datenanalyse durch.

Q29: Was ist Datenbereinigung?

Die Datenbereinigung ist die Methode zum dauerhaften Entfernen von Daten aus dem Datenspeicher. Es unterscheidet sich von der Datenlöschung, da die Datenlöschung die Daten nur vorübergehend entfernt, während die Datenbereinigung die Daten dauerhaft entfernt und der freie Speicherplatz für andere Zwecke verwendet wird. Die Datenbereinigung verwendet verschiedene Methoden. Die gelöschten Daten können bei Bedarf archiviert werden.

Q30: Definieren Sie die Testphasen in einem Projekt.

Der ETL-Test besteht aus fünf Stufen, wie unten erwähnt:

Identifizierung von Anforderungen und Datenquellen
Datenerfassung
Implementierung der Geschäftslogik
Datenerstellung und Veröffentlichung
Berichterstattung

Sehen Sie sich auch an: Data Science vs. Big Data: Unterschied zwischen Data Science und Big Data

Zusammenfassen

Dies waren die am häufigsten gestellten Fragen zu Data Warehouse-Interviews, die Ihnen sicherlich bei Ihrer nächsten Vorstellungsgesprächsvorbereitung helfen werden. Wenn Sie mehr über Data Warehouse erfahren möchten, können Sie upGrad besuchen und sich vertiefendes Wissen aneignen. Hier finden Sie relevante Informationen, die Ihnen dabei helfen, die Interviewfragen zu Data Warehouses richtig zu verstehen.

Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Wie starte ich eine Karriere im Data Warehousing?

Data Warehousing hat sich aufgrund der zunehmenden Erfassung und Nutzung von Daten für jedes Unternehmen zu einer gefragten Stelle entwickelt. Jedes Unternehmen sucht nach Fachleuten, die mit Daten umgehen und sie in umsetzbare Erkenntnisse umwandeln können, um Erkenntnisse aus Daten zu gewinnen.

Einige der notwendigen Fähigkeiten für den Einstieg in Data Warehousing sind:

1. Erstklassige Forschungs-, Problemlösungs- und Analysefähigkeiten.
2. Ein Bachelor-Abschluss in Informatik oder einem anderen verwandten Bereich wie IT.
3. Gute Kenntnisse der Theorie relationaler Datenbanken
4. Erfahrung in der Arbeit mit Datenbanksystemen seit 3-5 Jahren
5. Erfahrung in der Arbeit mit Datenmodellierung und Architektur
6. Befehl über mündliche und schriftliche Kommunikation.
7. Gut im Zuhören, um die Informationen zu verstehen, die von technischen und nicht-technischen Mitgliedern bereitgestellt werden

Dies sind einige der Fähigkeiten, an denen man arbeiten muss, um seine Karriere im Bereich Data Warehousing aufzubauen.

Wie starte ich eine Karriere im Data Warehousing?

Es gibt bestimmte Voraussetzungen, die man erfüllen muss, um seine Karriere im Bereich Data Warehousing aufzubauen.

1. Erstens muss jede Person einen Bachelor-Abschluss in Informatik oder verwandten Bereichen besitzen.
2. Eine mindestens 2-jährige Erfahrung in der Programmierung und Verwaltung von SQL-Servern ist wichtig.
3. Verständnis der Serverintegration und Arbeiten mit ETL-Tools
4. Korrekte Kenntnisse in Data-Warehousing- und Datenmodellierungstechniken
5. Grundlegende MS-Office-Kenntnisse

Die Aufnahme eines Kurses kann den gesamten Prozess für Sie ziemlich einfach machen. Es gibt viele Schulungsprogramme, die von verschiedenen Universitäten und Plattformen für Datenbankmanagement und Datenbankverwaltung angeboten werden. Später können Sie einen Einstiegsjob annehmen, um Erfahrungen zu sammeln und die Besonderheiten des Bereichs zu verstehen.

Was sind die verschiedenen Stadien des Data Warehousing in einem Unternehmen?

Basierend auf der Unternehmensgröße, dem Alter und der Branche liegen die Stadien des Data Warehousing innerhalb der vier unten genannten Phasen.

1. Offline-Datenbank
2. Offline-Data Warehouse
3. Data Warehouse in Echtzeit
4. Integriertes Data Warehouse

Jedes Unternehmen beginnt mit der 1. Stufe und versucht, die 4. Stufe zu erreichen, um alles in die Geschäftssysteme zu integrieren. Das ordnungsgemäße Funktionieren von Data Warehouses kann es dem Data Warehouse-Manager erleichtern, die Daten zu analysieren und daraus umsetzbare Erkenntnisse zu gewinnen.