Data Warehouse-Architektur: Alles, was Sie wissen müssen

Veröffentlicht: 2020-04-30

In dieser datenzentrierten Welt überrascht es nicht, dass jeder von uns früher oder später 1,7 MB Daten pro Sekunde generiert . Aber wohin würden all diese Daten gehen? Sollte es nicht eine Speichereinheit geben, um all diese Informationen sicher aufzubewahren, damit sie bei Bedarf wiederbelebt werden können?

Was ist, wenn wir Ihnen sagen, dass es eine solche Speichereinheit gibt? Es überrascht nicht, dass es als Data Warehouse bezeichnet wird. Es ist ein analytisches Tool, das Daten und Informationen aus betrieblichen Quellen enthält, das zur Unterstützung der Entscheidungsfindung und Berichterstattung entwickelt wurde.

Heute ist der globale Data-Warehousing-Markt so weit gewachsen, dass er in den folgenden Jahren voraussichtlich um 16 % CAGR wachsen wird.

Lassen Sie uns also tief in das Lernen über das Data Warehouse und seine Architektur eintauchen.

Erfahren Sie mehr: Das What's What von Data Warehousing und Data Mining

Inhaltsverzeichnis

Was ist ein Data Warehouse?
Business Analysis Framework zum Entwerfen eines Data Warehouse
Drei Arten von Data Warehouse-Architekturen
Komponenten der Data Warehouse-Architektur
- Data Warehouse-Datenbank
- Tools zum Extrahieren, Transformieren und Laden (ETL)
- Metadaten
- Data Warehouse-Zugriffstools
- Data Warehouse-Bus
Schichten der Data Warehouse-Architektur
- Datenquellenebene
- Daten-Staging-Schicht
- Datenspeicherschicht
- Datenpräsentationsschicht
Merkmale des Data Warehouse
Wie verwendet man eine Data-Warehouse-Architektur?
Fazit
Was ist die Architektur eines Data Warehouse?
Wie viel verdient ein Data Warehouse Architekt im Durchschnitt?
Was ist der richtige Ablauf der Data-Warehouse-Architektur?

Was ist ein Data Warehouse?

Ein Ort zur sicheren Aufbewahrung aller vergangenen und kommutativen Daten aus einer oder mehreren Quellen wird als Data Warehouse bezeichnet. Der Hauptzweck eines Data Warehouse besteht darin, die Business Intelligence- und Berichtsprozesse eines Unternehmens zu glätten. Es führt im Wesentlichen Abfragen und Analysen der gespeicherten Daten durch.

Da ein Data Warehouse Transaktionsdaten aus mehreren Quellen enthält, hilft es Unternehmen bei Folgendem:

Bewahren Sie alte Aufzeichnungen auf
Werten Sie vorhandene Daten aus und identifizieren Sie die Schlupflöcher in den Abläufen

Business Analysis Framework zum Entwerfen eines Data Warehouse

Normalerweise sammelt ein Datenanalyst relevante Daten aus dem Lager und analysiert sie, um Unternehmen bei der Verbesserung ihrer Abläufe zu unterstützen. Die Nutzung des Data Warehouse ist praktisch, da es hilft, schnell und effizient auf Daten zuzugreifen und so die Gesamtproduktivität zu steigern.

Darüber hinaus können Sie sich einen umfassenden Überblick über die Kunden und alle Produkte verschaffen. So stellen Sie eine reibungslose Kundenbeziehung sicher.

Aber damit all dies geschehen kann, müsste der Datenanalyst zunächst die geschäftlichen Anforderungen verstehen. Und dafür müssen sie ein Geschäftsanalyse-Framework erstellen.

Erst nachdem ein Geschäftsanalyse-Framework erstellt wurde, können wir mit dem Entwurf eines Data Warehouse fortfahren. Dazu gibt es drei Ansichten:

Top-Down-Ansicht : In dieser Ansicht sehen Sie die relevanten Informationen, die für die Gestaltung des Lagers benötigt werden.
Datenquellenansicht : Zeigt die Daten an, die erfasst, gespeichert und verwaltet werden.
Data-Warehouse-Ansicht : Sie listet die Faktentabellen und Dimensionstabellen und Daten im Warehouse auf.
Geschäftsabfrageansicht : In dieser Ansicht sehen Sie die Daten aus der Perspektive des Endbenutzers.

Nachdem Sie die Daten aus all diesen Blickwinkeln betrachtet haben, ist es an der Zeit, sich mit den drei Typen der Data-Warehouse-Architektur vertraut zu machen.

Drei Arten von Data Warehouse-Architekturen

Jedes Mal, wenn Sie planen, ein Data Warehouse für ein Unternehmen zu entwerfen, können Sie einen Fahrplan für den Aufbau Ihres Data Warehouse sowie die folgenden drei Architekturebenen in Betracht ziehen.

Single Tier : Dies ist hauptsächlich für die Generierung eines geschlossenen Datensatzes und die Reduzierung des Gesamtvolumens verantwortlich. Dieser Typ wird jedoch nicht für Unternehmen mit komplexen Daten und mehreren Datenströmen empfohlen.
Zweischichtig : Bei dieser Art von Architektur werden die Datenquellen aufgeteilt, wodurch die Datenorganisation und der Speicherprozess effizienter werden.
Dreischichtig : Diese Art von Warehouse-Architektur ist die am meisten bevorzugte Art, da sie wirklich wertvolle Erkenntnisse aus Rohdaten liefert und so einen organisierten Datenfluss erzeugt.

Es besteht aus den folgenden drei Ebenen:

Die unterste Schicht , die die Server des Lagers enthält. Hier werden die Daten mit Backend-Tools bereinigt und geladen.
Die mittlere Schicht besteht aus einem OLAP-Server. Diese Schicht bietet einem Benutzer eine abstrahierte Ansicht der Datenbank und fungiert als Verbindung zwischen dem Endbenutzer und der Datenbank.
Die oberste Ebene verfügt über die API und Tools (Abfrage-, Data-Mining-, Analyse- und Berichterstellungstools) zum Extrahieren von Daten aus dem Warehouse.

Komponenten der Data Warehouse-Architektur

Um die Funktionsweise der Architektur überschaubar zu machen, enthält das Warehouse einen RDBMS-Server, der von fünf Hauptkomponenten umgeben ist.

Hier sind die fünf Hauptkomponenten der Data-Warehouse-Architektur.

Data Warehouse-Datenbank

Kernstück der Warehouse-Architektur ist eine Datenbank, die alle Geschäftsinformationen enthält, die sie für das Reporting verständlich machen. Dies bedeutet natürlich, dass Sie auswählen müssen, welche Art von Datenbank Sie verwenden würden, um die Daten in Ihrem Lager zu speichern.

Als nächstes kommen die vier Datenbanktypen, die Sie verwenden können:

Relationale Datenbanken sind die zeilenbasierten Datenbanken, denen Sie im Allgemeinen begegnen oder die Sie täglich verwenden. Dazu gehören Microsoft SQL Server, SAP, Oracle und IBM DB2.
Analytische Datenbanken werden maßgeblich zur Informationsbevorratung zur Unterstützung und Überwachung der Analyse erstellt. Zum Beispiel Teradata und Greenplum.
Data-Warehouse-Anwendungen sind eigentlich keine Kapazitätsdatenbanken. Es handelt sich um Anwendungen, die Software für das Datenmanagement anbieten, wie SAP Hana, Oracle Exadata und IBM Netezza.
Cloud-basierte Datenbanken sind diejenigen, die in der Cloud vereinfacht und wiederhergestellt werden können, mit dem Ziel, dass Sie keine Hardware erwerben müssen, um Ihr Data Warehouse einzurichten. Zum Beispiel Amazon Redshift, Microsoft Azure SQL und Google BigQuery.

Wenn Sie mehr über Data Science erfahren möchten, sehen Sie sich unsere Data Science-Schulungen von Top-Universitäten an.

Tools zum Extrahieren, Transformieren und Laden (ETL)

ETL-Vorrichtungen sind grundlegend für eine Data-Warehouse-Architektur. Diese helfen dabei, Informationen aus verschiedenen Quellen zu trennen, in eine sinnvolle Anordnung zu bringen und in einem Lager zu stapeln.

Das von Ihnen gewählte ETL-Tool entscheidet:

Die für die Informationsextraktion verbrauchte Zeit
Möglichkeiten zum Extrahieren von Daten
Art der vorgenommenen Änderungen und der dafür erforderliche Aufwand
Definition von Geschäftsregeln für die Validierung und Bereinigung von Informationen zur Verbesserung der Endproduktanalyse
Verlorene Informationen ergänzen
Darstellung des Datenflusses vom Schlüsseltresor zu Ihren BI-Anwendungen

Metadaten

Metadaten bilden das Data Warehouse ab und bieten ein Informationssystem. Es hilft bei der Entwicklung, Sicherung, Handhabung und Nutzung des Lagers. Es gibt zwei Arten:

Technische Metadaten : Sie enthalten Daten, die von Ingenieuren und Managern bei der Ausführung von Lagerentwicklungs- und Organisationsaufgaben verwendet werden können.
Geschäftsmetadaten : Sie umfassen Daten, die eine effektiv vertretbare Haltung der Daten im Lager bieten.

Metadaten übernehmen eine wichtige Rolle für die Organisationen, um die im Warehouse vorhandenen Daten zu verstehen und in nutzbare Informationen umzuwandeln.

Data Warehouse-Zugriffstools

Ein Data Warehouse verwendet eine Datenbank oder eine Gruppe von Datenbanken als Einrichtung. Unternehmen können größtenteils nicht rechtmäßig mit Datenbanken arbeiten. Aus diesem Grund verwenden sie mehrere Tools, darunter:

Abfrage- und Berichtstools : Diese unterstützen Benutzer bei der Erstellung von Unternehmensberichten in Tabellenkalkulationen, Berechnungen oder intelligenten Visualisierungen, um eine eingehende Analyse durchzuführen.
OLAP-Geräte : Diese helfen, ein mehrdimensionales Data Warehouse zu entwickeln und Big Data aus verschiedenen Perspektiven zu analysieren.
Data-Mining-Tools : Diese systematisieren die Methodik zum Erkennen von Clustern und Verbindungen in enormen Datenmengen unter Verwendung statistischer Modellierungsstrategien. Erfahren Sie mehr über Data-Mining-Techniken.
Anwendungsentwicklungstools : Diese helfen, maßgeschneiderte Berichte zu erstellen und sie in Übersetzungen zu präsentieren, die für bestimmte Berichtszwecke erwartet werden.

Data Warehouse-Bus

Es hilft bei der Entscheidung über den Fortschritt der Daten im Warehouse. Dieser Fluss kann als Zufluss, Aufwärtsfluss, Abwärtsfluss, Abfluss und Metafluss angeordnet werden.

Beim Entwerfen eines Datenbusses müssen Sie über die gemeinsamen Messungen und Fakten in allen Data Marts nachdenken.

Datamarts

Dies ist eine Eingangsschicht, die verwendet wird, um Informationen an die Benutzer weiterzugeben. Es wird als Möglichkeit für ein riesiges Data Warehouse eingeführt, da es nur wenig Zeit und Geld für die Erstellung erfordert. In jedem Fall gibt es keine Standardbedeutung eines Data Marts, da sie von Person zu Person unterschiedlich ist.

Vereinfacht gesagt ist ein Data Mart ein Hilfsmittel eines Data Warehouse und dient der Segmentierung von Informationen, die für eine bestimmte Benutzergruppe erstellt wurden.

Schichten der Data Warehouse-Architektur

Der Aufbau eines Data Warehouse ist in erster Linie von einem bestimmten Unternehmen abhängig. Jede Architektur hat also vier Schichten. Lassen Sie uns sie unten im Detail studieren.

Datenquellenebene

Die Datenquellenebene ist der Ort, an dem sich einzigartige Informationen, die aus einer Auswahl interner und externer Quellen gesammelt wurden, in der sozialen Datenbank befinden. Im Folgenden finden Sie Beispiele für die Datenquellenebene:

Betriebsdaten – Produktinformationen, Aktieninformationen, Marketinginformationen oder HR-Informationen
Social-Media-Daten – Website-Zugriffe, Bekanntheit der Inhalte, Vervollständigung der Kontaktseite
Outsider-Daten – Demografische Informationen, Studieninformationen, statistische Informationen

Während die meisten Data Warehouses organisierte Daten verwalten, sollte über die zukünftige Nutzung unstrukturierter Datenquellen nachgedacht werden, z. B. Sprachkonten, gescannte Bilder und unstrukturierter Text. Diese Datenfluten sind bedeutende Informationsspeicher und sollten beim Aufbau Ihres Warenlagers beachtet werden.

Daten-Staging-Schicht

Diese Schicht befindet sich zwischen Informationsquellen und dem Data Warehouse. In dieser Schicht werden Informationen von verschiedenen internen und externen Datenquellen getrennt. Da Quelldaten in verschiedenen Organisationen vorliegen, verwendet die Datenextraktionsschicht zahlreiche Technologien und Geräte, um die erforderlichen Informationen zu extrahieren.

Sobald die extrahierten Daten gestapelt wurden, werden sie strengen Qualitätsprüfungen unterzogen. Das endgültige Ergebnis sind perfekte und organisierte Daten, die Sie in Ihr Data Warehouse stapeln. Die Staging-Schicht enthält die angegebenen Teile:

Landing Database und Staging Area

Die Landing-Datenbank speichert die aus der Datenquelle wiedergewonnenen Informationen. Bevor die Daten ins Warehouse gehen, führt der Staging-Prozess strenge Qualitätskontrollen durch. Das Arrangieren ist ein grundlegender Schritt in der Architektur. Schlechte Informationen summieren sich zu unzureichenden Daten, und das Ergebnis ist eine schlechte Geschäftsdynamik. Auf der Anordnungsebene müssen Sie Änderungen gemäß dem Geschäftsprozess vornehmen, um mit unstrukturierten Informationsquellen umzugehen.

Datenintegrationstool

Tools zum Extrahieren, Transformieren und Laden (ETL) sind die Datentools, die zum Extrahieren von Informationen aus Quellframeworks, zum Ändern und Vorbereiten von Informationen und zum Laden in das Warehouse verwendet werden.

Lesen Sie: Data Scientist Gehalt in Indien

Datenspeicherschicht

Diese Schicht ist der Ort, an dem die Daten, die in der Anordnungszone heruntergespült wurden, als einsames zentrales Archiv aufbewahrt werden. Abhängig von den Anforderungen Ihres Unternehmens und Ihrer Warehouse-Architektur kann Ihr Datenspeicher ein Data Warehouse Center, ein Data Mart (Data Warehouse, das für bestimmte Abteilungen etwas nachgebildet wurde) oder ein Operational Data Store (ODS) sein.

Datenpräsentationsschicht

Hier kommunizieren die Nutzer mit den bereinigten und aussortierten Daten. Diese Ebene der Datenarchitektur gibt Benutzern die Möglichkeit, die Daten nach Artikel- oder Serviceeinblicken abzufragen, die Daten aufzuschlüsseln, um theoretische Geschäftssituationen durchzuführen, und computergestützte oder speziell dafür vorgesehene Berichte zu erstellen.

Sie können ein OLAP- oder Berichtsinstrument mit einer leicht verständlichen grafischen Benutzeroberfläche (GUI) verwenden, um Benutzer bei der Erstellung ihrer Abfragen, der Durchführung von Analysen oder der Planung ihrer Berichte zu unterstützen.

Merkmale des Data Warehouse

Ein Data Warehouse ist subjektorientiert, nichtflüchtig, zeitvariant und ein integrierter Datensatz, um einen schnellen und effizienten Entscheidungsprozess für eine Organisation zu ermöglichen.

Themenorientiert : Ein Data Warehouse kann genutzt werden, um einen bestimmten Wissenszweig zu untersuchen. Beispielsweise kann „Verkauf“ ein spezifisches Thema sein.
Integriert : Ein Data Warehouse integriert Informationen aus verschiedenen Quellen. Zum Beispiel können Quelle A und Quelle B verschiedene Verfahren zum Unterscheiden eines Artikels haben, in einem Lagerhaus gibt es jedoch nur ein einzelnes Verfahren zum Erkennen eines Artikels.
Zeitvariante : Ein Warehouse enthält historische Daten. Beispielsweise kann man Informationen aus 3 Monaten, einem halben Jahr, einem Jahr oder deutlich ältere Informationen aus einem Data Warehouse wiederherstellen. Anders sieht es bei einem Transaktionsframework aus, wo nur die neusten Informationen gespeichert werden. Beispielsweise kann ein Transaktions-Framework den letzten Standort eines Kunden enthalten, während ein Data Warehouse alle mit einem Kunden verbundenen Standorte enthalten kann.
Nicht flüchtig : Eine der besten Eigenschaften eines Data Warehouse ist, dass sich die einmal gespeicherten Daten nicht mehr ändern können. Daher werden aufgezeichnete Informationen im Lager niemals geändert.

Wie verwendet man eine Data-Warehouse-Architektur?

Bei der Suche nach Erkenntnissen ist es entscheidend, welche Art von Datenbank Ihr Unternehmen oder Unternehmen benötigt und wie Sie damit zusammenarbeiten möchten. Es ist ebenso wichtig zu beurteilen, wer Informationen prüft und welche Quellen sie benötigen, während Sie Ihr Data-Warehouse-Design berücksichtigen.

Trotz der Tatsache, dass das Geplänkel zwischen Data Warehouse und Data Mart für kleinere Organisationen nicht immer relevant ist, können diejenigen mit mehr Gruppen, Abteilungen und expliziten Anforderungen von einem Data Mart profitieren. Der besondere sachbezogene Charakter eines Data Marts macht ihn zu einem wesentlichen Bestandteil Ihrer Data Warehouse-Architektur.

Abhängig von der Größe Ihres Unternehmens können außerdem verschiedene Arten von Lagerdesigns zunehmend praktischer werden. Welche Lösung am besten geeignet ist, hängt von Ihren Daten, der Größe Ihrer Sets und Ihren geschäftlichen Anforderungen ab.

Fazit

Ein Data Warehouse ist ein Data-Science-Framework, das authentische und kommutative Informationen aus einzelnen oder verschiedenen Quellen enthält. Es ist eine hervorragende Möglichkeit, auf alte und neue Daten zuzugreifen, daraus Erkenntnisse zu gewinnen und Geschäftsprozesse durch die Analyse der vorhandenen Daten zu verbessern.

Darüber hinaus sind die Konzepte des Data Warehousing subjektorientiert, da es eher Daten zum Thema als zu den fortschreitenden Aktivitäten des Vereins anbietet. Im Lager bedeutet die Aufnahme die Gründung einer typischen Maßeinheit für jedes vergleichbare Datum aus den verschiedenen Datenbanken. Wie bereits erwähnt, ist es außerdem nichtflüchtig, was bedeutet, dass die vergangenen Informationen nicht gelöscht werden, wenn neue Informationen darin eingegeben werden.

Die zeitliche Variationseigenschaft des Data Warehouse ermöglicht einen hohen zeitlichen Rahmen realistischer Nutzbarkeit.

Es gibt fünf grundlegende Teile eines Data Warehouse. 1) Datenbank 2) ETL-Tools 3) Metadaten 4) Abfragetools 5) DataMarts

Die vier grundlegenden Klassen von Abfragewerkzeugen sind Abfrage- und Berichtswerkzeuge, Anwendungsentwicklungswerkzeuge, Data-Mining-Vorrichtungen und OLAP-Werkzeuge.

Die Informationsbeschaffungs-, Änderungs- und Verlagerungswerkzeuge werden verwendet, um alle Transformationen und Umrisse durchzuspielen.

In der Data Warehouse-Architektur übernimmt Meta-Tag eine wichtige Aufgabe, da es die Quelle, Verwendung, Qualität und Highlights der Daten im Data Warehouse angibt.

Wir hoffen, dass die Informationen in diesem Artikel Ihnen geholfen haben, die Grundlagen der Data Warehouse-Architektur zu verstehen. Wenden Sie sich für weitere Informationen an die Experten von upGrad. Schreiben Sie uns einfach eine E-Mail und wir werden uns bei Ihnen melden, um Ihnen bei Ihren Fragen zu helfen.

Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was ist die Architektur eines Data Warehouse?

Die Methode zur Definition der gesamten Architektur der Datenkommunikationsverarbeitung sowie der Präsentation, die für Endkunden existiert, ist die Data-Warehouse-Architektur. Jedes Data Warehouse ist anders und jedes von ihnen wird anhand der standardmäßigen Vitalkomponenten charakterisiert.

Einfach ausgedrückt ist ein Data Warehouse ein Informationssystem, das aus kommutativen und historischen Daten aus einer oder mehreren Quellen besteht. Der Prozess der Berichterstellung und Analyse von Daten in den Organisationen wird mit Hilfe verschiedener Data-Warehousing-Konzepte vereinfacht. Es gibt verschiedene Ansätze zum Aufbau einer Data-Warehouse-Architektur. Basierend auf den Anforderungen der Organisationen wird ein beliebiger Ansatz verwendet.

Wie viel verdient ein Data Warehouse Architekt im Durchschnitt?

Data Warehouse Architect ist eine sehr gefragte Position, bei der Sie hervorragende Gehaltspakete erwarten können. Im Durchschnitt beträgt das Gehalt eines Data Warehouse-Architekten Rs. 13.000.000 pro Jahr. Auch wenn Sie Ihre Karriere in diesem Bereich beginnen, können Sie mit einem Einstiegsgehalt von Rs rechnen. 10.000.000 pro Jahr. Wenn Sie mehr Erfahrung sammeln und die Leiter hinaufsteigen, kann das Gehalt bis zu Rs reichen. 22.000.000 pro Jahr.

Zweifellos hängt das Gehaltspaket sogar von dem Unternehmen ab, in das Sie eintreten, vom Erfahrungsniveau und vor allem vom geografischen Standort.

Was ist der richtige Ablauf der Data-Warehouse-Architektur?

Auf jeder operativen Datenbank gibt es eine bestimmte feste Anzahl von Operationen, die angewendet werden müssen. Es gibt verschiedene wohldefinierte Techniken zur Bereitstellung geeigneter Lösungen. Data Warehousing erweist sich als effektiver, wenn der korrekte Ablauf der Data Warehouse-Architektur vollständig befolgt wird.

Die vier verschiedenen Prozesse, die zu einem Data Warehouse beitragen, sind das Extrahieren und Laden der Daten, das Bereinigen und Transformieren der Daten, das Sichern und Archivieren der Daten und das Ausführen des Abfrageverwaltungsprozesses, indem sie an die entsprechenden Datenquellen weitergeleitet werden.