Briefing: Das Data Warehouse

Veröffentlicht: 2022-03-11

Unternehmen und Verbraucher generieren mehr Daten denn je. Die Verbreitung digitaler Geräte und Produkte treibt die exponentielle Expansion des digitalen Universums voran. Der Umfang dieser Daten ist zwar fiktiv ein Vermögenswert, stellt jedoch eine Herausforderung dar: Wie können Unternehmen ihre Informationen praktisch organisieren, um umsetzbare Erkenntnisse zu gewinnen?

Während Data Mining und Business Intelligence die wertvolle Extraktion und Präsentation solcher Erkenntnisse bereitstellen, ist das Data Warehouse (DWH) die vorbereitende Aggregation und Reorganisation der riesigen zugrunde liegenden Daten, die sich oft an mehreren Orten befinden. Das Verständnis der Rolle des DWH innerhalb des breiteren Ökosystems von Data Science, Data Mining und Business Intelligence ist für den modernen Manager unerlässlich.

Was ist ein Data Warehouse?

Das DWH ist ein zentralisiertes Repository digitaler Informationen, die aus einer Vielzahl unterschiedlicher Quellen aggregiert und in einer für die Berichterstellung optimierten Struktur organisiert sind. Am wichtigsten ist jedoch, dass das DWH dem gesamten Unternehmen verwertbare Informationen liefert, sodass Mitarbeiter maßgeschneiderte Analysen durchführen und bessere Entscheidungen treffen können.

Grundlegende Data-Warehouse-Konzepte

Das relationale versus dimensionale Modell

Um die Funktionalität eines Data Warehouse zu verstehen, ist es wichtig, den Unterschied zwischen einem relationalen und einem dimensionalen Modell zu verstehen. Während sie technisch klingen, sind sie leicht zu unterscheiden.

Aus Sicht der praktischen Nutzung unterscheiden sich relationale und dimensionale Datenbanken in einem entscheidenden Kriterium: dem Informationsfluss. Während relationale Datenbanken für die Dateneingabe optimiert sind, werden dimensionale Datenbanken für die Ausgabe erstellt, insbesondere in Form von Berichten und Analysen, bekannt als Business Intelligence.

Das relationale Modell organisiert Informationen um einen einzigen Informationspunkt herum, beispielsweise einen Kundennamen. In einem solchen Modell existiert der Kundenname an einem Ort, wobei alle zugehörigen Informationen – wie Kontaktdaten und Transaktionsdaten – in zugehörigen oder verwandten Tabellen aufgelistet sind.

Im Gegensatz dazu „entpackt“ die dimensionale Datenbank im Wesentlichen die relationale Datenbank, sodass Benutzer Daten einfach in die erforderliche Permutation „zerlegen“ können, um ihre Berichtsanforderungen zu erfüllen. Beispielsweise würden im obigen Eintrag in der relationalen Datenbank die Kundenkontaktdaten in diskrete Felder wie Telefonnummer, Straße, Stadt, Bundesland und Postleitzahl aufgeteilt.

Die dimensionale Datenbank „entpackt“ im Wesentlichen die relationale Datenbank, sodass Benutzer Daten einfach „slicen und würfeln“ können

Die Unterscheidung zwischen der relationalen und der dimensionalen Datenbank mag abstrakt erscheinen. Für diejenigen, die mit der Bereitstellung immer komplexerer Analysen und Berichte beauftragt sind, bietet die Wertschätzung der Unterscheidung jedoch ein wertvolles grundlegendes Verständnis für die Zusammenarbeit mit technischen Teams, die diese Ressourcen verwalten.

Das Data Warehouse – „It’s On“

Wie von Bill Inmon, einem der Entwickler des Data Warehouse, beschrieben, bestimmen einige spezifische Merkmale das Design des Data Warehouse. Laut Inmon ist das Data Warehouse eine subjektorientierte, nicht flüchtige, integrierte, zeitvariante Sammlung von Daten zur Unterstützung von Managemententscheidungen.

Das ist ein Bissen, aber einmal in Teile zerlegt, zeichnet diese Definition ein klares Bild der DWH-Grundstruktur. Um diese Kriterien leicht zu merken, haben wir die Kriterien von Inmon nach dem Anagramm „It's On“ neu organisiert.

Integriert: Daten müssen konsistente Formate haben. Datenfelder, die oft aus verschiedenen Quellen stammen, müssen konsistente Namenskonventionen haben.

Zeitvariante: Das DWH zeigt Trends auf, die von zeitlichen Veränderungen abhängen. Das Aufzeichnen von Datenpunkten im Laufe der Zeit ist von grundlegender Bedeutung, um Beziehungen zwischen Daten aufzudecken.

Themenorientiert: Das DWH ermöglicht eine fachbezogene Analyse und Berichterstattung. Beispielsweise möchte ein Unternehmen den Verkauf eines Produkts im Laufe der Zeit auswerten und dann einen Drilldown in regionale oder kundensegmentspezifische Trends durchführen.

Nicht flüchtig: Sobald Daten in das Warehouse gelangen, ändern sie sich nicht.

Das Data Warehouse unterscheidet sich von der transaktionalen Datenbank

Die DWH- und transaktionalen Datenbanksysteme erfüllen grundlegend unterschiedliche Funktionen und dienen unterschiedlichen Benutzern. Während das DWH für Reporting und Analyse optimiert ist, sind Transaktionssysteme – oft als OnLine Transaction Processing (OLTP) bezeichnet – auf Verfügbarkeit und Verarbeitungsgeschwindigkeit optimiert.

OLTP-Benutzer sind in der Regel Front-End-Mitarbeiter und greifen in der Regel auf mehrere Datensätze gleichzeitig zu. DWH-Anwender sind häufig Analysten und Manager, deren Berichte gleichzeitig mehrere Millionen Datensätze abrufen können.

Transaktionssystem und DWH unterscheiden sich auch in der Datengranularität und -permanenz. Im OLTP enthalten Daten aktuelle Werte, die detailliert und sehr variabel sind (alle paar Sekunden ändern Tausende von Transaktionen die Werte dieser Datensätze). Im Gegensatz dazu enthält das DWH umstrukturierte Daten, die nach dem Laden nicht mehr geändert werden können.

Der Verbraucherkreditprozess veranschaulicht kurz und bündig die wichtigsten Unterschiede zwischen diesen Systemen. Wenn ein Kunde beispielsweise einen Autokredit abschließt, erfasst die Transaktionsdatenbank Details wie Fahrzeugtyp, Farbe, Kaufjahr, Kaufpreis und persönliche Daten des Käufers. Nach der Konvertierung in das DWH-Modell werden Transaktionsinformationen (um die einzelne Kundentransaktion herum) in Bestandteile disaggregiert. Diese Teile wiederum werden mit vergleichbaren Teilen aus anderen Transaktionen gepoolt.

Durch Abfragen des DWH kann ein Mitarbeiter des Kreditgebers auf Berichte zugreifen, die aus aggregierten Kundendaten bestehen. Bei dem Versuch, die Werbeausgaben zu optimieren, sucht ein Marketingmanager beispielsweise nach Autos eines bestimmten Typs oder einer bestimmten Preisklasse mit der höchsten Kreditgenehmigungsrate oder dem durchschnittlichen Alter und Einkommensniveau der Kreditbewerber im Laufe der Zeit. Solche Informationen können Werbeausgaben auf relevantere Kanäle mit gezielteren Botschaften umleiten.

Das Data Warehouse vs. Data Mart und Data Lake

Das DWH kann von verwandten Datenbanken – dem Data Mart und dem Data Lake – begleitet werden, deren beschreibende Namen auf unterschiedliche Funktionen hindeuten. Der Data Mart ist eine Teilmenge des DWH und dient einer bestimmten Gruppe von Benutzern, beispielsweise einer Abteilung oder einer bestimmten Geschäftseinheit. Während das DWH mehrere Themen enthält, die für mehrere Abteilungen relevant sind – z. B. Vertrieb, Kunden, Produkte, Inventar, Lieferanten – enthält ein Data Mart normalerweise einen Themenbereich für eine Abteilung, z. B. Vertrieb oder Finanzen.

Es gibt zwei Arten von Data Marts – abhängige und unabhängige – und jede bietet einzigartige Vorteile. Der abhängige Data Mart schöpft aus dem DWH und hat den Vorteil der Konsistenz. Da alle Daten innerhalb des DWH zentralisiert und konsistent sind, sind auch die resultierenden Data Marts konsistent. Während robustere, abhängige Data Marts ein DWH erfordern und daher teurer in der Entwicklung sind.

Unabhängige Data Marts hingegen beziehen Daten direkt aus denselben Quelldatenbanken, ähnlich wie ein Mini-DWH. Obwohl die Entwicklung schneller und kostengünstiger ist, bergen unabhängige Data Marts ein erhöhtes Risiko, da Datendefinitionen in unabhängig entwickelten Data Marts inkonsistent werden können. Wenn sie jedoch diszipliniert entwickelt werden, können unabhängige Data Marts letztendlich zu einem DWH zusammengesetzt werden.

Data Lakes werden normalerweise auf einem Cluster kostengünstiger und skalierbarer Standardhardware konfiguriert. Dadurch können Daten im See abgelegt werden, ohne dass man sich Gedanken über die Speicherkapazität machen muss. Während das DWH normalerweise auf Text und numerische Daten beschränkt ist, kann der See auch eine größere Vielfalt enthalten, einschließlich sozialer Medien, Sensordaten und Bilder.

Data Warehouse und Data Mining

Das DWH ermöglicht Data Mining, das Unternehmen mit der Fähigkeit ausstattet, die Zukunft vorherzusagen. Das Hauptziel von Data Mining ist es, Muster in großen Datensätzen aufzudecken. Solche Muster wiederum offenbaren Beziehungen zwischen verschiedenen Datenkategorien und den ihnen zugrunde liegenden Geschäftsfunktionen.

Solche Beziehungen liefern Managern umsetzbare Informationen, im Wesentlichen neue Hebel, an denen sie ziehen können, um die gewünschten Geschäftsergebnisse wie Kundenwachstum oder gesteigerten Umsatz pro Kunde zu erzielen. Beispielsweise kann die Überprüfung historischer Verkaufsdaten nach geografischen oder Branchensegmenten anomales Wachstum aufzeigen, dessen Quelle Vertriebsmanagern Erkenntnisse liefern kann, die sie auf andere Segmente anwenden können.