Briefing: Hurtownia danych

Opublikowany: 2022-03-11

Firmy i konsumenci generują więcej danych niż kiedykolwiek. Rozprzestrzenianie się urządzeń i produktów cyfrowych napędza wykładniczą ekspansję cyfrowego wszechświata. Chociaż teoretycznie są atutem, skala tych danych stanowi wyzwanie: w jaki sposób firmy mogą w praktyce organizować swoje informacje, aby ujawniać praktyczne spostrzeżenia?

Podczas gdy eksploracja danych i analiza biznesowa zapewniają cenną ekstrakcję i prezentację takich spostrzeżeń, hurtownia danych (DWH) służy do wstępnej agregacji i reorganizacji ogromnych bazowych danych, które często znajdują się w wielu lokalizacjach. Zrozumienie roli DWH w szerszym ekosystemie nauki o danych, eksploracji danych i inteligencji biznesowej jest niezbędne dla współczesnego menedżera.

Co to jest hurtownia danych?

DWH to scentralizowane repozytorium informacji cyfrowych, agregowanych z różnych różnych źródeł i zorganizowanych w strukturę zoptymalizowaną pod kątem raportowania. Co najważniejsze, DWH dostarcza całemu przedsiębiorstwu przydatne informacje, umożliwiając pracownikom przeprowadzanie dostosowanych analiz i podejmowanie lepszych decyzji.

Podstawowe koncepcje hurtowni danych

Model relacyjny a model wymiarowy

Aby docenić funkcjonalność hurtowni danych, ważne jest zrozumienie różnicy między modelem relacyjnym a wymiarowym. Choć brzmią technicznie, łatwo je rozróżnić.

Z praktycznego punktu widzenia relacyjne i wymiarowe bazy danych różnią się jednym krytycznym kryterium: przepływem informacji. Podczas gdy relacyjne bazy danych są zoptymalizowane pod kątem wprowadzania danych, wielowymiarowe bazy danych są budowane z myślą o wynikach, zwłaszcza w formie raportowania i analiz, znanych jako business intelligence.

Model relacyjny organizuje informacje wokół pojedynczego punktu informacji, na przykład nazwy klienta. W takim modelu nazwa klienta znajduje się w jednej lokalizacji, a wszystkie powiązane informacje — takie jak dane kontaktowe i daty transakcji — są wymienione w powiązanych lub powiązanych tabelach.

Z kolei wielowymiarowa baza danych zasadniczo „rozpakowuje” relacyjną bazę danych, umożliwiając użytkownikom łatwe „wycinanie i krojenie” danych w wymaganej permutacji, potrzebnej do spełnienia ich potrzeb w zakresie raportowania. Na przykład we wpisie relacyjnej bazy danych powyżej dane kontaktowe klienta zostaną podzielone na oddzielne pola, takie jak numer telefonu, adres, miasto, stan i kod pocztowy.

Wymiarowa baza danych zasadniczo „rozpakowuje” relacyjną bazę danych, umożliwiając użytkownikom łatwe „wycinanie i krojenie” danych

Rozróżnienie między relacyjną a wymiarową bazą danych może wydawać się abstrakcyjne. Jednak dla osób zajmujących się dostarczaniem coraz bardziej złożonych analiz i raportów, docenienie tego rozróżnienia zapewnia cenną podstawową wiedzę na temat pracy z zespołami technicznymi, które utrzymują te zasoby.

Hurtownia danych — „jest włączona”

Jak szczegółowo opisał Bill Inmon, jeden z twórców hurtowni danych, projekt hurtowni danych rządzi się kilkoma specyficznymi cechami. Według Inmona hurtownia danych jest zorientowanym podmiotowo, nieulotnym, zintegrowanym, czasowym zbiorem danych wspierających decyzje kierownictwa.

To kęs, ale po rozbiciu na części, ta definicja kreśli jasny obraz podstawowej struktury DWH. Aby te kryteria były łatwe do zapamiętania, zreorganizowaliśmy kryteria Inmona zgodnie z anagramem „To jest włączone”

Zintegrowane: dane muszą mieć spójne formaty. Pola danych, często pobierane z różnych źródeł, muszą mieć spójne konwencje nazewnictwa.

Wariant czasowy: DWH ujawnia trendy, które zależą od zmian w czasie. Rejestrowanie punktów danych w czasie ma fundamentalne znaczenie dla ujawniania relacji między danymi.

Zorientowane na temat: DWH umożliwia analizę i raportowanie zorientowane na przedmiot. Na przykład firma może chcieć ocenić sprzedaż produktu w czasie, a następnie przeanalizować trendy charakterystyczne dla regionu lub segmentu klientów.

Nieulotne: Gdy dane wejdą do magazynu, nie ulegają zmianie.

Hurtownia Danych różni się od bazy transakcyjnej

Systemy DWH i transakcyjne bazy danych pełnią zasadniczo różne funkcje i służą różnym użytkownikom. Chociaż DWH jest zoptymalizowany pod kątem raportowania i analizy, systemy transakcyjne – często określane jako przetwarzanie transakcji online (OLTP) – są zoptymalizowane pod kątem dostępności i szybkości przetwarzania.

Użytkownicy OLTP są zwykle pracownikami frontonu i zazwyczaj uzyskują dostęp do kilku rekordów jednocześnie. Użytkownikami DWH są często analitycy i menedżerowie, których raporty mogą jednocześnie obsłużyć nawet kilka milionów rekordów.

System transakcyjny i DWH różnią się również granulacją i trwałością danych. W OLTP dane zawierają wartości bieżące, które są szczegółowe i wysoce zmienne (co kilka sekund tysiące transakcji zmieniają wartości tych rekordów). Natomiast DWH zawiera dane zrestrukturyzowane, których nie można zmienić po załadowaniu.

Proces kredytu konsumenckiego zwięźle ilustruje kluczowe różnice między tymi systemami. Na przykład, gdy klient zabezpiecza pożyczkę samochodową, baza danych transakcyjnych przechwytuje takie szczegóły, jak typ samochodu, kolor, rok zakupu, cena zakupu i dane osobowe kupującego. Po przekonwertowaniu na model DWH, informacje transakcyjne (dotyczące pojedynczej transakcji klienta) są dzielone na części składowe. Te części z kolei są łączone z porównywalnymi częściami z innych transakcji.

Wysyłając zapytanie do DWH, pracownik pożyczkodawcy może uzyskać dostęp do raportów składających się z zagregowanych danych klientów. Na przykład, próbując zoptymalizować wydatki na reklamę, kierownik ds. marketingu może szukać samochodów określonego typu lub przedziału cenowego o najwyższym wskaźniku akceptacji pożyczki lub średnim wieku i poziomie dochodów osób ubiegających się o pożyczkę w czasie. Takie informacje mogą przekierować wydatki na reklamę do bardziej odpowiednich kanałów z bardziej ukierunkowanym przekazem.

Hurtownia danych a Data Mart i Data Lake

DWH mogą towarzyszyć powiązane bazy danych – data mart i data lake – których nazwy opisowe sugerują różne funkcje. Podzbiór DWH, data mart obsługuje określoną grupę użytkowników, na przykład oddział lub określoną jednostkę biznesową. Podczas gdy DWH obejmuje wiele tematów związanych z wieloma działami - takimi jak sprzedaż, klienci, produkty, zapasy, dostawcy - data mart zazwyczaj obejmuje jeden obszar tematyczny dla jednego działu, taki jak sprzedaż lub finanse.

Istnieją dwa rodzaje baz danych — zależne i niezależne — i każdy z nich zapewnia wyjątkowe korzyści. Zależna zbiorcza baza danych czerpie z DWH i ma tę zaletę, że jest spójna. Ponieważ wszystkie dane są scentralizowane i spójne w DWH, wynikowe marty danych są również spójne. Chociaż bardziej solidne, zależne bazy danych wymagają DWH, a zatem są bardziej kosztowne w opracowywaniu.

Z drugiej strony niezależne hurtownie danych pobierają dane bezpośrednio z tych samych źródłowych baz danych, podobnie jak mini DWH. Chociaż opracowywanie jest szybsze i mniej kosztowne, niezależne zbiorcze zbiorcze dane niosą ze sobą zwiększone ryzyko, ponieważ definicje danych mogą stać się niespójne w niezależnie opracowanych zbiorczych bazach danych. Jednakże, jeśli zostaną opracowane z dyscypliną, niezależne bazy danych mogą ostatecznie zostać połączone w DWH.

Jeziora danych są zwykle konfigurowane na klastrze niedrogiego i skalowalnego sprzętu. Pozwala to na zrzucanie danych do jeziora bez martwienia się o pojemność pamięci. Chociaż DWH jest zwykle ograniczone do danych tekstowych i liczbowych, jezioro może również zawierać szerszą gamę, w tym media społecznościowe, dane z czujników i obrazy.

Hurtownia danych i eksploracja danych

DWH umożliwia eksplorację danych, co daje firmom możliwość przewidywania przyszłości. Podstawowym celem eksploracji danych jest ujawnienie wzorców w dużych zbiorach danych. Takie wzorce z kolei ujawniają relacje między różnymi kategoriami danych i ich podstawowymi funkcjami biznesowymi.

Takie relacje dostarczają menedżerom użytecznych informacji, zasadniczo nowych dźwigni, które mogą służyć do osiągania pożądanych wyników biznesowych, takich jak wzrost liczby klientów lub wzrost sprzedaży na klienta. Na przykład przeglądanie historycznych danych sprzedaży według segmentu geograficznego lub branżowego może uwidocznić anomalny wzrost, którego źródło może dostarczyć menedżerom sprzedaży wiedzy, którą można zastosować w innych segmentach.