Architektura hurtowni danych: wszystko, co musisz wiedzieć
Opublikowany: 2020-04-30W tym zorientowanym na dane świecie nie jest zaskoczeniem, że prędzej czy później każdy z nas będzie generował 1,7 MB danych na sekundę . Ale gdzie się podziały te wszystkie dane? Czy nie powinno istnieć urządzenie do przechowywania, które bezpiecznie przechowuje wszystkie te informacje, aby można je było przywrócić w razie potrzeby?
Co jeśli powiemy ci, że istnieje taka jednostka magazynowa? Nic dziwnego, że nazywa się to hurtownią danych. Jest to narzędzie analityczne zawierające dane i informacje ze źródeł operacyjnych, skonstruowane w celu wspomagania podejmowania decyzji i raportowania.
Dziś globalny rynek hurtowni danych wzrósł do tego stopnia, że w kolejnych latach spodziewany jest wzrost na poziomie 16% CAGR .
Zanurzmy się więc głęboko w poznanie hurtowni danych i jej architektury.
Dowiedz się więcej: Na czym polega hurtownia danych i eksploracja danych
Spis treści
Co to jest hurtownia danych?
Miejsce przechowywania wszystkich przeszłych i przemiennych danych pochodzących z jednego lub kilku źródeł nazywa się hurtownią danych. Podstawowym celem posiadania hurtowni danych jest usprawnienie procesów analizy biznesowej i raportowania w firmie. Zasadniczo wykonuje zapytania i analizy na przechowywanych danych.
Ponieważ hurtownia danych zawiera dane transakcyjne z wielu źródeł, pomaga firmom:
- Zachowaj stare zapisy
- Oceń istniejące dane i zidentyfikuj luki w operacjach
Ramy analizy biznesowej do projektowania hurtowni danych
Zwykle analityk danych zbiera odpowiednie dane z hurtowni i analizuje je, aby pomóc firmie usprawnić jej działanie. Korzystanie z hurtowni danych jest przydatne, ponieważ umożliwia szybki i wydajny dostęp do danych, zwiększając w ten sposób ogólną produktywność.
Co więcej, możesz kompleksowo przyjrzeć się klientom i wszystkim produktom. W ten sposób możesz zapewnić płynną relację z klientem.
Ale aby to wszystko się wydarzyło, analityk danych musiałby najpierw zrozumieć potrzeby biznesowe. W tym celu muszą stworzyć ramy analizy biznesowej.
Dopiero po zbudowaniu szkieletu analizy biznesowej możemy przejść do projektowania hurtowni danych. Są na to trzy widoki:
- Widok z góry : w tym widoku można zobaczyć istotne informacje potrzebne do zaprojektowania magazynu.
- Widok źródła danych : przedstawia dane, które są przechwytywane, przechowywane i zarządzane.
- Widok hurtowni danych : wyświetla tabele faktów i tabele wymiarów oraz dane w hurtowni.
- Widok zapytania biznesowego : W tym miejscu możesz zobaczyć dane z perspektywy użytkownika końcowego.
Po zapoznaniu się z danymi z wszystkich tych punktów widzenia, nadszedł czas, aby przejść do zapoznania się z trzema typami architektury hurtowni danych.
Trzy typy architektury hurtowni danych
Za każdym razem, gdy planujesz zaprojektować hurtownię danych dla firmy, możesz rozważyć plan budowy hurtowni danych, a także następujące trzy poziomy architektury.
- Pojedyncza warstwa : jest w głównej mierze odpowiedzialna za generowanie bliskiego zestawu danych w pakiecie i zmniejszanie jego ogólnej objętości. Jednak ten typ nie jest zalecany dla firm, które mają złożone dane i wiele strumieni danych.
- Dwupoziomowa : w tego typu architekturze źródła danych są podzielone, dzięki czemu organizacja danych i proces ich przechowywania są bardziej wydajne.
- Trójwarstwowa : ten typ architektury magazynu jest najbardziej preferowanym rodzajem, ponieważ zapewnia naprawdę cenny wgląd w surowe dane, tworząc w ten sposób zorganizowany przepływ danych.
Składa się z następujących trzech poziomów:
- Dolny poziom , który zawiera serwery magazynu . Tutaj dane są czyszczone i ładowane za pomocą narzędzi zaplecza.
- Warstwa środkowa składa się z serwera OLAP. Warstwa ta zapewnia użytkownikowi abstrakcyjny widok bazy danych, działając jako połączenie między użytkownikiem końcowym a bazą danych.
- Najwyższy poziom zawiera interfejs API i narzędzia (narzędzia do zapytań, eksploracji danych, analizy i raportowania) do wyodrębniania danych z hurtowni.
Komponenty Architektury Hurtowni Danych
Aby ułatwić zarządzanie funkcjonowaniem architektury, hurtownia zawiera serwer RDBMS otoczony pięcioma głównymi komponentami.
Oto pięć głównych komponentów architektury hurtowni danych.
Baza danych hurtowni danych
Centralną częścią architektury hurtowni jest baza danych zawierająca wszystkie informacje biznesowe, które czynią ją zrozumiałą dla raportowania. Oczywiście oznacza to, że musisz wybrać rodzaj bazy danych, której użyjesz do przechowywania danych w magazynie.
Poniżej przedstawiamy cztery typy baz danych, z których możesz skorzystać:
- Relacyjne bazy danych to bazy danych oparte na wierszach, z którymi zwykle spotykasz się lub używasz na co dzień. Należą do nich Microsoft SQL Server, SAP, Oracle i IBM DB2.
- Bazy danych analitycznych są zdecydowanie tworzone w celu gromadzenia informacji w celu wspierania i nadzorowania analizy. Na przykład Teradata i Greenplum.
- Aplikacje hurtowni danych nie są w rzeczywistości rodzajem baz danych o pojemności. Są to aplikacje oferujące oprogramowanie do zarządzania danymi, takie jak SAP Hana, Oracle Exadata i IBM Netezza.
- Bazy danych w chmurze to te, które można usprawnić i odzyskać w chmurze, aby nie trzeba kupować żadnego sprzętu do skonfigurowania hurtowni danych. Na przykład Amazon Redshift, Microsoft Azure SQL i Google BigQuery.
Jeśli chcesz dowiedzieć się więcej na temat nauki o danych, zapoznaj się z naszym szkoleniem z nauki o danych prowadzonym przez najlepsze uniwersytety.
Narzędzia do ekstrakcji, transformacji i ładowania (ETL)
Aparaty ETL są podstawą architektury hurtowni danych. Pomagają one odseparować informacje z różnych źródeł, zamienić je w rozsądny układ i ułożyć w magazyn.
Wybrane narzędzie ETL zadecyduje:
- Czas poświęcony na wydobywanie informacji
- Sposoby wyodrębniania danych
- Rodzaj zastosowanych zmian i wysiłek potrzebny do ich wykonania
- Definicja reguły biznesowej dla walidacji i czyszczenia informacji w celu poprawy analityki produktu końcowego
- Uzupełnianie utraconych informacji
- Wykreślanie obiegu danych z sejfu na klucze do aplikacji BI
Metadane
Metadane przedstawiają hurtownię danych i oferują system informacji. Pomaga w rozwoju, zabezpieczeniu, obsłudze i wykorzystaniu magazynu. Jest dwojakiego rodzaju:
- Metadane techniczne : zawiera dane, które mogą być wykorzystywane przez inżynierów i menedżerów podczas wykonywania zadań związanych z rozwojem magazynu i organizacją.
- Metadane biznesowe : zawiera dane, które oferują skutecznie uzasadnioną pozycję danych w hurtowni.
Metadane odgrywają istotną rolę dla organizacji w zrozumieniu danych obecnych w hurtowni i przekształceniu ich w użyteczne informacje.
Narzędzia dostępu do hurtowni danych
Hurtownia danych wykorzystuje bazę danych lub grupę baz danych jako placówkę. Korporacje w większości nie mogą legalnie pracować z bazami danych. Z tego powodu używają kilku narzędzi, w tym:
- Narzędzia do tworzenia zapytań i raportowania : pomagają użytkownikom w tworzeniu raportów korporacyjnych w arkuszach kalkulacyjnych, obliczeniach lub inteligentnych wizualizacjach w celu przeprowadzenia dogłębnej analizy.
- Urządzenia OLAP : Pomagają rozwijać wielowymiarową hurtownię danych i przeprowadzać analizy big data z różnych perspektyw.
- Narzędzia do eksploracji danych : systematyzują metodologię rozpoznawania klastrów i połączeń w ogromnych ilościach danych, wykorzystując strategie modelowania statystycznego. Dowiedz się więcej o technikach eksploracji danych.
- Narzędzia do tworzenia aplikacji : pomagają tworzyć niestandardowe raporty i prezentować je w tłumaczeniach, oczekiwanych do określonych celów raportowania.
Magistrala hurtowni danych
Pomaga decydować o postępie danych w hurtowni. Ten przepływ może być ustawiony jako dopływ, przepływ w górę, przepływ w dół, odpływ i przepływ meta.
Projektując magistralę danych, należy pomyśleć o typowych pomiarach, faktach w hurtowniach danych.
Targi danych
Jest to warstwa wejściowa wykorzystywana do przekazywania informacji użytkownikom. Jest wprowadzany jako możliwość dla ogromnej hurtowni danych, ponieważ jej stworzenie wymaga tylko niewielkiej ilości czasu i pieniędzy. W każdym razie nie ma standardowego znaczenia hurtowni danych, ponieważ różni się ona w zależności od osoby.
W uproszczeniu, data mart jest pomocniczym hurtowni danych i służy do segmentacji informacji, która jest tworzona dla określonej grupy użytkowników.
Warstwy architektury hurtowni danych
Budowa hurtowni danych zależy przede wszystkim od konkretnego biznesu. I tak każda architektura ma cztery warstwy. Przeanalizujmy je szczegółowo poniżej.

Warstwa źródła danych
Warstwa źródła danych to miejsce, w którym w społecznościowej bazie danych znajdują się unikalne informacje, zebrane z różnych źródeł wewnętrznych i zewnętrznych. Oto przykłady warstwy źródła danych:
- Dane operacyjne — Informacje o produkcie, informacje o zapasach, informacje marketingowe lub informacje HR
- Dane mediów społecznościowych — odwiedziny w witrynie, sława treści, uzupełnianie strony kontaktowej
- Dane z zewnątrz — informacje demograficzne, informacje z badań, informacje statystyczne
Podczas gdy większość hurtowni danych zarządza zorganizowanymi danymi, należy zastanowić się nad przyszłym wykorzystaniem nieustrukturyzowanych źródeł danych, na przykład kont głosowych, zeskanowanych obrazów i nieustrukturyzowanego tekstu. Te zalewy danych są ważnymi magazynami informacji i powinny być przeglądane podczas budowania magazynu.
Warstwa stopniowania danych
Ta warstwa znajduje się między źródłami informacji a hurtownią danych. W tej warstwie informacje są oddzielone od różnych wewnętrznych i zewnętrznych źródeł danych. Ponieważ dane źródłowe pochodzą z różnych organizacji, warstwa ekstrakcji danych będzie wykorzystywać wiele technologii i urządzeń w celu wydobycia niezbędnych informacji.
Gdy wyodrębnione dane zostaną ułożone w stos, zostaną poddane kontroli jakości na wysokim poziomie. Ostatecznym wynikiem będą doskonałe i uporządkowane dane, które umieścisz w swojej hurtowni danych. Warstwa inscenizacji zawiera dane części:
- Baza danych lądowania i obszar postojowy
Baza danych lądowania przechowuje informacje odzyskane ze źródła danych. Zanim dane trafią do hurtowni, proces postoju przeprowadza na nich rygorystyczne kontrole jakości. Aranżacja to podstawowy krok w architekturze. Słabe informacje przełożą się na nieodpowiednie dane, a rezultatem będzie słaba dynamika biznesu. W warstwie porządkowania musisz wprowadzić zmiany zgodnie z procesem biznesowym, aby poradzić sobie z nieustrukturyzowanymi źródłami informacji.
- Narzędzie do integracji danych
Narzędzia wyodrębniania, przekształcania i ładowania (ETL) to narzędzia danych używane do wydobywania informacji ze struktur źródłowych, zmiany i przygotowywania informacji oraz ładowania ich do hurtowni.
Przeczytaj: Wynagrodzenie analityka danych w Indiach
Warstwa przechowywania danych
Ta warstwa to miejsce, w którym dane, które zostały zmyte w strefie aranżacyjnej, są odkładane jako samotne centralne archiwum. W zależności od potrzeb firmy i architektury magazynu, przechowywanie danych może być centrum hurtowni danych, hurtownią danych (hurtownia danych odtworzona w pewnym stopniu dla poszczególnych działów) lub magazynem danych operacyjnych (ODS).
Warstwa prezentacji danych
To tutaj użytkownicy komunikują się z oczyszczonymi i posortowanymi danymi. Ta warstwa architektury danych daje użytkownikom możliwość przeszukiwania danych w celu uzyskania szczegółowych informacji o przedmiotach lub usługach, dzielenia danych w celu przeprowadzenia teoretycznych sytuacji biznesowych oraz tworzenia skomputeryzowanych lub specjalnie wyznaczonych raportów.
Możesz użyć narzędzia OLAP lub narzędzia do raportowania z łatwym do zrozumienia graficznym interfejsem użytkownika (GUI), aby pomóc użytkownikom w tworzeniu zapytań, wykonywaniu analiz lub planowaniu raportów.
Charakterystyka Hurtowni Danych
Hurtownia danych jest zorientowana przedmiotowo, nieulotna, zmienna w czasie i jest zintegrowanym zbiorem danych, który umożliwia szybkie i sprawne podejmowanie decyzji przez organizację.
- Zorientowany na przedmiot : hurtownię danych można wykorzystać do zbadania określonej gałęzi wiedzy. Na przykład „sprzedaż” może być konkretnym tematem.
- Zintegrowany : hurtownia danych zawiera informacje z różnych źródeł. Na przykład źródło A i źródło B mogą mieć różne metody rozróżniania towaru, jednak w magazynie będzie tylko jeden sposób rozpoznawania towaru.
- Wariant czasowy : Magazyn zawiera dane historyczne. Na przykład można odzyskać informacje z 3 miesięcy, pół roku, roku lub znacznie starsze informacje z hurtowni danych. Wygląda to inaczej w odniesieniu do struktury transakcji, w której przechowywane są tylko najnowsze informacje. Na przykład struktura transakcji może zawierać najnowszą lokalizację klienta, podczas gdy hurtownia danych może zawierać wszystkie lokalizacje związane z klientem.
- Trwałość : jedną z najlepszych cech hurtowni danych jest to, że gdy dane są w niej przechowywane, nie jest możliwe, aby się zmieniły. Dzięki temu informacje zarejestrowane w magazynie nigdy nie zostaną zmodyfikowane.
Jak korzystać z architektury hurtowni danych?
Tworzenie bazy danych, jakiej potrzebuje Twoja firma lub przedsiębiorstwo i sposób, w jaki zamierzasz z nią współpracować, ma kluczowe znaczenie podczas wyszukiwania informacji. Równie ważne jest, aby ocenić, kto będzie kontrolował informacje i jakich źródeł potrzebuje, rozważając projekt hurtowni danych.
Pomimo faktu, że hurtownia danych a przekomarzanie się z hurtownią danych nie jest stale istotne dla mniejszych organizacji, te z większą liczbą grup, działów i wyraźnych potrzeb mogą czerpać korzyści z hurtowni danych. Specyficzny podmiotowy charakter hurtowni danych sprawia, że jest ona istotną częścią architektury hurtowni danych.
Ponadto, w zależności od wielkości Twojej organizacji, różnego rodzaju projekty magazynów mogą być coraz bardziej praktyczne. Zrozumienie, który z nich jest najlepszy, zależy od Twoich danych, rozmiaru Twoich zestawów i Twoich potrzeb biznesowych.
Wniosek
Hurtownia danych to struktura nauki o danych, która zawiera autentyczne i przemienne informacje z jednego lub różnych źródeł. Jest to doskonały sposób na uzyskanie dostępu do starych i nowych danych, uzyskanie z nich wglądu i usprawnienie procesów biznesowych poprzez analizę obecnych danych.
Co więcej, koncepcje hurtowni danych są zorientowane na podmiot, ponieważ oferuje dane dotyczące podmiotu, a nie postępujących działań stowarzyszenia. W hurtowni inkorporacja oznacza podstawę typowej jednostki miary dla każdego porównywalnego punktu odniesienia z różnych baz danych. Jak wspomniano wcześniej, jest dodatkowo nieulotna, co oznacza, że przeszłe informacje nie są usuwane, gdy wprowadzane są do nich nowe informacje.
Charakterystyczna dla hurtowni danych zmienność w czasie pozwala na uzyskanie realistycznej użyteczności w wysokich ramach czasowych.
Hurtownia danych składa się z pięciu podstawowych części. 1) Baza danych 2) Narzędzia ETL 3) Metadane 4) Narzędzia zapytań 5) DataMarts
Cztery podstawowe klasy narzędzi do zapytań to narzędzia do zapytań i raportowania, narzędzia do tworzenia aplikacji, aparaty do eksploracji danych i narzędzia OLAP.
Narzędzia do pozyskiwania informacji, zmiany i relokacji są wykorzystywane do odgrywania wszystkich transformacji i zarysów.
W architekturze hurtowni danych meta-tag odgrywa ważną rolę, ponieważ wskazuje źródło, zastosowanie, cechy i najważniejsze elementy danych w hurtowni danych.
Mamy nadzieję, że informacje zawarte w tym artykule pomogły w zrozumieniu podstaw architektury hurtowni danych. Aby uzyskać więcej informacji, skontaktuj się z ekspertami z upGrad. Po prostu napisz do nas e-mail, a skontaktujemy się z Tobą, aby odpowiedzieć na Twoje pytania.
Jeśli jesteś zainteresowany nauką o danych, sprawdź program IIIT-B i upGrad Executive PG w dziedzinie Data Science , który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1 -on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.
Jaka jest architektura hurtowni danych?
Sposobem na zdefiniowanie całej architektury przetwarzania danych teleinformatycznych oraz prezentacji, jaka istnieje dla klientów końcowych, jest architektura hurtowni danych. Każda hurtownia danych jest inna, a każda z nich jest scharakteryzowana w oparciu o standardowe kluczowe komponenty.
Mówiąc prościej, hurtownia danych to system informacyjny, który składa się z przemiennych i historycznych danych pochodzących z jednego lub wielu źródeł. Proces raportowania i analizy danych w organizacjach jest uproszczony za pomocą różnych koncepcji hurtowni danych. Istnieją różne podejścia do konstruowania architektury hurtowni danych. Każde podejście jest stosowane w oparciu o wymagania organizacji.
Ile średnio zarabia architekt hurtowni danych?
Architekt hurtowni danych to bardzo pożądana rola, w której możesz oczekiwać doskonałych pakietów wynagrodzeń. Średnio wynagrodzenie architekta hurtowni danych wynosi Rs. 13 000 000 rocznie. Nawet jeśli zaczynasz swoją karierę w tej dziedzinie, możesz spodziewać się podstawowej pensji w wysokości Rs. 10 000 000 rocznie. Gdy zdobędziesz więcej doświadczenia i awansujesz po szczeblach drabiny, pensja może sięgać nawet Rs. 22 000 000 rocznie.
Bez wątpienia pakiet wynagrodzeń będzie zależał nawet od firmy, do której dołączasz, poziomu doświadczenia, a co najważniejsze, lokalizacji geograficznej.
Jaki jest prawidłowy przepływ architektury hurtowni danych?
Na każdej operacyjnej bazie danych istnieje pewna stała liczba operacji, które należy wykonać. Istnieją różne, dobrze zdefiniowane techniki dostarczania odpowiednich rozwiązań. Hurtownia danych okazuje się być bardziej efektywna, gdy w pełni przestrzegany jest prawidłowy przepływ architektury hurtowni danych.
Cztery różne procesy, które składają się na hurtownię danych, to wyodrębnianie i ładowanie danych, czyszczenie i przekształcanie danych, tworzenie kopii zapasowych i archiwizacja danych oraz przeprowadzanie procesu zarządzania zapytaniami poprzez kierowanie ich do odpowiednich źródeł danych.