Trzy zasady rozwoju hurtowni danych
Opublikowany: 2022-03-11Gartner szacuje, że blisko 70 do 80 procent nowo rozpoczętych projektów analizy biznesowej kończy się niepowodzeniem. Wynika to z wielu powodów, od złego wyboru narzędzi po brak komunikacji między IT a interesariuszami biznesowymi. Po pomyślnym wdrożeniu projektów BI w różnych branżach, mam nadzieję podzielić się moimi doświadczeniami w tym poście na blogu i wskazać kluczowe powody niepowodzenia projektów Business Intelligence. W tym artykule przedstawimy środki zaradcze na wypadek awarii w oparciu o trzy zasady, które powinny rządzić sposobem budowy hurtowni danych. Przestrzeganie tych koncepcji hurtowni danych powinno pomóc deweloperowi hurtowni danych w poruszaniu się po ścieżce rozwoju, unikając typowych dziur, a nawet dziur w implementacjach BI.
Wdrożenie hurtowni danych Business Intelligence
Chociaż kryteria pomyślnej hurtowni danych analizy biznesowej różnią się w zależności od projektu, pewne wartości minimalne są oczekiwane i wymagane we wszystkich projektach. Oto lista głównych atrybutów zwykle występujących w skutecznej hurtowni danych Business Intelligence:
- Wartość: Projekty Business Intelligence mogą trwać wiele miesięcy, a nawet lat. Jednak ważne jest, aby pokazać interesariuszom biznesowym korzyści płynące z hurtowni danych na bardzo wczesnym etapie projektu, aby zapewnić ciągłe finansowanie i zainteresowanie. Najlepiej byłoby, gdyby interesariusze wykazali jakąś znaczącą wartość biznesową nowego systemu w ciągu pierwszych trzech tygodni projektu.
- Samoobsługowe BI: Dni oczekiwania działu IT na spełnienie żądań danych lub przeprowadzenie analizy danych minęły. Sukces każdego projektu BI mierzy się teraz tym, jak dobrze umożliwia on użytkownikom biznesowym samodzielne wydobywanie wartości z systemu.
- Koszt: projekty BI mają na ogół stosunkowo wysokie początkowe koszty wdrożenia. Aby zrównoważyć i zrównoważyć wysokie koszty początkowe, ważne jest projektowanie magazynów o niskich kosztach utrzymania. Jeśli klient potrzebuje pełnoprawnego zespołu programistów BI do zapewnienia/diagnozowania problemów z jakością danych, wprowadzania rutynowych zmian w modelach danych lub obsługi awarii ETL, system byłby kosztowny w budżecie i zagrożony wyłączeniem po pewnym czasie .
- Adaptacyjność: umiejętność dostosowania się do zmieniających się wymagań biznesowych ma kluczowe znaczenie. Należy pamiętać o niezliczonej liczbie narzędzi BI dostępnych na rynku i tempie, w jakim ewoluują one w celu włączenia dodatkowych funkcjonalności i funkcji. W połączeniu z faktem, że firmy nieustannie ewoluują, zmieniają się wymagania dotyczące magazynu; adaptacyjność wymaga, aby hurtownie danych były projektowane tak, aby umożliwiały korzystanie w przyszłości z alternatywnych narzędzi BI, takich jak różne zaplecza lub narzędzia do wizualizacji, i były przystosowane do często nieprzewidzianych zmian wymagań.
Dzięki mojemu doświadczeniu w budowaniu skutecznych rozwiązań, a co może nawet ważniejsze, zaangażowaniu w nieudane projekty, doszedłem do wniosku, że trzy kluczowe zasady są najważniejsze w zwiększaniu prawdopodobieństwa pomyślnego wdrożenia systemu Business Intelligence. Zanim jednak omówimy je szczegółowo, zacznijmy od kontekstu.
Co to jest hurtownia danych?
Przed zagłębieniem się w różne koncepcje dotyczące hurtowni danych ważne jest, aby zrozumieć, czym właściwie jest hurtownia danych.
Hurtownie danych są często postrzegane jako systemy analizy biznesowej stworzone w celu pomocy w codziennych potrzebach sprawozdawczych podmiotu gospodarczego. Nie mają takich samych wymagań dotyczących wydajności w czasie rzeczywistym (w standardowych implementacjach) jak systemy danych OLTP i podczas gdy systemy OLTP będą zawierać dane dotyczące tylko jednego małego podzbioru firmy, hurtownie danych starają się obejmować wszystkie dane dotyczące biznes .
Modele hurtowni danych oferują korzyści dla firmy tylko wtedy, gdy hurtownia jest postrzegana jako centralny węzeł „wszystkich danych”, a nie tylko narzędzie, za pomocą którego tworzone są raporty operacyjne. Wszystkie systemy operacyjne powinny mieć dwukierunkową komunikację z hurtownią danych, aby zasilać dane i otrzymywać informacje zwrotne, jak poprawić efektywność operacyjną. Wszelkie zmiany biznesowe, takie jak wzrost cen lub zmniejszenie podaży/zapasów, należy najpierw opracować i przewidzieć w środowisku hurtowni danych, aby firma mogła wiarygodnie przewidywać i określać wyniki. W tym kontekście wszystkie funkcje związane z nauką o danych i analizą danych byłyby skoncentrowane wokół hurtowni danych.
Hurtownia danych składa się z wielu elementów i nie jest to po prostu baza danych:
- Baza danych to nośnik, na którym przechowujesz swoje dane.
- Hurtownia danych wykracza poza to, obejmując narzędzia i komponenty niezbędne do wydobycia wartości biznesowej z danych i może zawierać komponenty, takie jak potoki integracji, struktury jakości danych, narzędzia do wizualizacji, a nawet wtyczki do uczenia maszynowego.
Oto bardziej wizualna reprezentacja różnicy między bazą danych a strukturą magazynu bazy danych. Bazy danych lub nowe logiczne magazyny metadanych, takie jak Hive, przemieniają gwiazdę centralną w układ gwiezdny magazynu danych, a wszystkie inne komponenty stanowią obracające się planety. Jednak w przeciwieństwie do systemu gwiaździstego, hurtownia danych może mieć jedną lub więcej baz danych i te bazy danych powinny być wymienne z nowymi technologiami, co omówimy w dalszej części artykułu.
Zasada pierwszej hurtowni danych: Jakość danych króluje nadrzędnie
Hurtownie danych są użyteczne i wartościowe tylko wtedy, gdy dane w nich zawarte są zaufane przez interesariuszy biznesowych. Aby to zapewnić, należy stworzyć ramy, które automatycznie wychwytują i korygują (jeśli to możliwe) problemy z jakością danych. Czyszczenie danych powinno być częścią procesu integracji danych, przy czym regularne audyty danych lub profilowanie danych są przeprowadzane w celu zidentyfikowania wszelkich problemów z danymi. Chociaż te proaktywne środki są wdrażane, należy również wziąć pod uwagę środki reaktywne, gdy złe dane prześlizgną się przez te bramki i zostaną zgłoszone przez użytkownika.
Aby zapewnić zaufanie użytkowników do systemu hurtowni danych, wszelkie złe dane wskazane przez użytkowników biznesowych powinny być badane w pierwszej kolejności. Aby pomóc w tych wysiłkach, w platformę należy wbudować pochodzenie danych i ramy kontroli danych, aby zapewnić, że wszelkie problemy z danymi będą mogły być szybko identyfikowane i usuwane przez personel pomocniczy. Większość platform integracji danych integruje w pewnym stopniu rozwiązania jakości danych, takie jak DQS w MS SQL Server lub IDQ w Informatica.
Skorzystaj z tych wbudowanych platform, jeśli korzystasz z komercyjnego narzędzia w swoich potokach integracji danych, ale dodatkowo lub w inny sposób zapewnij sobie zbudowanie mechanizmów, które pomogą Ci utrzymać jakość danych. Na przykład większości narzędzi do integracji danych brakuje dobrej funkcjonalności do śledzenia pochodzenia danych. Aby przezwyciężyć to ograniczenie, można zbudować niestandardową strukturę kontroli wsadowej, korzystając z serii tabel sterujących do śledzenia każdego przepływu danych, który występuje w systemie.
Bardzo trudno jest odzyskać zaufanie interesariuszy biznesowych, jeśli napotkają oni złą jakość platformy, więc inwestycja z góry w ramy jakości danych powinna być warta poniesionych kosztów.
Druga zasada hurtowni danych: odwróć trójkąt
Rysunek ten ilustruje podział wysiłków związanych z wdrażaniem i użytkowaniem większości hurtowni danych.

Większość wysiłku inwestuje się w budowę i utrzymanie magazynu, podczas gdy wartość dodana posiadania magazynu do analityki biznesowej jest znacznie mniejszą częścią wysiłku. To kolejny powód, dla którego projekty Business Intelligence często kończą się niepowodzeniem. Czasami w cyklu projektowym pokazanie klientowi jakiejkolwiek znaczącej wartości trwa zbyt długo, a gdy system jest już gotowy, nadal wymaga dużego wysiłku IT, aby uzyskać z niego jakąkolwiek wartość biznesową. Jak powiedzieliśmy we wstępie, projektowanie i wdrażanie systemów Business Intelligence może być kosztownym i długotrwałym procesem. Dlatego interesariusze będą słusznie oczekiwać, że szybko zaczną czerpać wartość dodaną ze swoich wysiłków w zakresie analizy biznesowej i hurtowni danych. Jeśli nie pojawi się żadna wartość dodana lub jeśli wyniki są po prostu za późno, aby mieć jakąkolwiek wartość, nic ich nie powstrzyma przed wyciągnięciem wtyczki.
Drugą zasadą rozwoju hurtowni danych jest odwrócenie trójkąta, jak pokazano tutaj.
Wybór narzędzi do analizy biznesowej i wdrożonych struktur musi zapewnić, że większa część wysiłku włożonego w magazyn polega na wydobywaniu wartości biznesowej niż na jej budowaniu i utrzymywaniu. Zapewni to wysoki poziom zaangażowania interesariuszy biznesowych, ponieważ natychmiast dostrzegą wartość inwestycji w projekt. Co ważniejsze, umożliwiasz firmie samowystarczalność w wydobywaniu wartości bez tak silnej zależności od IT.
Możesz przestrzegać tej zasady, stosując metodyki rozwoju przyrostowego podczas budowania magazynu, aby zapewnić jak najszybsze dostarczenie funkcji produkcyjnych. Podążanie za strategią hurtowni danych firmy Kimball lub metodologiami projektowania hurtowni danych firmy Linstedt pomoże Ci opracować systemy, które budują przyrostowo, jednocześnie płynnie rozliczając zmiany. Użyj warstwy semantycznej na swojej platformie, takiej jak kostka MS SSAS lub nawet Business Objects Universe, aby zapewnić łatwy do zrozumienia interfejs biznesowy dla swoich danych. W przypadku tego pierwszego udostępnisz również łatwy mechanizm dla użytkowników do zapytania o dane z Excela — wciąż najpopularniejszego narzędzia do analizy danych.
Włączenie narzędzi BI, które są mistrzami samoobsługowego BI, takich jak Tableau lub PowerBI, pomoże tylko zwiększyć zaangażowanie użytkowników, ponieważ interfejs do zapytań o dane jest teraz drastycznie uproszczony w przeciwieństwie do pisania SQL.
Przechowywanie danych źródłowych w Data Lake przed wypełnieniem bazy danych pomoże w udostępnieniu danych źródłowych użytkownikom na bardzo wczesnym etapie procesu wdrażania. Przynajmniej zaawansowani użytkownicy, tacy jak Business Quants, będą teraz mogli przetrawić dane źródłowe (poprzez surowe pliki), łącząc narzędzia takie jak Hive/Impala na plikach. Pomoże to skrócić czas potrzebny firmie na analizę nowego punktu danych z tygodni do dni, a nawet godzin.
Trzecia zasada magazynu bazy danych: Plug and Play
Dane zbliżają się do stania się cyfrowym odpowiednikiem ropy. W ostatnich latach byliśmy świadkami eksplozji liczby narzędzi, które można wykorzystać w ramach platformy hurtowni danych oraz tempa innowacji. Prym wiodą niezliczone dostępne obecnie narzędzia do wizualizacji, a tuż za nimi zaawansowane opcje dla zaplecza. Biorąc pod uwagę to środowisko i skłonność do ciągłych zmian wymagań biznesowych, ważne jest, aby pamiętać, że będziesz musiał wymienić komponenty swojego stosu technologicznego lub nawet wprowadzić/usunąć inne z czasem, zgodnie ze zmianami biznesowymi i technologicznymi.
Opierając się na osobistych doświadczeniach, byłoby dobrze, gdyby platforma mogła przetrwać 12 miesięcy bez jakiejś znaczącej zmiany. W takich sytuacjach nieunikniony jest rozsądny wysiłek; jednak zawsze powinna być możliwa zmiana technologii lub projektu, a Twoja platforma powinna być zaprojektowana tak, aby zaspokoić tę ewentualną potrzebę. Jeśli koszt migracji magazynu jest zbyt wysoki, firma może po prostu uznać, że koszt jest nieuzasadniony i zrezygnować z tego, co zbudowałeś, zamiast migrować istniejące rozwiązanie do nowych narzędzi.
Zbudowanie systemu, który zaspokoiłby wszystkie możliwe do wyobrażenia przyszłe potrzeby, jest niemożliwe. Dlatego przy tworzeniu hurtowni danych potrzebny jest pewien poziom uznania, że wszystko, co zaprojektujesz i zbudujesz teraz, może zostać z czasem zastąpione. W tym celu zalecałbym używanie ogólnych narzędzi i projektów tam, gdzie to możliwe, zamiast ścisłego łączenia platformy z narzędziami, na których działa. Oczywiście należy to zrobić po starannym zaplanowaniu i rozważeniu, ponieważ siła wielu narzędzi, zwłaszcza baz danych, tkwi w ich indywidualności i ścisłej komplementarności.
Na przykład wydajność ETL ulega znacznej poprawie podczas korzystania z procedur przechowywanych w bazie danych do tworzenia nowych danych analizy biznesowej, w przeciwieństwie do wyodrębniania i przetwarzania danych poza bazą danych za pomocą języka Python lub SSIS. Jeśli chodzi o warstwę raportowania, narzędzia do wizualizacji oferowałyby pewne funkcje, które nie są łatwo dostępne w innych — np. Power BI obsługuje niestandardowe zapytania MDX, ale Tableau tego nie robi. Nie chodzi mi o to, aby opowiadać się za porzuceniem procedur składowanych lub unikaniem kostek SSAS lub Tableau w twoich systemach. Moją intencją jest jedynie promowanie tego, jak ważne jest uważne uzasadnianie wszelkich decyzji dotyczących ścisłego połączenia platformy z jej narzędziami.
Kolejny potencjalny zapadlisko znajduje się w warstwie integracyjnej. Korzystanie z narzędzia takiego jak SSIS do integracji danych jest bardzo łatwe ze względu na jego możliwości debugowania lub łatwość użycia z platformą SQL Server. Jednak migracja setek pakietów SSIS do innego narzędzia stałaby się bardzo kosztownym projektem. W przypadkach, w których głównie robisz „EL”, skorzystaj z ogólnego narzędzia do przetwarzania. Korzystanie z języka programowania, takiego jak Python lub Java, do napisania jednego ogólnego programu ładującego, który załaduje warstwę pomostową, pomoże ograniczyć liczbę pojedynczych pakietów SSIS, których w przeciwnym razie potrzebowałbyś. Takie podejście nie tylko pomaga obniżyć koszty utrzymania i przyszłej migracji, ale także pomaga zautomatyzować więcej aspektów procesu onboardingu danych bez konieczności pisania nowych pojedynczych pakietów (zgodnie z zasadą 2).
We wszystkich tych przypadkach musisz zdecydować się na praktyczny kompromis między natychmiastowymi korzyściami a przyszłymi kosztami migracji, aby magazyn nie został złomowany, ponieważ nie poradziłby sobie ze zmianą lub ponieważ zmiana wymagałaby zbyt wiele czasu, wysiłek lub inwestycja.
Zawijanie
Istnieje wiele powodów, dla których pewien system analizy biznesowej może zawieść, a także kilka typowych przeoczeń, które mogą doprowadzić do ewentualnej awarii. Ciągle zmieniający się krajobraz technologiczny, ograniczony budżet na systemy danych z powodu błędnie pojętego drugorzędnego priorytetu dla systemów operacyjnych oraz sama złożoność i trudności w pracy z danymi oznaczają, że podczas projektowania i budowanie komponentów hurtowni danych.
Podstawy hurtowni danych opisane w tym artykule mają na celu pomóc w podejmowaniu tych ważnych kwestii. Oczywiście uwzględnienie tych zasad nie gwarantuje sukcesu, ale z pewnością przejdą długą drogę do uniknięcia porażki.