Briefing: Depozitul de date
Publicat: 2022-03-11Companiile și consumatorii generează mai multe date ca niciodată. Proliferarea dispozitivelor și produselor digitale conduce la expansiunea exponențială a universului digital. Deși din punct de vedere noțional este un atu, amploarea acestor date prezintă o provocare: cum își pot organiza companiile informațiile pentru a dezvălui informații utile?
În timp ce data mining și business intelligence oferă extragerea și prezentarea valoroasă a unor astfel de informații, depozitul de date (DWH) este agregarea și reorganizarea pregătitoare a vastelor date subiacente, care se află adesea în mai multe locații. Înțelegerea rolului DWH în cadrul ecosistemului mai larg al științei datelor, minării datelor și inteligenței de afaceri este esențială pentru managerul modern.
Ce este un depozit de date?
DWH este un depozit centralizat de informații digitale, agregat dintr-o varietate de surse disparate și organizat într-o structură optimizată pentru raportare. Cel mai important, DWH oferă informații utile întregii întreprinderi, permițând angajaților să efectueze analize personalizate și să ia decizii mai bune.
Concepte esențiale de depozit de date
Modelul relațional versus modelul dimensional
Pentru a aprecia funcționalitatea unui depozit de date, este important să înțelegem diferența dintre un model relațional și cel dimensional. Deși sună tehnic, ele sunt ușor de distins.
Din perspectiva utilizării practice, bazele de date relaționale și dimensionale diferă într-un singur criteriu critic: fluxul de informații. În timp ce bazele de date relaționale sunt optimizate pentru introducerea datelor, bazele de date dimensionale sunt construite pentru ieșire, în special sub formă de raportare și analiză cunoscută sub numele de business intelligence.
Modelul relațional organizează informațiile în jurul unui singur punct de informații, de exemplu un nume de client. Într-un astfel de model, numele clientului există într-o singură locație, cu toate informațiile asociate - cum ar fi detaliile de contact și datele tranzacției - enumerate în tabelele asociate sau înrudite.
În schimb, baza de date dimensională „despachetează” baza de date relațională, permițând utilizatorilor să „slice și să taie” cu ușurință datele în permutarea necesară pentru a-și îndeplini nevoile de raportare. De exemplu, în intrarea în baza de date relațională de mai sus, detaliile de contact ale clientului ar fi împărțite în câmpuri distincte, cum ar fi numărul de telefon, adresa străzii, orașul, statul și codul poștal.
Baza de date dimensională, în esență, „despachetează” baza de date relațională, permițând utilizatorilor să „tranșeze și să pună” cu ușurință datele
Distincția dintre baza de date relațională și cea dimensională poate părea abstractă. Cu toate acestea, pentru cei însărcinați cu furnizarea de analize și raportări din ce în ce mai complexe, aprecierea distincției oferă o înțelegere fundamentală valoroasă pentru lucrul cu echipele tehnice care mențin aceste resurse.
Depozitul de date - „Este activat”
După cum detaliază Bill Inmon, unul dintre creatorii depozitului de date, câteva caracteristici specifice guvernează designul depozitului de date. Potrivit lui Inmon, depozitul de date este o colecție de date orientată pe subiect, nevolatil, integrat, în variantă de timp, în sprijinul deciziilor managementului.
Este o gură, dar odată împărțită în părți, această definiție dă o imagine clară a structurii de bază a DWH. Pentru ca aceste criterii să fie ușor de reținut, am reorganizat criteriile lui Inmon conform anagramei „It’s On”
Integrat: datele trebuie să aibă formate consistente. Deseori extrase din surse diferite, câmpurile de date trebuie să aibă convenții de denumire consistente.
Varianta de timp: DWH dezvăluie tendințe, care depind de schimbarea în timp. Înregistrarea punctelor de date în timp este fundamentală pentru a dezvălui relațiile dintre date.
Orientat pe subiect: DWH permite analiza și raportarea axată pe subiect. De exemplu, o companie poate dori să evalueze vânzările unui produs în timp și apoi să analizeze tendințele regionale sau specifice segmentului de clienți.
Nevolatil: Odată ce datele intră în depozit, acestea nu se modifică.
Data Warehouse diferă de baza de date tranzacțională
DWH și sistemele de baze de date tranzacționale îndeplinesc funcții fundamental diferite și servesc diferiți utilizatori. În timp ce DWH este optimizat pentru raportare și analiză, sistemele de tranzacții - adesea denumite procesare on-line a tranzacțiilor (OLTP) - sunt optimizate pentru disponibilitate și viteza de procesare.

Utilizatorii OLTP sunt de obicei angajați front-end și, de obicei, accesează mai multe înregistrări simultan. Utilizatorii DWH sunt adesea analiști și manageri, ale căror rapoarte pot apela simultan până la câteva milioane de înregistrări.
Sistemul de tranzacții și DWH diferă și în ceea ce privește granularitatea și permanența datelor. În OLTP, datele conțin valori curente, care sunt detaliate și foarte variabile (la fiecare câteva secunde, mii de tranzacții modifică valorile acestor înregistrări). În schimb, DWH conține date restructurate care nu pot fi modificate odată încărcate.
Procesul de creditare de consum ilustrează succint diferențele cheie dintre aceste sisteme. Când un client asigură un împrumut auto, de exemplu, baza de date tranzacțională captează detalii precum tipul mașinii, culoarea, anul achiziției, prețul de achiziție și detaliile personale ale cumpărătorului. Odată convertite în modelul DWH, informațiile tranzacționale (în jurul tranzacției cu un singur client) sunt dezagregate în părți componente. Aceste părți, la rândul lor, sunt puse în comun cu părți comparabile din alte tranzacții.
Interogând DWH, un angajat de la creditor ar putea accesa rapoarte compuse din date agregate ale clienților. De exemplu, încercând să optimizeze cheltuielile publicitare, un manager de marketing ar putea căuta mașini de un anumit tip sau interval de preț cu cea mai mare rată de aprobare a împrumutului sau cu vârsta medie și nivelul veniturilor solicitanților de împrumut de-a lungul timpului. Astfel de informații ar putea direcționa cheltuielile publicitare de redirecționare către canale mai relevante, cu mesaje mai direcționate.
Depozitul de date vs. Data Mart și Data Lake
DWH poate fi însoțit de baze de date conexe - data mart și data lake - ale căror nume descriptive sugerează funcții distincte. Un subset al DWH, data mart deservește un anumit grup de utilizatori, de exemplu o divizie sau o anumită unitate de afaceri. În timp ce DWH deține mai multe subiecte relevante pentru mai multe departamente - cum ar fi vânzările, clienții, produsele, inventarul, furnizorii - un magazin de date deține de obicei un domeniu pentru un departament, cum ar fi vânzările sau finanțele.
Există două tipuri de marturi de date - dependente și independente - și fiecare prezintă beneficii unice. Martul de date dependent se bazează pe DWH și are avantajul consistenței. Deoarece toate datele sunt centralizate și consecvente în cadrul DWH, marturile de date rezultate sunt, de asemenea, consecvente. În timp ce magazinele de date dependente sunt mai robuste, necesită un DWH și, prin urmare, sunt mai costisitoare de dezvoltat.
Martele independente de date, pe de altă parte, extrag date direct din aceleași baze de date sursă, la fel ca un mini DWH. Deși sunt mai rapide și mai puțin costisitoare de dezvoltat, magazinele de date independente prezintă un risc crescut, deoarece definițiile datelor pot deveni inconsecvente în martele de date dezvoltate independent. Cu toate acestea, dacă sunt dezvoltate cu disciplină, magazinele independente de date pot fi în cele din urmă asamblate într-un DWH.
Lacurile de date sunt de obicei configurate pe un grup de hardware de marfă ieftin și scalabil. Acest lucru permite ca datele să fie aruncate în lac fără a fi nevoie să vă faceți griji cu privire la capacitatea de stocare. În timp ce DWH este de obicei limitat la date text și numerice, lacul poate deține, de asemenea, o varietate mai mare, inclusiv rețelele sociale, date senzorilor și imagini.
Data Warehouse și Data Mining
DWH permite extragerea datelor, care oferă companiilor puterea de a prezice viitorul. Obiectivul principal al minării de date este de a dezvălui modele în seturi mari de date. Astfel de modele, la rândul lor, dezvăluie relațiile dintre diferitele categorii de date și funcțiile lor de afaceri subiacente.
Astfel de relații oferă managerilor informații utile, în esență noi pârghii pe care să le tragă pentru a genera rezultatele dorite de afaceri, cum ar fi creșterea clienților sau creșterea vânzărilor per client. De exemplu, revizuirea datelor istorice de vânzări pe segmente geografice sau de industrie poate evidenția o creștere anormală, a cărei sursă le poate oferi managerilor de vânzări cunoștințe de aplicat altor segmente.