Arhitectura depozitului de date: tot ce trebuie să știți

Publicat: 2020-04-30

În această lume centrată pe date, nu este o surpriză că, mai devreme decât mai târziu, fiecare dintre noi va genera 1,7 MB de date pe secundă . Dar unde s-ar duce toate aceste date? Nu ar trebui să existe o unitate de depozitare care să păstreze în siguranță toate aceste informații, astfel încât să poată fi reînviate la nevoie?

Dacă vă spunem că există o astfel de unitate de depozitare? Deloc surprinzător, se numește Data Warehouse. Este un instrument analitic care conține date și informații din surse operaționale, construit pentru a ajuta la luarea deciziilor și la raportare.

Astăzi, piața globală de depozitare de date a crescut într-o măsură în care se așteaptă să crească la un CAGR de 16% în următorii ani.

Deci, să ne aprofundăm în învățarea despre depozitul de date și arhitectura acestuia.

Aflați mai multe: Ce este despre depozitarea datelor și minarea datelor

Cuprins

Ce este un depozit de date?

Un loc pentru păstrarea în siguranță a tuturor datelor trecute și comutative care provin de la una sau mai multe surse se numește depozit de date. Scopul principal al unui depozit de date este de a netezi procesele de business intelligence și de raportare ale unei afaceri. În esență, efectuează interogări și analize asupra datelor pe care le stochează.

Deoarece un depozit de date are date tranzacționale din mai multe surse, acesta ajută companiile să:

  • Păstrează înregistrările vechi
  • Evaluați datele existente și identificați lacunele în operațiuni

Cadru de analiză de afaceri pentru proiectarea unui depozit de date

De obicei, un analist de date colectează date relevante din depozit și le analizează pentru a ajuta afacerile să își îmbunătățească operațiunile. Utilizarea depozitului de date este utilă, deoarece ajută la obținerea accesului la date rapid și eficient, sporind astfel productivitatea generală.

În plus, puteți obține o privire cuprinzătoare asupra clienților și a tuturor produselor. În acest fel, puteți asigura o relație fără probleme cu clienții.

Dar pentru ca toate acestea să se întâmple, analistul de date ar trebui să înțeleagă mai întâi nevoile afacerii. Și pentru aceasta, trebuie să creeze un cadru de analiză de afaceri.

Numai după ce a fost construit un cadru de analiză de afaceri putem trece la proiectarea unui depozit de date. Există trei puncte de vedere în acest sens:

  • Vedere de sus în jos : în această vizualizare, puteți vedea informațiile relevante necesare pentru proiectarea depozitului.
  • Vizualizarea sursei de date : prezintă datele care sunt capturate, stocate și gestionate.
  • Vizualizare depozit de date : listează tabelele de fapte și tabelele de dimensiuni și datele din depozit.
  • Vizualizare interogare de afaceri : În aceasta, puteți vedea datele din perspectiva utilizatorului final.

Odată ce ați vizualizat datele din toate aceste puncte de vedere, este timpul să treceți la a afla despre cele trei tipuri de arhitectură de depozit de date.

Trei tipuri de arhitectură de depozit de date

De fiecare dată când intenționați să proiectați un depozit de date pentru o companie, puteți lua în considerare o foaie de parcurs pentru construirea depozitului de date și, de asemenea, următoarele trei niveluri de arhitectură.

  1. Single Tier : Acesta este responsabil în principal pentru generarea unui set de pachete apropiate de date și reducerea volumului total al acestuia. Cu toate acestea, acest tip nu este recomandat pentru companiile care au date complexe și fluxuri multiple de date.
  2. Two Tier : În acest tip de arhitectură, sursele de date sunt împărțite și, astfel, fac organizarea și procesul de stocare a datelor mai eficiente.
  3. Three Tier : Acest tip de arhitectură de depozit este cel mai preferat, deoarece oferă informații cu adevărat valoroase din datele brute, producând astfel un flux organizat de date.

Este format din următoarele trei niveluri:

  • Nivelul inferior , care conține serverele depozitului. Aici, datele sunt curățate și încărcate folosind instrumente back-end.
  • Nivelul de mijloc constă dintr-un server OLAP. Acest strat oferă utilizatorului o vizualizare abstractă a bazei de date, acționând ca o conexiune între utilizatorul final și baza de date.
  • Nivelul superior are API și instrumente (instrumente de interogare, extragere de date, analiză și raportare) pentru a extrage date din depozit.

Componentele arhitecturii depozitului de date

Pentru a face funcționarea arhitecturii gestionabilă, depozitul conține un server RDBMS, înconjurat de cinci componente principale.

Iată cele cinci componente principale ale arhitecturii depozitului de date.

Baza de date Data Warehouse

Partea centrală a arhitecturii depozitului este o bază de date care conține toate informațiile comerciale care o fac ușor de înțeles pentru raportare. În mod clar, acest lucru înseamnă că trebuie să alegeți ce tip de bază de date ați folosi pentru a stoca datele în depozit.

Urmează cele patru tipuri de baze de date pe care le puteți utiliza:

  • Bazele de date relaționale sunt bazele de date bazate pe rânduri pe care le întâlniți în general sau le utilizați în fiecare zi. Acestea includ Microsoft SQL Server, SAP, Oracle și IBM DB2.
  • Bazele de date analitice sunt create în mod decisiv pentru stocarea de informații pentru a sprijini și a supraveghea analiza. De exemplu, Teradata și Greenplum.
  • Aplicațiile de depozit de date nu sunt de fapt un fel de baze de date de capacitate. Sunt aplicații care oferă software pentru gestionarea datelor, cum ar fi SAP Hana, Oracle Exadata și IBM Netezza.
  • Bazele de date bazate pe cloud sunt cele care pot fi facilitate și recuperate pe cloud cu scopul de a nu mai avea nevoie să achiziționați niciun hardware pentru a vă configura depozitul de date. De exemplu, Amazon Redshift, Microsoft Azure SQL și Google BigQuery.

Dacă sunteți interesat să aflați mai multe despre știința datelor, consultați formarea noastră în știința datelor de la universități de top.

Instrumente de extracție, transformare și încărcare (ETL)

Aparatele ETL sunt fundamentale pentru o arhitectură de depozit de date. Acestea ajută la separarea informațiilor din diverse surse, schimbarea lor într-un aranjament rezonabil și stivuirea lor într-un depozit.

Instrumentul ETL pe care îl alegeți va decide:

  • Timpul consumat în extragerea informațiilor
  • Modalități de extragere a datelor
  • Un fel de modificări aplicate și efortul necesar pentru a face ca atare
  • Definirea regulilor de afaceri pentru validarea și curățarea informațiilor pentru a îmbunătăți analiza produsului final
  • Completarea informațiilor pierdute
  • Trasarea circulației datelor de la seiful cu chei la aplicațiile dvs. BI

Metadate

Metadatele descrie depozitul de date și oferă un sistem de informații. Ajută la dezvoltarea, protejarea, manipularea și utilizarea depozitului. Este de doua feluri:

  • Metadate tehnice : includ date care pot fi utilizate de ingineri și manageri atunci când execută sarcinile de dezvoltare și organizare a depozitului.
  • Metadatele de afaceri : includ date care oferă o poziție efectiv justificată a datelor din depozit.

Metadatele își asumă un rol important pentru organizații de a înțelege datele prezente în depozit și de a le transforma în informații utilizabile.

Instrumente de acces la depozitul de date

Un depozit de date utilizează o bază de date sau un grup de baze de date ca unitate. Corporațiile, în cea mai mare parte, nu pot lucra cu bazele de date în mod legitim. Acesta este motivul pentru care folosesc mai multe instrumente, inclusiv:

  • Instrumente de interogare și raportare : acestea ajută utilizatorii să creeze rapoarte corporative în foi de calcul, calcule sau imagini inteligente pentru a efectua o analiză aprofundată.
  • Dispozitive OLAP : Acestea ajută la dezvoltarea unui depozit de date multidimensional și la efectuarea analizei datelor mari din diferite perspective.
  • Instrumente de extragere a datelor : Acestea sistematizează metodologia de recunoaștere a clusterelor și conexiunilor în cantități enorme de date, utilizând strategii de modelare statistică. Aflați mai multe despre tehnicile de extragere a datelor.
  • Instrumente de dezvoltare a aplicațiilor : acestea ajută la realizarea de rapoarte personalizate și la prezentarea lor în traduceri, așteptate în scopuri specifice de raportare.

Autobuz de depozit de date

Ajută la deciderea progresului datelor în depozit. Acest flux poate fi aranjat ca Inflow, Upflow, Downflow, Outflow și Meta flow.

În timp ce proiectați o magistrală de date, trebuie să vă gândiți la măsurătorile comune, la faptele din magazinele de date.

Data Marts

Acesta este un strat de intrare utilizat pentru a transmite informații utilizatorilor. Este introdus ca o posibilitate pentru un depozit de date de dimensiuni uriașe, deoarece necesită doar o cantitate mică de timp și bani pentru a crea. În orice caz, nu există un sens standard al unui data mart, deoarece acesta variază de la individ la individ.

Simplist, un data mart este un auxiliar al unui depozit de date și este utilizat pentru segmentarea informațiilor, care este realizată pentru un anumit grup de utilizatori.

Straturi ale arhitecturii depozitului de date

Construirea unui depozit de date depinde în primul rând de o anumită afacere. Și astfel, fiecare arhitectură are patru straturi. Să le studiem în detaliu mai jos.

Stratul sursă de date

Stratul sursei de date este locul în care informațiile unice, adunate dintr-un sortiment de surse interioare și exterioare, rezidă în baza de date socială. Următoarele sunt exemple ale stratului sursă de date:

  • Date operaționale — informații despre produse, informații despre stoc, informații de marketing sau informații despre resurse umane
  • Date privind rețelele de socializare — accesări ale site-ului, faima conținutului, finalizarea paginii de contact
  • Date externe — Informații demografice, informații despre studii, informații statistice

În timp ce majoritatea depozitelor de date gestionează date organizate, ar trebui să se gândească la utilizarea viitoare a surselor de date nestructurate, de exemplu, conturi vocale, imagini scanate și text nestructurat. Aceste inundații de date sunt depozite semnificative de informații și ar trebui să fie vizualizate atunci când vă construiți depozitul.

Stratul de punere în scenă a datelor

Acest strat se află între sursele de informații și depozitul de date. În acest strat, informațiile sunt separate de diverse surse de date interioare și exterioare. Deoarece datele sursă vin în diferite organizații, stratul de extracție a datelor va folosi numeroase tehnologii și dispozitive pentru a extrage informațiile necesare.

Odată ce datele extrase au fost stivuite, acestea vor fi expuse unor verificări de calitate la nivel înalt. Rezultatul concludent va fi date perfecte și organizate pe care le veți stivui în depozitul de date. Stratul de punere în scenă conține părțile date:

  • Baza de date de aterizare și zona de pregătire

Baza de date de aterizare stochează informațiile recuperate din sursa de date. Înainte ca datele să ajungă în depozit, procesul de punere în scenă efectuează verificări stricte de calitate asupra acestora. Amenajarea este o etapă de bază în arhitectură. Informațiile slabe se vor adăuga la date inadecvate, iar rezultatul este o dinamică slabă a afacerii. Stratul de aranjare este locul în care trebuie să faceți modificări în conformitate cu procesul de afaceri pentru a face față surselor de informații nestructurate.

  • Instrument de integrare a datelor

Instrumentele de extragere, transformare și încărcare (ETL) sunt instrumentele de date utilizate pentru a extrage informații din cadrele sursă, pentru a modifica și a pregăti informații și pentru a le încărca în depozit.

Citiți: Salariul Data Scientist în India

Stratul de stocare a datelor

Acest strat este locul în care datele care au fost spălate în zona de aranjare sunt depozitate ca o arhivă centrală solitară. În funcție de afacerea dvs. și de necesitățile arhitecturii dvs. de depozit, stocarea dvs. de date poate fi un centru de depozit de date, un depozit de date (depozit de date oarecum recreat pentru anumite departamente) sau un depozit de date operaționale (ODS).

Stratul de prezentare a datelor

Aici utilizatorii comunică cu datele curățate și sortate. Acest strat al arhitecturii de date oferă utilizatorilor capacitatea de a interoga datele pentru informații despre articole sau servicii, defalca datele pentru a conduce situații teoretice de afaceri și de a crea rapoarte computerizate sau special concepute.

Puteți utiliza un OLAP sau un instrument de raportare cu o interfață grafică (GUI) ușor de înțeles pentru a ajuta utilizatorii să-și construiască interogări, să efectueze analize sau să-și planifice rapoartele.

Caracteristicile Data Warehouse

Un depozit de date este orientat pe subiect, non-volatil, variabil în timp și un set integrat de date pentru a permite un proces de luare a deciziilor rapid și eficient pentru o organizație.

  • Orientat pe subiect : Un depozit de date poate fi utilizat pentru a examina o anumită ramură a cunoștințelor. De exemplu, „vânzările” pot fi un subiect specific.
  • Integrat : un depozit de date încorporează informații din diferite surse. De exemplu, sursa A și sursa B pot avea diferite metode pentru a distinge un articol, cu toate acestea, într-un depozit, va exista doar o metodă solitară pentru recunoașterea unui articol.
  • Varianta temporală : Un depozit conține date istorice. De exemplu, se pot recupera informații de la 3 luni, o jumătate de an, un an sau informații semnificativ mai vechi dintr-un depozit de date. Acest lucru apare diferit în raport cu un cadru de tranzacții, în care sunt stocate doar cele mai recente informații. De exemplu, un cadru de tranzacții poate deține cea mai recentă locație a unui client, în timp ce un depozit de date poate deține toate locațiile legate de un client.
  • Non-Volatil : Una dintre cele mai bune caracteristici ale unui depozit de date este că, odată ce datele sunt stocate în el, este imposibil ca acestea să se schimbe. Astfel, informațiile înregistrate în depozit nu vor fi niciodată modificate.

Cum se utilizează arhitectura depozitului de date?

Crearea de tip de bază de date de care are nevoie afacerea sau întreprinderea dvs. și modul în care intenționați să colaborați cu aceasta este esențială în timp ce căutați informații. De asemenea, este esențial să evaluați cine va inspecta informațiile și de ce surse au nevoie, luând în considerare designul depozitului de date.

În ciuda faptului că jocul de depozit de date versus bătaia de date nu este constant relevant pentru organizațiile mai mici, cei cu mai multe grupuri, divizii și nevoi explicite pot profita de un data mart. Natura particulară a unui magazin de date, în funcție de subiect, îl face o parte esențială a arhitecturii depozitului de date.

În plus, în funcție de dimensiunea organizației dvs., diferite tipuri de design de depozit ar putea fi din ce în ce mai practice. Înțelegerea care este cel mai bine se bazează pe datele dvs., dimensiunea setului dvs. și nevoile dvs. de afaceri.

Concluzie

Un depozit de date este un cadru de știință a datelor care conține informații autentice și comutative din surse unice sau diverse. Este o modalitate excelentă de a accesa date vechi și noi, de a obține informații din acestea și de a îmbunătăți procesele de afaceri prin analiza datelor prezente.

În plus, conceptele de depozitare a datelor sunt orientate pe subiect, deoarece oferă date cu privire la subiect, mai degrabă decât activitățile în desfășurare ale asociației. În depozit, încorporarea implică întemeierea unei unități de măsură tipice pentru fiecare dată comparabilă din diferitele baze de date. După cum am menționat mai sus, este în plus non-volatil, ceea ce înseamnă că informațiile trecute nu sunt șterse atunci când sunt introduse informații noi în ea.

Caracteristica de variație în timp a depozitului de date permite un interval de timp mare de utilizare realistă.

Există cinci părți fundamentale ale unui depozit de date. 1) Baza de date 2) Instrumente ETL 3) Metadate 4) Instrumente de interogare 5) DataMarts

Cele patru clase fundamentale de instrumente de interogare sunt instrumente de interogare și raportare, instrumente de dezvoltare a aplicațiilor, aparate de extragere a datelor și instrumente OLAP.

Instrumentele de aprovizionare, schimbare și relocare de informații sunt utilizate pentru a interpreta toate transformările și contururile.

În arhitectura depozitului de date, meta-eticheta își asumă o activitate semnificativă, deoarece indică sursa, utilizarea, calitățile și punctele importante ale datelor din depozitul de date.

Sperăm că informațiile din acest articol v-au ajutat să înțelegeți elementele de bază ale arhitecturii depozitului de date. Pentru mai multe informații, luați legătura cu experții de la upGrad. Trimiteți-ne un e-mail și vă vom reveni pentru a vă ajuta cu întrebările dvs.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care este arhitectura unui depozit de date?

Metoda de definire a întregii arhitecturi de prelucrare a comunicațiilor de date precum și prezentarea care există pentru clienții finali este arhitectura depozitului de date. Fiecare depozit de date este diferit și fiecare dintre ele este caracterizat pe baza componentelor vitale standard.

Cu cuvinte simple, un depozit de date este un sistem de informații care constă din date comutative și istorice din surse unice sau multiple. Procesul de raportare și analiză a datelor în organizații este simplificat cu ajutorul diferitelor concepte de depozitare a datelor. Există diferite abordări pentru construirea unei arhitecturi de depozit de date. Orice abordare este utilizată în funcție de cerințele organizațiilor.

Cât de mult câștigă în medie un arhitect de depozit de date?

Data Warehouse Architect este un post foarte solicitat, unde vă puteți aștepta la pachete salariale excelente. În medie, salariul unui arhitect de depozit de date este de Rs. 13.00.000 pe an. Chiar dacă vă începeți cariera în acest domeniu, vă puteți aștepta la un salariu la nivel de intrare de Rs. 10.00.000 pe an. Când câștigați mai multă experiență și urcați pe scară, salariul poate varia până la Rs. 22.00.000 pe an.

Fără îndoială, pachetul salarial va depinde chiar și de compania la care te alătură, de nivelurile de experiență și, cel mai important, de locația geografică.

Care este fluxul corect al arhitecturii depozitului de date?

Pe fiecare bază de date operațională, există un anumit număr fix de operațiuni care trebuie aplicate. Există diferite tehnici bine definite pentru a oferi soluții adecvate. Depozitarea datelor se dovedește a fi mai eficientă atunci când fluxul corect al arhitecturii depozitului de date este urmărit complet.

Cele patru procese diferite care contribuie la un depozit de date sunt extragerea și încărcarea datelor, curățarea și transformarea datelor, salvarea și arhivarea datelor și realizarea procesului de gestionare a interogărilor prin direcționarea acestora către sursele de date adecvate.