Concepte cheie ale depozitării datelor: o prezentare generală

Publicat: 2018-03-20

Ultimele decenii au cunoscut o revoluție în ceea ce privește tehnologiile bazate pe cloud. Aceste tehnologii permit organizațiilor să stocheze și să recupereze fără probleme date despre clienții, produsele și angajații lor. Aceste date pot fi apoi folosite pentru a aduna informații utile și pentru a duce organizația pe scară.
În timp ce Big Data și Analytics se ocupă de acțiunile efectuate asupra datelor DUPĂ ce acestea sunt preluate, conceptul de Data Warehousing se concentrează pe modul în care aceste date sunt stocate în cloud. Multe organizații globale au îmbrățișat conceptul de Data Warehousing pentru a-și organiza datele care provin din centrele operaționale și sucursalele corporative din întreaga lume.
Conceptul de depozitare de date a lipsit până când a avut loc boom-ul Big Data. Înainte de asta, toate organizațiile au folosit OLTP (baze de date operaționale), care sunt potrivite pentru gestionarea, urmărirea și analiza activităților de zi cu zi, dar eșuează lamentabil când vine vorba de a se ocupa de seturi de date istorice care s-ar putea întinde pe terabyți. Un sistem OLTP este doar un model de bază de date relațională care funcționează pe Entitate-Relație. În timp ce sunt încă folosite, OLTP-urile dispar încet din cauza cantităților colosale de date cu organizațiile de astăzi.
Introduceți: Data Warehouse!

Cuprins

Ce este un depozit de date?

Conceptul de Data Warehousing permite organizațiilor să colecteze, să stocheze și să livreze date de sprijinire a deciziilor. Conceptul de depozitare de date este larg, iar un depozit de date este unul dintre artefactele create în timpul procesului de depozitare.
Termenul „Depozit de date” a fost inventat de William (Bill) H. Inmon încă din 1990. Potrivit lui Inmon, un depozit de date este doar o colecție de date orientată pe subiect, integrată, variabilă în timp și nevolatilă în sprijinul deciziei conducerii. -procesul de realizare.
Cine este un Data Scientist, un Data Analyst și un Data Engineer?

OLTP despre care am vorbit mai devreme suferă modificări frecvente (aproape zilnic). Atât de mult încât este imposibil pentru un director de afaceri să analizeze feedback-urile sau reclamațiile anterioare despre produse din cauza lipsei datelor istorice.
Un depozit de date, pe de altă parte, oferă date consolidate într-o vedere multidimensională. De asemenea, oferă instrumente OLAP (Procesare analitică online) – care vă sunt de mare ajutor atunci când vă treceți la analiza datelor pe care le-ați stocat. Un depozit de date, spre deosebire de un OLTP, acceptă și operațiuni precum extragerea datelor, clasificarea, gruparea și analiza predictivă. Din toate aceste motive și nu numai, conceptul de Data Warehousing a devenit parte integrantă a oricărei organizații.

Ce nu este un depozit de date?

Oamenii relativ mai noi la conceptul de depozitare de date confundă adesea un „depozit de date” cu o „bază de date”. Cu toate acestea, să clarificăm acest punct înainte de a trece mai departe – un depozit de date nu este doar o bază de date, ci mai mult decât atât. Include o copie a datelor operaționale care sunt colectate din mai multe surse de date și sunt utile în timpul luării deciziilor strategice.
Unii cred, de asemenea, că un depozit de date conține DOAR date istorice. Cu toate acestea, este departe de adevăr. Un depozit de date poate fi creat pentru a include date istorice, dar și date de analiză și raportare. Datele tranzacționale care sunt gestionate în depozitele de date nu sunt, totuși, stocate într-un depozit. Scopul utilizării Data Warehouse este de a analiza datele istorice și de a obține informații utile.
Ce naiba este Paradoxul lui Simpson? Cum afectează datele?

Importanța depozitării datelor

Până acum suntem pe aceeași pagină în ceea ce privește conceptul de Data Warehousing, necesitatea acestuia și am văzut diferențele semnificative dintre un Data Warehouse și un OLTP. Acum, să ne uităm la importanța conceptului de Data Warehousing:

Asigură consistența datelor

Depozitele de date stochează date din diverse surse, iar aceste date sunt în mai multe formate. Prin urmare, sunt programați să aplice metode ETL pentru a se asigura că datele sunt în general consecvente. Consecvența este ceea ce face din depozitarea datelor un instrument perfect pentru factorii de decizie corporativi pentru a analiza și a partaja informații despre date cu colegii lor din întreaga lume. Standardizarea și formatarea datelor reduce, de asemenea, riscul de erori în timpul analizei datelor; oferind astfel o precizie generală mai bună.

Facilitați decizii mai bune

„Întâi vin datele, apoi teoriile.” Un depozit de date permite organizațiilor să stocheze și să recupereze datele cu ușurință, asigurând astfel teorii și strategii mai bune în jurul acestor date. Depozitarea datelor este, de asemenea, mult mai rapidă în ceea ce privește accesarea diferitelor seturi de date și facilitează obținerea de informații utile.

Îmbunătățiți-le rezultatul final

Un depozit de date ajută la îmbunătățirea operațiunilor generale ale oricărei organizații, permițând părților interesate să se arunce în datele lor istorice. Acest lucru, în cele din urmă, le permite liderilor de afaceri să urmărească rapid activitățile anterioare ale organizației lor și să evalueze strategiile de succes (sau nereușite). Acest lucru permite directorilor să vadă unde își pot ajusta abordarea pentru a reduce costurile, a maximiza eficiența și a crește vânzările pentru a-și îmbunătăți profitul.

Câteva terminologii cruciale în și în jurul conceptului de Data Warehousing:

Metadate

Metadatele sunt în esență doar date despre date. De exemplu, dacă vorbim despre o carte, indexul acesteia poate servi drept metadate pentru conținutul cărții. Cu alte cuvinte, metadatele pot fi înțelese ca rezumatul datelor complete.
În ceea ce privește depozitul de date, putem defini metadatele ca −

    • O foaie de parcurs către depozitul de date.

  • Un director care ajută sistemul de suport decizional să localizeze conținutul unui depozit de date.

Cubul de date

Cubul de date OLAP
Un cub de date este definit de dimensiuni și fapte și ne ajută să reprezentăm datele în mai multe dimensiuni. Dimensiunile nu sunt altceva decât entități despre care o organizație păstrează înregistrările. Este folosit mai ales pentru stocarea datelor în scopuri de raportare. Fiecare dimensiune a cubului reprezintă o anumită caracteristică a bazei de date, de exemplu, vânzări zilnice, lunare sau anuale. Datele incluse într-un cub de date fac posibilă analizarea aproape a tuturor cifrelor pentru aproape oricare dintre clienți, agenți de vânzări, produse și multe altele. Astfel, un cub de date poate ajuta în mod ideal la stabilirea tendințelor și la analiza performanței.

Obțineți certificare în știința datelor de la cele mai bune universități din lume. Alăturați-vă programelor noastre Executive PG, Programelor de certificate avansate sau Programelor de master pentru a vă accelera cariera.

Data Mart

Data mart
Un data mart poate fi înțeles ca un depozit de date construit pentru a deservi o anumită secțiune a organizației. Un data mart conține un subset al datelor întregii organizații care este valoros pentru un anumit grup de oameni. De exemplu, un data mart special conceput pentru echipa de marketing poate conține doar date referitoare la articole, clienți și vânzări. Data mart-urile sunt limitate la subiectele în cauză.
de depozitare a datelor împreună cu termenii și tehnologiile importante. Dacă vi se pare interesant, vă recomandăm să parcurgeți acest subiect în profunzime, abordând conceptele de data mining, analiza datelor și multe altele. Călătoria este lungă, iar depozitul de date este doar punctul de plecare.

Dacă aveți îndoieli sau întrebări, spuneți-ne în comentariile de mai jos!

De ce ar trebui o companie să folosească Data Warehousing?

Sistemele moderne de depozitare de date simplifică sarcinile consumatoare de timp de proiectare, construire și implementare a unui depozit de date pentru a răspunde nevoilor companiei în schimbare rapidă. Drept urmare, multe companii folosesc soluții de depozitare a datelor pentru a obține informații. Analiza îmbunătățită a datelor, venituri mai mari și capacitatea de a concura mai strategic pe piață sunt toate avantajele de a avea un depozit de date. Instrumentele de depozit de date folosesc o varietate de tehnologii conexe, cum ar fi datele structurate și nestructurate, software-ul ETL și data mining, pentru a obține aceste beneficii.

Câteva beneficii cheie ale unui depozit de date includ:

1. Permite o perspectivă istorică
2. Îmbunătățește calitatea și consistența datelor
3. Crește productivitatea
4. Analiza datelor poate deveni mai puternică și mai rapidă
5. Crește veniturile
6. Interacționează atât cu sistemele on-premise, cât și cu cele bazate pe cloud

Care este cel mai bun instrument de depozit de date de utilizat?

Multe companii se bazează astăzi pe instrumente de depozitare a datelor. Alegerea soluției potrivite pentru gestionarea și întreținerea depozitului de date, precum și găsirea uneia care se potrivește exact obiectivelor și restricțiilor de afaceri, poate fi dificilă.

Iată o prezentare generală a unor instrumente de depozitare a datelor pe care companiile le pot folosi pentru a extrage date utile din depozitul lor de date:

1. Amazon Redshift: Amazon Redshift este un instrument de depozitare a datelor care face posibilă examinarea datelor cu instrumentele de Business Intelligence existente folosind interogări SQL simple. Utilizează calcularea de înaltă performanță, execuția paralelă, optimizarea uniformă a interogărilor și stocarea în coloană pentru a rula interogări analitice sofisticate. În mod implicit, Amazon Redshift își criptează datele în repaus.
2. Google BigQuery: Google BigQuery este un instrument de depozitare de date fără server, rentabil și foarte scalabil, care include învățarea automată și folosește Motorul de Business Intelligence. Analizează petaocteți de date la viteză rapidă folosind limbajul ANSI SQL, oferă informații și soluții de la date din cloud printr-o arhitectură flexibilă și poate stoca și interoga seturi enorme de date într-un mod rentabil și eficient.
3. Microsoft Azure: Microsoft Azure este un instrument de depozitare a datelor care combină peste 200 de produse și servicii cloud care ajută la proiectarea, rularea și gestionarea aplicațiilor extrem de scalabile în diferite rețele cloud. Ajută la implementarea mașinilor virtuale Windows și Linux într-o varietate de medii cloud și hibride.