Architettura del data warehouse: tutto ciò che devi sapere

Pubblicato: 2020-04-30

In questo mondo incentrato sui dati, non sorprende che prima o poi ognuno di noi genererà 1,7 MB di dati al secondo . Ma dove andrebbero a finire tutti questi dati? Non dovrebbe esserci un'unità di archiviazione per conservare in sicurezza tutte queste informazioni, in modo che possano essere rianimate quando necessario?

E se ti dicessimo che esiste una tale unità di archiviazione? Non sorprende che si chiami Data Warehouse. È uno strumento analitico contenente dati e informazioni provenienti da fonti operative, costruito per aiutare con il processo decisionale e la rendicontazione.

Oggi, il mercato globale del data warehousing è cresciuto a tal punto che si prevede che crescerà a un CAGR del 16% negli anni successivi.

Quindi, approfondiamo la conoscenza del data warehouse e della sua architettura.

Scopri di più: Cosa c'è di più nel data warehousing e nel data mining

Sommario

Che cos'è un Data Warehouse?

Un luogo per la custodia di tutti i dati passati e commutativi provenienti da una o più fonti è chiamato data warehouse. Lo scopo principale di disporre di un data warehouse è rendere più fluidi i processi di business intelligence e reporting di un'azienda. Esegue essenzialmente query e analisi sui dati che memorizza.

Poiché un data warehouse dispone di dati transazionali provenienti da più origini, aiuta le aziende a:

  • Conserva i vecchi record
  • Valutare i dati esistenti e identificare le scappatoie nelle operazioni

Business Analysis Framework per la progettazione di un Data Warehouse

Di solito, un analista di dati raccoglie i dati rilevanti dal magazzino e li analizza per aiutare l'azienda a migliorare le proprie operazioni. L'uso del data warehouse è utile in quanto consente di accedere ai dati in modo rapido ed efficiente, migliorando così la produttività complessiva.

Inoltre, puoi dare uno sguardo completo ai clienti e a tutti i prodotti. In questo modo, puoi garantire una relazione regolare con il cliente.

Ma affinché tutto ciò avvenga, l'analista di dati dovrebbe prima comprendere le esigenze aziendali. E per questo, devono creare un quadro di analisi aziendale.

Solo dopo aver costruito un framework di analisi aziendale possiamo passare alla progettazione di un data warehouse. Ci sono tre punti di vista:

  • Vista dall'alto : in questa vista, puoi vedere le informazioni rilevanti necessarie per progettare il magazzino.
  • Vista origine dati : presenta i dati acquisiti, archiviati e gestiti.
  • Vista data warehouse : elenca le tabelle dei fatti, le tabelle delle dimensioni e i dati nel warehouse.
  • Visualizzazione della query aziendale : in questa visualizzazione puoi vedere i dati dal punto di vista dell'utente finale.

Dopo aver visualizzato i dati da tutti questi punti di vista, è il momento di passare all'apprendimento dei tre tipi di architettura del data warehouse.

Tre tipi di architettura di data warehouse

Ogni volta che pianifichi di progettare un data warehouse per un'azienda, puoi considerare una road map per la costruzione del tuo data warehouse e anche i seguenti tre livelli di architettura.

  1. Singolo livello : questo è il principale responsabile della generazione di un pacchetto di dati ravvicinato e della riduzione del suo volume complessivo. Tuttavia, questo tipo non è consigliato per le aziende che dispongono di dati complessi e più flussi di dati.
  2. Due livelli : in questo tipo di architettura, le origini dati sono suddivise e, di conseguenza, l'organizzazione dei dati e il processo di archiviazione sono più efficienti.
  3. Tre livelli : questo tipo di architettura del magazzino è il tipo più preferito, poiché fornisce informazioni davvero preziose dai dati grezzi, producendo così un flusso organizzato di dati.

Si compone dei seguenti tre livelli:

  • Il livello inferiore , che contiene i server del magazzino. Qui, i dati vengono ripuliti e caricati utilizzando strumenti di back-end.
  • Il livello intermedio è costituito da un server OLAP. Questo livello fornisce all'utente una vista astratta del database, fungendo da connessione tra l'utente finale e il database.
  • Il livello superiore ha l'API e gli strumenti (strumenti di query, data mining, analisi e reporting) per estrarre i dati dal magazzino.

Componenti dell'architettura del data warehouse

Per rendere gestibile il funzionamento dell'architettura, il magazzino contiene un server RDBMS, circondato da cinque componenti principali.

Ecco i cinque componenti principali dell'architettura del data warehouse.

Database di Data Warehouse

La parte focale dell'architettura del magazzino è una banca dati contenente tutte le informazioni aziendali che lo rendono comprensibile per la reportistica. Chiaramente, questo implica che devi scegliere quale tipo di database utilizzeresti per archiviare i dati nel tuo magazzino.

I prossimi sono i quattro tipi di database che puoi utilizzare:

  • I database relazionali sono i database basati su righe che generalmente incontri o utilizzi ogni giorno. Questi includono Microsoft SQL Server, SAP, Oracle e IBM DB2.
  • I database di analisi sono creati in modo decisivo per lo stoccaggio di informazioni per supportare e supervisionare l'analisi. Ad esempio, Teradata e Greenplum.
  • Le applicazioni di data warehouse non sono in realtà una sorta di database di capacità. Sono applicazioni che offrono software per la gestione dei dati, come SAP Hana, Oracle Exadata e IBM Netezza.
  • I database basati su cloud sono quelli che possono essere facilitati e recuperati sul cloud con l'obiettivo di non dover acquisire alcun hardware per configurare il tuo data warehouse. Ad esempio, Amazon Redshift, Microsoft Azure SQL e Google BigQuery.

Se sei interessato a saperne di più sulla scienza dei dati, dai un'occhiata alla nostra formazione sulla scienza dei dati dalle migliori università.

Strumenti di estrazione, trasformazione e caricamento (ETL)

Gli apparati ETL sono fondamentali per un'architettura di data warehouse. Questi aiutano a separare le informazioni da varie fonti, modificarle in una disposizione ragionevole e impilarle in un magazzino.

Lo strumento ETL che scegli deciderà:

  • Il tempo impiegato nell'estrazione delle informazioni
  • Modi per estrarre i dati
  • Una sorta di modifiche applicate e lo sforzo necessario per farlo
  • Definizione di regole aziendali per la convalida e la pulizia delle informazioni per migliorare l'analisi del prodotto finale
  • Compilazione di informazioni perse
  • Tracciare la circolazione dei dati dalla cassaforte delle chiavi alle applicazioni BI

Metadati

I metadati rappresentano il data warehouse e offrono un sistema di informazioni. Aiuta a sviluppare, salvaguardare, gestire e utilizzare il magazzino. È di due tipi:

  • Metadati tecnici : include dati che possono essere utilizzati da ingegneri e manager durante l'esecuzione di attività di sviluppo e organizzazione del magazzino.
  • Metadati aziendali : include dati che offrono una posizione effettivamente giustificabile dei dati nel magazzino.

I metadati assumono un ruolo significativo per le organizzazioni per comprendere i dati presenti nel magazzino e trasformarli in informazioni utilizzabili.

Strumenti di accesso al data warehouse

Un data warehouse utilizza un database o un gruppo di database come stabilimento. Le aziende, per la maggior parte, non possono lavorare legittimamente con i database. Questo è il motivo per cui utilizzano diversi strumenti, tra cui:

  • Strumenti di query e report : aiutano gli utenti a creare report aziendali in fogli di calcolo, calcoli o elementi visivi intelligenti per condurre un'analisi approfondita.
  • Dispositivi OLAP : aiutano a sviluppare un data warehouse multidimensionale e a condurre analisi di big data da varie prospettive.
  • Strumenti di data mining : sistematizzano la metodologia di riconoscimento di cluster e connessioni in enormi quantità di dati, utilizzando strategie di modellazione statistica. Ulteriori informazioni sulle tecniche di data mining.
  • Strumenti di sviluppo delle applicazioni : aiutano a creare report personalizzati e a presentarli in traduzioni, previste per scopi di reportistica specifici.

Bus del magazzino dati

Aiuta a decidere la progressione dei dati nel magazzino. Questo flusso può essere organizzato come Flusso in entrata, Flusso ascendente, Flusso in discesa, Flusso in uscita e Meta flusso.

Durante la progettazione di un bus dati, è necessario pensare alle misurazioni e ai fatti comuni tra i data mart.

Data mart

Questo è un livello di ingresso utilizzato per ottenere informazioni agli utenti. Viene introdotto come una possibilità per un data warehouse di grandi dimensioni, poiché richiede solo una piccola quantità di tempo e denaro per la creazione. In ogni caso, non esiste un significato standard di data mart, poiché varia da individuo a individuo.

In parole povere, un data mart è un ausiliario di un data warehouse e viene utilizzato per segmentare le informazioni, create per un particolare gruppo di utenti.

Strati dell'architettura del data warehouse

La costruzione di un data warehouse dipende principalmente da una particolare attività. E quindi, ogni architettura ha quattro livelli. Studiamoli in dettaglio di seguito.

Livello origine dati

Il livello dell'origine dati è il luogo in cui le informazioni uniche, raccolte da un assortimento di fonti interne ed esterne, risiedono nel database sociale. Di seguito sono riportati gli esempi del livello di origine dati:

  • Dati operativi : informazioni sul prodotto, informazioni sulle scorte, informazioni di marketing o informazioni sulle risorse umane
  • Dati sui social media : visite al sito Web, fama dei contenuti, completamento della pagina dei contatti
  • Dati esterni : informazioni demografiche, informazioni sullo studio, informazioni statistiche

Sebbene la maggior parte dei data warehouse gestisca dati organizzati, è opportuno considerare l'utilizzo futuro di origini dati non strutturate, ad esempio account vocali, immagini scansionate e testo non strutturato. Queste inondazioni di dati sono importanti depositi di informazioni e dovrebbero essere visualizzate durante la costruzione del magazzino.

Livello di gestione temporanea dei dati

Questo livello si trova tra le fonti di informazioni e il data warehouse. In questo livello, le informazioni sono separate da varie fonti di dati interne ed esterne. Poiché i dati di origine provengono da varie organizzazioni, il livello di estrazione dei dati utilizzerà numerose tecnologie e dispositivi per estrarre le informazioni necessarie.

Una volta che i dati estratti sono stati impilati, saranno esposti a controlli di qualità di alto livello. Il risultato finale saranno dati perfetti e organizzati che accumulerai nel tuo data warehouse. Il livello di staging contiene le parti date:

  • Database di atterraggio e area di sosta

Il database di atterraggio memorizza le informazioni recuperate dall'origine dati. Prima che i dati arrivino al magazzino, il processo di staging esegue severi controlli di qualità su di essi. L'organizzazione è un passo fondamentale in architettura. Informazioni scarse si sommano a dati inadeguati e il risultato è una scarsa dinamica aziendale. Il livello di organizzazione è il punto in cui è necessario apportare modifiche in base al processo aziendale per gestire le fonti di informazioni non strutturate.

  • Strumento di integrazione dei dati

Gli strumenti di estrazione, trasformazione e caricamento (ETL) sono gli strumenti di dati utilizzati per estrarre le informazioni dai framework di origine, modificare e preparare le informazioni e caricarle nel magazzino.

Leggi: Stipendio per data scientist in India

Livello di archiviazione dei dati

Questo livello è il luogo in cui i dati che sono stati lavati nella zona di organizzazione vengono riposti come archivio centrale solitario. A seconda delle esigenze della tua azienda e dell'architettura del tuo magazzino, l'archiviazione dei dati potrebbe essere un data warehouse center, un data mart (data warehouse in qualche modo ricreato per reparti particolari) o un ODS (Operational Data Store).

Livello di presentazione dei dati

È qui che gli utenti comunicano con i dati ripuliti e ordinati. Questo livello dell'architettura dei dati offre agli utenti la capacità di interrogare i dati per informazioni dettagliate su articoli o servizi, scomporre i dati per condurre situazioni aziendali teoriche e creare report computerizzati o appositamente nominati.

È possibile utilizzare un OLAP o uno strumento di reporting con un'interfaccia utente grafica (GUI) di facile comprensione per assistere gli utenti nella creazione di query, eseguire analisi o pianificare i propri report.

Caratteristiche del Data Warehouse

Un data warehouse è orientato al soggetto, non volatile, variabile nel tempo e un insieme integrato di dati per consentire un processo decisionale rapido ed efficiente per un'organizzazione.

  • Orientato al soggetto : un data warehouse può essere utilizzato per esaminare un ramo specifico della conoscenza. Ad esempio, le "vendite" possono essere un argomento specifico.
  • Integrato : un data warehouse incorpora informazioni provenienti da diverse fonti. Ad esempio, la fonte A e la fonte B possono avere vari metodi per distinguere un articolo, tuttavia, in un magazzino, ci sarà solo un metodo solitario per riconoscere un articolo.
  • Variante temporale : un magazzino contiene dati storici. Ad esempio, è possibile recuperare informazioni da 3 mesi, sei mesi, un anno o informazioni significativamente più vecchie da un data warehouse. Ciò appare in modo diverso in relazione a un framework di transazioni, in cui vengono archiviate solo le informazioni più recenti. Ad esempio, un framework di transazioni può contenere l'ultima posizione di un cliente, mentre un data warehouse può contenere tutte le posizioni relative a un cliente.
  • Non volatile : una delle migliori caratteristiche di un data warehouse è che una volta che i dati sono archiviati in esso, è impossibile che cambi. Pertanto, le informazioni registrate nel magazzino non verranno mai modificate.

Come utilizzare l'architettura del data warehouse?

Costruire il tipo di database di cui la tua azienda o azienda ha bisogno e come intendi collaborare con esso è fondamentale durante la ricerca di approfondimenti. Allo stesso modo, è fondamentale valutare chi ispezionerà le informazioni e di quali fonti hanno bisogno mentre si considera la progettazione del data warehouse.

Nonostante il fatto che le battute sul data warehouse e sul data mart non siano costantemente rilevanti per le organizzazioni più piccole, quelle con più gruppi, divisioni ed esigenze esplicite possono trarre profitto da un data mart. La particolare natura di un data mart, a seconda del soggetto, lo rende una parte essenziale della tua architettura di data warehouse.

Inoltre, a seconda delle dimensioni della tua organizzazione, vari tipi di design del magazzino potrebbero essere sempre più pratici. Capire quale sia il migliore dipende dai tuoi dati, dalle dimensioni dei tuoi set e dalle tue esigenze aziendali.

Conclusione

Un data warehouse è un framework di data science che contiene informazioni autentiche e commutative da una o più fonti. È un modo eccellente per accedere a vecchi e nuovi dati, ottenere approfondimenti da essi e migliorare i processi aziendali analizzando i dati attuali.

Inoltre, i concetti di data warehousing sono orientati al soggetto, in quanto offre dati rispetto al soggetto piuttosto che alle attività in corso dell'associazione. Nel magazzino l'incorporazione implica il fondamento di un'unità di misura tipica per ogni dato comparabile proveniente dalle varie banche dati. Come accennato in precedenza, è inoltre non volatile, il che significa che le informazioni passate non vengono eliminate quando vengono inserite nuove informazioni.

La caratteristica di variazione temporale del data warehouse consente un elevato arco temporale di fruibilità realistica.

Ci sono cinque parti fondamentali di un data warehouse. 1) Database 2) Strumenti ETL 3) Metadati 4) Strumenti di query 5) DataMart

Le quattro classi fondamentali di strumenti di query sono strumenti di query e reporting, strumenti di sviluppo di applicazioni, apparati di data mining e strumenti OLAP.

Gli strumenti di approvvigionamento, modifica e trasferimento delle informazioni vengono utilizzati per riprodurre tutte le trasformazioni e i contorni.

Nell'architettura del data warehouse, il meta-tag assume un ruolo significativo in quanto indica l'origine, l'uso, le qualità e le caratteristiche salienti dei dati nel data warehouse.

Ci auguriamo che le informazioni in questo articolo ti abbiano aiutato a comprendere le basi dell'architettura del data warehouse. Per ulteriori informazioni, contatta gli esperti di upGrad. Inviaci un'e-mail e ti risponderemo per aiutarti con le tue domande.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Qual è l'architettura di un data warehouse?

Il metodo per definire l'intera architettura dell'elaborazione della comunicazione dei dati così come la presentazione che esiste per i client finali è l'architettura del data warehouse. Ogni data warehouse è diverso e ognuno di essi è caratterizzato in base ai componenti vitali standard.

In parole semplici, un data warehouse è un sistema informativo costituito da dati commutativi e storici provenienti da una o più fonti. Il processo di reporting e analisi dei dati nelle organizzazioni è semplificato con l'aiuto di diversi concetti di data warehousing. Esistono diversi approcci alla costruzione di un'architettura di data warehouse. Qualsiasi approccio viene utilizzato in base ai requisiti delle organizzazioni.

Quanto guadagna in media un architetto di data warehouse?

Data Warehouse Architect è un ruolo di lavoro molto richiesto in cui puoi aspettarti pacchetti salariali eccellenti. In media, lo stipendio di un Data Warehouse Architect è di Rs. 13.00.000 annui. Anche se stai iniziando la tua carriera in questo campo, puoi aspettarti uno stipendio base di Rs. 10.00.000 annui. Quando acquisisci più esperienza e sali la scala, lo stipendio può variare fino a Rs. 22.00.000 annui.

Senza dubbio il pacchetto salariale dipenderà anche dall'azienda in cui ti unisci, dai livelli di esperienza e, soprattutto, dalla posizione geografica.

Qual è il flusso corretto dell'architettura del data warehouse?

Su ogni database operativo c'è un certo numero fisso di operazioni che devono essere applicate. Esistono diverse tecniche ben definite per fornire soluzioni adeguate. Il data warehousing risulta essere più efficace quando si segue completamente il flusso corretto dell'architettura del data warehouse.

I quattro diversi processi che contribuiscono a un data warehouse sono l'estrazione e il caricamento dei dati, la pulizia e la trasformazione dei dati, il backup e l'archiviazione dei dati e l'esecuzione del processo di gestione delle query indirizzandoli alle origini dati appropriate.