Concetti chiave del data warehousing: una panoramica

Pubblicato: 2018-03-20

Gli ultimi decenni hanno assistito a una rivoluzione in termini di tecnologie basate su cloud. Queste tecnologie consentono alle organizzazioni di archiviare e recuperare senza problemi i dati sui propri clienti, prodotti e dipendenti. Questi dati possono quindi essere utilizzati per raccogliere informazioni utili e portare l'organizzazione in cima alla scala.
Mentre Big Data e Analytics si occupano delle azioni eseguite sui dati DOPO che sono stati recuperati, il concetto di Data Warehousing si concentra su come tali dati vengono archiviati nel cloud. Molte organizzazioni globali hanno abbracciato il concetto di Data Warehousing per organizzare i propri dati in streaming dai centri operativi e dalle filiali aziendali in tutto il mondo.
Il concetto di data warehousing era assente fino al boom dei Big Data. Prima di allora, tutte le organizzazioni utilizzavano OLTP (database operativi), che sono adatti per la gestione, il monitoraggio e l'analisi delle attività quotidiane, ma falliscono miseramente quando si tratta di gestire set di dati storici che potrebbero raggiungere una dimensione di terabyte. Un sistema OLTP è semplicemente un modello di database relazionale che funziona su Entity-Relationship. Mentre sono ancora utilizzati, gli OLTP stanno lentamente svanendo a causa delle enormi quantità di dati con le organizzazioni di oggi.
Entra: Data Warehouse!

Sommario

Che cos'è un Data Warehouse?

Il concetto di Data Warehousing consente alle organizzazioni di raccogliere, archiviare e fornire dati di supporto alle decisioni. Il concetto di data warehousing è ampio e un data warehouse è uno degli artefatti creati durante il processo di warehousing.
Il termine "Data Warehouse" è stato coniato da William (Bill) H. Inmon nel 1990. Secondo Inmon, un data warehouse è semplicemente una raccolta di dati orientata al soggetto, integrata, variabile nel tempo e non volatile a supporto della decisione del management -processo di fabbricazione.
Chi è un Data Scientist, un Data Analyst e un Data Engineer?

L'OLTP di cui abbiamo parlato prima subisce frequenti modifiche (quasi quotidianamente). Tanto che è impossibile per un dirigente aziendale analizzare i precedenti feedback o reclami sui prodotti a causa della mancanza di dati storici.
Un data warehouse, invece, fornisce dati consolidati in una vista multidimensionale. Fornisce inoltre strumenti OLAP (Online Analytical Processing), che sono di enorme aiuto quando si passa all'analisi dei dati archiviati. Un Data Warehouse, a differenza di un OLTP, supporta anche operazioni come data mining, classificazione, clustering e analisi predittiva. Per tutti questi motivi e altro ancora, il concetto di Data Warehousing è diventato parte integrante di qualsiasi organizzazione.

Che cosa non è un data warehouse?

Le persone relativamente nuove al concetto di Data Warehousing spesso confondono un "data warehouse" per un "database". Tuttavia, chiariamo questo punto prima di andare oltre: un data warehouse non è solo un database ma qualcosa di più. Include una copia dei dati operativi che vengono raccolti da più fonti di dati e risulta utile durante il processo decisionale strategico.
Alcuni credono anche che un data warehouse contenga SOLO dati storici. Tuttavia, è lontano dalla verità. È possibile creare un data warehouse per includere dati storici, nonché dati analitici e di reporting. I dati transazionali gestiti negli archivi dati, tuttavia, non sono archiviati in un magazzino. Lo scopo dell'utilizzo di Data Warehouse è analizzare i dati storici e ottenere informazioni fruibili senza interruzioni.
Cosa diavolo è il paradosso di Simpson? In che modo influisce sui dati?

Importanza del Data Warehousing

Ormai siamo sulla stessa pagina per quanto riguarda il concetto di Data Warehouse, la sua necessità e abbiamo visto le differenze significative tra un Data Warehouse e un OLTP. Vediamo ora l'importanza del concetto di Data Warehousing:

Garantisce la coerenza dei dati

I data warehouse archiviano i dati provenienti da varie origini e tali dati sono in più formati. Pertanto, sono programmati per applicare i metodi ETL per garantire che i dati siano complessivamente coerenti. La coerenza è ciò che rende il data warehousing uno strumento perfetto per i decisori aziendali per analizzare e condividere le informazioni dettagliate sui dati con i loro colleghi in tutto il mondo. La standardizzazione e la formattazione dei dati riduce anche il rischio di errori durante l'analisi dei dati; fornendo così una migliore precisione complessiva.

Facilitare decisioni migliori

"Prima vengono i dati, poi le teorie". Un data warehouse consente alle organizzazioni di archiviare e recuperare i dati con facilità, garantendo così teorie e strategie migliori su tali dati. Il data warehousing è anche molto più veloce per quanto riguarda l'accesso a diversi set di dati e semplifica la derivazione di informazioni utili.

Migliora i loro profitti

Un data warehouse aiuta a migliorare le operazioni complessive di qualsiasi organizzazione consentendo alle parti interessate di approfondire i propri dati storici. Ciò, alla fine, consente ai leader aziendali di monitorare rapidamente le attività passate della propria organizzazione e valutare strategie di successo (o fallite). Ciò consente ai dirigenti di vedere dove possono modificare il loro approccio per ridurre i costi, massimizzare l'efficienza e aumentare le vendite per migliorare i profitti.

Alcune terminologie cruciali all'interno e attorno al concetto di Data Warehousing:

Metadati

I metadati sono essenzialmente solo dati sui dati. Ad esempio, se parliamo di un libro, il suo indice può fungere da metadati per il contenuto del libro. In altre parole, i metadati possono essere intesi come il riepilogo dei dati completi.
In termini di data warehouse, possiamo definire i metadati come −

    • Una road map per il data warehouse.

  • Una directory che aiuta il sistema di supporto alle decisioni a localizzare i contenuti di un data warehouse.

Cubo di dati

Cubo di dati OLAP
Un cubo di dati è definito da dimensioni e fatti e ci aiuta a rappresentare i dati in più dimensioni. Le dimensioni non sono altro che entità di cui un'organizzazione conserva i record. Viene utilizzato principalmente per la memorizzazione dei dati a scopo di reportistica. Ciascuna dimensione del cubo rappresenta una determinata caratteristica del database, ad esempio le vendite giornaliere, mensili o annuali. I dati inclusi in un cubo di dati consentono di analizzare quasi tutte le cifre per praticamente qualsiasi cliente, agente di vendita, prodotto e molto altro. Pertanto, un cubo di dati può idealmente aiutare a stabilire tendenze e analizzare le prestazioni.

Ottieni la certificazione di data science dalle migliori università del mondo. Unisciti ai nostri programmi Executive PG, Advanced Certificate Program o Masters per accelerare la tua carriera.

Data Mart

Data mart
Un data mart può essere inteso come un archivio di dati creato per servire una particolare sezione dell'organizzazione. Un data mart contiene un sottoinsieme dei dati dell'intera organizzazione che è prezioso per un gruppo specifico di persone. Ad esempio, un data mart progettato specificamente per il team di marketing potrebbe contenere solo dati relativi ad articoli, clienti e vendite. I data mart sono limitati ai soggetti in questione.
di data warehousing insieme ai termini e alle tecnologie importanti. Se lo trovi interessante, ti consigliamo di approfondire questo argomento armeggiando con i concetti di data mining, analisi dei dati e altro ancora. Il viaggio è lungo e il data warehouse è solo il punto di partenza.

Se hai dubbi o domande, faccelo sapere nei commenti qui sotto!

Perché un'azienda dovrebbe sfruttare il Data Warehousing?

I moderni sistemi di data warehousing semplificano le lunghe attività di progettazione, costruzione e implementazione di un data warehouse per soddisfare le esigenze aziendali in rapida evoluzione. Di conseguenza, molte aziende utilizzano soluzioni di data warehousing per acquisire informazioni. Una migliore analisi dei dati, maggiori entrate e la capacità di competere in modo più strategico sul mercato sono tutti vantaggi dell'avere un data warehouse. Gli strumenti di data warehouse utilizzano una varietà di tecnologie correlate, come dati strutturati e non strutturati, software ETL e data mining, per ottenere questi vantaggi.

Alcuni vantaggi chiave di un data warehouse includono:

1. Consente l'analisi storica
2. Migliora la qualità e la coerenza dei dati
3. Aumenta la produttività
4. L'analisi dei dati può essere resa più potente e più veloce
5. Aumenta le entrate
6. Interagisce con sistemi sia on-premise che basati su cloud

Qual è il miglior strumento di data warehouse da utilizzare?

Molte aziende oggi si affidano a strumenti di data warehousing. Scegliere la soluzione giusta per la gestione e la manutenzione del data warehouse, oltre a trovarne una che si adatti esattamente agli obiettivi e alle restrizioni aziendali, può essere difficile.

Ecco una panoramica di alcuni strumenti di data warehouse che le aziende possono utilizzare per estrarre dati utili dal proprio data warehouse:

1. Amazon Redshift: Amazon Redshift è uno strumento di data warehousing che consente di esaminare i dati con gli strumenti di Business Intelligence esistenti utilizzando semplici query SQL. Utilizza il calcolo ad alte prestazioni, l'esecuzione parallela, l'ottimizzazione uniforme delle query e l'archiviazione a colonne per eseguire query analitiche sofisticate. Per impostazione predefinita, Amazon Redshift crittografa i dati inattivi.
2. Google BigQuery: Google BigQuery è uno strumento di data warehousing serverless, conveniente e altamente scalabile che include l'apprendimento automatico e sfrutta il motore di Business Intelligence. Analizza petabyte di dati ad alta velocità utilizzando il linguaggio ANSI SQL, fornisce approfondimenti e soluzioni dai dati attraverso i cloud attraverso un'architettura flessibile e può archiviare e interrogare enormi set di dati in modo conveniente ed efficiente.
3. Microsoft Azure: Microsoft Azure è uno strumento di data warehousing che combina più di 200 prodotti e servizi cloud che aiuta a progettare, eseguire e gestire applicazioni altamente scalabili su diverse reti cloud. Aiuta nella distribuzione di macchine virtuali Windows e Linux in una varietà di ambienti cloud e ibridi.