Briefing: Il Data Warehouse

Pubblicato: 2022-03-11

Le aziende e i consumatori stanno generando più dati che mai. La proliferazione di dispositivi e prodotti digitali sta guidando l'espansione esponenziale dell'universo digitale. Sebbene sia teoricamente una risorsa, la portata di questi dati presenta una sfida: come possono le aziende organizzare praticamente le proprie informazioni per rivelare informazioni fruibili?

Mentre il data mining e la business intelligence forniscono la preziosa estrazione e presentazione di tali informazioni, il data warehouse (DWH) è l'aggregazione e la riorganizzazione preparatoria dei vasti dati sottostanti, che spesso risiedono in più posizioni. Comprendere il ruolo del DWH all'interno del più ampio ecosistema di data science, data mining e business intelligence è essenziale per il manager moderno.

Che cos'è un data warehouse?

Il DWH è un repository centralizzato di informazioni digitali, aggregate da una varietà di fonti disparate e organizzato in una struttura ottimizzata per la rendicontazione. Soprattutto, il DWH fornisce informazioni fruibili all'intera azienda, consentendo ai dipendenti di eseguire analisi personalizzate e prendere decisioni migliori.

Concetti essenziali di data warehouse

Il modello relazionale vs. dimensionale

Per apprezzare le funzionalità di un data warehouse, è importante comprendere la differenza tra un modello relazionale e dimensionale. Sebbene suonino tecnici, sono facili da distinguere.

Dal punto di vista dell'uso pratico, i database relazionali e dimensionali differiscono per un criterio critico: il flusso di informazioni. Mentre i database relazionali sono ottimizzati per l'input di dati, i database dimensionali sono costruiti per l'output, in particolare sotto forma di report e analisi noti come business intelligence.

Il modello relazionale organizza le informazioni attorno a un unico punto di informazione, ad esempio il nome di un cliente. In un tale modello, il nome del cliente esiste in un'unica posizione, con tutte le informazioni associate, come i dettagli di contatto e le date delle transazioni, elencate in tabelle associate o correlate.

Al contrario, il database dimensionale essenzialmente "decomprime" il database relazionale, consentendo agli utenti di "slice and disse" facilmente i dati nella permutazione necessaria per soddisfare le loro esigenze di reporting. Ad esempio, nella voce del database relazionale sopra, i dettagli di contatto del cliente sarebbero suddivisi in campi distinti, come numero di telefono, indirizzo, città, stato e codice postale.

Il database dimensionale essenzialmente "decomprime" il database relazionale, consentendo agli utenti di "tagliare e tagliare" facilmente i dati

La distinzione tra database relazionale e dimensionale può sembrare astratta. Tuttavia, per coloro incaricati di fornire analisi e reportistica sempre più complessi, apprezzare la distinzione fornisce una preziosa comprensione di base per lavorare con i team tecnici che gestiscono queste risorse.

Il Data Warehouse - "È attivo"

Come spiegato in dettaglio da Bill Inmon, uno dei creatori del data warehouse, alcune caratteristiche specifiche governano la progettazione del data warehouse. Secondo Inmon, il data warehouse è una raccolta di dati orientata al soggetto, non volatile, integrata e con varianti temporali a supporto delle decisioni del management.

È un boccone, ma una volta suddivisa in parti, questa definizione dipinge un quadro chiaro della struttura di base del DWH. Per rendere questi criteri facili da ricordare, abbiamo riorganizzato i criteri di Inmon secondo l'anagramma "It's On"

Integrato: i dati devono avere formati coerenti. Spesso tratti da fonti diverse, i campi di dati devono avere convenzioni di denominazione coerenti.

Variante temporale: il DWH rivela le tendenze, che dipendono dal cambiamento nel tempo. La registrazione dei punti dati nel tempo è fondamentale per rivelare le relazioni tra i dati.

Orientato al soggetto: il DWH consente analisi e report incentrati sul soggetto. Ad esempio, un'azienda potrebbe voler valutare le vendite di un prodotto nel tempo e quindi approfondire le tendenze specifiche a livello regionale o di segmento di clientela.

Non volatile: una volta che i dati entrano nel magazzino, non cambiano.

Il Data Warehouse è diverso dal database transazionale

I sistemi di database DWH e transazionale svolgono funzioni fondamentalmente diverse e servono utenti diversi. Mentre il DWH è ottimizzato per il reporting e l'analisi, i sistemi di transazione - spesso indicati come OnLine Transaction Processing (OLTP) - sono ottimizzati per la disponibilità e la velocità di elaborazione.

Gli utenti OLTP sono in genere dipendenti front-end e in genere accedono a più record alla volta. Gli utenti DWH sono spesso analisti e manager, i cui report possono richiamare contemporaneamente diversi milioni di record.

Il sistema di transazione e il DWH differiscono anche per la granularità e la permanenza dei dati. Nell'OLTP, i dati contengono valori attuali, dettagliati e altamente variabili (ogni pochi secondi, migliaia di transazioni cambiano i valori di questi record). Il DWH contiene invece dati ristrutturati che non possono essere modificati una volta caricati.

Il processo di prestito al consumo illustra succintamente le differenze chiave tra questi sistemi. Quando un cliente ottiene un prestito auto, ad esempio, il database transazionale acquisisce dettagli come tipo di auto, colore, anno di acquisto, prezzo di acquisto e dettagli personali dell'acquirente. Una volta convertite nel modello DWH, le informazioni transazionali (intorno alla transazione del singolo cliente) vengono disaggregate in parti componenti. Queste parti, a loro volta, sono raggruppate con parti comparabili di altre transazioni.

Interrogando il DWH, un dipendente del prestatore potrebbe accedere a report composti da dati aggregati dei clienti. Ad esempio, cercando di ottimizzare la spesa pubblicitaria, un responsabile marketing potrebbe cercare auto di un determinato tipo o fascia di prezzo con il tasso di approvazione del prestito più alto o l'età media e il livello di reddito dei richiedenti un prestito nel tempo. Tali informazioni potrebbero reindirizzare la spesa pubblicitaria verso canali più pertinenti con messaggi più mirati.

Il Data Warehouse contro Data Mart e Data Lake

Il DWH può essere accompagnato da database correlati - il data mart e il data lake - i cui nomi descrittivi suggeriscono funzioni distinte. Un sottoinsieme del DWH, il data mart serve un gruppo specifico di utenti, ad esempio una divisione o una specifica unità aziendale. Sebbene il DWH contenga più argomenti rilevanti per più dipartimenti, come vendite, clienti, prodotti, inventario, fornitori, un data mart in genere contiene un'area tematica per un dipartimento, come vendite o finanza.

Esistono due tipi di data mart, dipendenti e indipendenti, e ciascuno presenta vantaggi esclusivi. Il data mart dipendente attinge dal DWH e ha il vantaggio della coerenza. Poiché tutti i dati sono centralizzati e coerenti all'interno del DWH, anche i data mart risultanti sono coerenti. Sebbene i data mart dipendenti siano più robusti, richiedono un DWH e sono quindi più costosi da sviluppare.

I data mart indipendenti, d'altra parte, estraggono i dati direttamente dagli stessi database di origine, proprio come un mini DWH. Sebbene sia più veloce e meno costoso da sviluppare, i data mart indipendenti comportano un rischio maggiore, poiché le definizioni dei dati possono diventare incoerenti tra i data mart sviluppati in modo indipendente. Tuttavia, se sviluppati con disciplina, i data mart indipendenti possono infine essere assemblati in un DWH.

I data lake sono generalmente configurati su un cluster di hardware economico e scalabile. Ciò consente di scaricare i dati nel lago senza doversi preoccupare della capacità di archiviazione. Mentre il DWH è in genere limitato a testo e dati numerici, il lago può anche contenere una varietà più ampia, inclusi social media, dati dei sensori e immagini.

Data Warehouse e Data Mining

Il DWH consente il data mining, che fornisce alle aziende il potere di prevedere il futuro. L'obiettivo principale del data mining è quello di rivelare i modelli in grandi set di dati. Tali modelli, a loro volta, rivelano le relazioni tra le diverse categorie di dati e le loro funzioni aziendali sottostanti.

Tali relazioni forniscono ai manager informazioni utilizzabili, essenzialmente nuove leve da utilizzare per ottenere i risultati aziendali desiderati come la crescita dei clienti o l'aumento delle vendite per cliente. Ad esempio, la revisione dei dati storici sulle vendite per area geografica o per segmento di settore può evidenziare una crescita anomala, la cui origine potrebbe fornire ai responsabili delle vendite informazioni da applicare ad altri segmenti.