Briefing : l'entrepôt de données

Publié: 2022-03-11

Les entreprises et les consommateurs génèrent plus de données que jamais. La prolifération des appareils et des produits numériques entraîne une expansion exponentielle de l'univers numérique. Bien que théoriquement un atout, l'échelle de ces données présente un défi : comment les entreprises peuvent-elles organiser leurs informations dans la pratique pour révéler des informations exploitables ?

Alors que l'exploration de données et l'informatique décisionnelle fournissent l'extraction et la présentation précieuses de ces informations, l'entrepôt de données (DWH) est l'agrégation et la réorganisation préparatoires des vastes données sous-jacentes, qui résident souvent à plusieurs endroits. Comprendre le rôle du DWH au sein de l'écosystème plus large de la science des données, de l'exploration de données et de l'intelligence d'affaires est essentiel pour le gestionnaire moderne.

Qu'est-ce qu'un entrepôt de données ?

Le DWH est un référentiel centralisé d'informations numériques, agrégées à partir d'une variété de sources disparates, et organisées dans une structure optimisée pour le reporting. Plus important encore, le DWH fournit des informations exploitables à l'ensemble de l'entreprise, permettant aux employés d'effectuer des analyses personnalisées et de prendre de meilleures décisions.

Concepts essentiels d'entrepôt de données

Le modèle relationnel versus dimensionnel

Pour apprécier la fonctionnalité d'un entrepôt de données, il est important de comprendre la différence entre un modèle relationnel et dimensionnel. Bien qu'ils aient un son technique, ils sont faciles à distinguer.

D'un point de vue pratique, les bases de données relationnelles et dimensionnelles diffèrent sur un critère critique : le flux d'informations. Alors que les bases de données relationnelles sont optimisées pour l'entrée de données, les bases de données dimensionnelles sont conçues pour la sortie, notamment sous la forme de rapports et d'analyses appelées business intelligence.

Le modèle relationnel organise les informations autour d'un seul point d'information, par exemple un nom de client. Dans un tel modèle, le nom du client existe dans un emplacement, avec toutes les informations associées - telles que les coordonnées et les dates de transaction - répertoriées dans des tables associées ou liées.

En revanche, la base de données dimensionnelle « déballe » essentiellement la base de données relationnelle, permettant aux utilisateurs de « trancher et découper » facilement les données dans la permutation requise pour répondre à leurs besoins en matière de rapports. Par exemple, dans l'entrée de base de données relationnelle ci-dessus, les coordonnées du client seraient réparties en champs discrets, tels que le numéro de téléphone, l'adresse, la ville, l'état et le code postal.

La base de données dimensionnelle « déballe » essentiellement la base de données relationnelle, permettant aux utilisateurs de facilement « trancher et découper » les données

La distinction entre la base de données relationnelle et dimensionnelle peut sembler abstraite. Cependant, pour ceux qui sont chargés de fournir des analyses et des rapports de plus en plus complexes, apprécier la distinction fournit une compréhension fondamentale précieuse pour travailler avec les équipes techniques qui maintiennent ces ressources.

L'entrepôt de données - "C'est parti"

Comme l'a détaillé Bill Inmon, l'un des créateurs de l'entrepôt de données, quelques caractéristiques spécifiques régissent la conception de l'entrepôt de données. Selon Inmon, l'entrepôt de données est une collection de données orientée sujet, non volatile, intégrée et variant dans le temps à l'appui des décisions de la direction.

C'est une bouchée, mais une fois décomposée en parties, cette définition brosse un tableau clair de la structure de base de DWH. Pour faciliter la mémorisation de ces critères, nous avons réorganisé les critères d'Inmon selon l'anagramme "It's On"

Intégré : les données doivent avoir des formats cohérents. Souvent tirés de différentes sources, les champs de données doivent avoir des conventions de dénomination cohérentes.

Variante temporelle : Le DWH révèle des tendances qui dépendent de l'évolution dans le temps. L'enregistrement des points de données au fil du temps est fondamental pour révéler les relations entre les données.

Orienté sujet : le DWH permet une analyse et des rapports axés sur le sujet. Par exemple, une entreprise peut souhaiter évaluer les ventes d'un produit au fil du temps, puis explorer les tendances spécifiques à une région ou à un segment de clientèle.

Non volatile : une fois que les données entrent dans l'entrepôt, elles ne changent pas.

Le Data Warehouse se distingue de la base de données transactionnelle

Les systèmes DWH et de base de données transactionnelle remplissent des fonctions fondamentalement différentes et servent différents utilisateurs. Alors que le DWH est optimisé pour le reporting et l'analyse, les systèmes de transaction - souvent appelés traitement des transactions en ligne (OLTP) - sont optimisés pour la disponibilité et la vitesse de traitement.

Les utilisateurs OLTP sont généralement des employés frontaux et accèdent généralement à plusieurs enregistrements à la fois. Les utilisateurs de DWH sont souvent des analystes et des gestionnaires, dont les rapports peuvent appeler simultanément jusqu'à plusieurs millions d'enregistrements.

Le système de transaction et le DWH diffèrent également par la granularité et la permanence des données. Dans l'OLTP, les données contiennent des valeurs actuelles, détaillées et très variables (toutes les quelques secondes, des milliers de transactions modifient les valeurs de ces enregistrements). En revanche, le DWH contient des données restructurées qui ne peuvent pas être modifiées une fois chargées.

Le processus de prêt à la consommation illustre succinctement les principales différences entre ces systèmes. Lorsqu'un client obtient un prêt automobile, par exemple, la base de données transactionnelle capture des détails tels que le type de voiture, la couleur, l'année d'achat, le prix d'achat et les détails personnels de l'acheteur. Une fois converties dans le modèle DWH, les informations transactionnelles (autour de la transaction client unique) sont désagrégées en composants. Ces parties, à leur tour, sont regroupées avec des parties comparables d'autres transactions.

En interrogeant le DWH, un employé du prêteur peut accéder à des rapports composés de données client agrégées. Par exemple, en essayant d'optimiser les dépenses publicitaires, un responsable marketing peut rechercher des voitures d'un type ou d'une gamme de prix donnés avec le taux d'approbation de prêt le plus élevé, ou l'âge moyen et le niveau de revenu des demandeurs de prêt au fil du temps. Ces informations pourraient rediriger les dépenses publicitaires vers des canaux plus pertinents avec des messages plus ciblés.

L'entrepôt de données contre le datamart et le lac de données

Le DWH peut être accompagné de bases de données connexes - le magasin de données et le lac de données - dont les noms descriptifs suggèrent des fonctions distinctes. Sous-ensemble du DWH, le magasin de données dessert un groupe spécifique d'utilisateurs, par exemple une division ou une unité commerciale spécifique. Alors que le DWH contient plusieurs sujets pertinents pour plusieurs départements - tels que les ventes, les clients, les produits, les stocks, les fournisseurs - un data mart contient généralement un domaine pour un département, comme les ventes ou les finances.

Il existe deux types de magasins de données - dépendants et indépendants - et chacun présente des avantages uniques. Le magasin de données dépendant puise dans le DWH et présente l'avantage de la cohérence. Étant donné que toutes les données sont centralisées et cohérentes au sein du DWH, les magasins de données qui en résultent sont également cohérents. Bien que plus robustes, les datamarts dépendants nécessitent un DWH, et sont donc plus coûteux à développer.

Les magasins de données indépendants, quant à eux, extraient les données directement des mêmes bases de données source, un peu comme un mini DWH. Bien que plus rapides et moins coûteux à développer, les magasins de données indépendants comportent un risque accru, car les définitions de données peuvent devenir incohérentes entre les magasins de données développés indépendamment. Cependant, s'ils sont développés avec discipline, les magasins de données indépendants peuvent finalement être assemblés en un DWH.

Les lacs de données sont généralement configurés sur un cluster de matériel de base peu coûteux et évolutif. Cela permet aux données d'être déversées dans le lac sans avoir à se soucier de la capacité de stockage. Alors que le DWH est généralement limité au texte et aux données numériques, le lac peut également contenir une plus grande variété, y compris les médias sociaux, les données des capteurs et les images.

Entrepôt de données et exploration de données

Le DWH permet l'exploration de données, ce qui donne aux entreprises le pouvoir de prédire l'avenir. L'objectif principal de l'exploration de données est de révéler des modèles dans de grands ensembles de données. De tels modèles, à leur tour, révèlent des relations entre différentes catégories de données et leurs fonctions commerciales sous-jacentes.

De telles relations fournissent aux responsables des informations exploitables, essentiellement de nouveaux leviers à tirer pour générer les résultats commerciaux souhaités tels que la croissance de la clientèle ou l'augmentation des ventes par client. Par exemple, l'examen des données de ventes historiques par segment géographique ou industriel peut mettre en évidence une croissance anormale, dont la source peut fournir aux responsables des ventes des enseignements à appliquer à d'autres segments.