Top 30 des questions et réponses d'entretien d'entrepôt de données en 2022 [Pour les débutants et les expérimentés]

Publié: 2021-01-06

Les questions d'entretien d'entrepôt de données répertoriées dans cet article seront utiles pour ceux qui sont dans la carrière de l'entrepôt de données et de l'intelligence d'affaires. Avec l'avènement de l'apprentissage automatique, un grand volume de données doit être analysé pour obtenir des informations et mettre en œuvre les résultats plus rapidement. L'époque où les étapes de traitement des données étaient le stockage, l'assimilation, la récupération et le traitement des données est révolue. Mais à mesure que le volume de données augmente, ces données doivent être traitées et afficher des résultats instantanés.

Toutes les entreprises telles que la santé, la BFSI, les services publics et de nombreuses organisations gouvernementales se tournent vers l'entrepôt de données en science des données. En conséquence, davantage de professionnels ayant une expertise dans l'entrepôt de données sont embauchés afin qu'ils puissent analyser les gros volumes de données et fournir des informations pertinentes. Ainsi, les questions d'entretien de l'entrepôt de données deviennent pertinentes pour casser facilement les entretiens et acquérir des connaissances importantes.

Si vous êtes passionné par la gestion de données volumineuses et la gestion de bases de données, un entrepôt de données est une excellente option de carrière pour vous. Dans cet article, vous obtiendrez les questions d'entretien de l'entrepôt de données qui peuvent vous aider à préparer votre prochain entretien. Les questions vont du niveau de base au niveau expert, de sorte que les professionnels les plus novices et les plus expérimentés bénéficieront de ces questions d'entretien sur l'entrepôt de données .

Table des matières

Questions d'entretien d'entrepôt de données

Q1 : Qu'est-ce que l'analyse de données en termes d'entrepôt de données ?

L'analyse de données est la science qui vérifie les données brutes pour tirer des conclusions commerciales des données. L'entrepôt de données permet l'analyse des données.

Q2 : Définir un entrepôt de données orienté sujet ?

Les entrepôts de données orientés sujet stockent des données autour d'un point spécifique comme les ventes, le client et le produit.

Q3 : Que signifie OLAP et quels sont ses types ?

OLAP est un système qui traite, gère et collecte des données multidimensionnelles pour la gestion. Il signifie traitement analytique en ligne.

Il existe quatre types de serveurs OLAP indiqués ci-dessous :

OLAP hybride
OLAP relationnel
Serveurs SQL spécialisés
OLAP multidimensionnel

Q4 : Quelle est la différence entre OLAP et OLTP ?

OLAP est un outil logiciel utilisé pour l'analyse de données qui aide à prendre des décisions commerciales, tandis que OLTP est une application orientée transaction utilisée dans une architecture à trois niveaux. Voici quelques-unes des différences entre OLAP et OLTP :

OLAP (traitement analytique en ligne)	OLTP (traitement des transactions en ligne)
Il contient les données historiques collectées à partir de différentes bases de données.	Il contient des données opérationnelles.
Il est utilisé dans l'analyse de données, l'exploration de données et la prise de décision.	Il est orienté application et est utilisé pour diverses tâches liées à l'entreprise.
Il stocke une énorme quantité de données et est en TB.	Il stocke une petite quantité de données et est stocké en Mo, Go, etc.
Cela fonctionne lentement car la taille des données est importante.	Il fonctionne très rapidement et les requêtes portent sur 5 % des données stockées.
Il a besoin de la sauvegarde des données de temps en temps seulement.	La sauvegarde et la restauration des données se produisent régulièrement.
Il est principalement utilisé pour une opération de lecture avec une opération d'écriture se produisant rarement.	Il est utilisé pour les opérations de lecture et d'écriture.

Q5 : Quelles fonctions OLAP exécute-t-il ?

Quelques-unes des principales fonctions exécutées par OLAP sont Pivot, Drill-down, Roll-up, Slice et Dice.

Q6 : Qu'est-ce que le diagramme ER ?

Le diagramme ER signifie diagramme entité-relation qui montre les interrelations entre les entités de la base de données.

Q7 : Qu'est-ce que le SCD ?

SCD signifie dimensions à évolution lente et s'applique aux cas où les enregistrements changent avec le temps.

Q8 : Définissez les types de SCD.

Il existe 3 types de SCD comme indiqué ci-dessous:

SCD 1 : Le nouvel enregistrement remplace l'enregistrement d'origine.

SCD 2 : le nouvel enregistrement est ajouté à la table client existante

SCD 3 : Les données d'origine sont modifiées pour entrer de nouvelles données.

Q9 : Qu'est-ce qu'un schéma en flocon ?

Snowflake Schema est un schéma ayant une table de dimension principale. Une ou plusieurs dimensions peuvent être jointes dans la table de dimension principale. C'est la seule table qui peut se joindre à la table de faits.

Q 10 : Définir le schéma en étoile.

Le schéma en étoile fait référence à la gestion de la table de manière à ce que les résultats puissent être facilement récupérés dans l'environnement de l'entrepôt de données.

Q11 : Définir le schéma BUS.

Le schéma BUS comprend la suite de définitions normalisées et de dimensions confirmées si une table de faits est présente.

Q 12 : Définir les métadonnées.

Il fait référence à des données sur les données. Les métadonnées comprennent des détails tels que l'ordre des champs, plusieurs colonnes utilisées, les types de données des champs, une largeur limitée et une largeur fixe.

Q13 : Définissez la dimension centrale.

Core Dimension est une table de dimensions principalement utilisée pour un magasin de données ou une table de faits unique.

Q14 : Définissez les boucles dans l'entrepôt de données.

Ces boucles existent entre les tables de l'entrepôt de données. S'il y a des boucles entre les tables, la génération de la requête prend plus de temps et crée une énigme. Il est donc toujours recommandé d'éviter toute boucle entre les tables.

Q15 : Expliquez XMLA.

XMLA est appelé XML for Analysis, qui offre la méthode standard pour accéder aux données d'OLAP, de l'exploration de données et d'autres sources de données disponibles sur Internet. Il s'agit d'un protocole d'accès à un objet simple qui utilise les méthodes de découverte et d'exécution. La méthode de découverte récupère les données sur Internet et la méthode d'exécution est utilisée pour exécuter des applications sur différentes sources de données.

Lire : Questions d'entrevue en science des données

Q16 : Expliquez les différences entre la base de données et l'entrepôt de données.

Une base de données est différente de l'entrepôt de données car la base de données utilise le modèle relationnel pour le stockage des données. En revanche, l'entrepôt de données utilise d'autres schémas et le schéma de démarrage en fait partie. Voici quelques-unes des différences entre une base de données et un entrepôt de données :

Caractéristique	Base de données	Entrepôt de données
Type de données	Données relationnelles ou données orientées objet	Données volumineuses
Opérations	Transaction en cours	Modélisation et analyse des données
Dimensions	Données bidimensionnelles	Données multidimensionnelles
Conception de données	basé sur ER	Schéma étoile et flocon de neige
Taille des données	Petit	Grande
Fonctionnalité	Haute performance et disponibilité	Grande flexibilité

Q17 : Définissez le cube dans l'entrepôt de données.

Les cubes dans un entrepôt de données sont la représentation de données multidimensionnelles. Le corps du cube est constitué de valeurs de données et le bord du cube contient des membres de dimension.

Q18. Expliquer les types d'un entrepôt de données ?

L'entrepôt de données est des 3 types suivants :

Entrepôt de données d'entreprise : dans l'entrepôt de données d'entreprise, les données organisationnelles de divers domaines fonctionnels sont fusionnées de manière centralisée. Cela facilite l'extraction et la transformation des données, ce qui fournit une vue d'ensemble détaillée de tout objet dans le modèle de données.
Magasin de données opérationnelles : cet entrepôt de données permet d'accéder aux données directement à partir de la base de données et prend également en charge le traitement des transactions. Il intègre des données de contraste provenant de différentes sources, ce qui prend en charge diverses opérations commerciales ultérieurement.
Data Mart : cet entrepôt de données stocke les données d'un domaine fonctionnel spécifique. En outre, il contient les données sous forme de sous-ensembles, qui sont ensuite stockés dans l'entrepôt de données. Il réduit le grand volume de données pour que les utilisateurs puissent les analyser efficacement et obtenir des informations.

Q19 : Entre OLAP multidimensionnel et OLAP relationnel, lequel fonctionne le plus rapidement ?

L'OLAP multidimensionnel fonctionne plus rapidement que l'OLAP relationnel.

OLAP multidimensionnel : Dans MOLAP, les données sont stockées dans le cube multidimensionnel. Le stockage des données s'effectue dans des formats propriétaires tels que le fichier PowerOLAP.olp. Ces produits sont compatibles avec Excel et facilitent les interactions avec les données.
Relational OLAP : Dans les produits Relational OLAP, la base de données relationnelle est accessible avec SQL, qui est un langage standard utilisé pour manipuler les données dans RDBMS. Lors de l'exécution du traitement, il accepte les demandes du client, qui sont ensuite traduites en requêtes SQL, puis transmises au SGBDR.

Q20 : Expliquez les différences entre le clustering hiérarchique diviseur et le clustering agglomératif.

Dans la méthode de clustering hiérarchique agglomératif, les clusters sont lus de bas en haut, ce qui signifie que le programme lit d'abord le sous-composant puis le parent. D'autre part, le clustering hiérarchique diviseur utilise l'approche de haut en bas dans laquelle les données au niveau parent sont lues en premier, puis au niveau enfant.

Dans la méthode hiérarchique agglomérative, les objets sont présents, et chaque objet construit son cluster, et tous ces clusters forment ensemble un grand cluster. Cette méthode consiste principalement en une fusion continue qui se produit jusqu'à ce qu'un seul grand cluster soit créé, tandis que dans la méthode de clustering avec division, la division des clusters se produit. Le cluster parent est divisé en clusters plus petits. Cette division des clusters se poursuit jusqu'à ce que chaque cluster se compose d'un seul objet.

En savoir plus : Data Science Vs Data Mining : Différence entre Data Science et Data Mining

Q21 : Qu'est-ce que la méthode caméléon dans un entrepôt de données ?

Chameleon est la méthode de clustering hiérarchique dans l'entrepôt de données. Cette méthode fonctionne sur le graphe creux composé de nœuds et d'arêtes. Ces nœuds représentent les éléments de données et les arêtes représentent les poids. Avec cette représentation, les ensembles de données peuvent être créés et accessibles facilement en surmontant les lacunes des méthodes existantes. La méthode fonctionne en deux phases :

Dans la première phase, le graphique est partitionné dans le cadre duquel les éléments de données sont divisés en plusieurs sous-groupes.
Dans la deuxième phase, les clusters authentiques sont recherchés et peuvent ensuite être combinés avec d'autres sous-clusters créés dans la première phase.

Q22 : Qu'est-ce que le plan d'exécution et quelle approche l'optimiseur utilise-t-il pendant le plan d'exécution ?

Le plan d'exécution est le plan utilisé par l'optimiseur pour choisir la combinaison d'étapes pour l'exécution des requêtes SQL. L'optimiseur sélectionne la combinaison d'étapes la plus efficace pour exécuter les requêtes SQL. L'optimiseur utilise les deux approches dans le plan d'exécution, c'est-à-dire basée sur les règles et basée sur les coûts.

Q23 : Quels sont les différents outils utilisés dans ETL (extraction, transformation et chargement) ?

Ci-dessous la liste des outils ETL :

Informatique
Oracle
Étape de données
Jonction de données
Ab Initio
Constructeur d'entrepôt

Q24 : En quoi les dictionnaires de métadonnées et de données sont-ils différents ?

Les métadonnées décrivent les données. Il contient toutes les informations sur les données telles que la source des données, qui a collecté les données et le format des données. Il est crucial de comprendre les informations sur les données stockées dans les entrepôts de données. D'autre part, un dictionnaire de données est la définition de base de la base de données. Le dictionnaire de données comprend les fichiers présents dans la base de données, le nombre d'enregistrements présents dans chaque fichier et toutes les informations sur les champs de la base de données.

Q25 : Définir l'entrepôt de données virtuel.

Un entrepôt de données virtuel offre une vue collective des données complètes. C'est comme le modèle de données logique des métadonnées, et il n'a pas de données historiques. Un entrepôt de données virtuel est le meilleur moyen de traduire des données brutes et de les présenter sous une forme telle qu'elles soient utilisées par les décideurs. Les données sont représentées sous la forme d'une carte sémantique qui permet aux utilisateurs finaux de visualiser les données sous une forme virtualisée.

Lisez aussi: Questions et réponses de l'entrevue d'analyste de données

Q26 : Quelles approches sont utilisées pour concevoir l'entrepôt de données ?

Il existe principalement deux approches utilisées pour la conception de l'entrepôt de données :

Approche Inmon : Il s'agit de l'approche descendante dans laquelle l'entrepôt de données est d'abord créé, puis les magasins de données sont construits. Dans cette approche, l'entrepôt de données agit comme le centre de la Corporate Information Factory, et l'entrepôt de données agit comme un cadre logique.
Approche Kimball : il s'agit de l'approche ascendante dans laquelle le magasin de données est créé en premier. Le magasin de données s'intègre ensuite pour former l'entrepôt de données complet. L'intégration de différents magasins de données s'appelle l'architecture de bus d'entrepôt de données.

Q27 : Qu'est-ce qu'un entrepôt de données en temps réel et quels sont ses avantages ?

Un entrepôt de données en temps réel est le concept d'entrepôt de données qui capture les données en temps réel dès qu'elles se produisent et les rend disponibles dans l'entrepôt de données.

Avantages d'un entrepôt de données en temps réel :

Il aide à la prise de décision facile.
Il supprime la fenêtre de lot.
Il résout le problème lié à la charge de données idéale.
Il offre une manière optimisée d'exécuter les transformations dans la base de données.
Il offre une récupération rapide des données.

Q28 : Expliquez l'architecture à 3 couches du cycle ETL.

Le cycle ETL se compose de moins de 3 couches :

Couche intermédiaire : cette couche stocke les données extraites de plusieurs structures de données.
Couche d'intégration de données : les données de la couche intermédiaire sont transférées dans la base de données à l'aide de la couche d'intégration. Ces données sont ensuite organisées en groupes hiérarchiques, également appelés dimensions, agrégats et faits. Les dimensions et les faits forment ensemble le schéma.
Couche d'accès : les utilisateurs finaux accèdent aux données via la couche d'accès et effectuent l'analyse des données.

Q29 : Qu'est-ce que la purge des données ?

La purge des données est la méthode de suppression permanente des données du stockage de données. Elle est différente de la suppression des données car la suppression des données ne supprime les données que temporairement tandis que la purge des données supprime les données de manière permanente, et l'espace libre est utilisé à d'autres fins. La purge des données utilise différentes méthodes. Les données purgées peuvent être archivées si nécessaire.

Q30 : Définir les phases de test dans un projet.

Le test ETL se compose de cinq étapes comme mentionné ci-dessous :

Identification des exigences et des sources de données
L'acquisition des données
Implémentation de la logique métier
Construction et publication de données
Rapports

Consultez également: Data Science vs Big Data: Différence entre Data Science et Big Data

Résumé

Ce sont les questions d'entretien les plus fréquemment posées sur l'entrepôt de données qui vous aideront sûrement dans la préparation de votre prochain entretien. Si vous souhaitez en savoir plus sur l'entrepôt de données, vous pouvez visiter upGrad et acquérir des connaissances plus approfondies. Vous pouvez trouver des informations pertinentes qui vous aideront à comprendre correctement les questions d'entretien de l'entrepôt de données .

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Comment démarrer une carrière dans l'entreposage de données?

L'entreposage de données s'est avéré être un poste en demande en raison de la collecte et de l'utilisation croissantes de données pour chaque organisation. Chaque organisation recherche des professionnels capables de gérer les données et de les convertir en informations exploitables pour obtenir des informations à partir des données.

Certaines des compétences nécessaires pour entrer dans l'entreposage de données sont :

1. Excellentes compétences en recherche, en résolution de problèmes et en analyse.
2. Un baccalauréat en informatique ou tout autre domaine connexe comme l'informatique.
3. Bonne connaissance de la théorie des bases de données relationnelles
4. Expérience de travail avec des systèmes de bases de données pendant 3 à 5 ans
5. Expérience de travail avec la modélisation et l'architecture des données
6. Maîtrise de la communication verbale et écrite.
7. Bon à l'écoute pour comprendre les informations fournies par les membres techniques et non techniques

Ce sont quelques-unes des compétences dont on a besoin pour commencer à travailler pour construire leur carrière dans le domaine de l'entreposage de données.

Comment démarrer une carrière dans l'entreposage de données?

Il y a certaines exigences à remplir pour bâtir sa carrière dans le domaine de l'entreposage de données.

1. Tout d'abord, toute personne doit posséder un baccalauréat en informatique ou dans des domaines connexes.
2. Une expérience d'au moins 2 ans dans le codage et l'administration de serveurs SQL est importante.
3. Compréhension de l'intégration de serveur et travail avec les outils ETL
4. Bonne connaissance des techniques d'entreposage de données et de modélisation des données
5. Compétences de base en MS Office

Suivre un cours peut rendre l'ensemble du processus assez simple pour vous. Il existe de nombreux programmes de formation proposés par différentes universités et plates-formes pour la gestion et l'administration de bases de données. Plus tard, vous pourrez occuper un emploi d'entrée de gamme pour acquérir de l'expérience et comprendre les tenants et les aboutissants du domaine.

Quelles sont les différentes étapes de l'entreposage de données dans une entreprise ?

En fonction de la taille, de l'âge et de l'industrie de l'entreprise, les étapes de l'entreposage de données seront parmi les quatre mentionnées ci-dessous.

1. Base de données hors ligne
2. Entrepôt de données hors ligne
3. Entrepôt de données en temps réel
4. Entrepôt de données intégré

Chaque entreprise commence par la 1ère étape et essaie d'atteindre la 4ème étape pour tout intégrer dans les systèmes d'entreprise. Le bon fonctionnement des entrepôts de données peut permettre au responsable de l'entrepôt de données d'analyser plus facilement les données et de générer des informations exploitables à partir de celles-ci.