20 questions d'entretien sur l'exploration de données

Publié: 2020-02-10

Cela signifie qu'il y aura beaucoup de travail dans l'IA et le ML, et puisque le Data Mining fait partie intégrante des deux, vous devez construire une base solide dans le Data Mining. L'exploration de données fait référence à la technique utilisée pour convertir des données brutes en informations significatives pouvant être utilisées par les entreprises et les organisations. Certains des aspects fondamentaux de l'exploration de données incluent la gestion des données et des bases de données, le prétraitement des données, la validation des données, la mise à jour en ligne et la découverte de modèles précieux cachés dans des ensembles de données complexes. Essentiellement, l'exploration de données se concentre sur l'analyse automatique de gros volumes de données pour en extraire les tendances et les informations cachées. C'est précisément pourquoi vous devez être prêt à répondre à toute question d'exploration de données que l'intervieweur vous pose si vous souhaitez décrocher l'emploi de vos rêves en IA/ML.

Apprenez le cours de certification en science des données des meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Dans cet article, nous avons compilé une liste des questions les plus fréquemment posées lors des entretiens de Data Mining. Il couvre tous les niveaux de questions et de concepts d'entretien d'exploration de données (niveaux de base et avancés) que tout aspirant à l'IA/ML doit connaître.

Alors, sans plus tarder, allons-y !

Nommez les différentes techniques de Data Mining et expliquez le périmètre du Data Mining.

Les différentes techniques de Data Mining sont :

Prédiction - Il découvre la relation entre les instances indépendantes et dépendantes. Par exemple, lors de l'examen des données de vente, si vous souhaitez prédire le profit futur, la vente agit comme une instance indépendante, tandis que le profit est l'instance dépendante. En conséquence, sur la base des données historiques de ventes et de bénéfices, le bénéfice associé est la valeur prédite.
Arbres de décision - La racine d'un arbre de décision fonctionne comme une condition/question ayant plusieurs réponses. Chaque réponse mène à des données spécifiques qui aident à déterminer la décision finale basée sur les données.
Modèles séquentiels - Il fait référence à l'analyse des modèles utilisée pour découvrir des modèles identiques dans les données de transaction ou les événements réguliers. Par exemple, les données historiques des clients aident une marque à identifier les tendances dans les transactions qui se sont produites au cours de l'année écoulée.
Analyse de clustering - Dans cette technique, un cluster d'objets ayant des caractéristiques similaires est automatiquement formé. La méthode de clustering définit les classes, puis place les objets appropriés dans chaque classe.
Analyse de classification - Dans cette méthode basée sur ML, chaque élément d'un ensemble particulier est classé en groupes prédéfinis. Il utilise des techniques avancées comme la programmation linéaire, les réseaux de neurones, les arbres de décision, etc.
Apprentissage des règles d'association - Cette méthode crée un modèle basé sur la relation des éléments dans une seule transaction.

La portée du Data Mining est de :

Prédire les tendances et les comportements - L'exploration de données automatise le processus d'identification des informations prédictives dans de grands ensembles de données/bases de données.
Découvrez des modèles jusque-là inconnus – Les outils d'exploration de données parcourent et explorent une gamme large et diversifiée de bases de données pour identifier les tendances jusque-là cachées. Ce n'est rien d'autre qu'un processus de découverte de modèles.

Quels sont les types de Data Mining ?

L'exploration de données peut être classée dans les types suivants :

L'intégration
Sélection
Nettoyage des données
Évaluation de modèle
Transformation des données
Représentation des connaissances

Qu'est-ce que la purge des données ?

La purge des données est une procédure cruciale dans les systèmes de gestion de bases de données. Il aide à maintenir les données pertinentes dans une base de données. Il fait référence au processus de nettoyage des données indésirables en éliminant ou en supprimant les valeurs NULL inutiles des lignes et des colonnes. Chaque fois que vous avez besoin de charger de nouvelles données dans la base de données, il est d'abord essentiel de purger les données non pertinentes.

Avec une purge fréquente des données de la base de données, vous pouvez vous débarrasser des données indésirables qui occupent une quantité importante de mémoire de la base de données, ralentissant ainsi les performances de la base de données.

Quelle est la différence fondamentale entre le Data Warehousing et le Data Mining ?

L'entreposage de données est la technique utilisée pour extraire des données de sources disparates. Il est ensuite nettoyé et stocké pour une utilisation future. D'autre part, l'exploration de données est le processus d'exploration des données extraites à l'aide de requêtes, puis d'analyse des résultats ou des résultats. Il est essentiel dans les rapports, la planification stratégique et la visualisation des précieuses informations contenues dans les données.

Expliquer les différentes étapes du Data Mining.

Il y a trois étapes principales dans le Data Mining :

Exploration - Cette étape est principalement axée sur la collecte de données à partir de plusieurs sources et sur leur préparation pour d'autres activités telles que le nettoyage et la transformation. Une fois les données nettoyées et transformées, elles peuvent être analysées pour obtenir des informations.

Construction et validation du modèle - Cette étape consiste à valider les données en leur appliquant différents modèles et à comparer les résultats pour obtenir les meilleures performances. Cette étape est également appelée identification de modèle. C'est un processus qui prend du temps puisque l'utilisateur doit identifier manuellement quel modèle est le mieux adapté pour des prédictions faciles.

Déploiement - Une fois que le modèle de prédiction le mieux adapté est identifié, il est appliqué à l'ensemble de données pour obtenir des prédictions ou des résultats estimés.

A quoi servent les requêtes de Data Mining ?

Les requêtes d'exploration de données facilitent l'application du modèle aux nouvelles données, que ce soit pour obtenir des résultats uniques ou multiples. Les requêtes peuvent récupérer plus efficacement les cas qui correspondent à un modèle particulier. Ils extraient la mémoire statistique des données d'apprentissage et aident à obtenir le modèle exact ainsi que la règle du cas typique qui représente un modèle dans le modèle. De plus, les requêtes peuvent extraire des formules de régression et d'autres calculs pour expliquer les modèles. Ils peuvent également récupérer les détails des cas individuels utilisés dans un modèle.

Que sont les données « discrètes » et « continues » dans le Data Mining ?

Dans le Data Mining, les données discrètes sont les données qui sont finies et auxquelles une signification est attachée. Le genre est un exemple classique de données discrètes. Les données continues, en revanche, sont les données qui continuent de changer de manière bien structurée. L'âge est un exemple parfait de données continues.

Qu'est-ce qu'OLAP ? Quelle est la différence avec OLTP ?

OLAP (Online Analytical Processing) est une technologie utilisée dans de nombreuses applications de Business Intelligence qui impliquent des calculs analytiques complexes. Outre les calculs complexes, OLAP est utilisé pour l'analyse des tendances et la modélisation avancée des données. L'objectif principal de l'utilisation des systèmes OLAP est de minimiser le temps de réponse aux requêtes tout en augmentant simultanément l'efficacité des rapports. La base de données OLAP stocke des données historiques agrégées dans un schéma multidimensionnel. Étant une base de données multidimensionnelle, OLAP permet à un utilisateur de comprendre comment les données proviennent de différentes sources.

OLTP signifie Transaction et traitement en ligne. Il est intrinsèquement différent d'OLAP car il est utilisé dans des applications qui impliquent des transactions en masse et de gros volumes de données. Ces applications se trouvent principalement dans le secteur BFSI. L'architecture OLTP est une architecture client-serveur qui peut prendre en charge les transactions inter-réseaux.

Nommez les différents modèles de stockage disponibles dans OLAP ?

Les différents modèles de stockage disponibles dans OLAP sont :

MOLAP (traitement analytique en ligne multidimensionnel) - Il s'agit d'un type de stockage de données dans lequel les données sont stockées dans des cubes multidimensionnels au lieu de bases de données relationnelles standard. C'est cette fonctionnalité qui rend les performances de requête excellentes.
ROLAP (Relational Online Analytical Processing) - Dans ce stockage de données, les données sont stockées dans des bases de données relationnelles et, par conséquent, elles sont capables de gérer un vaste volume de données.
HOLAP (Hybrid Online Analytical Processing) - Il s'agit d'une combinaison de MOLAP et ROLAP. HOLAP utilise le modèle MOLAP pour extraire des informations résumées du cube, tandis que pour les capacités d'exploration, il utilise le modèle ROLAP.

Qu'est-ce que "Cube ?"

En Data Mining, le terme « cube » fait référence à un espace de stockage de données où les données sont stockées. Le stockage des données dans un cube permet d'accélérer le processus d'analyse des données. Essentiellement, les cubes sont la représentation logique de données multidimensionnelles. Alors que le bord du cube contient les membres de dimension, le corps du cube contient les valeurs de données.

Supposons qu'une entreprise stocke ses données d'employés (enregistrements) dans un cube. Lorsqu'il souhaite évaluer la performance des employés sur une base hebdomadaire ou mensuelle, alors la semaine/mois devient la dimension du cube.

Qu'est-ce que l'agrégation et la généralisation des données ?

L'agrégation de données est le processus dans lequel les données sont combinées ou agrégées pour créer un cube pour l'analyse des données. La généralisation est le processus de remplacement des données de bas niveau par des concepts de haut niveau afin que les données puissent être généralisées et produire des informations significatives.

Expliquer les algorithmes de l'arbre de décision et des séries chronologiques.

Dans l'algorithme de l'arbre de décision, chaque nœud est soit un nœud feuille, soit un nœud de décision. Chaque fois que vous entrez un objet dans l'algorithme, il produit une décision. Un arbre de décision est créé en utilisant les régularités des données. Tous les chemins reliant le nœud racine au nœud feuille sont atteints soit en utilisant 'AND' ou 'OR' ou 'BOTH.' Il est important de noter que l'arbre de décision n'est pas affecté par la préparation automatique des données.

L'algorithme Time-Series est utilisé pour les types de données dont les valeurs changent continuellement en fonction du temps (par exemple, l'âge d'une personne). Lorsque vous avez formé l'algorithme et l'avez réglé pour prédire l'ensemble de données, il peut suivre avec succès les données continues et faire des prédictions précises. L'algorithme Time-Series crée un modèle spécifique qui peut prédire les tendances futures des données en fonction de l'ensemble de données d'origine.

Qu'est-ce que le regroupement ?

En Data Mining, le clustering est le processus utilisé pour regrouper des objets abstraits en classes contenant des objets similaires. Ici, un cluster d'objets de données est traité comme un groupe. Ainsi, au cours du processus d'analyse, la partition des données se produit en groupes qui sont ensuite étiquetés en fonction de données identiques. L'analyse de cluster est essentielle à l'exploration de données car elle est hautement évolutive et dimensionnelle, et elle peut également traiter différents attributs, interprétabilité et données désordonnées.

Le regroupement de données est utilisé dans plusieurs applications, notamment le traitement d'images, la reconnaissance de formes, la détection de fraudes et les études de marché.

Quels sont les problèmes courants rencontrés lors de l'exploration de données ?

Au cours du processus d'exploration de données, vous pouvez rencontrer les problèmes suivants :

Gestion des incertitudes
Traiter les valeurs manquantes
Traiter les données bruyantes
Efficacité des algorithmes
Intégrer les connaissances du domaine
Taille et complexité des données
Sélection des données
Incohérence entre les données et les connaissances découvertes.

Spécifiez la syntaxe pour - Spécification des mesures d'intérêt, Spécification de la présentation et de la visualisation des modèles et Spécification des données pertinentes pour la tâche.

La syntaxe de la spécification des mesures d'intérêt est :

avec <interest_measure_name> seuil = valeur_seuil

La syntaxe de la spécification de présentation et de visualisation de modèle est la suivante :

afficher en tant que <result_form>

La syntaxe de la spécification des données pertinentes pour la tâche est la suivante :

utiliser la base de données nom_base de données

utiliser l'entrepôt de données data_warehouse_name

en rapport avec att_or_dim_list

à partir de relation(s)/cube(s) [condition où] trier par liste_commande

grouper par grouping_list

Nommez les différents niveaux d'analyse dans le Data Mining ?

Les différents niveaux d'analyse en Data Mining sont :

Induction de règles
Visualisation de données
Algorithmes génétiques
Réseau neuronal artificiel
Méthode du plus proche voisin

Qu'est-ce que STING ?

STING signifie grille d'information statistique. Il s'agit d'une méthode de regroupement multi-résolution basée sur une grille dans laquelle tous les objets sont contenus dans des cellules rectangulaires. Alors que les cellules sont conservées à différents niveaux de résolution, ces niveaux sont en outre disposés dans une structure hiérarchique.

Qu'est-ce qu'ETL ? Nommez quelques-uns des meilleurs outils ETL.

ETL signifie Extraire, Transformer et Charger. C'est un logiciel qui peut lire les données de la source de données spécifiée et extraire un sous-ensemble de données souhaité. Après cela, il transforme les données à l'aide de règles et de tables de recherche et les convertit au format souhaité. Enfin, il utilise la fonction load pour charger les données résultantes dans la base de données cible.

Les meilleurs outils ETL sont :

Oracle
Ab Initio
Étape de données
Informatique
Jonction de données
Constructeur d'entrepôt

Qu'est-ce que les métadonnées ?

En termes simples, les métadonnées sont les données résumées qui mènent à l'ensemble de données plus large. Les métadonnées contiennent des informations importantes telles que le nombre de colonnes utilisées, l'ordre des champs, les types de données des champs, la largeur fixe et la largeur limitée, etc.

Quels sont les avantages du Data Mining ?

L'exploration de données présente quatre avantages principaux :

Cela aide à donner un sens aux données brutes et à explorer, identifier et comprendre les modèles cachés dans les données.
Il aide à automatiser le processus de recherche d'informations prédictives dans de grandes bases de données, aidant ainsi à identifier rapidement les modèles précédemment cachés.
Cela aide à filtrer et à valider les données et à comprendre d'où elles viennent.
Il favorise une prise de décision plus rapide et meilleure, aidant ainsi les entreprises à prendre les mesures nécessaires pour augmenter les revenus et réduire les coûts opérationnels.

Ce sont les raisons pour lesquelles le Data Mining est devenu une partie intégrante de nombreuses industries, notamment le marketing, la publicité, l'IT/ITES, l'intelligence économique et même l'intelligence gouvernementale.

Nous espérons que ces questions d'entretien sur le Data Mining et leurs réponses vous aideront à briser la glace avec le Data Mining. Bien que ce ne soient que quelques questions de base que vous devez connaître, elles vous aideront à entrer dans le flux et à approfondir le sujet.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quels sont les inconvénients de l'utilisation d'un algorithme d'arbre de décision ?

Même un changement mineur dans les données peut entraîner un changement significatif dans la structure de l'arbre de décision, entraînant une instabilité. Par rapport à d'autres algorithmes, le calcul d'un arbre de décision peut parfois être assez complexe. La formation à l'arbre de décision est relativement coûteuse en raison de la complexité et du temps requis. La technique de l'arbre de décision échoue lorsqu'il s'agit d'appliquer une régression et de prédire des valeurs continues.

Quelle est la différence entre le clustering d'exploration de données et la classification ?

Le clustering est une technique d'apprentissage non supervisé, tandis que la classification est une méthode d'apprentissage supervisé. Le clustering est le processus de regroupement de points de données en clusters en fonction de leurs points communs. La classification implique l'étiquetage des données d'entrée avec l'une des étiquettes de classe de la variable de sortie. Le clustering divise l'ensemble de données en sous-groupes, ce qui permet de regrouper des exemples avec des fonctionnalités similaires. Il ne s'appuie pas sur des données étiquetées ou sur un ensemble d'entraînement pour fonctionner. La classification, quant à elle, classe les nouvelles données en fonction des observations de l'ensemble d'apprentissage.

Y a-t-il des inconvénients à l'exploration de données ?

De nombreux problèmes de confidentialité surviennent lorsque l'exploration de données est utilisée. Malgré le fait que l'exploration de données a ouvert la voie à une collecte de données simple à sa manière. Quant à la précision, elle a encore certaines limites. Les données obtenues peuvent être incorrectes, ce qui entraîne des problèmes de prise de décision. La procédure de collecte de données pour l'exploration de données utilise beaucoup de technologie. Chaque élément de données créé nécessite son propre stockage et sa propre maintenance. Le coût de mise en œuvre pourrait monter en flèche à la suite de cela.