35 questions et réponses d'entrevue sur le Big Data à connaître 2022: pour les débutants et les expérimentés

Publié: 2021-01-05

Vous assistez à un entretien Big Data et vous vous demandez quelles sont toutes les questions et discussions que vous allez traverser ? Avant d'assister à un entretien Big Data, il est préférable d'avoir une idée du type de questions d'un entretien Big Data afin de pouvoir y préparer mentalement des réponses.

Pour vous aider, j'ai créé le guide des questions et réponses des entretiens sur les mégadonnées afin de comprendre la profondeur et l'intention réelle des questions d'entrevue sur les mégadonnées.

Vous ne croirez pas à quel point ce programme a changé la carrière des étudiants

Nous sommes à l'ère du Big Data et de l'analytique. Les données alimentant tout ce qui nous entoure, il y a eu une augmentation soudaine de la demande de professionnels des données qualifiés. Les organisations sont toujours à la recherche de personnes qualifiées qui peuvent les aider à donner un sens à leurs tas de données.

questions d'entretien sur les données volumineuses

Le mot-clé ici est « perfectionnement » et, par conséquent, les entretiens Big Data ne sont pas vraiment une partie de plaisir. Il y a quelques questions essentielles d'entretien Big Data que vous devez connaître avant d'y assister. Ceux-ci vous aideront à vous y retrouver.

Les questions ont été organisées dans un ordre qui vous aidera à reprendre les bases et à atteindre un niveau quelque peu avancé.

Questions et réponses d'entrevue sur le Big Data

1. Définissez le Big Data et expliquez les V du Big Data.

C'est l'une des questions d'entretien Big Data les plus introductives mais les plus importantes. La réponse à cela est assez simple :

Le Big Data peut être défini comme une collection d'ensembles de données complexes non structurés ou semi-structurés qui ont le potentiel de fournir des informations exploitables.

meilleurs cours de courte durée

Les quatre V du Big Data sont -
Volume – Parle de la quantité de données
Variété – Parle des différents formats de données
Vélocité - Parle de la vitesse sans cesse croissante à laquelle les données se développent
Véracité - Parle du degré de précision des données disponibles

Tutoriel Big Data pour les débutants : tout ce que vous devez savoir

2. Comment Hadoop est-il lié au Big Data ?

Quand on parle de Big Data, on parle de Hadoop. Il s'agit donc d'une autre question d'entretien Big Data à laquelle vous serez certainement confronté lors d'un entretien.

Hadoop est un framework open source pour le stockage, le traitement et l'analyse d'ensembles de données complexes non structurés afin d'en tirer des informations et des renseignements.

3. Définissez HDFS et YARN, et parlez de leurs composants respectifs.

Maintenant que nous sommes dans la zone de Hadoop, la prochaine question d'entretien Big Data que vous pourriez rencontrer tournera autour de la même chose.

Le HDFS est l'unité de stockage par défaut de Hadoop et est responsable du stockage de différents types de données dans un environnement distribué.

HDFS a les deux composants suivants :

NameNode - Il s'agit du nœud maître qui contient les informations de métadonnées pour tous les blocs de données du HDFS.
DataNode - Ce sont les nœuds qui agissent comme des nœuds esclaves et sont responsables du stockage des données.
YARN, abréviation de Yet Another Resource Negotiator , est responsable de la gestion des ressources et de la fourniture d'un environnement d'exécution pour lesdits processus.
Les deux principaux composants de YARN sont -
ResourceManager - Responsable de l'allocation des ressources aux NodeManagers respectifs en fonction des besoins.
NodeManager – Exécute des tâches sur chaque DataNode.
7 projets Big Data intéressants que vous devez surveiller

4. Qu'entendez-vous par matériel de base ?

C'est encore une autre question d'entretien Big Data que vous êtes le plus susceptible de rencontrer dans n'importe quel entretien auquel vous vous présentez.

Le matériel de base fait référence aux ressources matérielles minimales nécessaires pour exécuter le framework Apache Hadoop. Tout matériel prenant en charge les exigences minimales d'Hadoop est appelé « matériel de base ».

5. Définissez et décrivez le terme FSCK.

FSCK signifie Filesystem Check. Il s'agit d'une commande utilisée pour exécuter un rapport récapitulatif Hadoop qui décrit l'état de HDFS. Il vérifie uniquement les erreurs et ne les corrige pas. Cette commande peut être exécutée sur l'ensemble du système ou sur un sous-ensemble de fichiers.

6. A quoi sert la commande JPS dans Hadoop ?

La commande JPS est utilisée pour tester le fonctionnement de tous les démons Hadoop. Il teste spécifiquement des démons comme NameNode, DataNode, ResourceManager, NodeManager et plus encore.
(Dans toute interview Big Data, vous trouverez probablement une question sur JPS et son importance.)
Big Data : outils et technologies indispensables

7. Nommez les différentes commandes de démarrage et d'arrêt des démons Hadoop.

C'est l'une des questions d'entretien Big Data les plus importantes pour aider l'intervieweur à évaluer votre connaissance des commandes.

Pour démarrer tous les démons :
./sbin/start-all.sh

Pour arrêter tous les démons :
./sbin/stop-all.sh

8. Pourquoi avons-nous besoin de Hadoop pour Big Data Analytics ?

Ces questions d'entretien Hadoop testent votre connaissance des aspects pratiques du Big Data et de l'analyse.

Dans la plupart des cas, Hadoop aide à explorer et à analyser des ensembles de données volumineux et non structurés. Hadoop offre des capacités de stockage, de traitement et de collecte de données qui facilitent l'analyse.

9. Expliquez les différentes fonctionnalités de Hadoop.

Inscrite dans de nombreuses questions et réponses d'entrevue sur le Big Data, la meilleure réponse à cette question est -

Open-Source – Hadoop est une plateforme open-source. Il permet de réécrire ou de modifier le code en fonction des besoins de l'utilisateur et de l'analyse.
Évolutivité – Hadoop prend en charge l'ajout de ressources matérielles aux nouveaux nœuds.
Récupération de données – Hadoop suit la réplication qui permet la récupération des données en cas de panne.
Localité des données - Cela signifie que Hadoop déplace le calcul vers les données et non l'inverse. De cette façon, tout le processus s'accélère.

10. Définissez les numéros de port pour NameNode, Task Tracker et Job Tracker.

NomNode – Port 50070
Suivi des tâches – Port 50060
Suivi des travaux – Port 50030

11. Qu'entendez-vous par indexation dans HDFS ?

HDFS indexe les blocs de données en fonction de leur taille. La fin d'un bloc de données pointe vers l'adresse où le bloc de données suivant est stocké. Les DataNodes stockent les blocs de données tandis que NameNode stocke ces blocs de données.
Applications Big Data dans la culture pop

12. Que sont les nœuds périphériques dans Hadoop ?

Les nœuds périphériques font référence aux nœuds de passerelle qui agissent comme une interface entre le cluster Hadoop et le réseau externe. Ces nœuds exécutent des applications client et des outils de gestion de cluster et sont également utilisés comme zones de transit. Des capacités de stockage de classe entreprise sont requises pour les nœuds Edge, et un seul nœud Edge suffit généralement pour plusieurs clusters Hadoop.

13. Quels sont certains des outils de gestion de données utilisés avec les nœuds Edge dans Hadoop ?

Cette question d'entretien Big Data vise à tester votre connaissance des différents outils et cadres.

Oozie, Ambari, Pig et Flume sont les outils de gestion de données les plus courants qui fonctionnent avec les nœuds Edge dans Hadoop.

14. Expliquez les méthodes de base d'un réducteur.

Il existe trois méthodes de base d'un réducteur. Elles sont-

setup () - Ceci est utilisé pour configurer différents paramètres tels que la taille du tas, le cache distribué et les données d'entrée.
reduce() - Un paramètre qui est appelé une fois par clé avec la tâche de réduction concernée
cleanup() - Efface tous les fichiers temporaires et n'est appelé qu'à la fin d'une tâche de réducteur.

15. Parlez des différents marqueurs tombstone utilisés à des fins de suppression dans HBase.

Cette question d'entretien Big Data plonge dans votre connaissance de HBase et de son fonctionnement.
Il existe trois principaux marqueurs de désactivation utilisés pour la suppression dans HBase. Elles sont-

Marqueur de suppression de famille - Pour marquer toutes les colonnes d'une famille de colonnes.
Marqueur de suppression de version – Pour marquer une seule version d'une seule colonne.
Marqueur de suppression de colonne - Pour marquer toutes les versions d'une seule colonne.
Ingénieurs Big Data : Mythes contre réalités

16. Comment le Big Data peut-il ajouter de la valeur aux entreprises ?

L'une des questions d'entretien les plus courantes sur les mégadonnées. Dans le scénario actuel, le Big Data est tout. Si vous avez des données, vous avez l'outil le plus puissant à votre disposition. Big Data Analytics aide les entreprises à transformer les données brutes en informations significatives et exploitables qui peuvent façonner leurs stratégies commerciales. La contribution la plus importante du Big Data aux entreprises réside dans les décisions commerciales basées sur les données. Le Big Data permet aux organisations de fonder leurs décisions sur des informations et des idées tangibles.

questions d'entretien sur les données volumineuses

De plus, Predictive Analytics permet aux entreprises d'élaborer des recommandations et des stratégies marketing personnalisées pour différentes personnalités d'acheteurs. Ensemble, les outils et technologies Big Data contribuent à augmenter les revenus, à rationaliser les opérations commerciales, à augmenter la productivité et à améliorer la satisfaction des clients. En fait, quiconque n'exploite pas le Big Data aujourd'hui perd un océan d'opportunités.

17. Comment déployer une solution Big Data ?

Vous pouvez déployer une solution Big Data en trois étapes :

Ingestion de données - Il s'agit de la première étape du déploiement d'une solution Big Data. Vous commencez par collecter des données à partir de plusieurs sources, qu'il s'agisse de plateformes de médias sociaux, de fichiers journaux, de documents commerciaux, de tout ce qui concerne votre entreprise. Les données peuvent être extraites via le streaming en temps réel ou dans des travaux par lots.
Stockage des données – Une fois les données extraites, vous devez stocker les données dans une base de données. Il peut s'agir de HDFS ou de HBase. Alors que le stockage HDFS est parfait pour un accès séquentiel, HBase est idéal pour un accès aléatoire en lecture/écriture.
Traitement des données – La dernière étape du déploiement de la solution est le traitement des données. Habituellement, le traitement des données se fait via des frameworks comme Hadoop, Spark, MapReduce, Flink et Pig, pour n'en nommer que quelques-uns.

18. En quoi NFS est-il différent de HDFS ?

Le système de fichiers en réseau (NFS) est l'un des plus anciens systèmes de stockage de fichiers distribués, tandis que le système de fichiers distribués Hadoop (HDFS) n'a été mis à l'honneur que récemment après la montée en puissance du Big Data.

Le tableau ci-dessous met en évidence certaines des différences les plus notables entre NFS et HDFS :

NFS	HDFS
Il peut à la fois stocker et traiter de petits volumes de données.	Il est explicitement conçu pour stocker et traiter le Big Data.
Les données sont stockées dans du matériel dédié.	Les données sont divisées en blocs de données qui sont distribués sur les disques locaux du matériel.
En cas de défaillance du système, vous ne pouvez pas accéder aux données.	Les données sont accessibles même en cas de panne du système.
Étant donné que NFS s'exécute sur une seule machine, il n'y a aucune chance de redondance des données.	HDFS s'exécute sur un cluster de machines et, par conséquent, le protocole de réplication peut entraîner des données redondantes.

19. Répertoriez les différentes autorisations de fichiers dans HDFS pour les fichiers ou les niveaux de répertoire.

L'une des questions courantes des entretiens sur les mégadonnées. Le système de fichiers distribué Hadoop (HDFS) dispose d'autorisations spécifiques pour les fichiers et les répertoires. Il existe trois niveaux d'utilisateurs dans HDFS : Propriétaire, Groupe et Autres. Pour chacun des niveaux d'utilisateur, trois autorisations sont disponibles :

lire (r)
écrire (w)
exécuter(x).

Ces trois autorisations fonctionnent uniquement pour les fichiers et les répertoires.

Pour les fichiers -

La permission r est pour lire un fichier
La permission w est pour écrire un fichier.

Bien qu'il existe une autorisation d'exécution (x), vous ne pouvez pas exécuter de fichiers HDFS.

Pour les répertoires –

L'autorisation r répertorie le contenu d'un répertoire spécifique.
L'autorisation w crée ou supprime un répertoire.
L'autorisation X permet d'accéder à un répertoire enfant.

20. Développez les processus qui écrasent les facteurs de réplication dans HDFS.

Dans HDFS, il existe deux façons d'écraser les facteurs de réplication - sur la base des fichiers et sur la base des répertoires.

Sur la base du dossier

Dans cette méthode, le facteur de réplication change en fonction du fichier à l'aide du shell Hadoop FS. La commande suivante est utilisée pour cela :

$hadoop fs – setrep –w2/my/test_file

Ici, test_file fait référence au nom de fichier dont le facteur de réplication sera défini sur 2.

Sur la base d'un répertoire

Cette méthode modifie le facteur de réplication en fonction du répertoire, en tant que tel, le facteur de réplication pour tous les fichiers sous un répertoire particulier, change. La commande suivante est utilisée pour cela :

$hadoop fs –setrep –w5/my/test_dir

Ici, test_dir fait référence au nom du répertoire pour lequel le facteur de réplication et tous les fichiers qu'il contient seront définis sur 5.

21. Nommez les trois modes dans lesquels vous pouvez exécuter Hadoop.

L'une des questions les plus courantes dans toute interview Big Data. Les trois modes sont :

Mode autonome - Il s'agit du mode par défaut de Hadoop qui utilise le système de fichiers local pour les opérations d'entrée et de sortie. Le but principal du mode autonome est le débogage. Il ne prend pas en charge HDFS et ne dispose pas non plus de la configuration personnalisée requise pour les fichiers mapred-site.xml, core-site.xml et hdfs-site.xml.
Mode pseudo-distribué – Également connu sous le nom de cluster à nœud unique, le mode pseudo-distribué inclut à la fois NameNode et DataNode au sein de la même machine. Dans ce mode, tous les démons Hadoop s'exécuteront sur un seul nœud, et par conséquent, les nœuds maître et esclave sont les mêmes.
Mode entièrement distribué - Ce mode est connu sous le nom de cluster multi-nœuds dans lequel plusieurs nœuds fonctionnent simultanément pour exécuter des tâches Hadoop . Ici, tous les démons Hadoop s'exécutent sur différents nœuds. Ainsi, les nœuds maître et esclave fonctionnent séparément.

22. Expliquez "Surajustement".

Le surajustement fait référence à une erreur de modélisation qui se produit lorsqu'une fonction est étroitement ajustée (influencée) par un ensemble limité de points de données. Le surajustement aboutit à un modèle trop complexe qui rend encore plus difficile l'explication des particularités ou des idiosyncrasies des données disponibles. Comme cela affecte négativement la capacité de généralisation du modèle, il devient difficile de déterminer le quotient prédictif des modèles surajustés. Ces modèles ne fonctionnent pas lorsqu'ils sont appliqués à des données externes (données qui ne font pas partie des exemples de données) ou à de nouveaux ensembles de données.

Le surajustement est l'un des problèmes les plus courants en Machine Learning. Un modèle est considéré comme surajusté lorsqu'il fonctionne mieux sur l'ensemble d'apprentissage mais échoue lamentablement sur l'ensemble de test. Cependant, il existe de nombreuses méthodes pour éviter le problème de surajustement, telles que la validation croisée, l'élagage, l'arrêt précoce, la régularisation et l'assemblage.

23. Qu'est-ce que la sélection de fonctionnalités ?

La sélection des fonctionnalités fait référence au processus d'extraction des seules fonctionnalités requises à partir d'un jeu de données spécifique. Lorsque les données sont extraites de sources disparates, toutes les données ne sont pas utiles à tout moment - des besoins commerciaux différents nécessitent des informations différentes sur les données. C'est là qu'intervient la sélection des fonctionnalités pour identifier et sélectionner uniquement les fonctionnalités pertinentes pour une exigence métier particulière ou une étape de traitement des données.

L'objectif principal de la sélection des fonctionnalités est de simplifier les modèles ML afin de faciliter leur analyse et leur interprétation. La sélection des caractéristiques améliore les capacités de généralisation d'un modèle et élimine les problèmes de dimensionnalité, empêchant ainsi les possibilités de surajustement. Ainsi, la sélection des caractéristiques permet une meilleure compréhension des données étudiées, améliore les performances de prédiction du modèle et réduit considérablement le temps de calcul.

La sélection des fonctionnalités peut être effectuée via trois techniques :

Méthode des filtres

Dans cette méthode, les entités sélectionnées ne dépendent pas des classificateurs désignés. Une technique de classement des variables est utilisée pour sélectionner les variables à des fins de classement. Au cours du processus de classification, la technique de classement des variables prend en considération l'importance et l'utilité d'une caractéristique. Le test du chi carré, le seuil de variance et le gain d'information sont quelques exemples de la méthode des filtres.

Méthode des emballages

Dans cette méthode, l'algorithme utilisé pour la sélection de sous-ensembles de caractéristiques existe en tant qu'« emballage » autour de l'algorithme d'induction. L'algorithme d'induction fonctionne comme une «boîte noire» qui produit un classificateur qui sera ensuite utilisé dans la classification des caractéristiques. Le principal inconvénient ou limitation de la méthode wrappers est que pour obtenir le sous-ensemble de fonctionnalités, vous devez effectuer un travail de calcul lourd. Les algorithmes génétiques, la sélection séquentielle de caractéristiques et l'élimination récursive de caractéristiques sont des exemples de la méthode des wrappers.

Méthode embarquée

La méthode intégrée combine le meilleur des deux mondes - elle inclut les meilleures fonctionnalités des méthodes de filtres et d'encapsuleurs. Dans cette méthode, la sélection des variables est effectuée pendant le processus de formation, ce qui vous permet d'identifier les caractéristiques les plus précises pour un modèle donné. La technique de régularisation L1 et la régression Ridge sont deux exemples populaires de la méthode intégrée.

24. Définissez les « valeurs aberrantes ».

Une valeur aberrante fait référence à un point de données ou à une observation qui se situe à une distance anormale d'autres valeurs dans un échantillon aléatoire. En d'autres termes, les valeurs aberrantes sont les valeurs qui sont très éloignées du groupe ; ils n'appartiennent à aucun cluster ou groupe spécifique dans l'ensemble de données. La présence de valeurs aberrantes affecte généralement le comportement du modèle - elles peuvent induire en erreur le processus de formation des algorithmes ML. Certains des impacts négatifs des valeurs aberrantes comprennent un temps de formation plus long, des modèles inexacts et des résultats médiocres.

Cependant, les valeurs aberrantes peuvent parfois contenir des informations précieuses. C'est pourquoi ils doivent faire l'objet d'une enquête approfondie et être traités en conséquence.

25. Nommez quelques techniques de détection des valeurs aberrantes.

Encore une fois, l'une des questions les plus importantes des entretiens sur les mégadonnées. Voici six méthodes de détection des valeurs aberrantes :

Analyse des valeurs extrêmes - Cette méthode détermine les queues statistiques de la distribution des données. Les méthodes statistiques telles que les « z-scores » sur des données univariées sont un exemple parfait d'analyse des valeurs extrêmes.
Modèles probabilistes et statistiques - Cette méthode détermine les «cas peu probables» à partir d'un «modèle probabiliste» de données. Un bon exemple est l'optimisation des modèles de mélange gaussiens à l'aide de la « maximisation des attentes ».
Modèles linéaires - Cette méthode modélise les données dans des dimensions inférieures. Modèles basés sur la proximité – Dans cette approche, les instances de données isolées du groupe de données sont déterminées par cluster, densité ou par l'analyse du voisin le plus proche.
Modèles théoriques de l'information - Cette approche cherche à détecter les valeurs aberrantes comme les mauvaises instances de données qui augmentent la complexité de l'ensemble de données.
Détection des valeurs aberrantes de grande dimension - Cette méthode identifie les sous-espaces pour les valeurs aberrantes en fonction des mesures de distance dans les dimensions supérieures.

26. Expliquer la reconnaissance de rack dans Hadoop.

Rack Awareness est l'une des questions d'entretien populaires sur le Big Data. La reconnaissance Rach est un algorithme qui identifie et sélectionne les DataNodes les plus proches du NameNode en fonction de leurs informations de rack. Il est appliqué au NameNode pour déterminer comment les blocs de données et leurs répliques seront placés. Lors du processus d'installation, l'hypothèse par défaut est que tous les nœuds appartiennent au même rack.

La reconnaissance des racks aide à :

Améliorer la fiabilité et l'accessibilité des données.
Améliorez les performances des clusters.
Améliorer la bande passante du réseau.
Gardez le flux en masse dans le rack dans la mesure du possible.
Empêchez la perte de données en cas de panne complète du rack.

27. Pouvez-vous récupérer un NameNode lorsqu'il est en panne ? Si c'est le cas, comment?

Oui, il est possible de récupérer un NameNode lorsqu'il est en panne. Voici comment procéder :

Utilisez FsImage (le réplica des métadonnées du système de fichiers) pour lancer un nouveau NameNode.
Configurez les DataNodes avec les clients afin qu'ils puissent reconnaître et se référer au NameNode nouvellement démarré.
Lorsque le NameNode nouvellement créé termine le chargement du dernier point de contrôle du processus de chargement de FsImage (qui a maintenant reçu suffisamment de rapports de bloc des DataNodes), il sera prêt à commencer à servir le client.

Cependant, le processus de récupération d'un NameNode n'est réalisable que pour les clusters plus petits. Pour les grands clusters Hadoop, le processus de récupération prend généralement beaucoup de temps, ce qui en fait une tâche assez difficile.

28. Nommez les paramètres de configuration d'un framework MapReduce.

Les paramètres de configuration du framework MapReduce incluent :

Le format d'entrée des données.
Le format de sortie des données.
L'emplacement d'entrée des travaux dans le système de fichiers distribué.
Emplacement de sortie des travaux dans le système de fichiers distribué.
La classe contenant la fonction map
La classe contenant la fonction reduce
Fichier JAR contenant les classes de mappeur, de réducteur et de pilote.

29. Qu'est-ce qu'un cache distribué ? Quels sont ses avantages ?

Tout guide de questions et réponses d'entrevue Big Data ne sera pas complet sans cette question. Le cache distribué dans Hadoop est un service proposé par le framework MapReduce utilisé pour la mise en cache des fichiers. Si un fichier est mis en cache pour une tâche spécifique, Hadoop le rend disponible sur des DataNodes individuels à la fois en mémoire et dans le système où les tâches de mappage et de réduction s'exécutent simultanément. Cela vous permet d'accéder rapidement aux fichiers mis en cache et de les lire pour remplir n'importe quelle collection (comme les tableaux, les hashmaps, etc.) dans un code.

Le cache distribué offre les avantages suivants :

Il distribue des fichiers texte/données simples en lecture seule et d'autres types complexes tels que des jars, des archives, etc.
Il suit les horodatages de modification des fichiers de cache qui mettent en évidence les fichiers qui ne doivent pas être modifiés jusqu'à ce qu'un travail soit exécuté avec succès.

30. Qu'est-ce qu'un SequenceFile dans Hadoop ?

Dans Hadoop, un SequenceFile est un fichier plat qui contient des paires clé-valeur binaires. Il est le plus couramment utilisé dans les formats d'E/S MapReduce. Les sorties de la carte sont stockées en interne sous la forme d'un SequenceFile qui fournit les classes de lecture, d'écriture et de tri.

Il existe trois formats SequenceFile :

Enregistrements de valeur-clé non compressés
Enregistrez les enregistrements de valeurs-clés compressées (seules les "valeurs" sont compressées).
Bloquer les enregistrements de valeur-clé compressés (ici, les clés et les valeurs sont collectées séparément dans des "blocs", puis compressées).

31. Expliquez le rôle d'un JobTracker.

L'une des questions courantes des entretiens sur les mégadonnées. La fonction principale du JobTracker est la gestion des ressources, ce qui signifie essentiellement la gestion des TaskTrackers. En dehors de cela, JobTracker suit également la disponibilité des ressources et gère la gestion du cycle de vie des tâches (suivi de la progression des tâches et de leur tolérance aux pannes).

Certaines fonctionnalités cruciales du JobTracker sont :

C'est un processus qui s'exécute sur un nœud séparé (pas sur un DataNode).
Il communique avec le NameNode pour identifier l'emplacement des données.
Il suit l'exécution des charges de travail MapReduce.
Il alloue les nœuds TaskTracker en fonction des emplacements disponibles.
Il surveille chaque TaskTracker et soumet le rapport de travail global au client.
Il trouve les meilleurs nœuds TaskTracker pour exécuter des tâches spécifiques sur des nœuds particuliers.

32. Nommez les formats d'entrée courants dans Hadoop.

Hadoop a trois formats d'entrée courants :

Format d'entrée de texte - Il s'agit du format d'entrée par défaut dans Hadoop.
Format d'entrée de fichier de séquence – Ce format d'entrée est utilisé pour lire les fichiers dans une séquence.
Format d'entrée clé-valeur – Ce format d'entrée est utilisé pour les fichiers de texte brut (fichiers divisés en lignes).

33. Quel est le besoin de Data Locality dans Hadoop ?

L'une des questions importantes de l'entretien Big Data. Dans HDFS, les jeux de données sont stockés sous forme de blocs dans les DataNodes du cluster Hadoop. Lorsqu'une tâche MapReduce est en cours d'exécution, le Mapper individuel traite les blocs de données (Input Splits). Si les données ne sont pas présentes dans le même nœud où le Mapper exécute la tâche, les données doivent être copiées du DataNode où elles résident sur le réseau vers le Mapper DataNode.

Lorsqu'un travail MapReduce compte plus d'une centaine de Mappers et que chaque Mapper DataNode tente de copier simultanément les données d'un autre DataNode du cluster, cela entraînera une congestion du réseau, ce qui aura un impact négatif sur les performances globales du système. C'est là que Data Locality entre dans le scénario. Au lieu de déplacer une grande partie des données vers le calcul, Data Locality déplace le calcul des données près de l'endroit où les données réelles résident sur le DataNode. Cela permet d'améliorer les performances globales du système, sans causer de retard inutile.

34. Quelles sont les étapes pour assurer la sécurité dans Hadoop ?

Dans Hadoop, Kerberos - un protocole d'authentification réseau - est utilisé pour assurer la sécurité. Kerberos est conçu pour offrir une authentification robuste pour les applications client/serveur via la cryptographie à clé secrète.

Lorsque vous utilisez Kerberos pour accéder à un service, vous devez suivre trois étapes, chacune impliquant un échange de messages avec un serveur. Les étapes sont les suivantes:

Authentification - Il s'agit de la première étape au cours de laquelle le client est authentifié via le serveur d'authentification, après quoi un TGT (Ticket Granting Ticket) horodaté est remis au client.
Autorisation - Dans la deuxième étape, le client utilise le TGT pour demander un ticket de service au TGS (Ticket Granting Server).
Demande de service – Dans la dernière étape, le client utilise le ticket de service pour s'authentifier auprès du serveur.

35. Comment pouvez-vous gérer les valeurs manquantes dans le Big Data ?

Dernière question dans notre guide de questions et réponses pour les entretiens sur les mégadonnées. Les valeurs manquantes font référence aux valeurs qui ne sont pas présentes dans une colonne. Cela se produit lorsqu'il n'y a pas de valeur de données pour une variable dans une observation. Si les valeurs manquantes ne sont pas gérées correctement, cela conduira à des données erronées qui, à leur tour, généreront des résultats incorrects. Ainsi, il est fortement recommandé de traiter correctement les valeurs manquantes avant de traiter les jeux de données. Habituellement, si le nombre de valeurs manquantes est faible, les données sont supprimées, mais s'il y a un grand nombre de valeurs manquantes, l'imputation des données est la ligne de conduite préférée.

Dans Statistiques, il existe différentes manières d'estimer les valeurs manquantes. Celles-ci incluent la régression, l'imputation de données multiples, la suppression par liste/par paires, l'estimation du maximum de vraisemblance et le bootstrap bayésien approximatif.

Conclusion

Nous espérons que notre guide Questions et réponses sur le Big Data vous sera utile. Nous mettrons régulièrement à jour le guide pour vous tenir au courant.

Si vous souhaitez en savoir plus sur le Big Data, consultez notre programme PG Diploma in Software Development Specialization in Big Data qui est conçu pour les professionnels en activité et fournit plus de 7 études de cas et projets, couvre 14 langages et outils de programmation, pratique pratique ateliers, plus de 400 heures d'apprentissage rigoureux et d'aide au placement dans les meilleures entreprises.

Apprenez des cours de développement de logiciels en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Menez la révolution technologique axée sur les données

Plus de 400 heures d'apprentissage. 14 langues et outils. Statut des anciens de l'IIIT-B.

Programme de certificat avancé en Big Data de l'IIIT Bangalore