Top 60 des questions et réponses d'entretien Hadoop (2025)
Voici les questions et réponses d'entretien Hadoop MapReduce pour les candidats les plus récents et les plus expérimentés pour obtenir l'emploi de leurs rêves.
Questions d'entretien chez Hadoop MapReduce
1) Qu'est-ce que Hadoop Map Réduire ?
Pour traiter de grands ensembles de données en parallèle sur un cluster Hadoop, le framework Hadoop MapReduce est utilisé. L'analyse des données utilise une cartographie en deux étapes et un processus de réduction.
2) Comment fonctionne Hadoop MapReduce ?
Dans MapReduce, pendant la phase de cartographie, il compte les mots dans chaque document, tandis que dans la phase de réduction, il agrège les données selon le document couvrant l'ensemble de la collection. Pendant la phase de cartographie, les données d'entrée sont divisées en fractions pour analyse par tâches de cartographie exécutées en parallèle dans le framework Hadoop.
👉 Téléchargement PDF gratuit : Questions et réponses sur les entretiens Hadoop et MapReduce
3) Expliquez ce qu'est la lecture aléatoire dans MapReduce ?
Le processus par lequel le système effectue le tri et transfère les sorties de la carte au réducteur en tant qu'entrées est connu sous le nom de shuffle.
4) Expliquez ce qu'est le cache distribué dans MapReduce Framework ?
Le cache distribué est une fonctionnalité importante fournie par le framework MapReduce. Lorsque vous souhaitez partager certains fichiers sur tous les nœuds dans Hadoop Cluster, Le cache distribué est utilisé. Les fichiers peuvent être des fichiers jar exécutables ou un simple fichier de propriétés.
5) Expliquez qu'est-ce que NameNode dans Hadoop ?
NameNode dans Hadoop est le nœud sur lequel Hadoop stocke toutes les informations d'emplacement de fichier dans HDFS (système de fichiers distribué Hadoop). En d’autres termes, NameNode est la pièce maîtresse d’un système de fichiers HDFS. Il conserve l'enregistrement de tous les fichiers du système de fichiers et suit les données des fichiers sur le cluster ou sur plusieurs machines.
6) Expliquez qu'est-ce que JobTracker dans Hadoop ? Quelles sont les actions suivies par Hadoop ?
In Hadoop pour soumettre et suivre les tâches MapReduce, JobTracker est utilisé. Le suivi des tâches s'exécute sur son propre processus JVM
Job Tracker effectue les actions suivantes dans Hadoop
- L'application client soumet les travaux au Job Tracker
- JobTracker communique avec le mode Nom pour déterminer l'emplacement des données
- À proximité des données ou avec des emplacements disponibles, JobTracker localise les nœuds TaskTracker
- Sur les nœuds TaskTracker choisis, il soumet le travail
- Lorsqu'une tâche échoue, Job Tracker vous informe et décide quoi faire.
- Les nœuds TaskTracker sont surveillés par JobTracker
7) Expliquez qu'est-ce qu'un battement de cœur dans HDFS ?
Heartbeat fait référence à un signal utilisé entre un nœud de données et un nœud de nom, et entre le suivi des tâches et le suivi des tâches. Si le nœud de nom ou le suivi des tâches ne répond pas au signal, il est alors considéré qu'il y a des problèmes avec le nœud de données ou la tâche. traqueur
8) Expliquez ce que sont les combinateurs et quand devez-vous utiliser un combinateur dans un travail MapReduce ?
Pour augmenter l'efficacité de Programme MapReduce, Des combinateurs sont utilisés. La quantité de données peut être réduite à l'aide de combineurs qui doivent être transférés vers les réducteurs. Si l'opération effectuée est commutative et associative vous pouvez utiliser votre code réducteur comme combinateur. L'exécution du combineur n'est pas garantie dans Hadoop
9) Que se passe-t-il lorsqu'un nœud de données tombe en panne ?
Lorsqu'un nœud de données échoue
- Jobtracker et namenode détectent l'échec
- Sur le nœud défaillant, toutes les tâches sont replanifiées
- Namenode réplique les données de l'utilisateur vers un autre nœud
10) Expliquez qu'est-ce que l'exécution spéculative ?
Dans Hadoop lors de l'Exécution Spéculative, un certain nombre de tâches en double sont lancées. Sur un nœud esclave différent, plusieurs copies de la même tâche de mappage ou de réduction peuvent être exécutées à l'aide de l'exécution spéculative. En termes simples, si un lecteur particulier met beaucoup de temps à terminer une tâche, Hadoop créera une tâche en double sur un autre disque. Un disque qui termine la tâche en premier est conservé et les disques qui ne terminent pas en premier sont supprimés.
11) Expliquez quels sont les paramètres de base d'un Mapper ?
Les paramètres de base d'un Mapper sont
- LongWritable et texte
- Texte et IntWritable
12) Expliquez quelle est la fonction du partitionneur MapReduce ?
La fonction du partitionneur MapReduce est de s'assurer que toute la valeur d'une seule clé va au même réducteur, ce qui permet éventuellement une distribution uniforme de la sortie de la carte sur les réducteurs.
13) Expliquez quelle est la différence entre un partage d'entrée et un bloc HDFS ?
La division logique des données est connue sous le nom de Split, tandis qu'une division physique des données est connue sous le nom de HDFS Block.
14) Expliquez ce qui se passe au format texte ?
Au format de saisie de texte, chaque ligne du fichier texte est un enregistrement. Value est le contenu de la ligne tandis que Key est le décalage d'octets de la ligne. Par exemple, Clé : longWritable, Valeur : texte
15) Mentionnez quels sont les principaux paramètres de configuration que l'utilisateur doit spécifier pour exécuter MapReduce Job ?
L'utilisateur du framework MapReduce doit spécifier
- Emplacements d'entrée du travail dans le système de fichiers distribué
- Emplacement de sortie du travail dans le système de fichiers distribué
- Format d'entrée
- Format de sortie
- Classe contenant la fonction map
- Classe contenant la fonction de réduction
- Fichier JAR contenant les classes du mappeur, du réducteur et du pilote
16) Expliquez qu'est-ce que WebDAV dans Hadoop ?
Pour prendre en charge l'édition et la mise à jour des fichiers, WebDAV est un ensemble d'extensions HTTP. Sur la plupart des systèmes d'exploitation, les partages WebDAV peuvent être montés en tant que systèmes de fichiers. Il est donc possible d'accéder à HDFS en tant que système de fichiers standard en exposant HDFS sur WebDAV.
17) Expliquez qu'est-ce que Sqoop dans Hadoop ?
Pour transférer les données entre Gestion de bases de données relationnelles (SGBDR) et Hadoop HDFS un outil est utilisé appelé Sqoop. En utilisant Sqoop, les données peuvent être transférées depuis RDMS comme MySQL or Oracle dans HDFS ainsi que l'exportation de données du fichier HDFS vers un SGBDR
18) Expliquez comment JobTracker planifie une tâche ?
Le suivi des tâches envoie des messages de battement de cœur à Jobtracker généralement toutes les quelques minutes pour s'assurer que JobTracker est actif et fonctionne. Le message informe également JobTracker du nombre d'emplacements disponibles, afin que JobTracker puisse rester informé des endroits où le travail du cluster peut être délégué.
19) Expliquez qu'est-ce que le format Sequencefileinput ?
Sequencefileinputformat est utilisé pour lire les fichiers en séquence. Il s'agit d'un format de fichier binaire compressé spécifique qui est optimisé pour transmettre des données entre la sortie d'une tâche MapReduce et l'entrée d'une autre tâche MapReduce.
20) Expliquez que fait la classe conf.setMapper ?
Conf.setMapperclass définit la classe du mappeur et tous les éléments liés au travail de cartographie, tels que la lecture des données et la génération d'une paire clé-valeur à partir du mappeur.
21) Expliquez qu'est-ce que Hadoop ?
Il s'agit d'un cadre logiciel open source permettant de stocker des données et d'exécuter des applications sur des clusters de matériel standard. Il offre une énorme puissance de traitement et un stockage massif pour tout type de données.
22) Mentionnez quelle est la différence entre un SGBDR et Hadoop ?
RDBMS | Hadoop |
---|---|
RDBMS est un système de gestion de base de données relationnelle | Hadoop est une structure plate basée sur des nœuds |
Il est utilisé pour le traitement OLTP alors que Hadoop | Il est actuellement utilisé pour l'analyse et le traitement du BIG DATA. |
Dans le SGBDR, le cluster de bases de données utilise les mêmes fichiers de données stockés dans un stockage partagé | Dans Hadoop, les données de stockage peuvent être stockées indépendamment dans chaque nœud de traitement. |
Vous devez prétraiter les données avant de les stocker | vous n'avez pas besoin de prétraiter les données avant de les stocker |
23) Mentionner les composants principaux de Hadoop ?
Les composants principaux de Hadoop incluent :
- HDFS
- MapReduce
24) Qu'est-ce que NameNode dans Hadoop ?
NameNode dans Hadoop est l'endroit où Hadoop stocke toutes les informations sur l'emplacement des fichiers dans HDFS. Il s'agit du nœud maître sur lequel Job Tracker s'exécute et se compose de métadonnées.
25) Mentionnez quels sont les composants de données utilisés par Hadoop ?
Les composants de données utilisés par Hadoop sont
26) Mentionnez quel est le composant de stockage de données utilisé par Hadoop ?
Le composant de stockage de données utilisé par Hadoop est HBase.
27) Mentionnez quels sont les formats d'entrée les plus courants définis dans Hadoop ?
Les formats d'entrée les plus courants définis dans Hadoop sont :
- Format d'entrée de texte
- KeyValueInputFormat
- SequenceFileInputFormatSequenceFileInputFormat
28) Dans Hadoop, qu'est-ce qu'InputSplit ?
Il divise les fichiers d'entrée en morceaux et attribue chaque division à un mappeur pour le traitement.
29) Pour un travail Hadoop, comment allez-vous écrire un partitionneur personnalisé ?
Vous écrivez un partitionneur personnalisé pour un travail Hadoop, vous suivez le chemin suivant
- Créer une nouvelle classe qui étend la classe Partitioner
- Remplacer la méthode getPartition
- Dans le wrapper qui exécute MapReduce
- Ajoutez le partitionneur personnalisé au travail à l'aide de la méthode définie Partitioner Class ou – ajoutez le partitionneur personnalisé au travail en tant que fichier de configuration.
30) Pour un job dans Hadoop, est-il possible de modifier le nombre de mappeurs à créer ?
Non, il n'est pas possible de modifier le nombre de mappeurs à créer. Le nombre de mappeurs est déterminé par le nombre de fractionnements d'entrée.
31) Expliquez qu'est-ce qu'un fichier de séquence dans Hadoop ?
Pour stocker les paires clé/valeur binaires, un fichier de séquence est utilisé. Contrairement aux fichiers compressés classiques, les fichiers de séquence prennent en charge le fractionnement même lorsque les données contenues dans le fichier sont compressées.
32) Lorsque Namenode est en panne, qu'arrive-t-il au suivi des tâches ?
Namenode est le point de défaillance unique dans HDFS. Ainsi, lorsque Namenode est en panne, votre cluster se déclenche.
33) Expliquez comment se fait l'indexation dans HDFS ?
Hadoop dispose d'une méthode d'indexation unique. Une fois les données stockées selon la taille du bloc, le HDFS continuera à stocker la dernière partie des données, indiquant où se trouvera la prochaine partie des données.
34) Expliquez qu'il est possible de rechercher des fichiers à l'aide de caractères génériques ?
Oui, il est possible de rechercher des fichiers à l'aide de caractères génériques.
35) Répertoriez les trois fichiers de configuration de Hadoop ?
Les trois fichiers de configuration sont
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Expliquez comment pouvez-vous vérifier si Namenode fonctionne en utilisant la commande jps ?
En plus d'utiliser la commande jps, pour vérifier si Namenode fonctionne, vous pouvez également utiliser
Statut de /etc/init.d/hadoop-0.20-namenode.
37) Expliquez ce qu'est « carte » et qu'est-ce qu'est « réducteur » dans Hadoop ?
Dans Hadoop, une carte est une phase de résolution de requêtes HDFS. Une carte lit les données à partir d'un emplacement d'entrée et génère une paire clé-valeur en fonction du type d'entrée.
Dans Hadoop, un réducteur collecte la sortie générée par le mappeur, la traite et crée sa propre sortie finale.
38) Dans Hadoop, quel fichier contrôle les rapports dans Hadoop ?
Dans Hadoop, le fichier hadoop-metrics.properties contrôle les rapports.
39) Pour utiliser Hadoop, indiquez la configuration réseau requise ?
Pour utiliser Hadoop, la liste des exigences réseau est la suivante :
- Connexion SSH sans mot de passe
- Secure Shell (SSH) pour lancer des processus serveur
40) Mentionnez ce qu'est la sensibilisation au rack ?
La connaissance du rack est la manière dont le nœud de nom détermine comment placer les blocs en fonction des définitions du rack.
41) Expliquez qu'est-ce qu'un Task Tracker dans Hadoop ?
Un Task Tracker dans Hadoop est un démon de nœud esclave dans le cluster qui accepte les tâches d'un JobTracker. Il envoie également des messages de battement de cœur au JobTracker, toutes les quelques minutes, pour confirmer que le JobTracker est toujours actif.
42) Mentionnez quels démons s'exécutent sur un nœud maître et des nœuds esclaves ?
- Les démons exécutés sur le nœud maître sont « NameNode »
- Les démons exécutés sur chaque nœud esclave sont « Task Tracker » et « Data »
43) Expliquez comment déboguer le code Hadoop ?
Les méthodes populaires pour déboguer le code Hadoop sont :
- En utilisant l'interface Web fournie par le framework Hadoop
- En utilisant des compteurs
44) Expliquez ce que sont les nœuds de stockage et de calcul ?
- Le nœud de stockage est la machine ou l'ordinateur sur lequel réside votre système de fichiers pour stocker les données de traitement.
- Le nœud de calcul est l'ordinateur ou la machine sur lequel votre logique métier réelle sera exécutée.
45) Mentionnez à quoi sert l'objet contextuel ?
L'objet Contexte permet au mappeur d'interagir avec le reste du Hadoop
système. Il comprend des données de configuration pour le travail, ainsi que des interfaces qui lui permettent d'émettre des sorties.
46) Mentionnez quelle est la prochaine étape après Mapper ou MapTask ?
L'étape suivante après Mapper ou MapTask est que la sortie du Mapper soit triée et que des partitions soient créées pour la sortie.
47) Mentionnez quel est le numéro de partitionneur par défaut dans Hadoop ?
Dans Hadoop, le partitionneur par défaut est un partitionneur « Hash ».
48) Expliquez quel est le but de RecordReader dans Hadoop ?
Dans Hadoop, le RecordReader charge les données à partir de leur source et les convertit en paires (clé, valeur) adaptées à la lecture par le Mapper.
49) Expliquez comment les données sont-elles partitionnées avant d'être envoyées au réducteur si aucun partitionneur personnalisé n'est défini dans Hadoop ?
Si aucun partitionneur personnalisé n'est défini dans Hadoop, un partitionneur par défaut calcule une valeur de hachage pour la clé et attribue la partition en fonction du résultat.
50) Expliquez ce qui se passe lorsque Hadoop a généré 50 tâches pour un travail et que l'une des tâches a échoué ?
Il redémarrera la tâche sur un autre TaskTracker si la tâche échoue plus que la limite définie.
51) Mentionnez quelle est la meilleure façon de copier des fichiers entre des clusters HDFS ?
La meilleure façon de copier des fichiers entre des clusters HDFS consiste à utiliser plusieurs nœuds et la commande distcp, afin que la charge de travail soit partagée.
52) Mentionnez quelle est la différence entre HDFS et NAS ?
Les blocs de données HDFS sont distribués sur les disques locaux de toutes les machines d'un cluster tandis que les données NAS sont stockées sur du matériel dédié.
53) Mentionnez en quoi Hadoop est différent des autres outils de traitement de données ?
Dans Hadoop, vous pouvez augmenter ou diminuer le nombre de mappeurs sans vous soucier du volume de données à traiter.
54) Mentionnez quel travail fait la classe de conf ?
La classe de configuration de tâches sépare les différentes tâches exécutées sur le même cluster. Il effectue les réglages au niveau du travail, tels que la déclaration d'un travail dans un environnement réel.
55) Mentionnez quel est le contrat des API Hadoop MapReduce pour une classe de clé et de valeur ?
Pour une classe de clé et de valeur, il existe deux contrats d'API Hadoop MapReduce
- La valeur doit définir l'interface org.apache.hadoop.io.Writable
- La clé doit définir l'interface org.apache.hadoop.io.WritableComparable
56) Mentionnez quels sont les trois modes dans lesquels Hadoop peut être exécuté ?
Les trois modes dans lesquels Hadoop peut être exécuté sont
- Mode pseudo-distribué
- Mode autonome (local)
- Mode entièrement distribué
57) Mentionnez à quoi sert le format de saisie de texte ?
Le format de saisie de texte créera un objet ligne qui est un nombre hexadécimal. La valeur est considérée comme une ligne entière de texte tandis que la clé est considérée comme un objet ligne. Le mappeur recevra la valeur en tant que paramètre « texte » tandis que la clé en tant que paramètre « longue écriture ».
58) Mentionnez combien d'InputSplits sont créés par un framework Hadoop ?
Hadoop fera 5 scissions
- 1 division pour les fichiers 64K
- 2 divisions pour les fichiers de 65 Mo
- 2 divisions pour les fichiers de 127 Mo
59) Mentionnez ce qu'est le cache distribué dans Hadoop ?
Le cache distribué dans Hadoop est une fonctionnalité fournie par le framework MapReduce. Au moment de l'exécution du job, il est utilisé pour mettre en cache le fichier. Le Framework copie les fichiers nécessaires sur le nœud esclave avant l'exécution de toute tâche sur ce nœud.
60) Expliquez comment Hadoop Classpath joue un rôle essentiel dans l'arrêt ou le démarrage des démons Hadoop ?
Classpath consistera en une liste de répertoires contenant des fichiers jar pour arrêter ou démarrer les démons.
Ces questions d'entretien vous aideront également dans votre soutenance