Plus de 60 questions et réponses d'entretien d'ingénieur de données en 2025
Questions d'entretien d'ingénieur de données pour les débutants
1) Expliquez l'ingénierie des données.
L'ingénierie des données est un terme utilisé dans le big data. Il se concentre sur l’application de la collecte de données et de la recherche. Les données générées à partir de diverses sources ne sont que des données brutes. L'ingénierie des données permet de convertir ces données brutes en informations utiles.
2) Qu'est-ce que la modélisation des données ?
La modélisation des données est la méthode de documentation de la conception de logiciels complexes sous forme de diagramme afin que tout le monde puisse facilement comprendre. Il s'agit d'une représentation conceptuelle d'objets de données associés entre divers objets de données et les règles.
3) Répertorier différents types de schémas de conception dans la modélisation des données
Il existe principalement deux types de schémas dans la modélisation de données : 1) le schéma en étoile et 2) le schéma en flocon de neige.
4) Distinguer les données structurées et non structurées
Voici une différence entre les données structurées et non structurées :
Paramètres | Données structurées | Données non structurées |
---|---|---|
Stockage | SGBD | Structures de fichiers non gérées |
Standard | ADO.net, ODBC et SQL | STMP, XML, CSV et SMS |
Outil d'intégration | ELT (Extraire, Transformer, Charger) | Saisie manuelle des données ou traitement par lots incluant des codes |
mise à l'échelle | La mise à l'échelle du schéma est difficile | La mise à l’échelle est très simple. |
5) Expliquer tous les composants d'une application Hadoop
Voici les composants de l'application Hadoop:
- Hadoop commun: Il s'agit d'un ensemble commun d'utilitaires et de bibliothèques utilisés par Hadoop.
- HDFS : Cette application Hadoop concerne le système de fichiers dans lequel les données Hadoop sont stockées. Il s'agit d'un système de fichiers distribué ayant une bande passante élevée.
- Hadoop MapReduce : Il est basé sur un algorithme permettant de fournir un traitement de données à grande échelle.
- FIL Hadoop : Il est utilisé pour la gestion des ressources au sein du cluster Hadoop. Il peut également être utilisé pour la planification des tâches des utilisateurs.
6) Qu'est-ce que NameNode ?
C'est la pièce maîtresse de HDFS. Il stocke les données HDFS et suit divers fichiers dans les clusters. Ici, les données réelles ne sont pas stockées. Les données sont stockées dans DataNodes.
7) Définir le streaming Hadoop
C'est un utilitaire qui permet de créer la carte et de réduire les tâches et de les soumettre à un cluster spécifique.
8) Quelle est la forme complète de HDFS ?
HDFS signifie Hadoop Distributed File System.
9) Définir le bloc et le scanner de blocs dans HDFS
Les blocs sont la plus petite unité d'un fichier de données. Hadoop divise automatiquement les fichiers volumineux en petits morceaux.
Block Scanner vérifie la liste des blocs présentés sur un DataNode.
10) Quelles sont les étapes qui se produisent lorsque Block Scanner détecte un bloc de données corrompu ?
Voici les étapes qui se produisent lorsque Block Scanner détecte un bloc de données corrompu :
1) Tout d'abord, lorsque Block Scanner trouve un bloc de données corrompu, DataNode signale à NameNode
2) NameNode démarre le processus de création d'une nouvelle réplique en utilisant une réplique du bloc corrompu.
3) Le nombre de réplications des répliques correctes tente de correspondre au facteur de réplication. Si la correspondance est trouvée, le bloc de données corrompu ne sera pas supprimé.
11) Nommez deux messages que NameNode reçoit de DataNode ?
NameNode reçoit deux messages de DataNode. Il s'agit de 1) Rapport de blocage et 2) Battement de coeur.
12) Répertorier divers fichiers de configuration XML dans Hadoop ?
Il existe cinq fichiers de configuration XML dans Hadoop :
- Site Mapred
- Site principal
- Site HDFS
- Site de fil
13) Quels sont les quatre V du Big Data ?
Les quatre V du Big Data sont :
- Vitesse
- Variété
- Volume
- Véracité
14) Expliquer les fonctionnalités de Hadoop
Les fonctionnalités importantes de Hadoop sont :
- Il s'agit d'un framework open source disponible gratuitement.
- Hadoop est compatible avec de nombreux types de matériel et permet d'accéder facilement au nouveau matériel au sein d'un nœud spécifique.
- Hadoop prend en charge un traitement distribué plus rapide des données.
- Il stocke les données dans le cluster, indépendant du reste des opérations.
- Hadoop permet de créer 3 répliques pour chaque bloc avec des nœuds différents.
15) Expliquer les principales méthodes de Réducteur
- setup () : il est utilisé pour configurer des paramètres tels que la taille des données d'entrée et le cache distribué.
- cleanup() : Cette méthode est utilisée pour nettoyer les fichiers temporaires.
- réduire() : C'est un cœur du réducteur qui est appelé une fois par clé avec la tâche réduite associée
16) Quelle est l’abréviation de COSHH ?
L'abréviation de COSHH signifie Calendrier basé sur la classification et l'optimisation pour les systèmes Hadoop hétérogènes.
17) Expliquer le schéma en étoile
Schéma en étoile ou Star Join Schema est le type le plus simple de schéma Data Warehouse. On l’appelle schéma en étoile car sa structure ressemble à une étoile. Dans le schéma Star, le centre de l'étoile peut avoir une table de faits et plusieurs tables de dimensions associées. Ce schéma est utilisé pour interroger de grands ensembles de données.
18) Comment déployer une solution big data ?
Suivez les étapes suivantes afin de déployer une solution Big Data.
1) Intégrer les données à l'aide de sources de données telles que le SGBDR, SAP, MySQL, Salesforce
2) Stockez les données extraites dans la base de données NoSQL ou HDFS.
3) Déployer une solution Big Data à l'aide de frameworks de traitement comme Pig, Sparket MapReduce.
19) Expliquez FSCK
File System Check ou FSCK est une commande utilisée par HDFS. La commande FSCK est utilisée pour vérifier les incohérences et les problèmes dans le fichier.
20) Expliquer le schéma du flocon de neige
A Schéma de flocon de neige est une extension d'un schéma en étoile et ajoute des dimensions supplémentaires. On l'appelle flocon de neige car son diagramme ressemble à un flocon de neige. Les tables de dimensions sont normalisées, ce qui divise les données en tables supplémentaires.
21) Distinguer les schémas en étoile et en flocon de neige
Étoile | Schéma du flocon de neige |
Les hiérarchies de dimensions sont stockées dans la table dimensionnelle. | Chaque hiérarchie est stockée dans des tables distinctes. |
Les chances de redondance des données sont élevées | Les chances de redondance des données sont faibles. |
Il a une conception de base de données très simple | Il a une conception de base de données complexe |
Fournir un moyen plus rapide pour le traitement des cubes | Le traitement du cube est lent en raison de la jointure complexe. |
22) Expliquer le système de fichiers distribué Hadoop
Hadoop fonctionne avec des systèmes de fichiers distribués évolutifs tels que S3, HFTP FS, FS et HDFS. Le système de fichiers distribué Hadoop est créé sur le système de fichiers Google. Ce système de fichiers est conçu de manière à pouvoir s'exécuter facilement sur un grand cluster du système informatique.
23) Expliquer les principales responsabilités d'un ingénieur de données
Les ingénieurs de données ont de nombreuses responsabilités. Ils gèrent le système source des données. Les ingénieurs de données simplifient la structure de données complexe et empêchent la duplication des données. Souvent, ils fournissent également l’ELT et la transformation des données.
24) Quelle est la forme complète de YARN ?
La forme complète de YARN est un autre négociateur de ressources.
25) Répertorier les différents modes dans Hadoop
Les modes dans Hadoop sont 1) Mode autonome 2) Mode pseudo-distribué 3) Mode entièrement distribué.
26) Comment assurer la sécurité dans Hadoop ?
Effectuez les étapes suivantes pour garantir la sécurité dans Hadoop :
1) La première étape consiste à sécuriser le canal d'authentification du client auprès du serveur. Fournir un horodatage au client.
2) Dans un deuxième temps, le client utilise l'horodatage reçu pour demander au TGS un ticket de service.
3) Dans la dernière étape, le client utilise un ticket de service pour s'auto-authentifier sur un serveur spécifique.
27) Qu’est-ce que Heartbeat dans Hadoop ?
Dans Hadoop, NameNode et DataNode communiquent entre eux. Heartbeat est le signal envoyé régulièrement par DataNode à NameNode pour montrer sa présence.
28) Distinguer NAS et DAS dans Hadoop
NAS | DAS |
La capacité de stockage est de 109 - 1012 en octet. | La capacité de stockage est de 109 en octet. |
Le coût de gestion par Go est modéré. | Le coût de gestion par Go est élevé. |
Transmettez des données via Ethernet ou TCP/IP. | Transmettre des données en utilisant IDE/SCSI |
29) Répertoriez les champs ou langues importants utilisés par l'ingénieur de données
Voici quelques domaines ou langages utilisés par les ingénieurs de données :
- Probabilités et algèbre linéaire
- Apprentissage automatique
- Analyse des tendances et régression
- Bases de données Hive QL et SQL
30) Qu’est-ce que le Big Data ?
Il s’agit d’une grande quantité de données structurées et non structurées, qui ne peuvent pas être facilement traitées par les méthodes traditionnelles de stockage de données. Les ingénieurs de données utilisent Hadoop pour gérer le Big Data.
Questions d'entretien d'ingénieur de données pour les expérimentés
31) Qu'est-ce que la planification FIFO ?
Il s'agit d'un algorithme de planification de tâches Hadoop. Dans cette planification FIFO, un rapporteur sélectionne les travaux dans une file d'attente de travaux, le travail le plus ancien en premier.
32) Mentionnez les numéros de port par défaut sur lesquels le suivi des tâches, le NameNode et le suivi des tâches s'exécutent dans Hadoop
Les numéros de port par défaut sur lesquels le suivi des tâches, NameNode et le suivi des tâches s'exécutent dans Hadoop sont les suivants :
- Le suivi des tâches fonctionne sur le port 50060
- NameNode fonctionne sur le port 50070
- Job Tracker fonctionne sur le port 50030
33) Comment désactiver Block Scanner sur le nœud de données HDFS
Afin de désactiver Block Scanner sur le nœud de données HDFS, définissez dfs.datanode.scan.period.hours sur 0.
34) Comment définir la distance entre deux nœuds dans Hadoop ?
La distance est égale à la somme des distances aux nœuds les plus proches. La méthode getDistance() permet de calculer la distance entre deux nœuds.
35) Pourquoi utiliser du matériel standard dans Hadoop ?
Le matériel de base est facile à obtenir et abordable. C'est un système compatible avec Windows, MS-DOS ou Linux.
36) Définir le facteur de réplication dans HDFS
Le facteur de réplication est le nombre total de répliques d'un fichier dans le système.
37) Quelles données sont stockées dans NameNode ?
Namenode stocke les métadonnées du HDFS telles que les informations de bloc et les informations d'espace de noms.
38) Qu’entendez-vous par Rack Awareness ?
Dans le cluster Haddop, Namenode utilise le Datanode pour améliorer le trafic réseau lors de la lecture ou de l'écriture de tout fichier plus proche du rack voisin pour une requête de lecture ou d'écriture. Namenode conserve l'identifiant de rack de chaque DataNode pour obtenir des informations sur le rack. Ce concept est appelé Rack Awareness dans Hadoop.
39) Quelles sont les fonctions du NameNode secondaire ?
Voici les fonctions du NameNode secondaire :
- FsImage qui stocke une copie du fichier EditLog et FsImage.
- Crash de NameNode : si le NameNode plante, alors FsImage du NameNode secondaire peut être utilisé pour recréer le NameNode.
- Point de contrôle : il est utilisé par le NameNode secondaire pour confirmer que les données ne sont pas corrompues dans HDFS.
- Mise à jour : il met automatiquement à jour les fichiers EditLog et FsImage. Il est utile de maintenir à jour le fichier FsImage sur le NameNode secondaire.
40) Que se passe-t-il lorsque NameNode est en panne et que l'utilisateur soumet un nouveau travail ?
NameNode est le point de défaillance unique dans Hadoop, de sorte que l'utilisateur ne peut pas soumettre un nouveau travail qui ne peut pas être exécuté. Si NameNode est en panne, la tâche peut échouer, car cet utilisateur doit attendre que NameNode redémarre avant d'exécuter une tâche.
41) Quelles sont les phases de base du réducteur dans Hadoop ?
Il existe trois phases de base d'un réducteur dans Hadoop :
1. Lecture aléatoire : ici, Réducteur copie la sortie de Mapper.
2. Trier : lors du tri, Hadoop trie l'entrée dans Réducteur en utilisant la même clé.
3. Réduire : dans cette phase, les valeurs de sortie associées à une clé sont réduites pour consolider les données dans la sortie finale.
42) Pourquoi Hadoop utilise l'objet Contexte ?
Le framework Hadoop utilise l'objet Context avec la classe Mapper afin d'interagir avec le reste du système. L'objet contextuel obtient les détails de configuration du système et la tâche dans son constructeur.
Nous utilisons l'objet Context afin de transmettre les informations dans les méthodes setup(), cleanup() et map(). Cet objet met à disposition des informations vitales lors des opérations cartographiques.
43) Définir le combinateur dans Hadoop
Il s'agit d'une étape facultative entre Map et Réduire. Combiner prend la sortie de la fonction Map, crée des paires clé-valeur et la soumet à Hadoop Reduction. La tâche de Combiner est de résumer le résultat final de Map dans des enregistrements récapitulatifs avec une clé identique.
44) Quel est le facteur de réplication par défaut disponible dans HDFS. Qu'est-ce qu'il indique ?
Le facteur de réplication par défaut disponible dans HDFS est de trois. Le facteur de réplication par défaut indique qu'il y aura trois répliques de chaque donnée.
45) Que voulez-vous dire par localisation des données dans Hadoop ?
Dans un système Big Data, la taille des données est énorme et c’est pourquoi il n’est pas logique de les déplacer sur le réseau. Désormais, Hadoop essaie de rapprocher le calcul des données. De cette façon, les données restent locales à l'emplacement stocké.
46) Définir l'équilibreur dans HDFS
Dans HDFS, l'équilibreur est un outil administratif utilisé par le personnel administratif pour rééquilibrer les données entre les DataNodes et déplacer les blocs des nœuds surutilisés vers les nœuds sous-utilisés.
47) Expliquer le mode sans échec dans HDFS
Il s'agit d'un mode lecture seule de NameNode dans un cluster. Initialement, NameNode est en Safemode. Cela empêche l'écriture sur le système de fichiers en Safemode. À ce stade, il collecte des données et des statistiques de tous les DataNodes.
48) Quelle est l'importance du cache distribué dans Apache Hadoop ?
Hadoop dispose d'une fonctionnalité utilitaire utile appelée cache distribué qui améliore les performances des tâches en mettant en cache les fichiers utilisés par les applications. Une application peut spécifier un fichier pour le cache à l'aide de la configuration JobConf.
Le framework Hadoop crée une réplique de ces fichiers sur les nœuds sur lesquels une tâche doit être exécutée. Ceci est effectué avant le début de l'exécution de la tâche. Le cache distribué prend en charge la distribution de fichiers en lecture seule ainsi que de fichiers zip et jar.
49) Qu’est-ce que Metastore dans Hive ?
Il stocke le schéma ainsi que l'emplacement de la table Hive.
La table Hive définit les mappages et les métadonnées stockées dans Metastore. Cela peut être stocké dans un SGBDR pris en charge par JPOX.
50) Qu'entend-on par SerDe dans Hive ?
SerDe est un nom court pour Serializer ou Deserializer. Dans Hive, SerDe permet de lire les données d'une table et d'écrire dans un champ spécifique dans le format de votre choix.
51) Répertorier les composants disponibles dans le modèle de données Hive
Le modèle de données Hive contient les composants suivants :
- Tables
- partitions
- Seaux
52) Expliquer l'utilisation de Hive dans l'écosystème Hadoop.
Hive fournit une interface pour gérer les données stockées dans l'écosystème Hadoop. Hive est utilisé pour le mappage et l'utilisation des tables HBase. Les requêtes Hive sont converties en tâches MapReduce afin de masquer la complexité associée à la création et à l'exécution de tâches MapReduce.
53) Répertorier divers types/collections de données complexes pris en charge par Hive
Hive prend en charge les types de données complexes suivants :
- Carte
- Structurer
- tableau
- syndicat
54) Expliquez comment le fichier .hiverc dans Hive est utilisé ?
Dans Hive, .hiverc est le fichier d'initialisation. Ce fichier est initialement chargé lorsque nous démarrons l'interface de ligne de commande (CLI) pour Hive. Nous pouvons définir les valeurs initiales des paramètres dans le fichier .hiverc.
55) Est-il possible de créer plusieurs tables dans Hive pour un seul fichier de données ?
Oui, nous pouvons créer plusieurs schémas de table pour un fichier de données. Hive enregistre le schéma dans Hive Metastore. Sur la base de ce schéma, nous pouvons récupérer des résultats différents à partir des mêmes données.
56) Expliquer les différentes implémentations SerDe disponibles dans Hive
Il existe de nombreuses implémentations SerDe disponibles dans Hive. Vous pouvez également écrire votre propre implémentation SerDe personnalisée. Voici quelques implémentations célèbres de SerDe :
- OpenCSVSerde
- RegexSerDe
- DélimitéJSONSerDe
- Bytestreamtypedserde
57) Fonctions de génération de tableaux de liste disponibles dans Hive
Voici une liste de fonctions de génération de tables :
- Exploser (tableau)
- JSON_TUPLE ()
- Pile()
- Exploser(carte)
58) Qu'est-ce qu'une table asymétrique dans Hive ?
Un tableau asymétrique est un tableau qui contient le plus souvent des valeurs de colonnes. Dans Hive, lorsque nous spécifions une table comme SKEWED lors de la création, les valeurs asymétriques sont écrites dans des fichiers séparés et les valeurs restantes vont dans un autre fichier.
59) Répertoriez les objets créés par l'instruction create dans MySQL.
Objets créés par l'instruction create dans MySQL sont les suivants:
- Base de données
- Sommaire
- lampe de table
- Utilisateur
- Procédure
- Gâchette
- événement
- Résumé
- Fonction
60) Comment voir la structure de la base de données dans MySQL?
Afin de voir la structure de la base de données dans MySQL, Vous pouvez utiliser
Commande DÉCRIRE. La syntaxe de cette commande est DESCRIBE Table name;
.
Questions d'entretien SQL pour l'ingénieur de données
61) Comment rechercher une chaîne spécifique dans MySQL colonne de tableau ?
Utilisez l'opérateur regex pour rechercher une chaîne dans MySQL colonne. Ici, nous pouvons également définir différents types d'expressions régulières et rechercher à l'aide de regex.
62) Expliquez comment l'analyse des données et le Big Data peuvent augmenter les revenus de l'entreprise ?
Voici comment l’analyse des données et le Big Data peuvent augmenter les revenus de l’entreprise :
- Utilisez les données efficacement pour assurer la croissance de votre entreprise.
- Augmenter la valeur client.
- Devenir analytique pour améliorer les prévisions des effectifs.
- Réduire les coûts de production des organisations.
Ces questions d'entretien vous aideront également dans votre soutenance