Top 25 des questions et réponses d'entretien de test ETL pour 2024
Questions d'entretien de test ETL pour les débutants
1) Qu'est-ce qu'ETL ?
Dans l'architecture d'entreposage de données, ETL est un composant important qui gère les données de tout processus métier. ETL signifie Extraire, Transformer et le Charge. Extract effectue le processus de lecture des données d'une base de données. Transform effectue la conversion des données dans un format qui pourrait être approprié pour le reporting et l'analyse. Tandis que le chargement effectue le processus d'écriture des données dans la base de données cible.
👉 Téléchargement PDF gratuit : Questions et réponses sur les entretiens de test ETL
2) Expliquez ce que comprennent les opérations de test ETL ?
Les tests ETL comprennent :
- Vérifiez si les données se transforment correctement selon les exigences de l'entreprise
- Vérifiez que les données projetées sont chargées dans l'entrepôt de données sans aucune troncature ni perte de données
- Assurez-vous que l'application ETL signale les données invalides et les remplace par les valeurs par défaut
- Assurez-vous que les données se chargent dans les délais prévus pour améliorer l'évolutivité et les performances.
3) Mentionnez quels sont les types d'applications d'entrepôt de données et quelle est la différence entre l'exploration de données et l'entreposage de données ?
Les types d'applications d'entrepôt de données sont
- Traitement des informations
- Traitement analytique
- Data Mining
L'exploration de données peut être défini comme le processus d'extraction d'informations prédictives cachées à partir de grandes bases de données et d'interprétation des données, tandis que l'entreposage de données peut utiliser une mine de données pour un traitement analytique des données de manière plus rapide. Entreposage de données est le processus d'agrégation de données provenant de plusieurs sources dans un référentiel commun
4) Quels sont les différents outils utilisés en ETL ?
- Flux de décision Cognos
- Oracle Constructeur d'entrepôt
- Objets métier XI
- Entrepôt d'affaires SAS
- Serveur ETL SAS Entreprise
5) Qu’est-ce qu’un fait ? Quels sont les types de faits ?
Il s'agit d'un élément central d'un modèle multidimensionnel qui contient les mesures à analyser. Les faits sont liés aux dimensions.
Les types de faits sont
- Faits Additifs
- Faits semi-additifs
- Faits non additifs
6) Expliquez que sont les cubes et les cubes OLAP ?
Les cubes sont des unités de traitement de données composées de tables de faits et de dimensions provenant de l'entrepôt de données. Il fournit une analyse multidimensionnelle.
OLAP signifie Online Analytics Processing et le cube OLAP stocke des données volumineuses sous une forme multidimensionnelle à des fins de reporting. Il se compose de faits appelés mesures classés par dimensions.
7) Expliquez ce qu'est le niveau de traçage et quels en sont les types ?
Le niveau de traçage correspond à la quantité de données stockées dans les fichiers journaux. Le niveau de traçage peut être classé en deux niveaux Normal et Verbeux. Le niveau normal explique le niveau de traçage de manière détaillée tandis que le niveau détaillé explique les niveaux de traçage à chaque ligne.
8) Expliquez ce qu'est le Grain de Fait ?
Les faits sur les grains peuvent être définis comme le niveau auquel les informations factuelles sont stockées. Il est également connu sous le nom de granularité des faits.
9) Expliquez ce qu'est un schéma factuel dénué de faits et qu'est-ce que les mesures ?
Une table de faits sans mesures est appelée table de faits sans faits. Il peut afficher le nombre d'événements survenus. Par exemple, il est utilisé pour enregistrer un événement tel que le nombre d’employés dans une entreprise.
Les données numériques basées sur les colonnes d'une table de faits sont appelées mesures.
10) Expliquez qu'est-ce que la transformation ?
Une transformation est un objet référentiel qui génère, modifie ou transmet des données. Les transformations sont de deux types Active et Passive
Questions et réponses d'entretien avec les développeurs ETL pour les expérimentés
11) Expliquez l'utilisation de la transformation Lookup ?
La transformation Recherche est utile pour
- Obtenir une valeur associée à partir d'une table à l'aide d'une valeur de colonne
- Mettre à jour la table des dimensions qui change lentement
- Vérifier si des enregistrements existent déjà dans la table
12) Expliquez ce qu'est le partitionnement, le partitionnement par hachage et le partitionnement circulaire ?
Pour améliorer les performances, les transactions sont subdivisées, c'est ce qu'on appelle le partitionnement. Le partitionnement permet informatique Serveur pour la création de connexions multiples à diverses sources
Les types de partitions sont
Partitionnement circulaire :
- Par Informatica, les données sont réparties uniformément entre toutes les partitions
- Dans chaque partition où le nombre de lignes à traiter est approximativement le même, ce partitionnement est applicable
Partitionnement de hachage :
- Dans le but de partitionner les clés pour regrouper les données entre les partitions, le serveur Informatica applique une fonction de hachage
- Il est utilisé pour garantir que les groupes de processus de lignes avec la même clé de partitionnement dans la même partition doivent être garantis
13) Mentionnez quel est l'avantage d'utiliser l'adaptateur de destination DataReader ?
L'avantage d'utiliser l'adaptateur de destination DataReader est qu'il remplit un Jeu d'enregistrements ADO (constitué d'enregistrements et de colonnes) en mémoire et expose les données de la tâche DataFlow en implémentant l'interface DataReader, afin qu'une autre application puisse consommer les données.
14) À l'aide de SSIS (SQL Server Integration Service), quelles sont les manières possibles de mettre à jour la table ?
Pour mettre à jour la table à l'aide de SSIS, les méthodes possibles sont :
- Utiliser un SQL commander
- Utiliser une table intermédiaire
- Utiliser le cache
- Utiliser la tâche de script
- Utiliser le nom complet de la base de données pour la mise à jour si MSSQL est utilisé
15) Si vous disposez d'une source non OLEDB (Object Linking and Embedding Database) pour la recherche, que feriez-vous ?
Si vous disposez d'une source non OLEBD pour la recherche, vous devez utiliser le cache pour charger les données et les utiliser comme source.
16) Dans quel cas utilisez-vous le cache dynamique et le cache statique dans les transformations connectées et non connectées ?
- Le cache dynamique est utilisé lorsque vous devez mettre à jour la table principale et les dimensions à changement lent (SCD) de type 1.
- Pour les fichiers plats, un cache statique est utilisé
17) Expliquez quelles sont les différences entre les recherches non connectées et connectées ?
Recherche connectée | Recherche non connectée |
---|---|
La recherche connectée participe à la cartographie | Il est utilisé lorsque la fonction de recherche est utilisée à la place d'une transformation d'expression lors du mappage |
Plusieurs valeurs peuvent être renvoyées | Ne renvoie qu'un seul port de sortie |
Il peut être connecté à une autre transformation et renvoie une valeur | Une autre transformation ne peut pas être connectée |
Le cache statique ou dynamique peut être utilisé pour la recherche connectée | Non connecté car seul cache statique |
La recherche connectée prend en charge les valeurs par défaut définies par l'utilisateur | La recherche non connectée ne prend pas en charge les valeurs par défaut définies par l'utilisateur |
Dans Connected Lookup, plusieurs colonnes peuvent être renvoyées à partir de la même ligne ou insérées dans le cache de recherche dynamique | La recherche non connectée désigne un port de retour et renvoie une colonne de chaque ligne |
18) Expliquez qu'est-ce que la vue de la source de données ?
Une vue source de données permet de définir le schéma relationnel qui sera utilisé dans les bases de données des services d'analyse. Plutôt que directement à partir des objets de source de données, les dimensions et les cubes sont créés à partir de vues de source de données.
19) Expliquez quelle est la différence entre les outils OLAP et les outils ETL ?
La différence entre les outils ETL et OLAP est que
Outil ETL est destiné à l'extraction de données des systèmes existants et à leur chargement dans une base de données spécifiée avec un processus de nettoyage des données.
Mise en situation : Étape de données, Informatica, etc.
Alors qu'OLAP est destiné à des fins de reporting dans les données OLAP disponibles dans un modèle multidirectionnel.
Mise en situation : Objets métiers, Cognos, etc.
20) Comment extraire SAP des données à l'aide d'Informatica ?
- Avec l'option de connexion électrique, vous extrayez SAP données utilisant Informatica
- Installer et configurer l'outil PowerConnect
- Importez la source dans Source Analyzer. Entre Informatica et SAP Powerconnect agit comme une passerelle. L'étape suivante consiste à générer le code ABAP pour le mappage. Seul Informatica peut alors extraire les données de SAP
- Pour connecter et importer des sources à partir de systèmes externes, Power Connect est utilisé
21) Mentionnez quelle est la différence entre Power Mart et Power Center ?
Centre d'alimentation | Marché électrique |
---|---|
Supposons que nous traitions un énorme volume de données | Supposons que nous traitions un faible volume de données |
Il prend en charge les sources ERP telles que SAP, les gens doux, etc. | Il ne prend pas en charge les sources ERP |
Il prend en charge le référentiel local et global | Il prend en charge le référentiel local |
Il convertit le local en référentiel global | Il n'a aucune spécification pour convertir le local en référentiel global |
22) Expliquez ce qu'est une zone de rassemblement et à quoi sert une zone de rassemblement ?
La préparation des données est une zone dans laquelle vous conservez les données temporairement sur le serveur de l'entrepôt de données. La mise en scène des données comprend les étapes suivantes
- Extraction des données sources et transformation des données (restructuration)
- Transformation des données (nettoyage des données, transformation de la valeur)
- Attributions de clés de substitution
23) Qu'est-ce que le schéma de bus ?
Pour que les différents processus métier identifient les dimensions communes, le schéma BUS est utilisé. Il est livré avec des dimensions conformes ainsi qu'une définition standardisée des informations
24) Expliquez qu'est-ce que la purge des données ?
La purge des données est un processus de suppression de données de l'entrepôt de données. Il supprime les données indésirables comme les lignes avec des valeurs nulles ou des espaces supplémentaires.
25) Expliquez que sont les objets de schéma ?
Les objets de schéma sont la structure logique qui fait directement référence aux données de la base de données. Les objets de schéma incluent des tables, des vues, des synonymes de séquence, des index, des clusters, des packages de fonctions et des liens de base de données.
26) Expliquez ces termes Session, Worklet, Mapplet et Workflow ?
- Mapplet : Il arrange ou crée des ensembles de transformation
- Worklet : Il représente un ensemble spécifique de tâches confiées
- Workflow: C'est un ensemble d'instructions qui indiquent au serveur comment exécuter les tâches
- Session: Il s'agit d'un ensemble de paramètres qui indiquent au serveur comment déplacer les données des sources vers la cible.
Ces questions d'entretien vous aideront également dans votre soutenance