Die 25 wichtigsten Fragen und Antworten zu ETL-Testinterviews für 2025

Hier finden Sie Fragen und Antworten zu ETL-Testing-Interviews für neue und erfahrene Kandidaten, die ihren Traumjob bekommen möchten.

 

Fragen zum ETL-Testinterview für Erstsemester


1) Was ist ETL?

In der Data Warehousing-Architektur ist ETL eine wichtige Komponente, die die Daten für jeden Geschäftsprozess verwaltet. ETL steht für Extrahieren, transformieren und Laden Sie. Mit Extract werden Daten aus einer Datenbank gelesen. Transform konvertiert Daten in ein Format, das für Berichte und Analysen geeignet sein könnte. Währenddessen übernimmt Load den Vorgang des Schreibens der Daten in die Zieldatenbank.

👉Kostenloser PDF-Download: Fragen und Antworten zum ETL-Testinterview


2) Erklären Sie, was die ETL-Testvorgänge beinhalten.

ETL-Tests umfassen:

  • Überprüfen Sie, ob die Daten entsprechend den Geschäftsanforderungen korrekt transformiert werden
  • Stellen Sie sicher, dass die projizierten Daten ohne Kürzungen und Datenverlust in das Data Warehouse geladen werden
  • Stellen Sie sicher, dass die ETL-Anwendung ungültige Daten meldet und durch Standardwerte ersetzt
  • Stellen Sie sicher, dass die Daten im erwarteten Zeitrahmen geladen werden, um die Skalierbarkeit und Leistung zu verbessern

ETL-Prozess
ETL


3) Erwähnen Sie, welche Arten von Data Warehouse-Anwendungen es gibt und was der Unterschied zwischen Data Mining und Data Warehousing ist.

Es gibt folgende Arten von Data-Warehouse-Anwendungen:

  • Informationsverarbeitung
  • Analytische Verarbeitung
  • Data Mining

Data Mining kann als der Prozess des Extrahierens versteckter Vorhersageinformationen aus großen Datenbanken und der Interpretation der Daten definiert werden, während Data Warehousing eine Datenmine für eine schnellere analytische Verarbeitung der Daten nutzen kann. Data Warehousing ist der Prozess der Aggregation von Daten aus mehreren Quellen in einem gemeinsamen Repository


4) Welche verschiedenen Tools werden in ETL verwendet?

  • Cognos-Entscheidungsstrom
  • Oracle Lagerbauer
  • Geschäftsobjekte XI
  • SAS-Geschäftslager
  • SAS Enterprise ETL-Server

5) Was ist eine Tatsache? Welche Arten von Fakten gibt es?

Es ist zentraler Bestandteil eines mehrdimensionalen Modells, das die zu analysierenden Maßnahmen enthält. Fakten beziehen sich auf Dimensionen.

Arten von Fakten sind

  • Additive Fakten
  • Halbadditive Fakten
  • Nichtadditive Fakten

6) Erklären Sie, was Cubes und OLAP-Cubes sind.

Cubes sind Datenverarbeitungseinheiten, die aus Faktentabellen und Dimensionen aus dem Data Warehouse bestehen. Es bietet eine mehrdimensionale Analyse.

OLAP steht für Online Analytics Processing und der OLAP-Cube speichert große Datenmengen in mehrdimensionaler Form für Berichtszwecke. Es besteht aus Fakten, die als Kennzahlen bezeichnet werden und nach Dimensionen kategorisiert sind.


7) Erklären Sie, was die Rückverfolgungsstufe ist und welche Arten es gibt.

Die Nachverfolgungsstufe ist die Menge der in den Protokolldateien gespeicherten Daten. Die Verfolgungsebene kann in zwei Kategorien unterteilt werden: „Normal“ und „Ausführlich“. Die normale Ebene erklärt die Verfolgungsebene ausführlich, während ausführlich die Verfolgungsebenen in jeder einzelnen Zeile erläutert werden.


8) Erklären Sie, was „Grain of Fact“ ist.

Grain-Fakten können als die Ebene definiert werden, auf der die Fakteninformationen gespeichert werden. Es wird auch als Faktengranularität bezeichnet


9) Erklären Sie, was ein faktenloses Faktenschema ist und was Maßnahmen sind.

Eine Faktentabelle ohne Kennzahlen wird als faktenlose Faktentabelle bezeichnet. Es kann die Anzahl der auftretenden Ereignisse anzeigen. Es wird beispielsweise verwendet, um ein Ereignis wie die Mitarbeiterzahl in einem Unternehmen aufzuzeichnen.

Die numerischen Daten, die auf Spalten in einer Faktentabelle basieren, werden als Kennzahlen bezeichnet


10) Erklären Sie, was Transformation ist?

Eine Transformation ist ein Repository-Objekt, das Daten generiert, ändert oder weitergibt. Es gibt zwei Arten von Transformationen: Aktiv und Passiv


Fragen und Antworten zum ETL-Entwicklerinterview für Erfahrene

11) Erklären Sie die Verwendung der Lookup-Transformation?

Die Lookup-Transformation ist nützlich für

  • Abrufen eines zugehörigen Werts aus einer Tabelle mithilfe eines Spaltenwerts
  • Aktualisieren Sie die sich langsam ändernde Dimensionstabelle
  • Überprüfen Sie, ob in der Tabelle bereits Datensätze vorhanden sind

12) Erklären Sie, was Partitionierung, Hash-Partitionierung und Round-Robin-Partitionierung ist.

Um die Leistung zu verbessern, werden Transaktionen unterteilt, dies wird als Partitionierung bezeichnet. Partitionierung ermöglicht Informatik Server zum Erstellen mehrerer Verbindungen zu verschiedenen Quellen

Die Arten von Partitionen sind

Round-Robin-Partitionierung:

  • Durch Informatica werden die Daten gleichmäßig auf alle Partitionen verteilt
  • In jeder Partition, in der die Anzahl der zu verarbeitenden Zeilen ungefähr gleich ist, ist diese Partitionierung anwendbar

Hash-Partitionierung:

  • Zum Zweck der Partitionierung von Schlüsseln zur Gruppierung von Daten auf Partitionen wendet der Informatica-Server eine Hash-Funktion an
  • Es wird verwendet, um sicherzustellen, dass die Prozesse Gruppen von Zeilen mit demselben Partitionierungsschlüssel in derselben Partition sichergestellt werden müssen

13) Erwähnen Sie den Vorteil der Verwendung des DataReader-Zieladapters.

Der Vorteil der Verwendung des DataReader-Zieladapters besteht darin, dass er einen auffüllt ADO-Recordset (bestehend aus Datensätzen und Spalten) im Speicher und macht die Daten aus der DataFlow-Aufgabe durch Implementierung der DataReader-Schnittstelle verfügbar, sodass andere Anwendungen die Daten nutzen können.


14) Welche Möglichkeiten gibt es, die Tabelle mit SSIS (SQL Server Integration Service) zu aktualisieren?

Um die Tabelle mithilfe von SSIS zu aktualisieren, gibt es folgende Möglichkeiten:

  • Verwenden SQL Befehl
  • Verwenden Sie eine Staging-Tabelle
  • Cache verwenden
  • Verwenden Sie die Skriptaufgabe
  • Verwenden Sie zum Aktualisieren den vollständigen Datenbanknamen, wenn MSSQL verwendet wird

15) Was würden Sie tun, wenn Sie für die Suche eine Nicht-OLEDB-Quelle (Object Linking and Embedding Database) haben?

Falls Sie für die Suche eine Nicht-OLEBD-Quelle haben, müssen Sie den Cache verwenden, um Daten zu laden und als Quelle zu verwenden


16) In welchem ​​Fall verwenden Sie dynamischen Cache und statischen Cache in verbundenen und nicht verbundenen Transformationen?

  • Dynamischer Cache wird verwendet, wenn Sie die Mastertabelle und sich langsam ändernde Dimensionen (SCD) Typ 1 aktualisieren müssen
  • Für Flatfiles wird der statische Cache verwendet

17) Erklären Sie, was die Unterschiede zwischen der nicht verbundenen und der verbundenen Suche sind.

Verbundene Suche Nicht verbundene Suche
Die verbundene Suche beteiligt sich an der Zuordnung Es wird verwendet, wenn beim Mapping eine Suchfunktion anstelle einer Ausdruckstransformation verwendet wird
Es können mehrere Werte zurückgegeben werden Gibt nur einen Ausgabeport zurück
Es kann mit anderen Transformationen verbunden werden und gibt einen Wert zurück Eine weitere Transformation kann nicht angeschlossen werden
Für die verbundene Suche kann statischer oder dynamischer Cache verwendet werden Nicht verbunden, da nur statischer Cache
Connected Lookup unterstützt benutzerdefinierte Standardwerte Die nicht verbundene Suche unterstützt keine benutzerdefinierten Standardwerte
Beim Connected Lookup können mehrere Spalten aus derselben Zeile zurückgegeben oder in den dynamischen Lookup-Cache eingefügt werden Eine nicht verbundene Suche bestimmt einen Rückgabeport und gibt eine Spalte aus jeder Zeile zurück

18) Erklären Sie, was eine Datenquellenansicht ist.

Eine Datenquellenansicht ermöglicht die Definition des relationalen Schemas, das in den Datenbanken der Analysedienste verwendet wird. Anstatt direkt aus Datenquellenobjekten werden Dimensionen und Cubes aus Datenquellenansichten erstellt.


19) Erklären Sie, was der Unterschied zwischen OLAP-Tools und ETL-Tools ist.

Der Unterschied zwischen ETL- und OLAP-Tool besteht darin

ETL-Tool ist für die Extraktion von Daten aus den Altsystemen und das Laden in eine bestimmte Datenbank mit einem gewissen Datenbereinigungsprozess gedacht.

Beispiel: Datenphase, Informatica usw.

Während OLAP für Berichtszwecke gedacht ist, stehen OLAP-Daten im multidirektionalen Modell zur Verfügung.

Beispiel: Business Objects, Cognos usw.


20) Wie Sie extrahieren können SAP Daten mit Informatica?

  • Mit der Power Connect Option extrahieren Sie SAP Daten mit Informatica
  • Installieren und konfigurieren Sie das PowerConnect-Tool
  • Importieren Sie die Quelle in den Source Analyzer. Zwischen Informatica und SAP Powerconnect fungiert als Gateway. Der nächste Schritt besteht darin, den ABAP-Code für das Mapping zu generieren, aus dem nur Informatica Daten abrufen kann. SAP
  • Zum Anschließen und Importieren von Quellen aus externen Systemen wird Power Connect verwendet

21) Erwähnen Sie, was der Unterschied zwischen Power Mart und Power Center ist?

Kraftzentrum Power Mart
Angenommen, es soll eine große Datenmenge verarbeitet werden Angenommen, es soll ein geringes Datenvolumen verarbeitet werden
Es unterstützt ERP-Quellen wie SAP, Leute weich usw. Es unterstützt keine ERP-Quellen
Es unterstützt lokale und globale Repositorys Es unterstützt lokale Repositorys
Es wandelt ein lokales in ein globales Repository um Es gibt keine Spezifikation zum Konvertieren eines lokalen in ein globales Repository

22) Erklären Sie, was ein Bereitstellungsbereich ist und welchen Zweck ein Bereitstellungsbereich hat.

Data Staging ist ein Bereich, in dem Sie die Daten vorübergehend auf einem Data Warehouse-Server speichern. Data Staging umfasst die folgenden Schritte

  • Quelldatenextraktion und Datentransformation (Restrukturierung)
  • Datentransformation (Datenbereinigung, Wertetransformation)
  • Ersatztastenbelegungen

23) Was ist ein Busschema?

Um die gemeinsamen Dimensionen der verschiedenen Geschäftsprozesse zu identifizieren, wird das BUS-Schema verwendet. Es verfügt über angepasste Abmessungen und eine standardisierte Informationsdefinition


24) Erklären Sie, was Datenbereinigung ist.

Bei der Datenbereinigung handelt es sich um einen Prozess zum Löschen von Daten aus dem Data Warehouse. Es löscht Junk-Daten wie Zeilen mit Nullwerten oder zusätzlichen Leerzeichen.


25) Erklären Sie, was Schemaobjekte sind.

Schemaobjekte sind die logische Struktur, die direkt auf die Datenbankdaten verweist. Schemaobjekte umfassen Tabellen, Ansichten, Sequenzsynonyme, Indizes, Cluster, Funktionspakete und Datenbanklinks.


26) Erklären Sie diese Begriffe Sitzung, Worklet, Mapplet und Workflow?

  • Mapplet: Es arrangiert oder erstellt Transformationssätze
  • Worklet: Es stellt eine bestimmte Reihe von Aufgaben dar
  • Workflow: Dabei handelt es sich um eine Reihe von Anweisungen, die dem Server mitteilen, wie er Aufgaben ausführen soll
  • Session: Dabei handelt es sich um eine Reihe von Parametern, die dem Server mitteilen, wie Daten von Quellen zum Ziel verschoben werden sollen

Diese Interviewfragen helfen auch bei Ihrer mündlichen Prüfung