Über 60 Fragen und Antworten zum Vorstellungsgespräch als Data Engineer im Jahr 2025

Hier finden Sie Fragen und Antworten zu Vorstellungsgesprächen im Bereich Data Engineering für sowohl neue als auch erfahrene Data Engineer-Kandidaten, die ihren Traumjob bekommen möchten.

 

Fragen zum Vorstellungsgespräch als Dateningenieur für Erstsemester

1) Erklären Sie Data Engineering.

Data Engineering ist ein Begriff aus dem Bereich Big Data. Der Schwerpunkt liegt auf der Anwendung der Datenerhebung und -forschung. Bei den aus verschiedenen Quellen generierten Daten handelt es sich lediglich um Rohdaten. Data Engineering hilft dabei, diese Rohdaten in nützliche Informationen umzuwandeln.


2) Was ist Datenmodellierung?

Datenmodellierung ist die Methode, komplexe Softwareentwürfe als Diagramm zu dokumentieren, sodass sie für jeden leicht verständlich sind. Es handelt sich um eine konzeptionelle Darstellung von Datenobjekten, die zwischen verschiedenen Datenobjekten und den Regeln verknüpft sind.

Datenmodellierung


3) Listen Sie verschiedene Arten von Entwurfsschemata in der Datenmodellierung auf

Bei der Datenmodellierung gibt es hauptsächlich zwei Arten von Schemata: 1) Sternschema und 2) Schneeflockenschema.


4) Unterscheiden Sie zwischen strukturierten und unstrukturierten Daten

Es gibt folgende Unterschiede zwischen strukturierten und unstrukturierten Daten:

Parameter Strukturierte Daten Unstrukturierte Daten
Lagerung DBMS Nicht verwaltete Dateistrukturen
Standard ADO.net, ODBC und SQL STMP, XML, CSV und SMS
Integrationstool ELT (Extrahieren, Transformieren, Laden) Manuelle Dateneingabe oder Stapelverarbeitung mit Codes
Skalierung Die Schemaskalierung ist schwierig Die Skalierung ist sehr einfach.

5) Erklären Sie alle Komponenten einer Hadoop-Anwendung

Es folgen die Komponenten der Hadoop-Anwendung:

Hadoop-Ökosystem und -Komponenten

  • Hadoop-Common: Dabei handelt es sich um einen gemeinsamen Satz von Dienstprogrammen und Bibliotheken, die von Hadoop verwendet werden.
  • HDFS: Diese Hadoop-Anwendung bezieht sich auf das Dateisystem, in dem die Hadoop-Daten gespeichert sind. Es handelt sich um ein verteiltes Dateisystem mit hoher Bandbreite.
  • Hadoop MapReduce: Es basiert auf dem Algorithmus zur Bereitstellung einer groß angelegten Datenverarbeitung.
  • Hadoop-GARN: Es wird für die Ressourcenverwaltung innerhalb des Hadoop-Clusters verwendet. Es kann auch zur Aufgabenplanung für Benutzer verwendet werden.

6) Was ist NameNode?

Es ist das Herzstück von HDFS. Es speichert Daten von HDFS und verfolgt verschiedene Dateien über die Cluster hinweg. Die eigentlichen Daten werden hier nicht gespeichert. Die Daten werden in DataNodes gespeichert.


7) Definieren Sie Hadoop-Streaming

Es handelt sich um ein Dienstprogramm, mit dem sich Karten- und Reduced-Jobs erstellen und an einen bestimmten Cluster übermitteln lassen.


8) Was ist die vollständige Form von HDFS?

HDFS steht für Hadoop Distributed File System.


9) Definieren Sie Block und Blockscanner in HDFS

Blöcke sind die kleinste Einheit einer Datendatei. Hadoop teilt große Dateien automatisch in kleine Teile auf.

Der Blockscanner überprüft die Liste der Blöcke, die auf einem DataNode angezeigt werden.


10) Welche Schritte werden ausgeführt, wenn der Block Scanner einen beschädigten Datenblock erkennt?

Im Folgenden sind die Schritte aufgeführt, die ausgeführt werden, wenn der Block Scanner einen beschädigten Datenblock findet:

1) Wenn der Blockscanner zunächst einen beschädigten Datenblock findet, meldet DataNode dies an NameNode

2) NameNode startet den Prozess der Erstellung eines neuen Replikats unter Verwendung eines Replikats des beschädigten Blocks.

3) Die Replikationsanzahl der richtigen Replikate versucht, mit dem Replikationsfaktor übereinzustimmen. Wenn eine Übereinstimmung gefunden wird, wird der beschädigte Datenblock nicht gelöscht.


11) Nennen Sie zwei Nachrichten, die NameNode von DataNode erhält?

Es gibt zwei Nachrichten, die NameNode von DataNode erhält. Dies sind 1) Blockbericht und 2) Heartbeat.


12) Verschiedene XML-Konfigurationsdateien in Hadoop auflisten?

Es gibt fünf XML-Konfigurationsdateien in Hadoop:

  • Mapred-Site
  • Kernseite
  • HDFS-Site
  • Garnseite

13) Was sind die vier Vs von Big Data?

Vier Vs von Big Data sind:

  • Geschwindigkeit
  • Vielfalt
  • Volume
  • Richtigkeit

14) Erklären Sie die Funktionen von Hadoop

Wichtige Funktionen von Hadoop sind:

  • Es handelt sich um ein Open-Source-Framework, das als Freeware erhältlich ist.
  • Hadoop ist mit vielen Arten von Hardware kompatibel und ermöglicht den einfachen Zugriff auf neue Hardware innerhalb eines bestimmten Knotens.
  • Hadoop unterstützt eine schnellere verteilte Verarbeitung von Daten.
  • Es speichert die Daten im Cluster, unabhängig von den restlichen Vorgängen.
  • Hadoop ermöglicht die Erstellung von 3 Replikaten für jeden Block mit unterschiedlichen Knoten.

15) Erklären Sie die Hauptmethoden von Reducer

  • setup(): Wird zum Konfigurieren von Parametern wie der Größe der Eingabedaten und des verteilten Caches verwendet.
  • cleanup(): Diese Methode wird zum Bereinigen temporärer Dateien verwendet.
  • redu(): Es ist ein Herzstück des Reduzierers, der einmal pro Taste mit der zugehörigen reduzierten Aufgabe aufgerufen wird

16) Wie lautet die Abkürzung von COSHH?

Die Abkürzung COSHH steht für Classification and Optimization based Schedule for Heterogeneous Hadoop systems.


17) Erklären Sie das Sternenschema

Sternschema oder Star-Join-Schema ist die einfachste Art von Data Warehouse-Schema. Es ist als Sternschema bekannt, weil seine Struktur einem Stern ähnelt. Im Sternschema kann die Mitte des Sterns eine Faktentabelle und mehrere zugehörige Dimensionstabellen haben. Dieses Schema wird zum Abfragen großer Datensätze verwendet.


18) Wie stellt man eine Big-Data-Lösung bereit?

Befolgen Sie die folgenden Schritte, um eine Big Data-Lösung bereitzustellen.

1) Integrieren Sie Daten mithilfe von Datenquellen wie RDBMS, SAP, MySQL, Salesforce
2) Speichern Sie die extrahierten Daten entweder in einer NoSQL-Datenbank oder in HDFS.
3) Stellen Sie eine Big-Data-Lösung mithilfe von Verarbeitungs-Frameworks wie Pig bereit. Sparkund MapReduce.


19) Erklären Sie FSCK

File System Check oder FSCK ist ein von HDFS verwendeter Befehl. Der Befehl FSCK wird verwendet, um Inkonsistenzen und Probleme in der Datei zu überprüfen.


20) Erklären Sie das Snowflake-Schema

A Schneeflockenschema ist eine Erweiterung eines Sternschemas und fügt zusätzliche Dimensionen hinzu. Sie wird Schneeflocke genannt, weil ihr Diagramm wie eine Schneeflocke aussieht. Die Dimensionstabellen sind normalisiert, d. h. die Daten werden in zusätzliche Tabellen aufgeteilt.


21) Unterscheiden Sie zwischen Stern- und Schneeflockenschema

Star SnowFlake-Schema
Dimensionshierarchien werden in Dimensionstabellen gespeichert. Jede Hierarchie wird in separaten Tabellen gespeichert.
Die Wahrscheinlichkeit einer Datenredundanz ist hoch Die Wahrscheinlichkeit einer Datenredundanz ist gering.
Es hat ein sehr einfaches DB-Design Es verfügt über ein komplexes DB-Design
Bieten Sie eine schnellere Möglichkeit zur Cube-Verarbeitung Aufgrund der komplexen Verknüpfung ist die Cube-Verarbeitung langsam.

22) Erklären Sie das verteilte Hadoop-Dateisystem

Hadoop arbeitet mit skalierbaren verteilten Dateisystemen wie S3, HFTP FS, FS und HDFS. Das Hadoop Distributed File System basiert auf dem Google File System. Dieses Dateisystem ist so konzipiert, dass es problemlos auf einem großen Cluster des Computersystems ausgeführt werden kann.


23) Erklären Sie die Hauptaufgaben eines Dateningenieurs

Dateningenieure haben viele Aufgaben. Sie verwalten das Quellsystem der Daten. Dateningenieure vereinfachen komplexe Datenstrukturen und verhindern die Duplizierung von Daten. Häufig bieten sie auch ELT und Datentransformation an.


24) Was ist die vollständige Form von YARN?

Die vollständige Form von YARN ist Yet Another Resource Negotiator.


25) Listen Sie verschiedene Modi in Hadoop auf

Modi in Hadoop sind 1) Standalone-Modus 2) Pseudoverteilter Modus 3) Vollständig verteilter Modus.


26) Wie erreicht man Sicherheit in Hadoop?

Führen Sie die folgenden Schritte aus, um Sicherheit in Hadoop zu erreichen:

1) Der erste Schritt besteht darin, den Authentifizierungskanal des Clients zum Server zu sichern. Stellen Sie dem Kunden einen Zeitstempel zur Verfügung.
2) Im zweiten Schritt nutzt der Client den empfangenen Zeitstempel, um bei TGS ein Serviceticket anzufordern.
3) Im letzten Schritt verwendet der Client das Serviceticket zur Selbstauthentifizierung bei einem bestimmten Server.


27) Was ist Heartbeat in Hadoop?

In Hadoop kommunizieren NameNode und DataNode miteinander. Heartbeat ist das Signal, das DataNode regelmäßig an NameNode sendet, um seine Anwesenheit anzuzeigen.


28) Unterscheiden Sie zwischen NAS und DAS in Hadoop

NAS DAS
Die Speicherkapazität beträgt 109 zu 1012 in Byte. Die Speicherkapazität beträgt 109 in Byte.
Die Verwaltungskosten pro GB sind moderat. Die Verwaltungskosten pro GB sind hoch.
Übertragen Sie Daten über Ethernet oder TCP/IP. Übertragen Sie Daten über IDE/SCSI

29) Listen Sie wichtige Felder oder Sprachen auf, die vom Dateningenieur verwendet werden

Hier sind einige Felder oder Sprachen, die von Dateningenieuren verwendet werden:

  • Wahrscheinlichkeit sowie lineare Algebra
  • Maschinelles Lernen
  • Trendanalyse und Regression
  • Hive QL- und SQL-Datenbanken

30) Was ist Big Data?

Es handelt sich um eine große Menge strukturierter und unstrukturierter Daten, die mit herkömmlichen Datenspeichermethoden nicht einfach verarbeitet werden können. Dateningenieure nutzen Hadoop zur Verwaltung großer Datenmengen.


Fragen im Vorstellungsgespräch zum Dateningenieur für Erfahrene

31) Was ist FIFO-Planung?

Es handelt sich um einen Hadoop-Jobplanungsalgorithmus. Bei dieser FIFO-Planung wählt ein Reporter Jobs aus einer Arbeitswarteschlange aus, wobei der älteste Job zuerst ist.


32) Nennen Sie die Standard-Portnummern, auf denen Task Tracker, NameNode und Job Tracker in Hadoop ausgeführt werden

Die Standard-Portnummern, auf denen Task Tracker, NameNode und Job Tracker in Hadoop ausgeführt werden, lauten wie folgt:

  • Der Task-Tracker läuft auf Port 50060
  • NameNode läuft auf Port 50070
  • Job Tracker läuft auf Port 50030

33) So deaktivieren Sie den Blockscanner auf dem HDFS-Datenknoten

Um den Blockscanner auf dem HDFS-Datenknoten zu deaktivieren, setzen Sie dfs.datanode.scan.period.hours auf 0.


34) Wie definiere ich den Abstand zwischen zwei Knoten in Hadoop?

Der Abstand entspricht der Summe des Abstands zu den nächstgelegenen Knoten. Mit der Methode getDistance() wird der Abstand zwischen zwei Knoten berechnet.


35) Warum Standardhardware in Hadoop verwenden?

Standardhardware ist leicht zu bekommen und erschwinglich. Es ist ein System, das kompatibel ist mit Windows, MS-DOS oder Linux.


36) Replikationsfaktor in HDFS definieren

Der Replikationsfaktor ist die Gesamtzahl der Replikate einer Datei im System.


37) Welche Daten werden in NameNode gespeichert?

Namenode speichert die Metadaten für das HDFS wie Blockinformationen und Namespace-Informationen.


38) Was meinst du mit Rack Awareness?

Im Haddop-Cluster verwendet Namenode den Datanode, um den Netzwerkverkehr beim Lesen oder Schreiben von Dateien zu verbessern, die sich näher am Rack befinden, um Lese- oder Schreibanforderungen zu erfüllen. Namenode verwaltet die Rack-ID jedes DataNode, um Rack-Informationen zu erhalten. Dieses Konzept wird in Hadoop als Rack Awareness bezeichnet.


39) Welche Funktionen hat Secondary NameNode?

Im Folgenden sind die Funktionen des sekundären NameNode aufgeführt:

  • FsImage, das eine Kopie der EditLog- und FsImage-Datei speichert.
  • NameNode-Absturz: Wenn der NameNode abstürzt, kann das FsImage des sekundären NameNode verwendet werden, um den NameNode neu zu erstellen.
  • Prüfpunkt: Wird vom sekundären NameNode verwendet, um zu bestätigen, dass die Daten in HDFS nicht beschädigt sind.
  • Update: Es aktualisiert automatisch die EditLog- und FsImage-Datei. Es hilft, die FsImage-Datei auf dem sekundären NameNode auf dem neuesten Stand zu halten.

40) Was passiert, wenn NameNode nicht verfügbar ist und der Benutzer einen neuen Job sendet?

NameNode ist der Single Point of Failure in Hadoop, sodass der Benutzer keinen neuen Job senden und nicht ausführen kann. Wenn der NameNode ausgefallen ist, schlägt der Job möglicherweise fehl, da der Benutzer warten muss, bis NameNode neu gestartet wird, bevor er einen Job ausführen kann.


41) Was sind die grundlegenden Phasen des Reduzierers in Hadoop?

Es gibt drei grundlegende Phasen eines Reduzierers in Hadoop:

1. Shuffle: Hier kopiert Reducer die Ausgabe von Mapper.

2. Sortieren: Beim Sortieren sortiert Hadoop die Eingabe an Reducer mit demselben Schlüssel.

3. Reduzieren: In dieser Phase werden die einem Schlüssel zugeordneten Ausgabewerte reduziert, um die Daten in der endgültigen Ausgabe zu konsolidieren.


42) Warum verwendet Hadoop ein Kontextobjekt?

Das Hadoop-Framework verwendet das Context-Objekt mit der Mapper-Klasse, um mit dem restlichen System zu interagieren. Das Context-Objekt erhält in seinem Konstruktor die Systemkonfigurationsdetails und den Job.

Wir verwenden Context-Objekte, um die Informationen in den Methoden setup(), cleanup() und map() zu übergeben. Dieses Objekt stellt während der Map-Operationen wichtige Informationen zur Verfügung.


43) Definieren Sie Combiner in Hadoop

Es handelt sich um einen optionalen Schritt zwischen Map und Reduce. Combiner übernimmt die Ausgabe der Map-Funktion, erstellt Schlüssel-Wert-Paare und übermittelt sie an Hadoop Reducer. Die Aufgabe von Combiner besteht darin, das Endergebnis von Map in zusammenfassende Datensätze mit identischem Schlüssel zusammenzufassen.


44) Was ist der in HDFS verfügbare Standard-Replikationsfaktor? Was bedeutet er?

Der in HDFS verfügbare Standardreplikationsfaktor ist drei. Der Standardreplikationsfaktor gibt an, dass es drei Replikate aller Daten gibt.


45) Was versteht man unter Datenlokalität in Hadoop?

In einem Big-Data-System ist die Datenmenge riesig, weshalb es keinen Sinn macht, Daten über das Netzwerk zu verschieben. Jetzt versucht Hadoop, die Berechnung näher an die Daten heranzuführen. Auf diese Weise bleiben die Daten lokal am gespeicherten Ort.


46) Definieren Sie den Balancer in HDFS

In HDFS ist der Balancer ein administrativer Dienst, der von Verwaltungsmitarbeitern verwendet wird, um Daten über mehrere DataNodes hinweg neu auszugleichen und Blöcke von überausgelasteten auf nicht ausgelastete Knoten zu verschieben.


47) Erklären Sie den abgesicherten Modus in HDFS

Es handelt sich um einen schreibgeschützten Modus von NameNode in einem Cluster. Zunächst befindet sich NameNode im abgesicherten Modus. Dies verhindert das Schreiben in das Dateisystem im abgesicherten Modus. Zu diesem Zeitpunkt sammelt es Daten und Statistiken von allen DataNodes.


48) Welche Bedeutung hat der verteilte Cache in Apache Hadoop?

Hadoop verfügt über eine nützliche Dienstprogrammfunktion namens „Distributed Cache“, die die Leistung von Jobs verbessert, indem die von Anwendungen verwendeten Dateien zwischengespeichert werden. Eine Anwendung kann mithilfe der JobConf-Konfiguration eine Datei für den Cache angeben.

Das Hadoop-Framework erstellt eine Replik dieser Dateien auf den Knoten, auf denen eine Aufgabe ausgeführt werden muss. Dies geschieht, bevor die Ausführung der Aufgabe beginnt. Der verteilte Cache unterstützt die Verteilung von schreibgeschützten Dateien sowie von ZIP- und JAR-Dateien.


49) Was ist Metastore in Hive?

Es speichert sowohl das Schema als auch den Speicherort der Hive-Tabelle.

Hive-Tabellendefinitionen, Zuordnungen und Metadaten, die im Metastore gespeichert sind. Dies kann in einem von JPOX unterstützten RDBMS gespeichert werden.


50) Was bedeutet SerDe in Hive?

SerDe ist eine Kurzbezeichnung für Serializer oder Deserializer. In Hive ermöglicht SerDe das Lesen von Daten aus einer Tabelle und das Schreiben in ein bestimmtes Feld in jedem gewünschten Format.


51) Listen Sie die im Hive-Datenmodell verfügbaren Komponenten auf

Das Hive-Datenmodell enthält die folgenden Komponenten:

  • Tische
  • Noten
  • Eimer

52) Erklären Sie die Verwendung von Hive im Hadoop-Ökosystem.

Hive bietet eine Schnittstelle zur Verwaltung von im Hadoop-Ökosystem gespeicherten Daten. Hive wird zum Zuordnen und Arbeiten mit HBase-Tabellen verwendet. Hive-Abfragen werden in MapReduce-Jobs umgewandelt, um die mit dem Erstellen und Ausführen von MapReduce-Jobs verbundene Komplexität zu verbergen.


53) Liste verschiedener komplexer Datentypen/Sammlungen, die von Hive unterstützt werden

Hive unterstützt die folgenden komplexen Datentypen:

  • Karte
  • Struct
  • Feld
  • Union

54) Erklären Sie, wie die .hiverc-Datei in Hive verwendet wird.

In Hive ist .hiverc die Initialisierungsdatei. Diese Datei wird zunächst geladen, wenn wir die Befehlszeilenschnittstelle (CLI) für Hive starten. Wir können die Anfangswerte der Parameter in der .hiverc-Datei festlegen.


55) Ist es möglich, in Hive mehr als eine Tabelle für eine einzelne Datendatei zu erstellen?

Ja, wir können mehr als ein Tabellenschema für eine Datendatei erstellen. Hive speichert Schema im Hive Metastore. Basierend auf diesem Schema können wir unterschiedliche Ergebnisse aus denselben Daten abrufen.


56) Erklären Sie die verschiedenen in Hive verfügbaren SerDe-Implementierungen

In Hive sind viele SerDe-Implementierungen verfügbar. Sie können auch Ihre eigene benutzerdefinierte SerDe-Implementierung schreiben. Im Folgenden sind einige bekannte SerDe-Implementierungen aufgeführt:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Listen Sie die in Hive verfügbaren Tabellengenerierungsfunktionen auf

Es folgt eine Liste der Funktionen zur Tabellengenerierung:

  • Explodieren (Array)
  • JSON_tuple()
  • Stapel()
  • Explodieren (Karte)

58) Was ist eine schräge Tabelle in Hive?

Eine schiefe Tabelle ist eine Tabelle, die häufiger Spaltenwerte enthält. Wenn wir in Hive während der Erstellung eine Tabelle als SKEWED angeben, werden verzerrte Werte in separate Dateien geschrieben und die verbleibenden Werte werden in eine andere Datei verschoben.


59) Listen Sie Objekte auf, die durch die create-Anweisung in erstellt wurden MySQL.

Objekte, die durch die create-Anweisung in erstellt wurden MySQL sind wie folgt:

  • Database
  • Index
  • Tisch
  • Mitglied
  • Ablauf
  • Auslösen
  • Event
  • Anzeigen
  • Funktion

60) So sehen Sie die Datenbankstruktur in MySQL?

Um die Datenbankstruktur anzuzeigen MySQL, Sie können

DESCRIBE-Befehl. Die Syntax dieses Befehls lautet DESCRIBE Table name;.


Fragen zum SQL-Interview für Dateningenieure

61) So suchen Sie nach einer bestimmten Zeichenfolge in MySQL Tabellenspalte?

Verwenden Sie den Regex-Operator, um nach einer Zeichenfolge zu suchen in MySQL Spalte. Hier können wir auch verschiedene Arten von regulären Ausdrücken definieren und nach Regex suchen.


62) Erklären Sie, wie Datenanalysen und Big Data den Unternehmensumsatz steigern können.

Im Folgenden sind die Möglichkeiten aufgeführt, wie Datenanalyse und Big Data den Umsatz eines Unternehmens steigern können:

  • Nutzen Sie Daten effizient, um das Geschäftswachstum sicherzustellen.
  • Erhöhen Sie den Kundenwert.
  • Analysieren, um Prognosen zum Personalbestand zu verbessern.
  • Senkung der Produktionskosten der Organisationen.

Diese Interviewfragen helfen auch bei Ihrer mündlichen Prüfung