Die 60 wichtigsten Fragen und Antworten zu Hadoop-Interviews (2025)

Hier finden Sie Fragen und Antworten zu Hadoop MapReduce-Interviews für neue und erfahrene Kandidaten, die ihren Traumjob bekommen möchten.

Fragen zum Hadoop MapReduce-Interview

1) Was ist Hadoop Map Reduce?

Zur parallelen Verarbeitung großer Datensätze in einem Hadoop-Cluster wird das Hadoop MapReduce-Framework verwendet. Die Datenanalyse verwendet einen zweistufigen Map-and-Reduce-Prozess.


2) Wie funktioniert Hadoop MapReduce?

In MapReduce werden während der Kartenphase die Wörter in jedem Dokument gezählt, während in der Reduzierungsphase die Daten gemäß dem Dokument über die gesamte Sammlung hinweg aggregiert werden. Während der Kartenphase werden die Eingabedaten zur Analyse durch parallel im Hadoop-Framework ausgeführte Kartenaufgaben in Splits unterteilt.

👉Kostenloser PDF-Download: Fragen und Antworten zu Hadoop- und MapReduce-Interviews


3) Erklären Sie, was Shuffling in MapReduce ist.

Der Prozess, bei dem das System die Sortierung durchführt und die Kartenausgaben als Eingaben an den Reduzierer überträgt, wird als Shuffle bezeichnet


4) Erklären Sie, was verteilter Cache im MapReduce Framework ist.

Der verteilte Cache ist eine wichtige Funktion des MapReduce-Frameworks. Wenn Sie einige Dateien auf allen Knoten in Hadoop freigeben möchten Cluster, Verteilter Cache wird verwendet. Bei den Dateien kann es sich um ausführbare JAR-Dateien oder einfache Eigenschaftendateien handeln.

Fragen zum Hadoop MapReduce-Interview
Fragen zum Hadoop MapReduce-Interview

5) Erklären Sie, was NameNode in Hadoop ist.

NameNode in Hadoop ist der Knoten, in dem Hadoop alle Informationen zum Dateispeicherort speichert HDFS (Hadoop Distributed File System). Mit anderen Worten, NameNode ist das Herzstück eines HDFS-Dateisystems. Es speichert alle Dateien im Dateisystem und verfolgt die Dateidaten über den Cluster oder mehrere Maschinen hinweg.


6) Erklären Sie, was JobTracker in Hadoop ist. Welche Aktionen befolgt Hadoop?

In Hadoop Zur Übermittlung und Verfolgung von MapReduce-Jobs wird JobTracker verwendet. Der Job-Tracker wird auf einem eigenen JVM-Prozess ausgeführt

Job Tracker führt folgende Aktionen in Hadoop aus

  • Kundenanwendungen übermitteln Jobs an den Job-Tracker
  • JobTracker kommuniziert mit dem Namensmodus, um den Datenspeicherort zu bestimmen
  • In der Nähe der Daten oder mit verfügbaren Slots lokalisiert JobTracker TaskTracker-Knoten
  • Auf ausgewählten TaskTracker-Knoten wird die Arbeit übermittelt
  • Wenn eine Aufgabe fehlschlägt, benachrichtigt der Job-Tracker und entscheidet, was dann zu tun ist.
  • Die TaskTracker-Knoten werden von JobTracker überwacht

7) Erklären Sie, was Heartbeat in HDFS ist.

Unter Heartbeat versteht man ein Signal, das zwischen einem Datenknoten und einem Namensknoten sowie zwischen Task-Tracker und Job-Tracker verwendet wird. Wenn der Name-Knoten oder Job-Tracker nicht auf das Signal reagiert, liegt vermutlich ein Problem mit dem Datenknoten oder der Aufgabe vor Tracker


8) Erklären Sie, was Combiner sind und wann Sie einen Combiner in einem MapReduce-Job verwenden sollten.

Um die Effizienz zu steigern MapReduce-Programm, Combiner werden verwendet. Die Datenmenge kann mithilfe von Combinern reduziert werden, die an die Reducer übertragen werden müssen. Wenn die ausgeführte Operation kommutativ und assoziativ ist, können Sie Ihren Reducer-Code als Combiner verwenden. Die Ausführung von Combinern ist in Hadoop nicht garantiert


9) Was passiert, wenn ein Datenknoten ausfällt?

Wenn ein Datenknoten ausfällt

  • Jobtracker und Namenode erkennen den Fehler
  • Auf dem ausgefallenen Knoten werden alle Aufgaben neu geplant
  • Namenode repliziert die Daten des Benutzers auf einen anderen Knoten

10) Erklären Sie, was eine spekulative Ausführung ist.

In Hadoop wird während der spekulativen Ausführung eine bestimmte Anzahl doppelter Aufgaben gestartet. Auf einem anderen Slave-Knoten können mithilfe der spekulativen Ausführung mehrere Kopien derselben Zuordnungs- oder Reduzierungsaufgabe ausgeführt werden. Vereinfacht ausgedrückt: Wenn die Ausführung einer Aufgabe auf einem bestimmten Laufwerk lange dauert, erstellt Hadoop eine doppelte Aufgabe auf einer anderen Festplatte. Eine Festplatte, die die Aufgabe als erste beendet, wird beibehalten und Festplatten, die nicht als erste fertig werden, werden gelöscht.


11) Erklären Sie, was die Grundparameter eines Mappers sind.

Die Grundparameter eines Mappers sind

  • LongWritable und Text
  • Text und IntWritable

12) Erklären Sie, welche Funktion der MapReduce-Partitionierer hat.

Die Funktion des MapReduce-Partitionierers besteht darin, sicherzustellen, dass der gesamte Wert eines einzelnen Schlüssels an denselben Reduzierer geht, was schließlich zu einer gleichmäßigen Verteilung der Kartenausgabe über die Reduzierer führt


13) Erklären Sie, was der Unterschied zwischen einem Input Split und einem HDFS-Block ist.

Die logische Aufteilung von Daten wird als Split bezeichnet, während eine physische Aufteilung von Daten als HDFS-Block bezeichnet wird


14) Erklären Sie, was im Textformat passiert.

Im Texteingabeformat ist jede Zeile in der Textdatei ein Datensatz. Value ist der Inhalt der Zeile, während Key der Byte-Offset der Zeile ist. Beispiel: Schlüssel: longWritable, Wert: text


15) Erwähnen Sie, welche Hauptkonfigurationsparameter der Benutzer angeben muss, um den MapReduce-Job auszuführen.

Der Benutzer des MapReduce-Frameworks muss angeben

  • Die Eingabeorte des Jobs im verteilten Dateisystem
  • Der Ausgabeort des Jobs im verteilten Dateisystem
  • Eingabeformat
  • Ausgabeformat
  • Klasse, die die Kartenfunktion enthält
  • Klasse, die die Reduzierungsfunktion enthält
  • JAR-Datei, die die Mapper-, Reducer- und Treiberklassen enthält

16) Erklären Sie, was WebDAV in Hadoop ist.

Zur Unterstützung des Bearbeitens und Aktualisierens von Dateien ist WebDAV eine Reihe von Erweiterungen für HTTP. Auf den meisten Betriebssystemen können WebDAV-Freigaben als Dateisysteme bereitgestellt werden. Daher ist es möglich, auf HDFS als Standarddateisystem zuzugreifen, indem HDFS über WebDAV bereitgestellt wird.


17) Erklären Sie, was Sqoop in Hadoop ist.

Um die Daten zwischen zu übertragen Relationales Datenbankmanagement (RDBMS) und Hadoop HDFS Es wird ein Tool namens Sqoop verwendet. Mit Sqoop können Daten wie aus RDMS übertragen werden MySQL or Oracle in HDFS sowie den Export von Daten aus einer HDFS-Datei in ein RDBMS


18) Erklären Sie, wie JobTracker eine Aufgabe plant?

Der Task-Tracker sendet normalerweise alle paar Minuten Heartbeat-Nachrichten an Jobtracker, um sicherzustellen, dass JobTracker aktiv und funktionsfähig ist. Die Nachricht informiert JobTracker auch über die Anzahl der verfügbaren Slots, sodass JobTracker auf dem Laufenden bleibt, an welche Cluster-Arbeit delegiert werden kann.


19) Erklären Sie, was das Sequencefileinputformat ist.

Das Sequencefileinputformat wird zum sequentiellen Lesen von Dateien verwendet. Dabei handelt es sich um ein spezielles komprimiertes Binärdateiformat, das für die Weitergabe von Daten zwischen der Ausgabe eines MapReduce-Jobs und der Eingabe eines anderen MapReduce-Jobs optimiert ist.


20) Erklären Sie, was die conf.setMapper-Klasse macht?

Conf.setMapperclass legt die Mapper-Klasse und alle Dinge im Zusammenhang mit dem Map-Job fest, z. B. das Lesen von Daten und das Generieren eines Schlüssel-Wert-Paares aus dem Mapper

21) Erklären Sie, was Hadoop ist?

Es handelt sich um ein Open-Source-Software-Framework zum Speichern von Daten und Ausführen von Anwendungen auf Clustern handelsüblicher Hardware. Es bietet enorme Verarbeitungsleistung und riesigen Speicherplatz für alle Arten von Daten.


22) Erwähnen Sie, was der Unterschied zwischen einem RDBMS und Hadoop ist?

RDBMS Hadoop
RDBMS ist ein relationales Datenbankverwaltungssystem Hadoop ist eine knotenbasierte flache Struktur
Es wurde für die OLTP-Verarbeitung verwendet, während Hadoop Es wird derzeit zur Analyse und zur Verarbeitung von BIG DATA verwendet
In RDBMS verwendet der Datenbankcluster dieselben Datendateien, die in einem gemeinsam genutzten Speicher gespeichert sind In Hadoop können die Speicherdaten in jedem Verarbeitungsknoten unabhängig gespeichert werden.
Sie müssen Daten vorverarbeiten, bevor Sie sie speichern Sie müssen die Daten vor dem Speichern nicht vorverarbeiten

23) Hadoop-Kernkomponenten erwähnen?

Zu den Hadoop-Kernkomponenten gehören:

  • HDFS
  • MapReduce

24) Was ist NameNode in Hadoop?

NameNode in Hadoop ist der Ort, an dem Hadoop alle Dateispeicherortinformationen in HDFS speichert. Es ist der Master-Knoten, auf dem der Job-Tracker läuft und der aus Metadaten besteht.


25) Erwähnen Sie, welche Datenkomponenten von Hadoop verwendet werden?

Von Hadoop verwendete Datenkomponenten sind


26) Erwähnen Sie, welche Datenspeicherkomponente von Hadoop verwendet wird?

Die von Hadoop verwendete Datenspeicherkomponente ist HBase.


27) Erwähnen Sie die am häufigsten in Hadoop definierten Eingabeformate.

Die am häufigsten in Hadoop definierten Eingabeformate sind:

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Was ist InputSplit in Hadoop?

Es teilt Eingabedateien in Blöcke auf und weist jede Aufteilung einem Mapper zur Verarbeitung zu.


29) Wie schreiben Sie für einen Hadoop-Job einen benutzerdefinierten Partitionierer?

Sie schreiben einen benutzerdefinierten Partitionierer für einen Hadoop-Job. Folgen Sie dazu dem folgenden Pfad

  • Erstellen Sie eine neue Klasse, die die Partitioner-Klasse erweitert
  • Überschreiben Sie die Methode getPartition
  • Im Wrapper, der MapReduce ausführt
  • Fügen Sie den benutzerdefinierten Partitionierer dem Job hinzu, indem Sie die Methode „Partitioner Class“ verwenden oder – fügen Sie den benutzerdefinierten Partitionierer dem Job als Konfigurationsdatei hinzu

30) Ist es für einen Job in Hadoop möglich, die Anzahl der zu erstellenden Mapper zu ändern?

Nein, es ist nicht möglich, die Anzahl der zu erstellenden Mapper zu ändern. Die Anzahl der Mapper wird durch die Anzahl der Eingabeaufteilungen bestimmt.


31) Erklären Sie, was eine Sequenzdatei in Hadoop ist.

Zum Speichern binärer Schlüssel/Wert-Paare wird eine Sequenzdatei verwendet. Im Gegensatz zu regulären komprimierten Dateien unterstützen Sequenzdateien die Aufteilung auch dann, wenn die Daten in der Datei komprimiert sind.


32) Was passiert mit dem Job-Tracker, wenn Namenode ausgefallen ist?

Der Namenode ist die einzige Ausfallquelle in HDFS. Wenn der Namenode ausfällt, wird Ihr Cluster ausgelöst.


33) Erklären Sie, wie die Indizierung in HDFS erfolgt?

Hadoop verfügt über eine einzigartige Art der Indizierung. Sobald die Daten entsprechend der Blockgröße gespeichert sind, speichert das HDFS weiterhin den letzten Teil der Daten, der angibt, wo sich der nächste Teil der Daten befinden wird.


34) Erklären Sie, ob es möglich ist, mithilfe von Platzhaltern nach Dateien zu suchen.

Ja, es ist möglich, mithilfe von Platzhaltern nach Dateien zu suchen.


35) Die drei Konfigurationsdateien von Hadoop auflisten?

Die drei Konfigurationsdateien sind

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Erklären Sie, wie Sie neben der Verwendung des Befehls jps überprüfen können, ob Namenode funktioniert.

Um zu überprüfen, ob Namenode funktioniert, können Sie neben dem Befehl jps auch Folgendes verwenden

/etc/init.d/hadoop-0.20-namenode-Status.


37) Erklären Sie, was in Hadoop „Karte“ und „Reduzierer“ ist.

In Hadoop ist eine Karte eine Phase beim Lösen von HDFS-Abfragen. Eine Karte liest Daten von einem Eingabeort und gibt ein Schlüssel-Wert-Paar entsprechend dem Eingabetyp aus.

In Hadoop sammelt ein Reduzierer die vom Mapper generierte Ausgabe, verarbeitet sie und erstellt eine eigene Endausgabe.


38) Welche Datei steuert in Hadoop die Berichterstellung in Hadoop?

In Hadoop steuert die Datei hadoop-metrics.properties die Berichterstellung.


39) Für die Verwendung von Hadoop die Netzwerkanforderungen auflisten?

Für die Verwendung von Hadoop gelten folgende Netzwerkanforderungen:

  • Passwortlose SSH-Verbindung
  • Secure Shell (SSH) zum Starten von Serverprozessen

40) Erwähnen Sie, was Rack Awareness ist?

Unter Rack Awareness versteht man die Art und Weise, wie der Namensknoten anhand der Rack-Definitionen bestimmt, wie Blöcke platziert werden.


41) Erklären Sie, was ein Task Tracker in Hadoop ist?

Ein Task Tracker in Hadoop ist ein Slave-Knoten-Daemon im Cluster, der Aufgaben von einem JobTracker akzeptiert. Außerdem sendet er alle paar Minuten Heartbeat-Nachrichten an den JobTracker, um zu bestätigen, dass der JobTracker noch aktiv ist.


42) Erwähnen Sie, welche Daemons auf einem Master-Knoten und Slave-Knoten laufen?

  • Auf dem Master-Knoten ausgeführte Dämonen sind „NameNode“.
  • Auf jedem Slave-Knoten ausgeführte Daemons sind „Task Tracker“ und „Data“.

43) Erklären Sie, wie Sie Hadoop-Code debuggen können.

Die beliebtesten Methoden zum Debuggen von Hadoop-Code sind:

  • Mithilfe der vom Hadoop-Framework bereitgestellten Webschnittstelle
  • Durch die Verwendung von Zählern

44) Erklären Sie, was Speicher- und Rechenknoten sind.

  • Der Speicherknoten ist die Maschine oder der Computer, auf dem sich Ihr Dateisystem befindet, um die Verarbeitungsdaten zu speichern
  • Der Rechenknoten ist der Computer oder die Maschine, auf dem Ihre eigentliche Geschäftslogik ausgeführt wird.

45) Erwähnen Sie, wozu das Kontextobjekt dient.

Das Kontextobjekt ermöglicht dem Mapper die Interaktion mit dem Rest von Hadoop

System. Es enthält Konfigurationsdaten für den Job sowie Schnittstellen, die es ihm ermöglichen, Ausgaben auszugeben.


46) Erwähnen Sie, was der nächste Schritt nach Mapper oder MapTask ist?

Der nächste Schritt nach Mapper oder MapTask besteht darin, dass die Ausgabe des Mappers sortiert wird und Partitionen für die Ausgabe erstellt werden.


47) Erwähnen Sie, wie viele Standardpartitionierer es in Hadoop gibt?

In Hadoop ist der Standardpartitionierer ein „Hash“-Partitionierer.


48) Erklären Sie, was der Zweck von RecordReader in Hadoop ist.

In Hadoop lädt der RecordReader die Daten aus seiner Quelle und wandelt sie in (Schlüssel-Wert-)Paare um, die zum Lesen durch den Mapper geeignet sind.


49) Erklären Sie, wie Daten partitioniert werden, bevor sie an den Reduzierer gesendet werden, wenn in Hadoop kein benutzerdefinierter Partitionierer definiert ist.

Wenn in Hadoop kein benutzerdefinierter Partitionierer definiert ist, berechnet ein Standardpartitionierer einen Hashwert für den Schlüssel und weist die Partition basierend auf dem Ergebnis zu.


50) Erklären Sie, was passiert, wenn Hadoop 50 Aufgaben für einen Job erzeugt und eine der Aufgaben fehlschlägt?

Die Aufgabe wird auf einem anderen TaskTracker erneut gestartet, wenn die Aufgabe mehr als das definierte Limit fehlschlägt.


51) Erwähnen Sie, was die beste Möglichkeit ist, Dateien zwischen HDFS-Clustern zu kopieren?

Die beste Möglichkeit zum Kopieren von Dateien zwischen HDFS-Clustern ist die Verwendung mehrerer Knoten und des Befehls „distcp“, sodass die Arbeitslast geteilt wird.


52) Erwähnen Sie, was der Unterschied zwischen HDFS und NAS ist?

HDFS-Datenblöcke werden auf die lokalen Laufwerke aller Maschinen in einem Cluster verteilt, während NAS-Daten auf dedizierter Hardware gespeichert werden.


53) Erwähnen Sie, wie sich Hadoop von anderen Datenverarbeitungstools unterscheidet?

In Hadoop können Sie die Anzahl der Mapper erhöhen oder verringern, ohne sich Gedanken über die zu verarbeitende Datenmenge machen zu müssen.


54) Erwähnen Sie, welchen Job die Conf-Klasse macht?

Die Job-Conf-Klasse trennt verschiedene Jobs, die im selben Cluster ausgeführt werden. Sie führt die Einstellungen auf Jobebene durch, z. B. das Deklarieren eines Jobs in einer realen Umgebung.


55) Erwähnen Sie, was der Hadoop MapReduce APIs-Vertrag für eine Schlüssel- und Wertklasse ist?

Für eine Schlüssel- und Wertklasse gibt es zwei Hadoop MapReduce-APIs-Verträge

  • Der Wert muss die Schnittstelle org.apache.hadoop.io.Writable definieren
  • Der Schlüssel muss die Schnittstelle org.apache.hadoop.io.WritableComparable definieren

56) Erwähnen Sie, in welchen drei Modi Hadoop ausgeführt werden kann?

Die drei Modi, in denen Hadoop ausgeführt werden kann, sind:

  • Pseudoverteilter Modus
  • Eigenständiger (lokaler) Modus
  • Vollständig verteilter Modus

57) Erwähnen Sie, was das Texteingabeformat bewirkt?

Das Texteingabeformat erstellt ein Linienobjekt, das eine Hexadezimalzahl ist. Der Wert wird als ganzer Zeilentext betrachtet, während der Schlüssel als Zeilenobjekt betrachtet wird. Der Mapper erhält den Wert als „Text“-Parameter und den Schlüssel als „Longwriteable“-Parameter.


58) Erwähnen Sie, wie viele InputSplits von einem Hadoop-Framework erstellt werden?

Hadoop macht 5 Teilungen

  • 1 Teilung für 64K-Dateien
  • 2 Split für 65-MB-Dateien
  • 2 Teilungen für 127-MB-Dateien

59) Erwähnen Sie, was ein verteilter Cache in Hadoop ist?

Der verteilte Cache in Hadoop ist eine Funktion, die vom MapReduce-Framework bereitgestellt wird. Zum Zeitpunkt der Ausführung des Jobs wird es zum Zwischenspeichern der Datei verwendet. Das Framework kopiert die erforderlichen Dateien auf den Slave-Knoten, bevor eine Aufgabe auf diesem Knoten ausgeführt wird.


60) Erklären Sie, wie Hadoop Classpath eine entscheidende Rolle beim Stoppen oder Starten von Hadoop-Daemons spielt.

Der Klassenpfad besteht aus einer Liste von Verzeichnissen mit JAR-Dateien zum Stoppen oder Starten von Daemons.

Diese Interviewfragen helfen auch bei Ihrer mündlichen Prüfung