Die 60 wichtigsten Fragen und Antworten zu Hadoop-Interviews (2024)

Hier finden Sie Fragen und Antworten zu Hadoop MapReduce-Interviews für neue und erfahrene Kandidaten, die ihren Traumjob bekommen möchten.

Fragen zum Hadoop MapReduce-Interview

1) Was ist Hadoop Map Reduce?

Für die parallele Verarbeitung großer Datensätze in einem Hadoop-Cluster wird das Hadoop MapReduce-Framework verwendet. Bei der Datenanalyse kommt ein zweistufiger Map-and-Reduction-Prozess zum Einsatz.


2) Wie funktioniert Hadoop MapReduce?

In MapReduce werden während der Kartenphase die Wörter in jedem Dokument gezählt, während in der Reduzierungsphase die Daten gemäß dem Dokument über die gesamte Sammlung hinweg aggregiert werden. Während der Kartenphase werden die Eingabedaten zur Analyse durch parallel im Hadoop-Framework ausgeführte Kartenaufgaben in Splits unterteilt.

👉Kostenloser PDF-Download: Fragen und Antworten zu Hadoop- und MapReduce-Interviews


3) Erklären Sie, was Shuffling in MapReduce ist.

Der Prozess, bei dem das System die Sortierung durchführt und die Kartenausgaben als Eingaben an den Reduzierer überträgt, wird als Shuffle bezeichnet


4) Erklären Sie, was verteilter Cache im MapReduce Framework ist.

Der verteilte Cache ist eine wichtige Funktion des MapReduce-Frameworks. Wenn Sie einige Dateien auf allen Knoten im Hadoop-Cluster gemeinsam nutzen möchten, wird der verteilte Cache verwendet. Bei den Dateien kann es sich um ausführbare JAR-Dateien oder einfache Eigenschaftendateien handeln.

Fragen zum Hadoop MapReduce-Interview
Fragen zum Hadoop MapReduce-Interview

5) Erklären Sie, was NameNode in Hadoop ist.

NameNode in Hadoop ist der Knoten, in dem Hadoop alle Informationen zum Dateispeicherort speichert HDFS (Hadoop Distributed File System). Mit anderen Worten: NameNode ist das Herzstück eines HDFS-Dateisystems. Es zeichnet alle Dateien im Dateisystem auf und verfolgt die Dateidaten im gesamten Cluster oder auf mehreren Computern


6) Erklären Sie, was JobTracker in Hadoop ist. Welche Aktionen befolgt Hadoop?

In Hadoop Zur Übermittlung und Verfolgung von MapReduce-Jobs wird JobTracker verwendet. Der Job-Tracker wird auf einem eigenen JVM-Prozess ausgeführt

Job Tracker führt Folgendes auswing Aktionen in Hadoop

  • Kundenanwendungen übermitteln Jobs an den Job-Tracker
  • JobTracker kommuniziert mit dem Namensmodus, um den Datenspeicherort zu bestimmen
  • In der Nähe der Daten oder mit verfügbaren Slots lokalisiert JobTracker TaskTracker-Knoten
  • Auf ausgewählten TaskTracker-Knoten wird die Arbeit übermittelt
  • Wenn eine Aufgabe fehlschlägt, benachrichtigt der Job-Tracker und entscheidet, was dann zu tun ist.
  • Die TaskTracker-Knoten werden von JobTracker überwacht

7) Erklären Sie, was Heartbeat in HDFS ist.

Unter Heartbeat versteht man ein Signal, das zwischen einem Datenknoten und einem Namensknoten sowie zwischen Task-Tracker und Job-Tracker verwendet wird. Wenn der Name-Knoten oder Job-Tracker nicht auf das Signal reagiert, liegt vermutlich ein Problem mit dem Datenknoten oder der Aufgabe vor Tracker


8) Erklären Sie, was Combiner sind und wann Sie einen Combiner in einem MapReduce-Job verwenden sollten.

Um die Effizienz zu steigern MapReduce-Programm, Combiner werden verwendet. Mit Hilfe von Combinern kann die Datenmenge reduziert werden, die an die Reducer übertragen werden muss. Wenn die durchgeführte Operation kommutativ und assoziativ ist, können Sie Ihren Reduziercode als Kombinierer verwenden. Die Ausführung des Combiners ist in Hadoop nicht garantiert


9) Was passiert, wenn ein Datenknoten ausfällt?

Wenn ein Datenknoten ausfällt

  • Jobtracker und Namenode erkennen den Fehler
  • Auf dem ausgefallenen Knoten werden alle Aufgaben neu geplant
  • Namenode repliziert die Daten des Benutzers auf einen anderen Knoten

10) Erklären Sie, was eine spekulative Ausführung ist.

In Hadoop wird während der spekulativen Ausführung eine bestimmte Anzahl doppelter Aufgaben gestartet. Auf einem anderen Slave-Knoten können mithilfe der spekulativen Ausführung mehrere Kopien derselben Zuordnungs- oder Reduzierungsaufgabe ausgeführt werden. Vereinfacht ausgedrückt: Wenn die Ausführung einer Aufgabe auf einem bestimmten Laufwerk lange dauert, erstellt Hadoop eine doppelte Aufgabe auf einer anderen Festplatte. Eine Festplatte, die die Aufgabe als erste beendet, wird beibehalten und Festplatten, die nicht als erste fertig werden, werden gelöscht.


11) Erklären Sie, was die Grundparameter eines Mappers sind.

Die Grundparameter eines Mappers sind

  • LongWritable und Text
  • Text und IntWritable

12) Erklären Sie, welche Funktion der MapReduce-Partitionierer hat.

Die Funktion des MapReduce-Partitionierers besteht darin, sicherzustellen, dass der gesamte Wert eines einzelnen Schlüssels an denselben Reduzierer geht, was schließlich zu einer gleichmäßigen Verteilung der Kartenausgabe über die Reduzierer führt


13) Erklären Sie, was der Unterschied zwischen einem Input Split und einem HDFS-Block ist.

Die logische Aufteilung von Daten wird als Split bezeichnet, während eine physische Aufteilung von Daten als HDFS-Block bezeichnet wird


14) Erklären Sie, was im Textformat passiert.

Im Texteingabeformat ist jede Zeile in der Textdatei ein Datensatz. Value ist der Inhalt der Zeile, während Key der Byte-Offset der Zeile ist. Beispiel: Schlüssel: longWritable, Wert: text


15) Erwähnen Sie, welche Hauptkonfigurationsparameter der Benutzer angeben muss, um den MapReduce-Job auszuführen.

Der Benutzer des MapReduce-Frameworks muss angeben

  • Die Eingabeorte des Jobs im verteilten Dateisystem
  • Der Ausgabeort des Jobs im verteilten Dateisystem
  • Eingabeformat
  • Ausgabeformat
  • Klasse, die die Kartenfunktion enthält
  • Klasse, die die Reduzierungsfunktion enthält
  • JAR-Datei, die die Mapper-, Reducer- und Treiberklassen enthält

16) Erklären Sie, was WebDAV in Hadoop ist.

Zur Unterstützung der Bearbeitung und Aktualisierung von Dateien ist WebDAV eine Reihe von Erweiterungen für HTTP. Auf den meisten Betriebssystemen ist WebDAV shares können als Dateisysteme gemountet werden, so dass es möglich ist, auf HDFS als Standarddateisystem zuzugreifen, indem HDFS über WebDAV verfügbar gemacht wird.


17) Erklären Sie, was Sqoop in Hadoop ist.

Um die Daten zwischen zu übertragen Relationales Datenbankmanagement (RDBMS) und Hadoop HDFS wird ein Tool namens Sqoop verwendet. Mit Sqoop können Daten von RDMS wie MySQL oder übertragen werden Oracle in HDFS sowie den Export von Daten aus einer HDFS-Datei in ein RDBMS


18) Erklären Sie, wie JobTracker eine Aufgabe plant?

Der Task-Tracker sendet normalerweise alle paar Minuten Heartbeat-Nachrichten an Jobtracker, um sicherzustellen, dass JobTracker aktiv ist und funktioniert. Die Nachricht informiert JobTracker auch über die Anzahl der verfügbaren Slots, sodass JobTracker immer auf dem Laufenden bleiben kann, wo die Clusterarbeit delegiert werden kann


19) Erklären Sie, was das Sequencefileinputformat ist.

Das Sequencefileinputformat wird zum sequentiellen Lesen von Dateien verwendet. Dabei handelt es sich um ein spezielles komprimiertes Binärdateiformat, das für die Weitergabe von Daten zwischen der Ausgabe eines MapReduce-Jobs und der Eingabe eines anderen MapReduce-Jobs optimiert ist.


20) Erklären Sie, was die conf.setMapper-Klasse macht?

Conf.setMapperclass legt die Mapper-Klasse und alle Dinge im Zusammenhang mit dem Map-Job fest, z. B. das Lesen von Daten und das Generieren eines Schlüssel-Wert-Paares aus dem Mapper

21) Erklären Sie, was Hadoop ist?

Es handelt sich um ein Open-Source-Software-Framework zum Speichern von Daten und zum Ausführen von Anwendungen auf Clustern handelsüblicher Hardware. Es bietet enorme Rechenleistung und riesigen Speicher für jede Art von Daten.


22) Erwähnen Sie, was der Unterschied zwischen einem RDBMS und Hadoop ist?

RDBMS Hadoop
RDBMS ist ein relationales Datenbankverwaltungssystem Hadoop ist eine knotenbasierte flache Struktur
Es wurde für die OLTP-Verarbeitung verwendet, während Hadoop Es wird derzeit zur Analyse und zur Verarbeitung von BIG DATA verwendet
In RDBMS verwendet der Datenbankcluster dieselben Datendateien, die in einem gemeinsam genutzten Speicher gespeichert sind In Hadoop können die Speicherdaten in jedem Verarbeitungsknoten unabhängig gespeichert werden.
Sie müssen Daten vorverarbeiten, bevor Sie sie speichern Sie müssen die Daten vor dem Speichern nicht vorverarbeiten

23) Hadoop-Kernkomponenten erwähnen?

Zu den Hadoop-Kernkomponenten gehören:

  • HDFS
  • MapReduce

24) Was ist NameNode in Hadoop?

NameNode in Hadoop ist der Ort, an dem Hadoop alle Dateispeicherortinformationen in HDFS speichert. Es ist der Master-Knoten, auf dem der Job-Tracker läuft und der aus Metadaten besteht.


25) Erwähnen Sie, welche Datenkomponenten von Hadoop verwendet werden?

Von Hadoop verwendete Datenkomponenten sind


26) Erwähnen Sie, welche Datenspeicherkomponente von Hadoop verwendet wird?

Die von Hadoop verwendete Datenspeicherkomponente ist HBase.


27) Erwähnen Sie die am häufigsten in Hadoop definierten Eingabeformate.

Die am häufigsten in Hadoop definierten Eingabeformate sind:

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Was ist InputSplit in Hadoop?

Es teilt Eingabedateien in Blöcke auf und weist jede Aufteilung einem Mapper zur Verarbeitung zu.


29) Wie schreiben Sie für einen Hadoop-Job einen benutzerdefinierten Partitionierer?

Wenn Sie einen benutzerdefinierten Partitionierer für einen Hadoop-Job schreiben, befolgen Sie die folgenden Schrittewing Weg

  • Erstellen Sie eine neue Klasse, die die Partitioner-Klasse erweitert
  • Überschreiben Sie die Methode getPartition
  • Im Wrapper, der MapReduce ausführt
  • Fügen Sie den benutzerdefinierten Partitionierer dem Job hinzu, indem Sie die Methode „Partitioner Class“ verwenden oder – fügen Sie den benutzerdefinierten Partitionierer dem Job als Konfigurationsdatei hinzu

30) Ist es für einen Job in Hadoop möglich, die Anzahl der zu erstellenden Mapper zu ändern?

Nein, es ist nicht möglich, die Anzahl der zu erstellenden Mapper zu ändern. Die Anzahl der Mapper wird durch die Anzahl der Eingabeaufteilungen bestimmt.


31) Erklären Sie, was eine Sequenzdatei in Hadoop ist.

Zum Speichern binärer Schlüssel/Wert-Paare wird eine Sequenzdatei verwendet. Im Gegensatz zu regulären komprimierten Dateien unterstützen Sequenzdateien die Aufteilung auch dann, wenn die Daten in der Datei komprimiert sind.


32) Was passiert mit dem Job-Tracker, wenn Namenode ausgefallen ist?

Namenode ist der Single Point of Failure in HDFS. Wenn also Namenode ausfällt, wird Ihr Cluster gestartet.


33) Erklären Sie, wie die Indizierung in HDFS erfolgt?

Hadoop verfügt über eine einzigartige Art der Indizierung. Sobald die Daten entsprechend der Blockgröße gespeichert sind, speichert das HDFS weiterhin den letzten Teil der Daten, der angibt, wo sich der nächste Teil der Daten befinden wird.


34) Erklären Sie, ob es möglich ist, mithilfe von Platzhaltern nach Dateien zu suchen.

Ja, es ist möglich, mithilfe von Platzhaltern nach Dateien zu suchen.


35) Die drei Konfigurationsdateien von Hadoop auflisten?

Die drei Konfigurationsdateien sind

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Erklären Sie, wie Sie neben der Verwendung des Befehls jps überprüfen können, ob Namenode funktioniert.

Um zu überprüfen, ob Namenode funktioniert, können Sie neben dem Befehl jps auch Folgendes verwenden

/etc/init.d/hadoop-0.20-namenode-Status.


37) Erklären Sie, was in Hadoop „Karte“ und „Reduzierer“ ist.

In Hadoop ist eine Karte eine Phase beim Lösen von HDFS-Abfragen. Eine Karte liest Daten von einem Eingabeort und gibt ein Schlüssel-Wert-Paar entsprechend dem Eingabetyp aus.

In Hadoop sammelt ein Reduzierer die vom Mapper generierte Ausgabe, verarbeitet sie und erstellt eine eigene Endausgabe.


38) Welche Datei steuert in Hadoop die Berichterstellung in Hadoop?

In Hadoop steuert die Datei hadoop-metrics.properties die Berichterstellung.


39) Für die Verwendung von Hadoop die Netzwerkanforderungen auflisten?

Für die Verwendung von Hadoop gelten folgende Netzwerkanforderungen:

  • Passwortlose SSH-Verbindung
  • Secure Shell (SSH) zum Starten von Serverprozessen

40) Erwähnen Sie, was Rack Awareness ist?

Unter Rack Awareness versteht man die Art und Weise, wie der Namensknoten anhand der Rack-Definitionen bestimmt, wie Blöcke platziert werden.


41) Erklären Sie, was ein Task Tracker in Hadoop ist?

Ein Task Tracker in Hadoop ist ein Slave-Knoten-Daemon im Cluster, der Aufgaben von einem JobTracker akzeptiert. Außerdem werden alle paar Minuten Heartbeat-Nachrichten an den JobTracker gesendet, um zu bestätigen, dass der JobTracker noch aktiv ist.


42) Erwähnen Sie, welche Daemons auf einem Master-Knoten und Slave-Knoten laufen?

  • Auf dem Master-Knoten ausgeführte Dämonen sind „NameNode“.
  • Auf jedem Slave-Knoten ausgeführte Daemons sind „Task Tracker“ und „Data“.

43) Erklären Sie, wie Sie Hadoop-Code debuggen können.

Die beliebtesten Methoden zum Debuggen von Hadoop-Code sind:

  • Mithilfe der vom Hadoop-Framework bereitgestellten Webschnittstelle
  • Durch die Verwendung von Zählern

44) Erklären Sie, was Speicher- und Rechenknoten sind.

  • Der Speicherknoten ist die Maschine oder der Computer, auf dem sich Ihr Dateisystem befindet, um die Verarbeitungsdaten zu speichern
  • Der Rechenknoten ist der Computer oder die Maschine, auf dem Ihre eigentliche Geschäftslogik ausgeführt wird.

45) Erwähnen Sie, wozu das Kontextobjekt dient.

Das Kontextobjekt ermöglicht dem Mapper die Interaktion mit dem Rest von Hadoop

System. Es enthält Konfigurationsdaten für den Job sowie Schnittstellen, die es ihm ermöglichen, Ausgaben auszugeben.


46) Erwähnen Sie, was der nächste Schritt nach Mapper oder MapTask ist?

Der nächste Schritt nach Mapper oder MapTask besteht darin, dass die Ausgabe des Mappers sortiert wird und Partitionen für die Ausgabe erstellt werden.


47) Erwähnen Sie, wie viele Standardpartitionierer es in Hadoop gibt?

In Hadoop ist der Standardpartitionierer ein „Hash“-Partitionierer.


48) Erklären Sie, was der Zweck von RecordReader in Hadoop ist.

In Hadoop lädt der RecordReader die Daten aus seiner Quelle und wandelt sie in (Schlüssel-Wert-)Paare um, die zum Lesen durch den Mapper geeignet sind.


49) Erklären Sie, wie Daten partitioniert werden, bevor sie an den Reduzierer gesendet werden, wenn in Hadoop kein benutzerdefinierter Partitionierer definiert ist.

Wenn in Hadoop kein benutzerdefinierter Partitionierer definiert ist, berechnet ein Standardpartitionierer einen Hashwert für den Schlüssel und weist die Partition basierend auf dem Ergebnis zu.


50) Erklären Sie, was passiert, wenn Hadoop 50 Aufgaben für einen Job erzeugt und eine der Aufgaben fehlschlägt?

Die Aufgabe wird auf einem anderen TaskTracker erneut gestartet, wenn die Aufgabe mehr als das definierte Limit fehlschlägt.


51) Erwähnen Sie, wie Dateien am besten zwischen HDFS-Clustern kopiert werden können.

Der beste Weg, Dateien zwischen HDFS-Clustern zu kopieren, ist die Verwendung mehrerer Knoten und des Befehls distcp, sodass die Arbeitslast geteilt wird.


52) Erwähnen Sie, was der Unterschied zwischen HDFS und NAS ist?

HDFS-Datenblöcke werden auf die lokalen Laufwerke aller Maschinen in einem Cluster verteilt, während NAS-Daten auf dedizierter Hardware gespeichert werden.


53) Erwähnen Sie, wie sich Hadoop von anderen Datenverarbeitungstools unterscheidet?

In Hadoop können Sie die Anzahl der Mapper erhöhen oder verringern, ohne sich Gedanken über die zu verarbeitende Datenmenge machen zu müssen.


54) Erwähnen Sie, welchen Job die Conf-Klasse macht?

Die Job-Conf-Klasse trennt verschiedene Jobs, die auf demselben Cluster ausgeführt werden. Es führt Einstellungen auf Jobebene durch, beispielsweise die Deklaration eines Jobs in einer realen Umgebung.


55) Erwähnen Sie, was der Hadoop MapReduce APIs-Vertrag für eine Schlüssel- und Wertklasse ist?

Für eine Schlüssel- und Wertklasse gibt es zwei Hadoop MapReduce-APIs-Verträge

  • Der Wert muss die Schnittstelle org.apache.hadoop.io.Writable definieren
  • Der Schlüssel muss die Schnittstelle org.apache.hadoop.io.WritableComparable definieren

56) Erwähnen Sie, in welchen drei Modi Hadoop ausgeführt werden kann?

Die drei Modi, in denen Hadoop ausgeführt werden kann, sind:

  • Pseudoverteilter Modus
  • Eigenständiger (lokaler) Modus
  • Vollständig verteilter Modus

57) Erwähnen Sie, was das Texteingabeformat bewirkt?

Das Texteingabeformat erstellt ein Linienobjekt, das eine Hexadezimalzahl ist. Der Wert wird als ganzer Zeilentext betrachtet, während der Schlüssel als Zeilenobjekt betrachtet wird. Der Mapper erhält den Wert als „Text“-Parameter und den Schlüssel als „Longwriteable“-Parameter.


58) Erwähnen Sie, wie viele InputSplits von einem Hadoop-Framework erstellt werden?

Hadoop macht 5 Teilungen

  • 1 Teilung für 64K-Dateien
  • 2 Split für 65-MB-Dateien
  • 2 Teilungen für 127-MB-Dateien

59) Erwähnen Sie, was ein verteilter Cache in Hadoop ist?

Der verteilte Cache in Hadoop ist eine Funktion, die vom MapReduce-Framework bereitgestellt wird. Zum Zeitpunkt der Ausführung des Jobs wird es zum Zwischenspeichern der Datei verwendet. Das Framework kopiert die erforderlichen Dateien auf den Slave-Knoten, bevor eine Aufgabe auf diesem Knoten ausgeführt wird.


60) Erklären Sie, wie Hadoop Classpath eine entscheidende Rolle beim Stoppen oder Starten von Hadoop-Daemons spielt.

Der Klassenpfad besteht aus einer Liste von Verzeichnissen mit JAR-Dateien zum Stoppen oder Starten von Daemons.

Diese Interviewfragen helfen auch bei Ihrer mündlichen Prüfung