Top 60 Hadoop-interviewvragen en antwoorden (2025)

Hier zijn Hadoop MapReduce sollicitatievragen en antwoorden voor nieuwere en ervaren kandidaten om hun droombaan te krijgen.

Hadoop MapVerminder sollicitatievragen

1) Wat is Hadoop Map Reduce?

Voor het parallel verwerken van grote datasets in een Hadoop-cluster wordt het Hadoop MapReduce-framework gebruikt. Data-analyse gebruikt een tweestaps map- en reduceproces.

2) Hoe Hadoop MapReduce werkt?

In MapReduce telt het tijdens de kaartfase de woorden in elk document, terwijl het in de reduceerfase de gegevens verzamelt volgens het document dat de hele collectie omvat. Tijdens de kaartfase worden de invoergegevens voor analyse in delen verdeeld door kaarttaken die parallel in het Hadoop-framework worden uitgevoerd.

👉 Gratis pdf-download: Hadoop en kaartVerminder sollicitatievragen en antwoorden

3) Leg uit wat shuffelen is in MapReduce?

Het proces waarbij het systeem de sortering uitvoert en de kaartuitvoer als invoer naar het reducer overdraagt, staat bekend als de shuffle

4) Leg uit wat gedistribueerde cache is in MapReduce Framework?

Gedistribueerde cache is een belangrijke functie van het MapReduce-framework. Wanneer u enkele bestanden wilt delen met alle knooppunten in Hadoop ClusterEr wordt gebruik gemaakt van gedistribueerde cache. De bestanden kunnen uitvoerbare jar-bestanden of een eenvoudig eigenschappenbestand zijn.

5) Leg uit wat NameNode in Hadoop is?

NameNode in Hadoop is het knooppunt waarin Hadoop alle bestandslocatie-informatie opslaat HDFS (Hadoop gedistribueerd bestandssysteem)Met andere woorden, NameNode is het middelpunt van een HDFS-bestandssysteem. Het houdt de gegevens bij van alle bestanden in het bestandssysteem en volgt de bestandsgegevens over het cluster of meerdere machines

6) Leg uit wat JobTracker in Hadoop is? Welke acties volgt Hadoop?

In Hadoop voor het indienen en volgen van MapReduce-taken wordt JobTracker gebruikt. Jobtracker draait op zijn eigen JVM-proces

Job Tracker voert de volgende acties uit in Hadoop

Clienttoepassing verzendt taken naar de jobtracker
JobTracker communiceert met de Naammodus om de gegevenslocatie te bepalen
Dichtbij de gegevens of met beschikbare slots lokaliseert JobTracker TaskTracker-knooppunten
Op gekozen TaskTracker-knooppunten wordt het werk ingediend
Wanneer een taak mislukt, waarschuwt Job tracker en beslist wat er moet gebeuren.
De TaskTracker-knooppunten worden bewaakt door JobTracker

7) Leg uit wat hartslag is in HDFS?

Heartbeat verwijst naar een signaal dat wordt gebruikt tussen een dataknooppunt en een naamknooppunt, en tussen de taaktracker en de taaktracker. Als het naamknooppunt of de taaktracker niet op het signaal reageert, wordt aangenomen dat er problemen zijn met het dataknooppunt of de taak spoorzoeker

8) Leg uit wat combiners zijn en wanneer je een combiner moet gebruiken in een MapReduce Job?

Om de efficiëntie te vergroten van MapReduce-programma, Combiners worden gebruikt. De hoeveelheid data kan worden gereduceerd met behulp van combiners die moeten worden overgebracht naar de reducers. Als de uitgevoerde bewerking commutatief en associatief is, kunt u uw reducercode gebruiken als een combiner. De uitvoering van de combiner is niet gegarandeerd in Hadoop

9) Wat gebeurt er als een dataknooppunt uitvalt?

Wanneer een gegevensknooppunt faalt

Jobtracker en namenode detecteren de fout
Op het mislukte knooppunt worden alle taken opnieuw gepland
Namenode repliceert de gegevens van de gebruiker naar een ander knooppunt

10) Leg uit wat speculatieve executie is?

In Hadoop wordt tijdens Speculative Execution een bepaald aantal dubbele taken gelanceerd. Op een ander slave-knooppunt kunnen meerdere kopieën van dezelfde kaart of taak worden uitgevoerd met behulp van Speculative Execution. In eenvoudige woorden: als een bepaalde schijf er lang over doet om een taak te voltooien, zal Hadoop een dubbele taak op een andere schijf aanmaken. Een schijf die de taak als eerste voltooit, wordt behouden en schijven die niet als eerste eindigen, worden gedood.

11) Leg uit wat de basisparameters van een Mapper zijn?

De basisparameters van een Mapper zijn

Lang schrijfbaar en tekst
Tekst en IntWritable

12) Leg uit wat de functie is van de MapReduce-partitioner?

De functie van de MapReduce-partitioner is ervoor te zorgen dat alle waarde van een enkele sleutel naar dezelfde reducer gaat, wat uiteindelijk helpt bij een gelijkmatige verdeling van de kaartuitvoer over de reducers

13) Leg uit wat het verschil is tussen een invoersplitsing en een HDFS-blok?

De logische verdeling van gegevens staat bekend als Split, terwijl een fysieke verdeling van gegevens bekend staat als HDFS Block

14) Leg uit wat er gebeurt in tekstformaat?

In tekstinvoerformaat is elke regel in het tekstbestand een record. Waarde is de inhoud van de regel, terwijl Key de byte-offset van de regel is. Bijvoorbeeld Sleutel: langschrijfbaar, Waarde: tekst

15) Vermeld wat de belangrijkste configuratieparameters zijn die de gebruiker moet opgeven om MapReduce Job uit te voeren?

De gebruiker van het MapReduce-framework moet dit opgeven

De invoerlocaties van Job in het gedistribueerde bestandssysteem
De uitvoerlocatie van Job in het gedistribueerde bestandssysteem
invoer formaat
Uitvoer formaat
Klasse die de kaartfunctie bevat
Klasse die de reduce-functie bevat
JAR-bestand met de mapper-, reducer- en driver-klassen

16) Leg uit wat WebDAV is in Hadoop?

Om het bewerken en updaten van bestanden te ondersteunen is WebDAV een set extensies voor HTTP. Op de meeste besturingssystemen kunnen WebDAV-shares worden gemount als bestandssystemen, dus is het mogelijk om HDFS te benaderen als een standaardbestandssysteem door HDFS bloot te stellen via WebDAV.

17) Leg uit wat Sqoop is in Hadoop?

Om de gegevens over te dragen tussen Relationeel databasebeheer (RDBMS) en Hadoop HDFS Er wordt een tool gebruikt die bekend staat als Sqoop. Met behulp van Sqoop kunnen gegevens worden overgedragen vanuit RDMS, zoals MySQL or Oracle naar HDFS en exporteert gegevens van het HDFS-bestand naar RDBMS

18) Leg uit hoe JobTracker een taak plant?

De taaktracker stuurt doorgaans elke paar minuten heartbeatberichten naar Jobtracker om te controleren of JobTracker actief is en functioneert. Het bericht informeert JobTracker ook over het aantal beschikbare slots, zodat JobTracker op de hoogte blijft van waar het clusterwerk kan worden gedelegeerd.

19) Leg uit wat het Sequencefileinputformat is?

Sequencefileinputformat wordt gebruikt voor het in volgorde lezen van bestanden. Het is een specifiek gecomprimeerd binair bestandsformaat dat is geoptimaliseerd voor het doorgeven van gegevens tussen de uitvoer van de ene MapReduce-taak en de invoer van een andere MapReduce-taak.

20) Leg uit wat de klasse conf.setMapper doet?

Conf.setMapperclass stelt de mapper-klasse in en alle zaken die verband houden met de kaarttaak, zoals het lezen van gegevens en het genereren van een sleutel-waardepaar uit de mapper

21) Leg uit wat Hadoop is?

Het is een open-source softwareframework voor het opslaan van data en het uitvoeren van applicaties op clusters van commodity hardware. Het biedt enorme verwerkingskracht en enorme opslag voor elk type data.

22) Noem wat het verschil is tussen een RDBMS en Hadoop?

RDBMS	Hadoop
RDBMS is een relationeel databasebeheersysteem	Hadoop is een op knooppunten gebaseerde platte structuur
Het werd gebruikt voor OLTP-verwerking, terwijl Hadoop	Het wordt momenteel gebruikt voor analytische en voor BIG DATA-verwerking
In RDBMS gebruikt het databasecluster dezelfde gegevensbestanden die zijn opgeslagen in een gedeelde opslag	In Hadoop kunnen de opslaggegevens onafhankelijk in elk verwerkingsknooppunt worden opgeslagen.
U moet gegevens voorbewerken voordat u deze opslaat	u hoeft gegevens niet voor te verwerken voordat u deze opslaat

23) Noem Hadoop-kerncomponenten?

Hadoop-kerncomponenten omvatten,

HDFS
KaartVerminderen

24) Wat is NameNode in Hadoop?

NameNode in Hadoop is waar Hadoop alle bestandslocatie-informatie in HDFS opslaat. Het is het masterknooppunt waarop de jobtracker draait en bestaat uit metadata.

25) Vermeld wat de datacomponenten zijn die door Hadoop worden gebruikt?

Gegevenscomponenten die door Hadoop worden gebruikt, zijn

26) Vermeld wat de gegevensopslagcomponent is die door Hadoop wordt gebruikt?

De gegevensopslagcomponent die door Hadoop wordt gebruikt, is HBase.

27) Noem wat de meest voorkomende invoerformaten zijn die in Hadoop zijn gedefinieerd?

De meest voorkomende invoerformaten gedefinieerd in Hadoop zijn;

Tekstinvoerformaat
KeyValueInputFormat
SequenceFileInputFormat

28) Wat is InputSplit in Hadoop?

Het splitst invoerbestanden in stukjes en wijst elke splitsing toe aan een mapper voor verwerking.

29) Hoe gaat u voor een Hadoop-taak een aangepaste partitie schrijven?

U schrijft een aangepaste partitioner voor een Hadoop-taak, u volgt het volgende pad

Maak een nieuwe klasse die de Partitioner Class uitbreidt
Methode getPartition overschrijven
In de wrapper waarin MapReduce wordt uitgevoerd
Voeg de aangepaste partitie toe aan de taak met behulp van de methodenset Partitioner Class of – voeg de aangepaste partitie toe aan de taak als een configuratiebestand

30) Is het mogelijk om voor een taak in Hadoop het aantal aan te maken mappers te wijzigen?

Nee, het is niet mogelijk om het aantal aan te maken mappers te wijzigen. Het aantal mappers wordt bepaald door het aantal invoersplitsingen.

31) Leg uit wat een sequentiebestand is in Hadoop?

Om binaire sleutel/waarde-paren op te slaan, wordt een sequentiebestand gebruikt. In tegenstelling tot gewone gecomprimeerde bestanden ondersteunt de reeksbestanden het splitsen, zelfs als de gegevens in het bestand zijn gecomprimeerd.

32) Wat gebeurt er met de jobtracker als Namenode offline is?

Namenode is het enige punt van falen in HDFS. Wanneer Namenode down is, wordt uw cluster geactiveerd.

33) Leg uit hoe indexering in HDFS wordt uitgevoerd?

Hadoop heeft een unieke manier van indexeren. Zodra de gegevens zijn opgeslagen volgens de blokgrootte, blijft de HDFS het laatste deel van de gegevens opslaan, waarin staat waar het volgende deel van de gegevens zal zijn.

34) Leg uit dat het mogelijk is om naar bestanden te zoeken met behulp van jokertekens?

Ja, het is mogelijk om met jokertekens naar bestanden te zoeken.

35) Noem de drie configuratiebestanden van Hadoop?

De drie configuratiebestanden zijn

kern-site.xml
mapred-site.xml
hdfs-site.xml

36) Leg uit hoe je kunt controleren of Namenode werkt naast het gebruik van het jps-commando?

Naast het jps-commando kunt u ook het commando gebruiken om te controleren of Namenode werkt

/etc/init.d/hadoop-0.20-naamodestatus.

37) Leg uit wat "kaart" en wat "reducer" is in Hadoop?

In Hadoop is een kaart een fase bij het oplossen van HDFS-query's. Een kaart leest gegevens van een invoerlocatie en voert een sleutelwaardepaar uit volgens het invoertype.

In Hadoop verzamelt een reducer de uitvoer die door de mapper wordt gegenereerd, verwerkt deze en creëert een eigen uiteindelijke uitvoer.

38) Welk bestand beheert in Hadoop de rapportage in Hadoop?

In Hadoop beheert het bestand hadoop-metrics.properties de rapportage.

39) Voor het gebruik van Hadoop een lijst van de netwerkvereisten?

Voor het gebruik van Hadoop is de lijst met netwerkvereisten:

Wachtwoordloze SSH-verbinding
Secure Shell (SSH) voor het starten van serverprocessen

40) Noem wat rackbewustzijn is?

Rackbewustzijn is de manier waarop de naamnode bepaalt hoe blokken moeten worden geplaatst op basis van de rackdefinities.

41) Leg uit wat een Task Tracker in Hadoop is?

Een Task Tracker in Hadoop is een slave node daemon in het cluster die taken van een JobTracker accepteert. Het stuurt ook de heartbeat-berichten naar de JobTracker, elke paar minuten, om te bevestigen dat de JobTracker nog steeds actief is.

42) Noem welke daemons op een masternode en slavenodes draaien?

Daemons die op het hoofdknooppunt worden uitgevoerd, zijn "NameNode"
Daemons die op elke Slave-knooppunt worden uitgevoerd, zijn "Task Tracker" en "Data"

43) Leg uit hoe je Hadoop-code kunt debuggen?

De populaire methoden voor het debuggen van Hadoop-code zijn:

Door gebruik te maken van de webinterface van het Hadoop-framework
Door gebruik te maken van tellers

44) Leg uit wat opslag- en rekenknooppunten zijn?

Het opslagknooppunt is de machine of computer waarop uw bestandssysteem zich bevindt om de verwerkingsgegevens op te slaan
Het rekenknooppunt is de computer of machine waarop uw daadwerkelijke bedrijfslogica wordt uitgevoerd.

45) Noem wat het gebruik van Context Object is?

Met het Context Object kan de mapper communiceren met de rest van de Hadoop

systeem. Het bevat configuratiegegevens voor de taak, evenals interfaces waarmee uitvoer kan worden verzonden.

46) Noem wat de volgende stap is na Mapper of MapTask?

De volgende stap na Mapper of MapTask is dat de uitvoer van de Mapper wordt gesorteerd en dat er partities worden gemaakt voor de uitvoer.

47) Vermeld wat het nummer van de standaardpartitioner in Hadoop is?

In Hadoop is de standaardpartitioner een “Hash”-partitioner.

48) Leg uit wat het doel is van RecordReader in Hadoop?

In Hadoop laadt de RecordReader de gegevens uit de bron en converteert deze naar (sleutel-, waarde-)paren die geschikt zijn om door de Mapper te worden gelezen.

49) Leg uit hoe gegevens worden gepartitioneerd voordat deze naar de reducer worden verzonden als er geen aangepaste partitie is gedefinieerd in Hadoop?

Als er geen aangepaste partitie is gedefinieerd in Hadoop, berekent een standaard partitie een hash-waarde voor de sleutel en wijst de partitie toe op basis van het resultaat.

50) Leg uit wat er gebeurt als Hadoop 50 taken voor een taak voortbrengt en een van de taken mislukt?

Het zal de taak opnieuw starten op een andere TaskTracker als de taak vaker mislukt dan de gedefinieerde limiet.

51) Wat is de beste manier om bestanden te kopiëren tussen HDFS-clusters?

De beste manier om bestanden tussen HDFS-clusters te kopiëren, is door meerdere knooppunten en de distcp-opdracht te gebruiken, zodat de werklast wordt gedeeld.

52) Noem wat het verschil is tussen HDFS en NAS?

HDFS-gegevensblokken worden verdeeld over lokale schijven van alle machines in een cluster, terwijl NAS-gegevens op speciale hardware worden opgeslagen.

53) Noem hoe Hadoop verschilt van andere gegevensverwerkingstools?

In Hadoop kunt u het aantal mappers vergroten of verkleinen zonder dat u zich zorgen hoeft te maken over de hoeveelheid gegevens die moet worden verwerkt.

54) Noem welke taak de conf-klasse doet?

Job conf class scheidt verschillende jobs die op hetzelfde cluster worden uitgevoerd. Het doet de job level settings zoals het declareren van een job in een echte omgeving.

55) Vermeld wat het Hadoop MapReduce API's-contract is voor een sleutel- en waardeklasse?

Voor een sleutel- en waardeklasse zijn er twee Hadoop MapReduce API's-contracten

De waarde moet de interface org.apache.hadoop.io.Writable definiëren
De sleutel moet de interface org.apache.hadoop.io.WritableComparable definiëren

56) Noem wat de drie modi zijn waarin Hadoop kan worden uitgevoerd?

De drie modi waarin Hadoop kan worden uitgevoerd zijn

Pseudo-gedistribueerde modus
Standalone (lokale) modus
Volledig gedistribueerde modus

57) Vermeld wat het tekstinvoerformaat doet?

Het tekstinvoerformaat creëert een lijnobject dat een hexadecimaal getal is. De waarde wordt beschouwd als een hele regeltekst, terwijl de sleutel wordt beschouwd als een regelobject. De mapper ontvangt de waarde als 'text'-parameter en de sleutel als 'longwriteable'-parameter.

58) Noem hoeveel InputSplits er door een Hadoop Framework worden gemaakt?

Hadoop zal 5 splitsingen maken

1 split voor 64K-bestanden
2 gesplitst voor bestanden van 65 MB
2 splitsingen voor bestanden van 127 MB

59) Noem wat gedistribueerde cache is in Hadoop?

Gedistribueerde cache in Hadoop is een voorziening die wordt aangeboden door het MapReduce-framework. Op het moment dat de taak wordt uitgevoerd, wordt het gebruikt om het bestand in de cache op te slaan. Het Framework kopieert de benodigde bestanden naar het slave-knooppunt voordat een taak op dat knooppunt wordt uitgevoerd.

60) Leg uit hoe Hadoop Classpath een cruciale rol speelt bij het stoppen of starten van Hadoop-daemons?

Classpath zal bestaan uit een lijst met mappen die jar-bestanden bevatten om daemons te stoppen of te starten.

Deze interviewvragen zullen ook helpen bij je viva (oralen)