De 60 bästa Hadoop-intervjufrågorna och -svaren (2025)
Här är Hadoop MapReduce intervjufrågor och svar för både fräscha och erfarna kandidater att få sitt drömjobb.
Hadoop MapReduce intervjufrågor
1) Vad är Hadoop Map Reduce?
För att bearbeta stora datamängder parallellt över ett Hadoop-kluster används Hadoop MapReduce-ramverket. Dataanalys använder en tvåstegs karta och reducera process.
2) Hur fungerar Hadoop MapReduce?
I MapReduce, under kartfasen, räknar den orden i varje dokument, medan den i reduceringsfasen aggregerar data enligt dokumentet som spänner över hela samlingen. Under kartfasen delas indata in i delar för analys av kartuppgifter som körs parallellt över Hadoop-ramverket.
👉 Gratis PDF-nedladdning: Hadoop & MapReduce Intervjufrågor och svar
3) Förklara vad som är att blanda i MapReduce?
Processen genom vilken systemet utför sorteringen och överför kartutgångarna till reduceraren som ingångar kallas shuffle
4) Förklara vad som är distribuerad cache i MapReduce Framework?
Distribuerad cache är en viktig funktion som tillhandahålls av MapReduce-ramverket. När du vill dela några filer över alla noder i Hadoop Cluster, distribuerad cache används. Filerna kan vara en körbar jar-fil eller en enkel egenskapsfil.
5) Förklara vad är NameNode i Hadoop?
NameNode i Hadoop är noden, där Hadoop lagrar all filplatsinformation i HDFS (Hadoop Distributed File System). Med andra ord, NameNode är mittpunkten i ett HDFS-filsystem. Det håller register över alla filer i filsystemet och spårar fildata över klustret eller flera maskiner
6) Förklara vad är JobTracker i Hadoop? Vilka åtgärder följs av Hadoop?
In Hadoop för att skicka in och spåra MapReduce-jobb används JobTracker. Job tracker körs på sin egen JVM-process
Job Tracker utför följande åtgärder i Hadoop
- Klientansökan skicka in jobb till jobbspåraren
- JobTracker kommunicerar till namnläget för att bestämma dataplacering
- Nära data eller med tillgängliga platser JobTracker lokaliserar TaskTracker-noder
- På valda TaskTracker-noder skickar den in arbetet
- När en uppgift misslyckas meddelar Job Tracker och bestämmer vad som ska göras sedan.
- TaskTracker-noderna övervakas av JobTracker
7) Förklara vad hjärtslag är i HDFS?
Hjärtslag hänvisas till en signal som används mellan en datanod och namnnod, och mellan uppgiftsspårare och jobbspårare, om namnnoden eller jobbspåraren inte svarar på signalen, anses det vara några problem med datanoden eller uppgiften spårare
8) Förklara vad combiners är och när du ska använda en combiner i ett MapReduce Job?
För att öka effektiviteten av MapReduce-programmet, Combiners används. Mängden data kan minskas med hjälp av kombinerare som behöver överföras till reducerarna. Om operationen som utförs är kommutativ och associativ kan du använda din reducerkod som en kombinerare. Utförandet av combiner är inte garanterat i Hadoop
9) Vad händer när en datanod misslyckas?
När en datanod misslyckas
- Jobtracker och namnnod upptäcker felet
- På den misslyckade noden schemaläggs alla uppgifter om
- Namenode replikerar användarens data till en annan nod
10) Förklara vad är spekulativ avrättning?
I Hadoop under Speculative Execution lanseras ett visst antal dubbletter av uppgifter. På en annan slavnod kan flera kopior av samma karta eller reduceringsuppgift utföras med hjälp av spekulativ exekvering. Med enkla ord, om en viss enhet tar lång tid att slutföra en uppgift, kommer Hadoop att skapa en dubblettuppgift på en annan disk. En disk som avslutar uppgiften först behålls och diskar som inte avslutas först dödas.
11) Förklara vilka är de grundläggande parametrarna för en Mapper?
De grundläggande parametrarna för en Mapper är
- LongWritable och text
- Text och IntWritable
12) Förklara vad MapReduce-partitioneraren har för funktion?
MapReduce-partitionerarens funktion är att se till att allt värde på en enskild nyckel går till samma reducer, vilket så småningom hjälper en jämn fördelning av kartutdata över reducerarna
13) Förklara vad som är skillnaden mellan en Input Split och HDFS Block?
Den logiska uppdelningen av data är känd som Split medan en fysisk uppdelning av data är känd som HDFS Block
14) Förklara vad som händer i textformat?
I textinmatningsformat är varje rad i textfilen en post. Värde är innehållet i raden medan Key är byteoffset för raden. Till exempel, Nyckel: longWritable, Value: text
15) Nämn vilka är de viktigaste konfigurationsparametrarna som användaren måste ange för att köra MapReduce Job?
Användaren av MapReduce-ramverket måste specificera
- Jobs inmatningsplatser i det distribuerade filsystemet
- Jobbets utdataplats i det distribuerade filsystemet
- Inmatningsformat
- Utmatningsformat
- Klass som innehåller kartfunktionen
- Klass som innehåller reduceringsfunktionen
- JAR-fil som innehåller mappar-, reducer- och drivrutinsklasserna
16) Förklara vad är WebDAV i Hadoop?
För att stödja redigering och uppdatering av filer är WebDAV en uppsättning tillägg till HTTP. På de flesta operativsystem kan WebDAV-resurser monteras som filsystem, så det är möjligt att komma åt HDFS som ett standardfilsystem genom att exponera HDFS över WebDAV.
17) Förklara vad är Sqoop i Hadoop?
För att överföra data mellan Relationell databashantering (RDBMS) och Hadoop HDFS ett verktyg som kallas Sqoop används. Med Sqoop kan data överföras från RDMS som MySQL or Oracle till HDFS samt exportera data från HDFS-filen till RDBMS
18) Förklara hur JobTracker schemalägger en uppgift?
Uppgiftsspåraren skickar ut hjärtslagsmeddelanden till Jobtracker vanligtvis med några minuters mellanrum för att säkerställa att JobTracker är aktiv och fungerar. Meddelandet informerar också JobTracker om antalet tillgängliga platser, så att JobTracker kan hålla sig uppdaterad med var klusterarbetet kan delegeras
19) Förklara vad är Sequencefileinputformat?
Sequencefileinputformat används för att läsa filer i sekvens. Det är ett specifikt komprimerat binärt filformat som är optimerat för att skicka data mellan utdata från ett MapReduce-jobb till indata från något annat MapReduce-jobb.
20) Förklara vad klassen conf.setMapper gör?
Conf.setMapperclass ställer in mapparklassen och allt som är relaterat till kartjobbet, som att läsa data och generera ett nyckel-värdepar från mapparen
21) Förklara vad är Hadoop?
Det är ett ramverk med öppen källkod för att lagra data och köra applikationer på kluster av råvaruhårdvara. Det ger enorm processorkraft och massiv lagring för alla typer av data.
22) Nämn vad är skillnaden mellan en RDBMS och Hadoop?
RDBMS | Hadoop |
---|---|
RDBMS är ett relationsdatabashanteringssystem | Hadoop är en nodbaserad platt struktur |
Det användes för OLTP-bearbetning medan Hadoop | Den används för närvarande för analytisk och för BIG DATA-bearbetning |
I RDBMS använder databasklustret samma datafiler som lagras i en delad lagring | I Hadoop kan lagringsdata lagras oberoende i varje bearbetningsnod. |
Du måste förbehandla data innan du lagrar den | du behöver inte förbehandla data innan du lagrar den |
23) Nämn Hadoop kärnkomponenter?
Hadoop kärnkomponenter inkluderar,
- HDFS
- MapReduce
24) Vad är NameNode i Hadoop?
NameNode i Hadoop är där Hadoop lagrar all filplatsinformation i HDFS. Det är huvudnoden som jobbspåraren körs på och består av metadata.
25) Nämn vilka datakomponenter som används av Hadoop?
Datakomponenter som används av Hadoop är
26) Nämn vilken datalagringskomponent som används av Hadoop?
Datalagringskomponenten som används av Hadoop är HBase.
27) Nämn vilka är de vanligaste inmatningsformaten som definieras i Hadoop?
De vanligaste inmatningsformaten som definieras i Hadoop är;
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) Vad är InputSplit i Hadoop?
Den delar upp indatafiler i bitar och tilldelar varje uppdelning till en kartläggare för bearbetning.
29) För ett Hadoop-jobb, hur skriver du en anpassad partitionerare?
Du skriver en anpassad partitionerare för ett Hadoop-jobb, du följer följande väg
- Skapa en ny klass som utökar Partitioner Class
- Åsidosätt metoden getPartition
- I omslaget som kör MapReduce
- Lägg till den anpassade partitioneraren till jobbet genom att använda metoduppsättningen Partitioner Class eller – lägg till den anpassade partitioneraren till jobbet som en konfigurationsfil
30) För ett jobb i Hadoop, är det möjligt att ändra antalet kartläggare som ska skapas?
Nej, det är inte möjligt att ändra antalet mappers som ska skapas. Antalet mappare bestäms av antalet indatadelningar.
31) Förklara vad är en sekvensfil i Hadoop?
För att lagra binära nyckel/värdepar används sekvensfil. Till skillnad från vanliga komprimerade filer, stöder sekvensfil delning även när data inuti filen är komprimerad.
32) Vad händer med jobbspåraren när Namenode är nere?
Namenode är den enda punkten för fel i HDFS så när Namenode är nere kommer ditt kluster att starta.
33) Förklara hur indexering i HDFS går till?
Hadoop har ett unikt sätt att indexera. När data har lagrats enligt blockstorleken kommer HDFS att fortsätta att lagra den sista delen av data som säger var nästa del av data kommer att vara.
34) Förklara är det möjligt att söka efter filer med jokertecken?
Ja, det är möjligt att söka efter filer med jokertecken.
35) Lista över Hadoops tre konfigurationsfiler?
De tre konfigurationsfilerna är
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Förklara hur du kan kontrollera om Namenode fungerar bredvid att använda kommandot jps?
Förutom att använda kommandot jps, för att kontrollera om Namenode fungerar kan du också använda
/etc/init.d/hadoop-0.20-namenode status.
37) Förklara vad som är "karta" och vad är "reducerare" i Hadoop?
I Hadoop är en karta en fas i HDFS-frågelösning. En karta läser data från en ingångsplats och matar ut ett nyckelvärdespar enligt inmatningstypen.
I Hadoop samlar en reducerare den utdata som genereras av mapparen, bearbetar den och skapar en egen slutlig utdata.
38) Vilken fil styr rapportering i Hadoop i Hadoop?
I Hadoop kontrollerar filen hadoop-metrics.properties rapporteringen.
39) För att använda Hadoop lista nätverkskraven?
För att använda Hadoop är listan över nätverkskrav:
- Lösenordslös SSH-anslutning
- Secure Shell (SSH) för att starta serverprocesser
40) Nämn vad är rackmedvetenhet?
Rackmedvetenhet är det sätt på vilket namnnoden bestämmer hur block ska placeras baserat på rackdefinitionerna.
41) Förklara vad är en uppgiftsspårare i Hadoop?
En Task Tracker i Hadoop är en slavnoddemon i klustret som accepterar uppgifter från en JobTracker. Den skickar också ut hjärtslagsmeddelanden till JobTracker, med några minuters mellanrum, för att bekräfta att JobTracker fortfarande lever.
42) Nämn vilka demoner som körs på en masternod och slavnoder?
- Demoner som körs på huvudnoden är "NameNode"
- Demoner som körs på varje slavnod är "Task Tracker" och "Data"
43) Förklara hur du kan felsöka Hadoop-kod?
De populära metoderna för att felsöka Hadoop-kod är:
- Genom att använda webbgränssnitt som tillhandahålls av Hadoop framework
- Genom att använda räknare
44) Förklara vad är lagrings- och beräkningsnoder?
- Lagringsnoden är den maskin eller dator där ditt filsystem finns för att lagra bearbetningsdata
- Beräkningsnoden är den dator eller maskin där din verkliga affärslogik kommer att exekveras.
45) Nämn vad är användningen av Context Object?
Kontextobjektet gör det möjligt för kartläggaren att interagera med resten av Hadoop
systemet. Den innehåller konfigurationsdata för jobbet, såväl som gränssnitt som gör att den kan avge utdata.
46) Nämn vad är nästa steg efter Mapper eller MapTask?
Nästa steg efter Mapper eller MapTask är att utdata från Mapper sorteras och partitioner skapas för utdata.
47) Nämn vad är antalet standardpartitionerare i Hadoop?
I Hadoop är standardpartitioneraren en "Hash"-partitionerare.
48) Förklara vad är syftet med RecordReader i Hadoop?
I Hadoop laddar RecordReader data från sin källa och konverterar den till (nyckel, värde) par som är lämpliga för läsning av Mapper.
49) Förklara hur data partitioneras innan det skickas till reduceraren om ingen anpassad partitionerare är definierad i Hadoop?
Om ingen anpassad partitionerare är definierad i Hadoop, beräknar en standardpartitionerare ett hashvärde för nyckeln och tilldelar partitionen baserat på resultatet.
50) Förklara vad som händer när Hadoop skapade 50 uppgifter för ett jobb och en av uppgifterna misslyckades?
Det kommer att starta om uppgiften igen på någon annan TaskTracker om uppgiften misslyckas mer än den definierade gränsen.
51) Nämn vilket är det bästa sättet att kopiera filer mellan HDFS-kluster?
Det bästa sättet att kopiera filer mellan HDFS-kluster är att använda flera noder och kommandot distcp, så att arbetsbelastningen delas.
52) Nämn vad är skillnaden mellan HDFS och NAS?
HDFS-datablock distribueras över lokala enheter på alla maskiner i ett kluster medan NAS-data lagras på dedikerad hårdvara.
53) Nämn hur Hadoop skiljer sig från andra databehandlingsverktyg?
I Hadoop kan du öka eller minska antalet kartläggare utan att oroa dig för mängden data som ska behandlas.
54) Nämn vilket jobb gör konf-klassen?
Job conf class separerar olika jobb som körs på samma kluster. Den gör inställningarna för jobbnivå, som att deklarera ett jobb i en verklig miljö.
55) Nämn vad är Hadoop MapReduce APIs kontrakt för en nyckel- och värdeklass?
För en nyckel- och värdeklass finns det två Hadoop MapReduce API-kontrakt
- Värdet måste definiera det org.apache.hadoop.io.Writable-gränssnittet
- Nyckeln måste definiera org.apache.hadoop.io.WritableComparable-gränssnittet
56) Nämn vilka tre lägen som Hadoop kan köras i?
De tre lägen som Hadoop kan köras i är
- Pseudo distribuerat läge
- Fristående (lokalt) läge
- Fullt distribuerat läge
57) Nämn vad gör textinmatningsformatet?
Textinmatningsformatet skapar ett linjeobjekt som är ett hexadecimalt tal. Värdet betraktas som en hel radtext medan nyckeln betraktas som ett radobjekt. Kartläggaren kommer att få värdet som 'text'-parameter medan nyckeln som 'longwriteable'-parameter.
58) Nämn hur många InputSplits som görs av ett Hadoop Framework?
Hadoop kommer att göra 5 splits
- 1 split för 64K-filer
- 2 split för 65mb filer
- 2 delar för 127mb filer
59) Nämn vad som är distribuerad cache i Hadoop?
Distribuerad cache i Hadoop är en funktion som tillhandahålls av MapReduce-ramverket. Vid tidpunkten för utförandet av jobbet används det för att cache-fil. Ramverket kopierar de nödvändiga filerna till slavnoden innan någon uppgift utförs vid den noden.
60) Förklara hur spelar Hadoop Classpath en viktig roll för att stoppa eller starta i Hadoop-demoner?
Klasssökväg kommer att bestå av en lista med kataloger som innehåller jar-filer för att stoppa eller starta demoner.
Dessa intervjufrågor kommer också att hjälpa dig i din viva (orals)