Topp 60 Hadoop-intervjuspørsmål og -svar (2025)

Her er Hadoop MapReduce intervjuspørsmål og svar for ferskere og erfarne kandidater for å få drømmejobben.

Hadoop MapReduce intervjuspørsmål

1) Hva er Hadoop Map Reduce?

For å behandle store datasett parallelt på tvers av en Hadoop-klynge, brukes Hadoop MapReduce-rammeverket. Dataanalyse bruker en to-trinns kart og redusere prosess.

2) Hvordan fungerer Hadoop MapReduce?

I MapReduce, under kartfasen, teller den ordene i hvert dokument, mens den i reduksjonsfasen samler dataene i henhold til dokumentet som spenner over hele samlingen. I løpet av kartfasen deles inngangsdataene inn i deler for analyse ved at kartoppgaver kjører parallelt på tvers av Hadoop-rammeverket.

👉 Gratis PDF-nedlasting: Hadoop & MapReduce Intervjuspørsmål og svar

3) Forklar hva som er shuffling i MapReduce?

Prosessen der systemet utfører sorteringen og overfører kartutdataene til reduksjonsboksen som innganger, er kjent som shuffle

4) Forklar hva som er distribuert cache i MapReduce Framework?

Distribuert hurtigbuffer er en viktig funksjon levert av MapReduce-rammeverket. Når du vil dele noen filer på tvers av alle noder i Hadoop Cluster, distribuert cache brukes. Filene kan være en kjørbar jar-filer eller enkel egenskapsfil.

5) Forklar hva er NameNode i Hadoop?

NameNode i Hadoop er noden, der Hadoop lagrer all filplasseringsinformasjon i HDFS (Hadoop Distributed File System). Med andre ord er NameNode midtpunktet i et HDFS-filsystem. Den holder oversikt over alle filene i filsystemet og sporer fildataene på tvers av klyngen eller flere maskiner

6) Forklar hva er JobTracker i Hadoop? Hva er handlingene fulgt av Hadoop?

In Hadoop for innsending og sporing av MapReduce-jobber brukes JobTracker. Jobbsporing kjøres på sin egen JVM-prosess

Job Tracker utfører følgende handlinger i Hadoop

Klientsøknad send inn jobber til jobbsporeren
JobTracker kommuniserer til navnemodus for å bestemme dataplassering
I nærheten av dataene eller med tilgjengelige spor JobTracker finner TaskTracker-noder
På valgte TaskTracker-noder sender den inn arbeidet
Når en oppgave mislykkes, varsler Job Tracker og bestemmer hva som skal gjøres da.
TaskTracker-nodene overvåkes av JobTracker

7) Forklar hva som er hjerteslag i HDFS?

Hjerteslag refereres til et signal som brukes mellom en datanode og navnenoden, og mellom oppgavesporer og jobbsporer, hvis navnenoden eller jobbsporeren ikke reagerer på signalet, anses det å være noen problemer med dataknuten eller oppgaven sporer

8) Forklar hva combiners er og når du bør bruke en combiner i en MapReduce Job?

For å øke effektiviteten av MapReduce-programmet, Kombinere brukes. Datamengden kan reduseres ved hjelp av kombinatorer som må overføres til reduksjonsenhetene. Hvis operasjonen som utføres er kommutativ og assosiativ, kan du bruke reduksjonskoden din som en kombinasjon. Utførelsen av combiner er ikke garantert i Hadoop

9) Hva skjer når en datanode svikter?

Når en datanode svikter

Jobtracker og namenode oppdager feilen
På den mislykkede noden blir alle oppgaver planlagt på nytt
Namenode replikerer brukerens data til en annen node

10) Forklar hva er spekulativ henrettelse?

I Hadoop under spekulativ utførelse lanseres et visst antall dupliserte oppgaver. På en annen slavenode kan flere kopier av samme kart eller reduseringsoppgave utføres ved å bruke Spekulativ utførelse. Med enkle ord, hvis en bestemt stasjon tar lang tid å fullføre en oppgave, vil Hadoop lage en duplikatoppgave på en annen disk. En disk som fullfører oppgaven først, beholdes og disker som ikke fullfører først blir drept.

11) Forklar hva er de grunnleggende parametrene til en Mapper?

De grunnleggende parametrene til en Mapper er

LongWritable og tekst
Tekst og IntWritable

12) Forklar hva som er funksjonen til MapReduce partisjonerer?

Funksjonen til MapReduce partitioner er å sørge for at all verdien av en enkelt nøkkel går til den samme reduseringen, noe som til slutt hjelper jevn fordeling av kartutdataene over reduseringene

13) Forklar hva som er forskjellen mellom en Input Split og HDFS Block?

Den logiske deling av data er kjent som Split mens en fysisk deling av data er kjent som HDFS Block

14) Forklar hva som skjer i tekstformat?

I tekstinndataformat er hver linje i tekstfilen en post. Verdi er innholdet i linjen mens Key er byteforskyvningen til linjen. For eksempel, Key: longWritable, Value: text

15) Nevn hva er hovedkonfigurasjonsparametrene som brukeren må spesifisere for å kjøre MapReduce Job?

Brukeren av MapReduce-rammeverket må spesifisere

Jobs inndataplasseringer i det distribuerte filsystemet
Jobs utdataplassering i det distribuerte filsystemet
Input format
Utgående format
Klasse som inneholder kartfunksjonen
Klasse som inneholder reduseringsfunksjonen
JAR-fil som inneholder mapper-, reduserings- og driverklassene

16) Forklar hva er WebDAV i Hadoop?

For å støtte redigering og oppdatering av filer er WebDAV et sett med utvidelser til HTTP. På de fleste operativsystemer kan WebDAV-andeler monteres som filsystemer, så det er mulig å få tilgang til HDFS som et standard filsystem ved å eksponere HDFS over WebDAV.

17) Forklar hva er Sqoop i Hadoop?

For å overføre data mellom Relasjonell databaseadministrasjon (RDBMS) og Hadoop HDFS et verktøy som kalles Sqoop brukes. Ved å bruke Sqoop kan data overføres fra RDMS som MySQL or Oracle til HDFS samt eksport av data fra HDFS-fil til RDBMS

18) Forklar hvordan JobTracker planlegger en oppgave?

Oppgavesporeren sender ut hjerteslagmeldinger til Jobtracker vanligvis med noen minutters mellomrom for å sikre at JobTracker er aktiv og fungerer. Meldingen informerer også JobTracker om antall tilgjengelige plasser, slik at JobTracker kan holde seg oppdatert med hvor klyngearbeidet kan delegeres

19) Forklar hva er Sequencefileinputformat?

Sequencefileinputformat brukes til å lese filer i rekkefølge. Det er et spesifikt komprimert binært filformat som er optimalisert for å sende data mellom utdataene fra en MapReduce-jobb til inngangen til en annen MapReduce-jobb.

20) Forklar hva conf.setMapper-klassen gjør?

Conf.setMapperclass setter kartleggingsklassen og alt som er relatert til kartjobben, for eksempel å lese data og generere et nøkkelverdi-par ut av kartleggeren

21) Forklar hva er Hadoop?

Det er et programvarerammeverk med åpen kildekode for lagring av data og kjøring av applikasjoner på klynger av råvaremaskinvare. Det gir enorm prosessorkraft og massiv lagring for alle typer data.

22) Nevn hva som er forskjellen mellom en RDBMS og Hadoop?

RDBMS	Hadoop
RDBMS er et relasjonsdatabasestyringssystem	Hadoop er en nodebasert flat struktur
Den brukes til OLTP-behandling mens Hadoop	Den brukes for tiden til analytisk og for BIG DATA-behandling
I RDBMS bruker databaseklyngen de samme datafilene som er lagret i et delt lager	I Hadoop kan lagringsdataene lagres uavhengig i hver prosesseringsnode.
Du må forhåndsbehandle data før du lagrer dem	du trenger ikke å forhåndsbehandle data før du lagrer dem

23) Nevn Hadoop kjernekomponenter?

Hadoop kjernekomponenter inkluderer,

HDFS
MapReduce

24) Hva er NameNode i Hadoop?

NameNode i Hadoop er der Hadoop lagrer all filplasseringsinformasjon i HDFS. Det er hovednoden som jobbsporeren kjører på og består av metadata.

25) Nevn hva er datakomponentene som brukes av Hadoop?

Datakomponenter som brukes av Hadoop er

Pig
Hive

26) Nevn hva er datalagringskomponenten som brukes av Hadoop?

Datalagringskomponenten som brukes av Hadoop er HBase.

27) Nevn hva som er de vanligste inndataformatene definert i Hadoop?

De vanligste inndataformatene definert i Hadoop er;

TextInputFormat
KeyValueInputFormat
SequenceFileInputFormat

28) Hva er InputSplit i Hadoop?

Den deler opp inndatafiler i biter og tildeler hver del til en kartlegger for behandling.

29) For en Hadoop-jobb, hvordan vil du skrive en tilpasset partisjonerer?

Du skriver en tilpasset partisjonerer for en Hadoop-jobb, du følger følgende sti

Opprett en ny klasse som utvider Partitioner Class
Overstyr metoden getPartition
I innpakningen som kjører MapReduce
Legg til den tilpassede partisjoneringen til jobben ved å bruke metodesett Partitioner Class eller – legg den tilpassede partisjonen til jobben som en konfigurasjonsfil

30) For en jobb i Hadoop, er det mulig å endre antall kartleggere som skal opprettes?

Nei, det er ikke mulig å endre antall kartleggere som skal opprettes. Antall kartleggere bestemmes av antall inndatadelinger.

31) Forklar hva er en sekvensfil i Hadoop?

For å lagre binære nøkkel/verdi-par, brukes sekvensfil. I motsetning til vanlig komprimert fil, støtter sekvensfil splitting selv når dataene inne i filen er komprimert.

32) Når Namenode er nede, hva skjer med jobbsporing?

Namenode er det eneste feilpunktet i HDFS, så når Namenode er nede vil klyngen din sette av.

33) Forklar hvordan indeksering i HDFS gjøres?

Hadoop har en unik måte å indeksere på. Når dataene er lagret i henhold til blokkstørrelsen, vil HDFS fortsette å lagre den siste delen av dataene som sier hvor neste del av dataene vil være.

34) Forklar er det mulig å søke etter filer ved hjelp av jokertegn?

Ja, det er mulig å søke etter filer med jokertegn.

35) Liste ut Hadoops tre konfigurasjonsfiler?

De tre konfigurasjonsfilene er

core-site.xml
mapred-site.xml
hdfs-side.xml

36) Forklar hvordan du kan sjekke om Namenode fungerer ved siden av å bruke jps-kommandoen?

I tillegg til å bruke jps-kommandoen, kan du også bruke for å sjekke om Namenode fungerer

/etc/init.d/hadoop-0.20-namenode-status.

37) Forklar hva som er «kart» og hva er «reduksjon» i Hadoop?

I Hadoop er et kart en fase i HDFS-spørringsløsning. Et kart leser data fra en inngangsposisjon, og sender ut et nøkkelverdipar i henhold til inngangstypen.

I Hadoop samler en redusering utgangen generert av kartleggeren, behandler den og lager sin egen endelige utgang.

38) I Hadoop, hvilken fil kontrollerer rapportering i Hadoop?

I Hadoop kontrollerer filen hadoop-metrics.properties rapporteringen.

39) For å bruke Hadoop liste over nettverkskravene?

For bruk av Hadoop er listen over nettverkskrav:

Passordløs SSH-tilkobling
Secure Shell (SSH) for å starte serverprosesser

40) Nevn hva er rack-bevissthet?

Rackbevissthet er måten navnenoden bestemmer hvordan blokker skal plasseres basert på stativdefinisjonene.

41) Forklar hva en Task Tracker er i Hadoop?

En Task Tracker i Hadoop er en slavenode-demon i klyngen som godtar oppgaver fra en JobTracker. Den sender også ut hjerteslagmeldinger til JobTracker, med noen få minutters mellomrom, for å bekrefte at JobTracker fortsatt er i live.

42) Nevn hvilke demoner som kjører på en masternode og slavenoder?

Demoner som kjøres på hovednoden er "NameNode"
Demoner som kjøres på hver slavenoder er "Task Tracker" og "Data"

43) Forklar hvordan du kan feilsøke Hadoop-kode?

De populære metodene for å feilsøke Hadoop-kode er:

Ved å bruke webgrensesnitt levert av Hadoop-rammeverket
Ved å bruke tellere

44) Forklar hva er lagrings- og beregningsnoder?

Lagringsnoden er maskinen eller datamaskinen der filsystemet ditt befinner seg for å lagre behandlingsdataene
Beregningsnoden er datamaskinen eller maskinen der din faktiske forretningslogikk vil bli utført.

45) Nevn hva er bruken av Context Object?

Kontekstobjektet gjør det mulig for kartleggeren å samhandle med resten av Hadoop

system. Den inkluderer konfigurasjonsdata for jobben, samt grensesnitt som lar den sende ut utdata.

46) Nevn hva som er neste trinn etter Mapper eller MapTask?

Neste trinn etter Mapper eller MapTask er at utdataene fra Mapper blir sortert, og partisjoner vil bli opprettet for utdataene.

47) Nevn hva er antallet standard partisjonerer i Hadoop?

I Hadoop er standardpartisjoneringen en "Hash"-partisjonerer.

48) Forklar hva som er formålet med RecordReader i Hadoop?

I Hadoop laster RecordReader dataene fra kilden og konverterer dem til (nøkkel, verdi) par som er egnet for lesing av Mapper.

49) Forklar hvordan data partisjoneres før de sendes til redusering hvis ingen egendefinert partisjonerer er definert i Hadoop?

Hvis ingen egendefinert partisjonerer er definert i Hadoop, beregner en standard partisjonerer en hash-verdi for nøkkelen og tildeler partisjonen basert på resultatet.

50) Forklar hva som skjer når Hadoop skapte 50 oppgaver for en jobb og en av oppgavene mislyktes?

Den vil starte oppgaven på nytt på en annen TaskTracker hvis oppgaven mislykkes mer enn den definerte grensen.

51) Nevn hva som er den beste måten å kopiere filer mellom HDFS-klynger på?

Den beste måten å kopiere filer mellom HDFS-klynger på er å bruke flere noder og distcp-kommandoen, slik at arbeidsmengden deles.

52) Nevn hva er forskjellen mellom HDFS og NAS?

HDFS-datablokker er distribuert over lokale stasjoner på alle maskiner i en klynge mens NAS-data lagres på dedikert maskinvare.

53) Nevn hvordan Hadoop er forskjellig fra andre databehandlingsverktøy?

I Hadoop kan du øke eller redusere antall kartleggere uten å bekymre deg for mengden data som skal behandles.

54) Nevn hvilken jobb gjør conf-klassen?

Job conf class skiller forskjellige jobber som kjører på samme klynge. Den gjør innstillingene på jobbnivå, for eksempel å erklære en jobb i et virkelig miljø.

55) Nevn hva er Hadoop MapReduce API-kontrakten for en nøkkel- og verdiklasse?

For en nøkkel- og verdiklasse er det to Hadoop MapReduce API-kontrakter

Verdien må definere org.apache.hadoop.io.Writable-grensesnittet
Nøkkelen må definere org.apache.hadoop.io.WritableComparable-grensesnittet

56) Nevn hvilke tre moduser Hadoop kan kjøres i?

De tre modusene som Hadoop kan kjøres i er

Pseudo distribuert modus
Frittstående (lokal) modus
Fullt distribuert modus

57) Nevn hva gjør tekstinndataformatet?

Tekstinndataformatet vil lage et linjeobjekt som er et heksadesimalt tall. Verdien betraktes som en hel linjetekst mens nøkkelen betraktes som et linjeobjekt. Kartleggeren vil motta verdien som 'tekst'-parameter mens nøkkelen som 'longwriteable'-parameter.

58) Nevn hvor mange InputSplits som lages av et Hadoop Framework?

Hadoop vil gjøre 5 splitter

1 delt for 64K-filer
2 delt for 65mb filer
2 splitter for 127mb filer

59) Nevn hva som er distribuert cache i Hadoop?

Distribuert cache i Hadoop er en funksjon levert av MapReduce-rammeverket. På tidspunktet for utførelse av jobben, brukes den til å hurtigbufre fil. Rammeverket kopierer de nødvendige filene til slavenoden før utførelsen av en oppgave på den noden.

60) Forklar hvordan Hadoop Classpath spiller en viktig rolle i å stoppe eller starte i Hadoop-demoner?

Classpath vil bestå av en liste over kataloger som inneholder jar-filer for å stoppe eller starte demoner.

Disse intervjuspørsmålene vil også hjelpe i din viva(orals)