Topp 60 Hadoop-intervjuspørsmål og -svar (2025)
Her er Hadoop MapReduce intervjuspørsmål og svar for ferskere og erfarne kandidater for å få drømmejobben.
Hadoop MapReduce intervjuspørsmål
1) Hva er Hadoop Map Reduce?
For å behandle store datasett parallelt på tvers av en Hadoop-klynge, brukes Hadoop MapReduce-rammeverket. Dataanalyse bruker en to-trinns kart og redusere prosess.
2) Hvordan fungerer Hadoop MapReduce?
I MapReduce, under kartfasen, teller den ordene i hvert dokument, mens den i reduksjonsfasen samler dataene i henhold til dokumentet som spenner over hele samlingen. I løpet av kartfasen deles inngangsdataene inn i deler for analyse ved at kartoppgaver kjører parallelt på tvers av Hadoop-rammeverket.
👉 Gratis PDF-nedlasting: Hadoop & MapReduce Intervjuspørsmål og svar
3) Forklar hva som er shuffling i MapReduce?
Prosessen der systemet utfører sorteringen og overfører kartutdataene til reduksjonsboksen som innganger, er kjent som shuffle
4) Forklar hva som er distribuert cache i MapReduce Framework?
Distribuert hurtigbuffer er en viktig funksjon levert av MapReduce-rammeverket. Når du vil dele noen filer på tvers av alle noder i Hadoop Cluster, distribuert cache brukes. Filene kan være en kjørbar jar-filer eller enkel egenskapsfil.
5) Forklar hva er NameNode i Hadoop?
NameNode i Hadoop er noden, der Hadoop lagrer all filplasseringsinformasjon i HDFS (Hadoop Distributed File System). Med andre ord er NameNode midtpunktet i et HDFS-filsystem. Den holder oversikt over alle filene i filsystemet og sporer fildataene på tvers av klyngen eller flere maskiner
6) Forklar hva er JobTracker i Hadoop? Hva er handlingene fulgt av Hadoop?
In Hadoop for innsending og sporing av MapReduce-jobber brukes JobTracker. Jobbsporing kjøres på sin egen JVM-prosess
Job Tracker utfører følgende handlinger i Hadoop
- Klientsøknad send inn jobber til jobbsporeren
- JobTracker kommuniserer til navnemodus for å bestemme dataplassering
- I nærheten av dataene eller med tilgjengelige spor JobTracker finner TaskTracker-noder
- På valgte TaskTracker-noder sender den inn arbeidet
- Når en oppgave mislykkes, varsler Job Tracker og bestemmer hva som skal gjøres da.
- TaskTracker-nodene overvåkes av JobTracker
7) Forklar hva som er hjerteslag i HDFS?
Hjerteslag refereres til et signal som brukes mellom en datanode og navnenoden, og mellom oppgavesporer og jobbsporer, hvis navnenoden eller jobbsporeren ikke reagerer på signalet, anses det å være noen problemer med dataknuten eller oppgaven sporer
8) Forklar hva combiners er og når du bør bruke en combiner i en MapReduce Job?
For å øke effektiviteten av MapReduce-programmet, Kombinere brukes. Datamengden kan reduseres ved hjelp av kombinatorer som må overføres til reduksjonsenhetene. Hvis operasjonen som utføres er kommutativ og assosiativ, kan du bruke reduksjonskoden din som en kombinasjon. Utførelsen av combiner er ikke garantert i Hadoop
9) Hva skjer når en datanode svikter?
Når en datanode svikter
- Jobtracker og namenode oppdager feilen
- På den mislykkede noden blir alle oppgaver planlagt på nytt
- Namenode replikerer brukerens data til en annen node
10) Forklar hva er spekulativ henrettelse?
I Hadoop under spekulativ utførelse lanseres et visst antall dupliserte oppgaver. På en annen slavenode kan flere kopier av samme kart eller reduseringsoppgave utføres ved å bruke Spekulativ utførelse. Med enkle ord, hvis en bestemt stasjon tar lang tid å fullføre en oppgave, vil Hadoop lage en duplikatoppgave på en annen disk. En disk som fullfører oppgaven først, beholdes og disker som ikke fullfører først blir drept.
11) Forklar hva er de grunnleggende parametrene til en Mapper?
De grunnleggende parametrene til en Mapper er
- LongWritable og tekst
- Tekst og IntWritable
12) Forklar hva som er funksjonen til MapReduce partisjonerer?
Funksjonen til MapReduce partitioner er å sørge for at all verdien av en enkelt nøkkel går til den samme reduseringen, noe som til slutt hjelper jevn fordeling av kartutdataene over reduseringene
13) Forklar hva som er forskjellen mellom en Input Split og HDFS Block?
Den logiske deling av data er kjent som Split mens en fysisk deling av data er kjent som HDFS Block
14) Forklar hva som skjer i tekstformat?
I tekstinndataformat er hver linje i tekstfilen en post. Verdi er innholdet i linjen mens Key er byteforskyvningen til linjen. For eksempel, Key: longWritable, Value: text
15) Nevn hva er hovedkonfigurasjonsparametrene som brukeren må spesifisere for å kjøre MapReduce Job?
Brukeren av MapReduce-rammeverket må spesifisere
- Jobs inndataplasseringer i det distribuerte filsystemet
- Jobs utdataplassering i det distribuerte filsystemet
- Input format
- Utgående format
- Klasse som inneholder kartfunksjonen
- Klasse som inneholder reduseringsfunksjonen
- JAR-fil som inneholder mapper-, reduserings- og driverklassene
16) Forklar hva er WebDAV i Hadoop?
For å støtte redigering og oppdatering av filer er WebDAV et sett med utvidelser til HTTP. På de fleste operativsystemer kan WebDAV-andeler monteres som filsystemer, så det er mulig å få tilgang til HDFS som et standard filsystem ved å eksponere HDFS over WebDAV.
17) Forklar hva er Sqoop i Hadoop?
For å overføre data mellom Relasjonell databaseadministrasjon (RDBMS) og Hadoop HDFS et verktøy som kalles Sqoop brukes. Ved å bruke Sqoop kan data overføres fra RDMS som MySQL or Oracle til HDFS samt eksport av data fra HDFS-fil til RDBMS
18) Forklar hvordan JobTracker planlegger en oppgave?
Oppgavesporeren sender ut hjerteslagmeldinger til Jobtracker vanligvis med noen minutters mellomrom for å sikre at JobTracker er aktiv og fungerer. Meldingen informerer også JobTracker om antall tilgjengelige plasser, slik at JobTracker kan holde seg oppdatert med hvor klyngearbeidet kan delegeres
19) Forklar hva er Sequencefileinputformat?
Sequencefileinputformat brukes til å lese filer i rekkefølge. Det er et spesifikt komprimert binært filformat som er optimalisert for å sende data mellom utdataene fra en MapReduce-jobb til inngangen til en annen MapReduce-jobb.
20) Forklar hva conf.setMapper-klassen gjør?
Conf.setMapperclass setter kartleggingsklassen og alt som er relatert til kartjobben, for eksempel å lese data og generere et nøkkelverdi-par ut av kartleggeren
21) Forklar hva er Hadoop?
Det er et programvarerammeverk med åpen kildekode for lagring av data og kjøring av applikasjoner på klynger av råvaremaskinvare. Det gir enorm prosessorkraft og massiv lagring for alle typer data.
22) Nevn hva som er forskjellen mellom en RDBMS og Hadoop?
RDBMS | Hadoop |
---|---|
RDBMS er et relasjonsdatabasestyringssystem | Hadoop er en nodebasert flat struktur |
Den brukes til OLTP-behandling mens Hadoop | Den brukes for tiden til analytisk og for BIG DATA-behandling |
I RDBMS bruker databaseklyngen de samme datafilene som er lagret i et delt lager | I Hadoop kan lagringsdataene lagres uavhengig i hver prosesseringsnode. |
Du må forhåndsbehandle data før du lagrer dem | du trenger ikke å forhåndsbehandle data før du lagrer dem |
23) Nevn Hadoop kjernekomponenter?
Hadoop kjernekomponenter inkluderer,
- HDFS
- MapReduce
24) Hva er NameNode i Hadoop?
NameNode i Hadoop er der Hadoop lagrer all filplasseringsinformasjon i HDFS. Det er hovednoden som jobbsporeren kjører på og består av metadata.
25) Nevn hva er datakomponentene som brukes av Hadoop?
Datakomponenter som brukes av Hadoop er
26) Nevn hva er datalagringskomponenten som brukes av Hadoop?
Datalagringskomponenten som brukes av Hadoop er HBase.
27) Nevn hva som er de vanligste inndataformatene definert i Hadoop?
De vanligste inndataformatene definert i Hadoop er;
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) Hva er InputSplit i Hadoop?
Den deler opp inndatafiler i biter og tildeler hver del til en kartlegger for behandling.
29) For en Hadoop-jobb, hvordan vil du skrive en tilpasset partisjonerer?
Du skriver en tilpasset partisjonerer for en Hadoop-jobb, du følger følgende sti
- Opprett en ny klasse som utvider Partitioner Class
- Overstyr metoden getPartition
- I innpakningen som kjører MapReduce
- Legg til den tilpassede partisjoneringen til jobben ved å bruke metodesett Partitioner Class eller – legg den tilpassede partisjonen til jobben som en konfigurasjonsfil
30) For en jobb i Hadoop, er det mulig å endre antall kartleggere som skal opprettes?
Nei, det er ikke mulig å endre antall kartleggere som skal opprettes. Antall kartleggere bestemmes av antall inndatadelinger.
31) Forklar hva er en sekvensfil i Hadoop?
For å lagre binære nøkkel/verdi-par, brukes sekvensfil. I motsetning til vanlig komprimert fil, støtter sekvensfil splitting selv når dataene inne i filen er komprimert.
32) Når Namenode er nede, hva skjer med jobbsporing?
Namenode er det eneste feilpunktet i HDFS, så når Namenode er nede vil klyngen din sette av.
33) Forklar hvordan indeksering i HDFS gjøres?
Hadoop har en unik måte å indeksere på. Når dataene er lagret i henhold til blokkstørrelsen, vil HDFS fortsette å lagre den siste delen av dataene som sier hvor neste del av dataene vil være.
34) Forklar er det mulig å søke etter filer ved hjelp av jokertegn?
Ja, det er mulig å søke etter filer med jokertegn.
35) Liste ut Hadoops tre konfigurasjonsfiler?
De tre konfigurasjonsfilene er
- core-site.xml
- mapred-site.xml
- hdfs-side.xml
36) Forklar hvordan du kan sjekke om Namenode fungerer ved siden av å bruke jps-kommandoen?
I tillegg til å bruke jps-kommandoen, kan du også bruke for å sjekke om Namenode fungerer
/etc/init.d/hadoop-0.20-namenode-status.
37) Forklar hva som er «kart» og hva er «reduksjon» i Hadoop?
I Hadoop er et kart en fase i HDFS-spørringsløsning. Et kart leser data fra en inngangsposisjon, og sender ut et nøkkelverdipar i henhold til inngangstypen.
I Hadoop samler en redusering utgangen generert av kartleggeren, behandler den og lager sin egen endelige utgang.
38) I Hadoop, hvilken fil kontrollerer rapportering i Hadoop?
I Hadoop kontrollerer filen hadoop-metrics.properties rapporteringen.
39) For å bruke Hadoop liste over nettverkskravene?
For bruk av Hadoop er listen over nettverkskrav:
- Passordløs SSH-tilkobling
- Secure Shell (SSH) for å starte serverprosesser
40) Nevn hva er rack-bevissthet?
Rackbevissthet er måten navnenoden bestemmer hvordan blokker skal plasseres basert på stativdefinisjonene.
41) Forklar hva en Task Tracker er i Hadoop?
En Task Tracker i Hadoop er en slavenode-demon i klyngen som godtar oppgaver fra en JobTracker. Den sender også ut hjerteslagmeldinger til JobTracker, med noen få minutters mellomrom, for å bekrefte at JobTracker fortsatt er i live.
42) Nevn hvilke demoner som kjører på en masternode og slavenoder?
- Demoner som kjøres på hovednoden er "NameNode"
- Demoner som kjøres på hver slavenoder er "Task Tracker" og "Data"
43) Forklar hvordan du kan feilsøke Hadoop-kode?
De populære metodene for å feilsøke Hadoop-kode er:
- Ved å bruke webgrensesnitt levert av Hadoop-rammeverket
- Ved å bruke tellere
44) Forklar hva er lagrings- og beregningsnoder?
- Lagringsnoden er maskinen eller datamaskinen der filsystemet ditt befinner seg for å lagre behandlingsdataene
- Beregningsnoden er datamaskinen eller maskinen der din faktiske forretningslogikk vil bli utført.
45) Nevn hva er bruken av Context Object?
Kontekstobjektet gjør det mulig for kartleggeren å samhandle med resten av Hadoop
system. Den inkluderer konfigurasjonsdata for jobben, samt grensesnitt som lar den sende ut utdata.
46) Nevn hva som er neste trinn etter Mapper eller MapTask?
Neste trinn etter Mapper eller MapTask er at utdataene fra Mapper blir sortert, og partisjoner vil bli opprettet for utdataene.
47) Nevn hva er antallet standard partisjonerer i Hadoop?
I Hadoop er standardpartisjoneringen en "Hash"-partisjonerer.
48) Forklar hva som er formålet med RecordReader i Hadoop?
I Hadoop laster RecordReader dataene fra kilden og konverterer dem til (nøkkel, verdi) par som er egnet for lesing av Mapper.
49) Forklar hvordan data partisjoneres før de sendes til redusering hvis ingen egendefinert partisjonerer er definert i Hadoop?
Hvis ingen egendefinert partisjonerer er definert i Hadoop, beregner en standard partisjonerer en hash-verdi for nøkkelen og tildeler partisjonen basert på resultatet.
50) Forklar hva som skjer når Hadoop skapte 50 oppgaver for en jobb og en av oppgavene mislyktes?
Den vil starte oppgaven på nytt på en annen TaskTracker hvis oppgaven mislykkes mer enn den definerte grensen.
51) Nevn hva som er den beste måten å kopiere filer mellom HDFS-klynger på?
Den beste måten å kopiere filer mellom HDFS-klynger på er å bruke flere noder og distcp-kommandoen, slik at arbeidsmengden deles.
52) Nevn hva er forskjellen mellom HDFS og NAS?
HDFS-datablokker er distribuert over lokale stasjoner på alle maskiner i en klynge mens NAS-data lagres på dedikert maskinvare.
53) Nevn hvordan Hadoop er forskjellig fra andre databehandlingsverktøy?
I Hadoop kan du øke eller redusere antall kartleggere uten å bekymre deg for mengden data som skal behandles.
54) Nevn hvilken jobb gjør conf-klassen?
Job conf class skiller forskjellige jobber som kjører på samme klynge. Den gjør innstillingene på jobbnivå, for eksempel å erklære en jobb i et virkelig miljø.
55) Nevn hva er Hadoop MapReduce API-kontrakten for en nøkkel- og verdiklasse?
For en nøkkel- og verdiklasse er det to Hadoop MapReduce API-kontrakter
- Verdien må definere org.apache.hadoop.io.Writable-grensesnittet
- Nøkkelen må definere org.apache.hadoop.io.WritableComparable-grensesnittet
56) Nevn hvilke tre moduser Hadoop kan kjøres i?
De tre modusene som Hadoop kan kjøres i er
- Pseudo distribuert modus
- Frittstående (lokal) modus
- Fullt distribuert modus
57) Nevn hva gjør tekstinndataformatet?
Tekstinndataformatet vil lage et linjeobjekt som er et heksadesimalt tall. Verdien betraktes som en hel linjetekst mens nøkkelen betraktes som et linjeobjekt. Kartleggeren vil motta verdien som 'tekst'-parameter mens nøkkelen som 'longwriteable'-parameter.
58) Nevn hvor mange InputSplits som lages av et Hadoop Framework?
Hadoop vil gjøre 5 splitter
- 1 delt for 64K-filer
- 2 delt for 65mb filer
- 2 splitter for 127mb filer
59) Nevn hva som er distribuert cache i Hadoop?
Distribuert cache i Hadoop er en funksjon levert av MapReduce-rammeverket. På tidspunktet for utførelse av jobben, brukes den til å hurtigbufre fil. Rammeverket kopierer de nødvendige filene til slavenoden før utførelsen av en oppgave på den noden.
60) Forklar hvordan Hadoop Classpath spiller en viktig rolle i å stoppe eller starte i Hadoop-demoner?
Classpath vil bestå av en liste over kataloger som inneholder jar-filer for å stoppe eller starte demoner.
Disse intervjuspørsmålene vil også hjelpe i din viva(orals)