Top 60 Hadoop-interviewspørgsmål og -svar (2025)

Her er Hadoop MapReduce interviewspørgsmål og svar til både friskere og erfarne kandidater til at få deres drømmejob.

Hadoop MapReduce interviewspørgsmål

1) Hvad er Hadoop Map Reduce?

Til at behandle store datasæt parallelt på tværs af en Hadoop-klynge, bruges Hadoop MapReduce-rammeværket. Dataanalyse bruger en to-trins kort og reducere proces.

2) Hvordan virker Hadoop MapReduce?

I MapReduce tæller den under kortfasen ordene i hvert dokument, mens den i reduktionsfasen samler dataene i henhold til dokumentet, der spænder over hele samlingen. Under kortfasen opdeles inputdataene i opdelinger til analyse ved at kortopgaver kører parallelt på tværs af Hadoop-rammeværket.

👉 Gratis PDF-download: Hadoop & MapReduce Interviewspørgsmål og svar

3) Forklar, hvad er shuffling i MapReduce?

Processen, hvorved systemet udfører sorteringen og overfører kortudgangene til reducereren som input, er kendt som shuffle

4) Forklar, hvad der er distribueret cache i MapReduce Framework?

Distribueret cache er en vigtig funktion leveret af MapReduce-rammen. Når du vil dele nogle filer på tværs af alle noder i Hadoop Cluster, der bruges distribueret cache. Filerne kunne være en eksekverbar jar-fil eller simpel egenskabsfil.

5) Forklar, hvad er NameNode i Hadoop?

NameNode i Hadoop er noden, hvor Hadoop gemmer alle filplaceringsoplysningerne i HDFS (Hadoop Distributed File System). Med andre ord er NameNode midtpunktet i et HDFS-filsystem. Det gemmer registreringen af alle filerne i filsystemet og sporer fildataene på tværs af klyngen eller flere maskiner

6) Forklar, hvad er JobTracker i Hadoop? Hvilke handlinger følger Hadoop?

In Hadoop til indsendelse og sporing af MapReduce-job bruges JobTracker. Jobtracker kører på sin egen JVM-proces

Job Tracker udfører følgende handlinger i Hadoop

Kundeansøgning indsend job til jobtrackeren
JobTracker kommunikerer til navnetilstand for at bestemme dataplacering
I nærheden af dataene eller med tilgængelige pladser JobTracker lokaliserer TaskTracker-noder
På valgte TaskTracker-noder indsender den arbejdet
Når en opgave mislykkes, giver Jobtracker besked og beslutter, hvad der så skal gøres.
TaskTracker-noderne overvåges af JobTracker

7) Forklar hvad hjerteslag er i HDFS?

Hjerteslag henvises til et signal, der bruges mellem en dataknude og navneknude, og mellem opgavesporing og jobsporing, hvis navneknuden eller jobsporeren ikke reagerer på signalet, anses det for at være nogle problemer med dataknudepunktet eller opgaven tracker

8) Forklar, hvad combiners er, og hvornår du skal bruge en combiner i et MapReduce-job?

For at øge effektiviteten af MapReduce-programmet, Kombinere bruges. Mængden af data kan reduceres ved hjælp af kombinatorer, der skal overføres til reduceringerne. Hvis den udførte operation er kommutativ og associativ, kan du bruge din reducerkode som en kombinerer. Udførelsen af combiner er ikke garanteret i Hadoop

9) Hvad sker der, når en datanode fejler?

Når en datanode fejler

Jobtracker og namenode registrerer fejlen
På den mislykkede node bliver alle opgaver omplanlagt
Namenode replikerer brugerens data til en anden node

10) Forklar, hvad er spekulativ henrettelse?

I Hadoop under Speculative Execution lanceres et vist antal duplikerede opgaver. På en anden slaveknude kan flere kopier af samme kort eller reducere opgave udføres ved hjælp af spekulativ udførelse. Med enkle ord, hvis et bestemt drev tager lang tid at fuldføre en opgave, vil Hadoop oprette en dubletopgave på en anden disk. En disk, der afslutter opgaven først, bevares, og diske, der ikke afslutter først, bliver dræbt.

11) Forklar hvad er de grundlæggende parametre for en Mapper?

De grundlæggende parametre for en Mapper er

Langskrivbar og tekst
Tekst og IntWritable

12) Forklar hvad funktionen af MapReduce partitioner er?

Funktionen af MapReduce partitioner er at sikre, at al værdien af en enkelt nøgle går til den samme reducer, hvilket i sidste ende hjælper med en jævn fordeling af kortoutputtet over reducererne

13) Forklar, hvad der er forskellen mellem en Input Split og HDFS Block?

Den logiske opdeling af data er kendt som Split, mens en fysisk opdeling af data er kendt som HDFS Block

14) Forklar, hvad der sker i tekstformat?

I tekstinputformat er hver linje i tekstfilen en post. Værdi er indholdet af linjen, mens Key er byte offset af linjen. For eksempel, Nøgle: longWritable, Værdi: tekst

15) Nævn hvad er de vigtigste konfigurationsparametre, som brugeren skal angive for at køre MapReduce Job?

Brugeren af MapReduce-rammen skal specificere

Jobs inputplaceringer i det distribuerede filsystem
Jobs outputplacering i det distribuerede filsystem
Input format
Output format
Klasse indeholdende kortfunktionen
Klasse, der indeholder reducere-funktionen
JAR-fil, der indeholder mapper-, reducer- og driverklasserne

16) Forklar, hvad er WebDAV i Hadoop?

For at understøtte redigering og opdatering af filer er WebDAV et sæt udvidelser til HTTP. På de fleste operativsystemer kan WebDAV-shares monteres som filsystemer, så det er muligt at få adgang til HDFS som et standardfilsystem ved at eksponere HDFS over WebDAV.

17) Forklar, hvad er Sqoop i Hadoop?

For at overføre data mellem Relationel databasestyring (RDBMS) og Hadoop HDFS der bruges et værktøj kendt som Sqoop. Ved at bruge Sqoop kan data overføres fra RDMS lignende MySQL or Oracle ind i HDFS samt eksport af data fra HDFS-fil til RDBMS

18) Forklar, hvordan JobTracker planlægger en opgave?

Opgavesporingen udsender hjerteslagsbeskeder til Jobtracker normalt hvert par minutter for at sikre, at JobTracker er aktiv og fungerer. Meddelelsen informerer også JobTracker om antallet af tilgængelige slots, så JobTracker kan holde sig opdateret med, hvor klyngearbejdet kan delegeres

19) Forklar, hvad er Sequencefileinputformat?

Sequencefileinputformat bruges til at læse filer i rækkefølge. Det er et specifikt komprimeret binært filformat, som er optimeret til at overføre data mellem output fra et MapReduce-job til input fra et andet MapReduce-job.

20) Forklar, hvad conf.setMapper-klassen gør?

Conf.setMapperclass indstiller mapper-klassen og alle de ting, der er relateret til map-job, såsom at læse data og generere et nøgle-værdi-par ud af mapperen

21) Forklar, hvad er Hadoop?

Det er en open source-softwareramme til lagring af data og kørsel af applikationer på klynger af råvarehardware. Det giver enorm processorkraft og massiv lagring til enhver type data.

22) Nævn hvad er forskellen mellem en RDBMS og Hadoop?

RDBMS	Hadoop
RDBMS er et relationelt databasestyringssystem	Hadoop er en knudebaseret flad struktur
Det bruges til OLTP-behandling, mens Hadoop	Det bruges i øjeblikket til analytisk og til BIG DATA-behandling
I RDBMS bruger databaseklyngen de samme datafiler, der er gemt i et delt lager	I Hadoop kan lagringsdataene lagres uafhængigt i hver behandlingsknude.
Du skal forbehandle data, før du gemmer dem	du behøver ikke at forbehandle data, før du gemmer dem

23) Nævn Hadoop kernekomponenter?

Hadoop kernekomponenter inkluderer,

HDFS
KortReducer

24) Hvad er NameNode i Hadoop?

NameNode i Hadoop er hvor Hadoop gemmer alle filplaceringsoplysninger i HDFS. Det er hovedknudepunktet, som jobtrackeren kører på og består af metadata.

25) Nævn hvilke datakomponenter der bruges af Hadoop?

Datakomponenter brugt af Hadoop er

Gris
Hive

26) Nævn, hvad er datalagringskomponenten, der bruges af Hadoop?

Datalagringskomponenten, der bruges af Hadoop, er HBase.

27) Nævn hvad er de mest almindelige inputformater defineret i Hadoop?

De mest almindelige inputformater defineret i Hadoop er;

TextInputFormat
KeyValueInputFormat
SequenceFileInputFormat

28) Hvad er InputSplit i Hadoop?

Det opdeler inputfiler i bidder og tildeler hver opdeling til en mapper til behandling.

29) Hvordan vil du skrive en brugerdefineret partitioner til et Hadoop-job?

Du skriver en brugerdefineret partitioner til et Hadoop-job, du følger følgende sti

Opret en ny klasse, der udvider Partitioner Class
Tilsidesæt metode getPartition
I indpakningen, der kører MapReduce
Tilføj den brugerdefinerede partitioner til jobbet ved at bruge metodesæt Partitioner Class eller - tilføj den brugerdefinerede partitioner til jobbet som en konfigurationsfil

30) For et job i Hadoop, er det muligt at ændre antallet af kortlæggere, der skal oprettes?

Nej, det er ikke muligt at ændre antallet af kortlæggere, der skal oprettes. Antallet af kortlæggere bestemmes af antallet af inputopdelinger.

31) Forklar hvad en sekvensfil er i Hadoop?

For at gemme binære nøgle/værdi-par bruges sekvensfil. I modsætning til almindelig komprimeret fil understøtter sekvensfil opdeling, selv når dataene inde i filen er komprimeret.

32) Hvad sker der med jobtracker, når Namenode er nede?

Namenode er det enkelte fejlpunkt i HDFS, så når Namenode er nede, vil din klynge starte.

33) Forklar hvordan indeksering i HDFS foregår?

Hadoop har en unik måde at indeksere på. Når dataene er gemt i henhold til blokstørrelsen, vil HDFS fortsætte med at gemme den sidste del af dataene, som siger, hvor den næste del af dataene vil være.

34) Forklar er det muligt at søge efter filer ved hjælp af jokertegn?

Ja, det er muligt at søge efter filer ved hjælp af jokertegn.

35) Liste over Hadoops tre konfigurationsfiler?

De tre konfigurationsfiler er

core-site.xml
mapred-site.xml
hdfs-site.xml

36) Forklar, hvordan kan du kontrollere, om Namenode fungerer ved siden af at bruge kommandoen jps?

Udover at bruge kommandoen jps, kan du også bruge for at kontrollere, om Namenode virker

/etc/init.d/hadoop-0.20-namenode status.

37) Forklar, hvad der er "kort", og hvad er "reducer" i Hadoop?

I Hadoop er et kort en fase i HDFS-forespørgselsløsning. Et kort læser data fra en inputplacering og udsender et nøgleværdipar i henhold til inputtypen.

I Hadoop indsamler en reducering det output, der genereres af mapperen, behandler det og opretter sit eget endelige output.

38) Hvilken fil styrer rapportering i Hadoop i Hadoop?

I Hadoop styrer filen hadoop-metrics.properties rapportering.

39) For at bruge Hadoop liste over netværkskravene?

For at bruge Hadoop er listen over netværkskrav:

SSH-forbindelse uden adgangskode
Secure Shell (SSH) til at starte serverprocesser

40) Nævn, hvad er rack-bevidsthed?

Rack-bevidsthed er den måde, hvorpå navnenoden bestemmer, hvordan blokke skal placeres baseret på rack-definitionerne.

41) Forklar, hvad en Task Tracker er i Hadoop?

En Task Tracker i Hadoop er en slaveknudedæmon i klyngen, der accepterer opgaver fra en JobTracker. Den sender også hjerteslagmeddelelser til JobTrackeren med få minutters mellemrum for at bekræfte, at JobTrackeren stadig er i live.

42) Nævn hvilke dæmoner, der kører på en masterknude og slaveknudepunkter?

Dæmoner, der kører på Master node er "NameNode"
Dæmoner, der kører på hver slaveknude, er "Task Tracker" og "Data"

43) Forklar, hvordan du kan debugge Hadoop-kode?

De populære metoder til fejlretning af Hadoop-kode er:

Ved at bruge webgrænseflade leveret af Hadoop framework
Ved at bruge tællere

44) Forklar, hvad er storage og compute noder?

Lagerknuden er den maskine eller computer, hvor dit filsystem befinder sig for at gemme behandlingsdataene
Compute node er den computer eller maskine, hvor din egentlige forretningslogik vil blive udført.

45) Nævn hvad er brugen af Context Object?

Kontekstobjektet gør det muligt for kortlæggeren at interagere med resten af Hadoop

system. Det inkluderer konfigurationsdata for jobbet, såvel som grænseflader, der gør det muligt for den at udsende output.

46) Nævn, hvad er næste skridt efter Mapper eller MapTask?

Det næste trin efter Mapper eller MapTask er, at output fra Mapper sorteres, og partitioner vil blive oprettet til output.

47) Nævn hvad er antallet af standard partitioner i Hadoop?

I Hadoop er standardpartitioneringen en "Hash"-partitioner.

48) Forklar hvad er formålet med RecordReader i Hadoop?

I Hadoop indlæser RecordReader dataene fra sin kilde og konverterer dem til (nøgle, værdi) par, der er egnede til læsning af Mapper.

49) Forklar hvordan data partitioneres, før de sendes til reduceringen, hvis der ikke er defineret en brugerdefineret partitioner i Hadoop?

Hvis der ikke er defineret en brugerdefineret partitioner i Hadoop, beregner en standardpartitioner en hashværdi for nøglen og tildeler partitionen baseret på resultatet.

50) Forklar, hvad der sker, når Hadoop affødte 50 opgaver til et job, og en af opgaverne mislykkedes?

Det vil genstarte opgaven igen på en anden TaskTracker, hvis opgaven mislykkes mere end den definerede grænse.

51) Nævn hvad er den bedste måde at kopiere filer mellem HDFS-klynger på?

Den bedste måde at kopiere filer mellem HDFS-klynger på er ved at bruge flere noder og distcp-kommandoen, så arbejdsbyrden deles.

52) Nævn hvad er forskellen mellem HDFS og NAS?

HDFS-datablokke er fordelt på tværs af lokale drev på alle maskiner i en klynge, mens NAS-data gemmes på dedikeret hardware.

53) Nævn, hvordan Hadoop adskiller sig fra andre databehandlingsværktøjer?

I Hadoop kan du øge eller mindske antallet af kortlæggere uden at bekymre dig om mængden af data, der skal behandles.

54) Nævn hvilket job udfører conf-klassen?

Job conf class adskiller forskellige job, der kører på den samme klynge. Den udfører indstillingerne på jobniveau, såsom at erklære et job i et virkeligt miljø.

55) Nævn, hvad er Hadoop MapReduce APIs-kontrakten for en nøgle- og værdiklasse?

For en nøgle- og værdiklasse er der to Hadoop MapReduce API'er kontrakt

Værdien skal definere den org.apache.hadoop.io.Writable grænseflade
Nøglen skal definere org.apache.hadoop.io.WritableComparable-grænsefladen

56) Nævn hvad er de tre tilstande, som Hadoop kan køres i?

De tre tilstande, som Hadoop kan køres i, er

Pseudo distribueret tilstand
Standalone (lokal) tilstand
Fuldt distribueret tilstand

57) Nævn, hvad gør tekstinputformatet?

Tekstinputformatet vil oprette et linjeobjekt, der er et hexadecimalt tal. Værdien betragtes som en hel linjetekst, mens nøglen betragtes som et linjeobjekt. Mapperen vil modtage værdien som 'tekst'-parameter, mens nøglen er 'longwriteable'-parameter.

58) Nævn, hvor mange InputSplits er lavet af et Hadoop Framework?

Hadoop laver 5 splits

1 split til 64K filer
2 split for 65mb filer
2 splits til 127mb filer

59) Nævn hvad der er distribueret cache i Hadoop?

Distribueret cache i Hadoop er en facilitet leveret af MapReduce framework. På tidspunktet for udførelsen af jobbet bruges det til at cache filen. Rammen kopierer de nødvendige filer til slaveknudepunktet før udførelsen af enhver opgave på den node.

60) Forklar, hvordan spiller Hadoop Classpath en afgørende rolle ved at stoppe eller starte i Hadoop-dæmoner?

Classpath vil bestå af en liste over mapper, der indeholder jar-filer til at stoppe eller starte dæmoner.

Disse interviewspørgsmål vil også hjælpe i din viva(orals)