Top 60 de întrebări și răspunsuri la interviu Hadoop (2025)

Iată întrebările și răspunsurile la interviu Hadoop MapReduce pentru candidații mai proaspeți, dar și cu experiență, pentru a obține jobul visat.

Întrebări de interviu Hadoop MapReduce

1) Ce este Hadoop Map Reduce?

Pentru a procesa seturi mari de date în paralel într-un cluster Hadoop, este utilizat cadrul Hadoop MapReduce. Analiza datelor folosește o hartă în doi pași și reduce procesul.


2) Cum funcționează Hadoop MapReduce?

În MapReduce, în timpul fazei de hartă, numără cuvintele din fiecare document, în timp ce în faza de reducere agregează datele conform documentului care acoperă întreaga colecție. În timpul fazei de hărți, datele de intrare sunt împărțite în împărțiri pentru analiză în funcție de sarcinile de hartă care rulează în paralel în cadrul Hadoop.

👉 Descărcare PDF gratuită: Întrebări și răspunsuri la interviu Hadoop și MapReduce


3) Explicați ce se amestecă în MapReduce?

Procesul prin care sistemul efectuează sortarea și transferă ieșirile hărții către reductor ca intrări este cunoscut sub numele de shuffle


4) Explicați ce este Cache-ul distribuit în MapReduce Framework?

Cache-ul distribuit este o caracteristică importantă oferită de cadrul MapReduce. Când doriți să partajați unele fișiere pe toate nodurile din Hadoop Cluster, Se utilizează cache distribuită. Fișierele pot fi fișiere jar executabile sau fișiere de proprietăți simple.

Întrebări de interviu Hadoop MapReduce
Întrebări de interviu Hadoop MapReduce

5) Explicați ce este NameNode în Hadoop?

NameNode din Hadoop este nodul în care Hadoop stochează toate informațiile despre locația fișierului HDFS (sistem de fișiere distribuite Hadoop). Cu alte cuvinte, NameNode este piesa centrală a unui sistem de fișiere HDFS. Păstrează evidența tuturor fișierelor din sistemul de fișiere și urmărește datele fișierelor pe cluster sau pe mai multe mașini


6) Explicați ce este JobTracker în Hadoop? Care sunt acțiunile urmate de Hadoop?

In Hadoop pentru trimiterea și urmărirea joburilor MapReduce, se folosește JobTracker. Job tracker rulează pe propriul proces JVM

Job Tracker efectuează următoarele acțiuni în Hadoop

  • Aplicația client trimite joburi către tracker-ul de joburi
  • JobTracker comunică cu modul Nume pentru a determina locația datelor
  • În apropierea datelor sau cu sloturile disponibile, JobTracker localizează nodurile TaskTracker
  • Pe nodurile TaskTracker alese, acesta trimite lucrarea
  • Când o sarcină eșuează, Job tracker notifică și decide ce să facă.
  • Nodurile TaskTracker sunt monitorizate de JobTracker

7) Explicați ce este bătăile inimii în HDFS?

Bătăile inimii se referă la un semnal utilizat între un nod de date și un nod de nume și între instrumentul de urmărire a sarcinilor și instrumentul de urmărire a sarcinilor, dacă nodul de nume sau urmăritorul de locuri de muncă nu răspunde la semnal, atunci se consideră că există unele probleme cu nodul sau sarcina de date. tracker


8) Explicați ce sunt combinatoarele și când ar trebui să utilizați un combinator într-o lucrare MapReduce?

Pentru a crește eficiența Programul MapReduce, Se folosesc combinatoare. Cantitatea de date poate fi redusă cu ajutorul combinatoarelor care trebuie transferate către reductoare. Dacă operațiunea efectuată este comutativă și asociativă, puteți utiliza codul reducător ca combinator. Execuția combinatorului nu este garantată în Hadoop


9) Ce se întâmplă când un nod de date eșuează?

Când un nod de date eșuează

  • Jobtracker și namenode detectează eșecul
  • Pe nodul eșuat, toate sarcinile sunt reprogramate
  • Namenode reproduce datele utilizatorului pe alt nod

10) Explicați ce este execuția speculativă?

În Hadoop în timpul execuției speculative, sunt lansate un anumit număr de sarcini duplicate. Pe un alt nod slave, pot fi executate mai multe copii ale aceleiași hărți sau sarcini de reducere folosind Execuția speculativă. Cu cuvinte simple, dacă o anumită unitate durează mult timp pentru a finaliza o sarcină, Hadoop va crea o sarcină duplicată pe un alt disc. Un disc care termină primul sarcina este reținut, iar discurile care nu termină primul sunt ucise.


11) Explicați care sunt parametrii de bază ai unui Mapper?

Parametrii de bază ai unui Mapper sunt

  • LongWritable și Text
  • Text și IntWritable

12) Explicați care este funcția partiționerului MapReduce?

Funcția partiționerului MapReduce este de a se asigura că toată valoarea unei singure chei ajunge la același reductor, în cele din urmă, ceea ce ajută la o distribuție uniformă a ieșirii hărții peste reductoare.


13) Explicați care este diferența dintre un bloc de intrare și un bloc HDFS?

Diviziunea logică a datelor este cunoscută sub numele de Split, în timp ce o diviziune fizică a datelor este cunoscută sub numele de HDFS Block


14) Explicați ce se întâmplă în format text?

În formatul de introducere a textului, fiecare linie din fișierul text este o înregistrare. Valoarea este conținutul liniei, în timp ce Key este offset-ul de octeți al liniei. De exemplu, Cheie: longWritable, Value: text


15) Menționați care sunt principalii parametri de configurare pe care utilizatorul trebuie să îi specifice pentru a rula MapReduce Job?

Utilizatorul cadrului MapReduce trebuie să specifice

  • Locațiile de intrare ale jobului în sistemul de fișiere distribuit
  • Locația de ieșire a jobului în sistemul de fișiere distribuit
  • formatul de intrare
  • Format de iesire
  • Clasa care contine functia harta
  • Clasa care conține funcția reduce
  • Fișier JAR care conține clasele mapper, reductor și driver

16) Explicați ce este WebDAV în Hadoop?

Pentru a sprijini editarea și actualizarea fișierelor, WebDAV este un set de extensii la HTTP. Pe majoritatea sistemelor de operare, partajările WebDAV pot fi montate ca sisteme de fișiere, astfel încât este posibil să accesați HDFS ca sistem de fișiere standard prin expunerea HDFS peste WebDAV.


17) Explicați ce este Sqoop în Hadoop?

Pentru a transfera datele între Managementul bazelor de date relaționale (RDBMS) si Hadoop HDFS este folosit un instrument cunoscut sub numele de Sqoop. Folosind datele Sqoop pot fi transferate de la RDMS cum ar fi MySQL or Oracle în HDFS, precum și exportarea datelor din fișierul HDFS în RDBMS


18) Explicați cum programează JobTracker o sarcină?

Instrumentul de urmărire a activităților trimite mesaje de ritm cardiac către Jobtracker, de obicei, la fiecare câteva minute, pentru a se asigura că JobTracker este activ și funcționează. Mesajul informează, de asemenea, JobTracker despre numărul de sloturi disponibile, astfel încât JobTracker să poată fi la curent cu ceea ce poate fi delegat lucrul clusterului


19) Explicați ce este Sequencefileinputformat?

Sequencefileinputformat este folosit pentru citirea fișierelor în secvență. Este un format de fișier binar comprimat specific, care este optimizat pentru a trece date între ieșirea unui job MapReduce la intrarea unui alt job MapReduce.


20) Explicați ce face clasa conf.setMapper?

Conf.setMapperclass setează clasa de cartografiere și toate lucrurile legate de lucrarea de hartă, cum ar fi citirea datelor și generarea unei perechi cheie-valoare din mapper

21) Explicați ce este Hadoop?

Este un cadru de software open-source pentru stocarea datelor și rularea aplicațiilor pe clustere de hardware de bază. Oferă putere de procesare enormă și stocare masivă pentru orice tip de date.


22) Menționați care este diferența dintre un RDBMS și Hadoop?

RDBMS Hadoop
RDBMS este un sistem de gestionare a bazelor de date relaționale Hadoop este o structură plată bazată pe noduri
A folosit pentru procesarea OLTP, în timp ce Hadoop În prezent este utilizat pentru procesarea analitică și pentru prelucrarea BIG DATA
În RDBMS, clusterul de baze de date utilizează aceleași fișiere de date stocate într-o stocare partajată În Hadoop, datele de stocare pot fi stocate independent în fiecare nod de procesare.
Trebuie să preprocesați datele înainte de a le stoca nu trebuie să preprocesați datele înainte de a le stoca

23) Menționați componentele de bază Hadoop?

Componentele de bază Hadoop includ,

  • HDFS
  • MapReduce

24) Ce este NameNode în Hadoop?

NameNode din Hadoop este locul în care Hadoop stochează toate informațiile despre locația fișierului în HDFS. Este nodul principal pe care rulează job tracker și constă din metadate.


25) Menționați care sunt componentele de date utilizate de Hadoop?

Componentele de date utilizate de Hadoop sunt


26) Menționați care este componenta de stocare a datelor utilizată de Hadoop?

Componenta de stocare a datelor folosită de Hadoop este HBase.


27) Menționați care sunt cele mai comune formate de intrare definite în Hadoop?

Cele mai comune formate de intrare definite în Hadoop sunt;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) În Hadoop, ce este InputSplit?

Împarte fișierele de intrare în bucăți și atribuie fiecare împărțire unui mapper pentru procesare.


29) Pentru un job Hadoop, cum vei scrie un partitioner personalizat?

Scrieți un partitioner personalizat pentru un job Hadoop, urmați următoarea cale

  • Creați o nouă clasă care extinde Clasa Partitioner
  • Ignorați metoda getPartition
  • În wrapper-ul care rulează MapReduce
  • Adăugați partiționerul personalizat la job utilizând metoda setului Partitioner Class sau – adăugați partiționerul personalizat la job ca fișier de configurare

30) Pentru un loc de muncă în Hadoop, este posibil să se schimbe numărul de cartografi care urmează să fie create?

Nu, nu este posibil să se modifice numărul de cartografii care urmează să fie creat. Numărul de cartografi este determinat de numărul de împărțiri de intrare.


31) Explicați ce este un fișier de secvență în Hadoop?

Pentru a stoca perechi binare cheie/valoare, se folosește fișierul secvență. Spre deosebire de fișierul comprimat obișnuit, fișierul de secvență acceptă divizarea chiar și atunci când datele din interiorul fișierului sunt comprimate.


32) Când Namenode este oprit, ce se întâmplă cu tracker-ul de locuri de muncă?

Namenode este singurul punct de eșec în HDFS, așa că atunci când Namenode este oprit, clusterul dvs. va porni.


33) Explicați cum se face indexarea în HDFS?

Hadoop are un mod unic de indexare. Odată ce datele sunt stocate conform dimensiunii blocului, HDFS va continua să stocheze ultima parte a datelor care spune unde va fi următoarea parte a datelor.


34) Explicați dacă este posibil să căutați fișiere folosind metacaracterele?

Da, este posibil să căutați fișiere folosind metacaractere.


35) Listați cele trei fișiere de configurare ale lui Hadoop?

Cele trei fișiere de configurare sunt

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Explicați cum puteți verifica dacă Namenode funcționează alături de comanda jps?

Pe lângă utilizarea comenzii jps, puteți utiliza și pentru a verifica dacă Namenode funcționează

/etc/init.d/hadoop-0.20-namenode stare.


37) Explicați ce este „hartă” și ce este „reductor” în Hadoop?

În Hadoop, o hartă este o fază în rezolvarea interogărilor HDFS. O hartă citește date dintr-o locație de intrare și emite o pereche de valori cheie în funcție de tipul de intrare.

În Hadoop, un reductor colectează rezultatul generat de mapper, o procesează și creează o ieșire finală proprie.


38) În Hadoop, ce fișier controlează raportarea în Hadoop?

În Hadoop, fișierul hadoop-metrics.properties controlează raportarea.


39) Pentru utilizarea Hadoop, enumerați cerințele de rețea?

Pentru utilizarea Hadoop, lista cerințelor de rețea este:

  • Conexiune SSH fără parolă
  • Secure Shell (SSH) pentru lansarea proceselor de server

40) Menționați ce este conștientizarea rack?

Conștientizarea rack-ului este modul în care namenode determină modul de plasare a blocurilor pe baza definițiilor rack-urilor.


41) Explicați ce este un Task Tracker în Hadoop?

Un Task Tracker din Hadoop este un daemon nod slave din cluster care acceptă sarcini de la un JobTracker. De asemenea, trimite mesajele inimii către JobTracker, la fiecare câteva minute, pentru a confirma că JobTracker este încă în viață.


42) Menționați ce demoni rulează pe un nod master și noduri slave?

  • Demonii rulați pe nodul principal sunt „NameNode”
  • Demonii rulați pe fiecare nod slave sunt „Task Tracker” și „Date”

43) Explicați cum puteți depana codul Hadoop?

Metodele populare pentru depanarea codului Hadoop sunt:

  • Prin utilizarea interfeței web furnizată de framework-ul Hadoop
  • Prin utilizarea Contoarelor

44) Explicați ce sunt nodurile de stocare și de calcul?

  • Nodul de stocare este mașina sau computerul în care se află sistemul de fișiere pentru a stoca datele de procesare
  • Nodul de calcul este computerul sau mașina în care va fi executată logica dvs. reală de afaceri.

45) Menționați la ce folosește Context Object?

Obiectul Context permite mapatorului să interacționeze cu restul Hadoop-ului

sistem. Include date de configurare pentru job, precum și interfețe care îi permit să emită rezultate.


46) Menționați care este următorul pas după Mapper sau MapTask?

Următorul pas după Mapper sau MapTask este că rezultatele Mapper sunt sortate și partițiile vor fi create pentru ieșire.


47) Menționați care este numărul de partitioner implicit în Hadoop?

În Hadoop, partiționerul implicit este un partiționar „Hash”.


48) Explicați care este scopul RecordReader în Hadoop?

În Hadoop, RecordReader încarcă datele din sursa și le convertește în perechi (cheie, valoare) potrivite pentru citire de către Mapper.


49) Explicați cum sunt partiționate datele înainte de a fi trimise la reductor dacă nu este definit niciun partiționer personalizat în Hadoop?

Dacă în Hadoop nu este definit niciun partiționer personalizat, atunci un partiționer implicit calculează o valoare hash pentru cheie și atribuie partiția pe baza rezultatului.


50) Explicați ce se întâmplă când Hadoop a generat 50 de sarcini pentru un loc de muncă și una dintre sarcini a eșuat?

Va reporni sarcina din nou pe alt TaskTracker dacă sarcina eșuează mai mult decât limita definită.


51) Menționați care este cel mai bun mod de a copia fișiere între clustere HDFS?

Cel mai bun mod de a copia fișiere între clustere HDFS este utilizarea mai multor noduri și comanda distcp, astfel încât volumul de lucru să fie partajat.


52) Menționați care este diferența dintre HDFS și NAS?

Blocurile de date HDFS sunt distribuite pe unitățile locale ale tuturor mașinilor dintr-un cluster, în timp ce datele NAS sunt stocate pe hardware dedicat.


53) Menționați cum este diferit Hadoop de alte instrumente de prelucrare a datelor?

În Hadoop, puteți crește sau micșora numărul de cartografi fără a vă face griji cu privire la volumul de date care urmează să fie procesate.


54) Menționați ce meserie face clasa conf?

Clasa Job conf separă joburi diferite care rulează pe același cluster. Efectuează setările nivelului de muncă, cum ar fi declararea unui loc de muncă într-un mediu real.


55) Menționați ce este contractul Hadoop MapReduce API-uri pentru o clasă cheie și valoare?

Pentru o clasă cheie și valoare, există două contracte Hadoop MapReduce API

  • Valoarea trebuie să definească interfața org.apache.hadoop.io.Writable
  • Cheia trebuie să definească interfața org.apache.hadoop.io.WritableComparable

56) Menționați care sunt cele trei moduri în care poate fi rulat Hadoop?

Cele trei moduri în care poate fi rulat Hadoop sunt

  • Mod pseudodistribuit
  • Modul autonom (local).
  • Modul complet distribuit

57) Menționați ce face formatul de introducere a textului?

Formatul de introducere a textului va crea un obiect linie care este un număr hexazecimal. Valoarea este considerată ca un text de linie întreg, în timp ce cheia este considerată ca un obiect de linie. Mapper-ul va primi valoarea ca parametru „text”, în timp ce cheia va primi ca parametru „longwriteable”.


58) Menționați câte InputSplits sunt realizate de un cadru Hadoop?

Hadoop va face 5 împărțiri

  • 1 împărțire pentru fișiere de 64K
  • 2 împărțite pentru fișiere de 65 MB
  • 2 diviziuni pentru fișiere de 127 MB

59) Menționați ce este cache-ul distribuit în Hadoop?

Cache-ul distribuit în Hadoop este o facilitate oferită de framework-ul MapReduce. La momentul executării jobului, acesta este folosit pentru a stoca fișierul în cache. Framework-ul copiază fișierele necesare în nodul slave înainte de executarea oricărei sarcini la acel nod.


60) Explicați cum joacă Hadoop Classpath un rol vital în oprirea sau pornirea în demonii Hadoop?

Classpath va consta dintr-o listă de directoare care conțin fișiere jar pentru a opri sau a porni demonii.

Aceste întrebări de interviu vă vor ajuta, de asemenea, în viva (orale)