Top 60 pitanja i odgovora na Hadoop intervjuu (2025.)

Ovdje su Hadoop MapReduce pitanja za intervjue i odgovori za svježije kao i iskusne kandidate da dobiju posao iz snova.

Pitanja za intervju za Hadoop MapReduce

1) Što je Hadoop Map Reduce?

Za paralelnu obradu velikih skupova podataka u Hadoop klasteru koristi se okvir Hadoop MapReduce. Analiza podataka koristi mapu u dva koraka i proces smanjenja.


2) Kako radi Hadoop MapReduce?

U MapReduceu, tijekom faze karte, broji riječi u svakom dokumentu, dok u fazi redukcije prikuplja podatke prema dokumentu koji obuhvaća cijelu zbirku. Tijekom faze mapiranja, ulazni podaci podijeljeni su u dijelove za analizu pomoću zadataka mapiranja koji se izvode paralelno u Hadoop okviru.

👉 Besplatno preuzimanje PDF-a: Hadoop & MapReduce Interview Questions & Answers


3) Objasnite što je miješanje u MapReduce?

Proces kojim sustav izvodi sortiranje i prenosi izlaze karte u reduktor kao ulaze poznat je kao miješanje


4) Objasnite što je distribuirana predmemorija u MapReduce Frameworku?

Distribuirana predmemorija važna je značajka koju pruža okvir MapReduce. Kada želite podijeliti neke datoteke na svim čvorovima u Hadoopu Cluster, Koristi se distribuirana predmemorija. Datoteke mogu biti izvršne jar datoteke ili jednostavna datoteka svojstava.

Pitanja za intervju za Hadoop MapReduce
Pitanja za intervju za Hadoop MapReduce

5) Objasnite što je NameNode u Hadoopu?

NameNode u Hadoopu je čvor u kojem Hadoop pohranjuje sve podatke o lokaciji datoteke HDFS (Hadoop distribuirani datotečni sustav). Drugim riječima, NameNode je središnji dio HDFS datotečnog sustava. Čuva evidenciju svih datoteka u datotečnom sustavu i prati podatke datoteke preko klastera ili više strojeva


6) Objasnite što je JobTracker u Hadoopu? Koje radnje slijedi Hadoop?

In Hadoop za podnošenje i praćenje MapReduce poslova koristi se JobTracker. Praćenje poslova radi na vlastitom JVM procesu

Job Tracker izvodi sljedeće radnje u Hadoopu

  • Aplikacija klijenta šalje poslove alatu za praćenje poslova
  • JobTracker komunicira s načinom naziva kako bi odredio lokaciju podataka
  • U blizini podataka ili s dostupnim utorima JobTracker locira TaskTracker čvorove
  • Na odabranim TaskTracker čvorovima, podnosi rad
  • Kada zadatak ne uspije, Job tracker obavještava i odlučuje što tada učiniti.
  • Čvorove TaskTrackera nadzire JobTracker

7) Objasnite što je otkucaj srca u HDFS-u?

Otkucaj srca odnosi se na signal koji se koristi između podatkovnog čvora i čvora Name, te između alata za praćenje zadataka i alata za praćenje poslova, ako čvor imena ili alat za praćenje poslova ne reagira na signal, tada se smatra da postoje neki problemi s podatkovnim čvorom ili zadatkom tragač


8) Objasnite što su kombinatori i kada biste trebali koristiti kombinator u MapReduce Jobu?

Za povećanje učinkovitosti Program MapReduce, Koriste se kombinatori. Količina podataka može se smanjiti uz pomoć kombinatora koji se trebaju prenijeti preko reduktora. Ako je izvedena operacija komutativna i asocijativna, svoj kod reduktora možete koristiti kao kombinirač. Izvršenje combiner-a nije zajamčeno u Hadoopu


9) Što se događa kada podatkovni čvor zakaže?

Kada podatkovni čvor zakaže

  • Jobtracker i namenode otkrivaju kvar
  • Na neuspješnom čvoru svi su zadaci ponovno raspoređeni
  • Namenode replicira korisničke podatke na drugi čvor

10) Objasnite što je špekulativno izvršenje?

U Hadoopu tijekom spekulativnog izvršavanja pokreće se određeni broj dupliciranih zadataka. Na drugom podređenom čvoru, višestruke kopije istog zadatka mapiranja ili smanjenja mogu se izvršiti pomoću Spekulativnog izvršenja. Jednostavnim riječima, ako određenom pogonu treba dugo da dovrši zadatak, Hadoop će stvoriti duplikat zadatka na drugom disku. Disk koji prvi završi zadatak se zadržava, a diskovi koji ne završe prvi se uništavaju.


11) Objasnite koji su osnovni parametri Mappera?

Osnovni parametri Mappera su

  • Mogućnost dugog pisanja i teksta
  • Tekst i IntWritable

12) Objasnite koja je funkcija MapReduce particionera?

Funkcija MapReduce particionera je osigurati da sva vrijednost jednog ključa ide u isti reduktor, što na kraju pomaže ravnomjernoj distribuciji izlaza mape preko reduktora


13) Objasnite koja je razlika između Input Split i HDFS bloka?

Logička podjela podataka poznata je kao Split, dok je fizička podjela podataka poznata kao HDFS blok


14) Objasnite što se događa u formatu teksta?

U formatu unosa teksta, svaki redak u tekstualnoj datoteci je zapis. Vrijednost je sadržaj retka dok je ključ pomak u bajtu retka. Na primjer, Ključ: longWritable, Vrijednost: tekst


15) Navedite koji su glavni konfiguracijski parametri koje korisnik treba navesti da bi pokrenuo MapReduce Job?

Korisnik okvira MapReduce treba navesti

  • Ulazne lokacije posla u distribuiranom datotečnom sustavu
  • Izlazna lokacija posla u distribuiranom datotečnom sustavu
  • Ulazni format
  • Izlazni format
  • Klasa koja sadrži funkciju karte
  • Klasa koja sadrži funkciju reduciranja
  • JAR datoteka koja sadrži klase mapera, reduktora i pogona

16) Objasnite što je WebDAV u Hadoopu?

Za podršku uređivanja i ažuriranja datoteka WebDAV je skup proširenja za HTTP. Na većini operativnih sustava WebDAV dijeljenja mogu se montirati kao datotečni sustavi, tako da je moguće pristupiti HDFS-u kao standardnom datotečnom sustavu izlaganjem HDFS-a preko WebDAV-a.


17) Objasnite što je Sqoop u Hadoopu?

Za prijenos podataka između Upravljanje relacijskom bazom podataka (RDBMS) i Hadoop HDFS koristi se alat poznat kao Sqoop. Korištenjem Sqoopa podaci se mogu prenijeti iz RDMS-a poput MySQL or Oracle u HDFS kao i izvoz podataka iz HDFS datoteke u RDBMS


18) Objasnite kako JobTracker raspoređuje zadatak?

Praćenje zadataka šalje Jobtrackeru poruke otkucaja srca obično svakih nekoliko minuta kako bi se uvjerilo da je JobTracker aktivan i radi. Poruka također obavještava JobTracker o broju dostupnih utora, tako da JobTracker može biti u tijeku s time gdje se rad klastera može delegirati


19) Objasnite što je Sequencefileinputformat?

Sequencefileinputformat se koristi za čitanje datoteka u nizu. To je specifični komprimirani binarni format datoteke koji je optimiziran za prijenos podataka između izlaza jednog MapReduce posla na ulaz nekog drugog MapReduce posla.


20) Objasnite što radi klasa conf.setMapper?

Conf.setMapperclass postavlja klasu mapera i sve stvari vezane uz posao mapiranja kao što je čitanje podataka i generiranje para ključ-vrijednost iz mapera

21) Objasnite što je Hadoop?

To je softverski okvir otvorenog koda za pohranu podataka i pokretanje aplikacija na klasterima standardnog hardvera. Omogućuje ogromnu snagu obrade i veliku pohranu za sve vrste podataka.


22) Navedite koja je razlika između RDBMS-a i Hadoopa?

RDBMS Hadoop
RDBMS je sustav za upravljanje relacijskim bazama podataka Hadoop je ravna struktura temeljena na čvoru
Koristio se za OLTP obradu dok je Hadoop Trenutno se koristi za analitičku i za BIG DATA obradu
U RDBMS-u, klaster baze podataka koristi iste podatkovne datoteke pohranjene u zajedničkoj pohrani U Hadoopu se podaci za pohranu mogu pohraniti neovisno u svakom čvoru obrade.
Morate prethodno obraditi podatke prije pohranjivanja ne morate prethodno obraditi podatke prije pohranjivanja

23) Spominjete Hadoop osnovne komponente?

Hadoop osnovne komponente uključuju,

  • HDFS
  • MapReduce

24) Što je NameNode u Hadoopu?

NameNode u Hadoopu je mjesto gdje Hadoop pohranjuje sve informacije o lokaciji datoteke u HDFS-u. To je glavni čvor na kojem se pokreće praćenje poslova i sastoji se od metapodataka.


25) Navedite koje su komponente podataka koje koristi Hadoop?

Komponente podataka koje koristi Hadoop su


26) Navedite koju komponentu za pohranu podataka koristi Hadoop?

Komponenta za pohranu podataka koju koristi Hadoop je HBase.


27) Navedite koji su najčešći formati unosa definirani u Hadoopu?

Najčešći ulazni formati definirani u Hadoopu su;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Što je InputSplit u Hadoopu?

Dijeli ulazne datoteke u dijelove i svaku podjelu dodjeljuje kartografu za obradu.


29) Za Hadoop posao, kako ćete napisati prilagođeni program particioniranja?

Napišete prilagođeni program za particioniranje za Hadoop posao, slijedite sljedeći put

  • Stvorite novu klasu koja proširuje klasu Partitioner
  • Nadjačaj metodu getPartition
  • U omotu koji pokreće MapReduce
  • Dodajte prilagođeni particionar u posao pomoću skupa metoda Partitioner Class ili – dodajte prilagođeni particionar u posao kao konfiguracijsku datoteku

30) Za posao u Hadoopu, je li moguće promijeniti broj mappera koji će se izraditi?

Ne, nije moguće promijeniti broj mappera koji će se izraditi. Broj mapera određen je brojem ulaznih podjela.


31) Objasnite što je sekvencijska datoteka u Hadoopu?

Za pohranu binarnih parova ključ/vrijednost koristi se sekvencijska datoteka. Za razliku od obične komprimirane datoteke, sekvencijska datoteka podržava razdvajanje čak i kada su podaci unutar datoteke komprimirani.


32) Kada Namenode ne radi, što se događa s praćenjem poslova?

Namenode je jedina točka kvara u HDFS-u, tako da kada Namenode ne radi, vaš će se klaster pokrenuti.


33) Objasnite kako se vrši indeksiranje u HDFS-u?

Hadoop ima jedinstven način indeksiranja. Nakon što su podaci pohranjeni prema veličini bloka, HDFS će nastaviti pohranjivati ​​posljednji dio podataka koji govori gdje će biti sljedeći dio podataka.


34) Objasnite je li moguće tražiti datoteke pomoću zamjenskih znakova?

Da, moguće je pretraživati ​​datoteke pomoću zamjenskih znakova.


35) Navedite Hadoopove tri konfiguracijske datoteke?

Tri konfiguracijske datoteke su

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Objasnite kako možete provjeriti radi li Namenode uz korištenje jps naredbe?

Osim korištenja jps naredbe, za provjeru radi li Namenode također možete koristiti

/etc/init.d/hadoop-0.20-namenode status.


37) Objasnite što je "map", a što "reducer" u Hadoopu?

U Hadoopu je mapa faza u rješavanju HDFS upita. Karta čita podatke s ulazne lokacije i ispisuje par ključeva vrijednosti prema vrsti unosa.

U Hadoopu reduktor prikuplja izlaz koji je generirao maper, obrađuje ga i stvara vlastiti konačni izlaz.


38) U Hadoopu, koja datoteka kontrolira izvješćivanje u Hadoopu?

U Hadoopu, datoteka hadoop-metrics.properties kontrolira izvješćivanje.


39) Navedite mrežne zahtjeve za korištenje Hadoopa?

Za korištenje Hadoopa popis mrežnih zahtjeva je:

  • SSH veza bez lozinke
  • Secure Shell (SSH) za pokretanje poslužiteljskih procesa

40) Navedite što je rack awareness?

Svijest o stalku je način na koji namenode određuje kako postaviti blokove na temelju definicija stalka.


41) Objasnite što je Task Tracker u Hadoopu?

Task Tracker u Hadoopu demon je podređenog čvora u klasteru koji prihvaća zadatke od JobTrackera. Također šalje JobTrackeru poruke otkucaja srca, svakih nekoliko minuta, kako bi potvrdio da je JobTracker još živ.


42) Navedite koji se demoni pokreću na glavnom i podređenim čvorovima?

  • Demon koji se izvodi na glavnom čvoru je "NameNode"
  • Demoni koji se pokreću na svakom Slave čvoru su "Task Tracker" i "Data"

43) Objasnite kako možete debugirati Hadoop kod?

Popularne metode za otklanjanje pogrešaka Hadoop koda su:

  • Korištenjem web sučelja koje pruža Hadoop framework
  • Korištenjem brojača

44) Objasnite što su čvorovi za pohranu i računanje?

  • Čvor za pohranu je stroj ili računalo na kojem se nalazi vaš datotečni sustav za pohranjivanje podataka za obradu
  • Računalni čvor je računalo ili stroj na kojem će se izvršavati vaša stvarna poslovna logika.

45) Navedite čemu služi Context Object?

Kontekstni objekt omogućuje maperu interakciju s ostatkom Hadoopa

sustav. Uključuje konfiguracijske podatke za posao, kao i sučelja koja mu omogućuju emitiranje izlaza.


46) Navedite koji je sljedeći korak nakon Mappera ili MapTaska?

Sljedeći korak nakon Mappera ili MapTaska je sortiranje izlaza Mappera i kreiranje particija za izlaz.


47) Navedite koji je broj zadanog particionera u Hadoopu?

U Hadoopu, zadani particioner je "Hash" particioner.


48) Objasnite koja je svrha RecordReader-a u Hadoopu?

U Hadoopu, RecordReader učitava podatke iz svog izvora i pretvara ih u (ključ, vrijednost) parove prikladne za čitanje od strane Mappera.


49) Objasnite kako se podaci particioniraju prije nego što se pošalju reduktoru ako u Hadoopu nije definiran prilagođeni particionar?

Ako u Hadoopu nije definiran prilagođeni particionar, tada zadani particionar izračunava hash vrijednost za ključ i dodjeljuje particiju na temelju rezultata.


50) Objasnite što se događa kada Hadoop stvori 50 zadataka za posao i jedan od zadataka ne uspije?

Ponovno će pokrenuti zadatak na nekom drugom TaskTrackeru ako zadatak ne uspije više od definiranog ograničenja.


51) Navedite koji je najbolji način za kopiranje datoteka između HDFS klastera?

Najbolji način za kopiranje datoteka između HDFS klastera je korištenje višestrukih čvorova i naredbe distcp, tako da se radno opterećenje dijeli.


52) Navedite koja je razlika između HDFS-a i NAS-a?

HDFS podatkovni blokovi raspoređeni su po lokalnim diskovima svih strojeva u klasteru, dok su NAS podaci pohranjeni na namjenskom hardveru.


53) Navedite po čemu se Hadoop razlikuje od ostalih alata za obradu podataka?

U Hadoopu možete povećati ili smanjiti broj mapera bez brige o količini podataka koje treba obraditi.


54) Navedite koji posao obavlja klasa conf?

Job conf class odvaja različite poslove koji se izvode na istom klasteru. Obavlja postavke razine posla kao što je deklariranje posla u stvarnom okruženju.


55) Navedite što je Hadoop MapReduce API ugovor za klasu ključa i vrijednosti?

Za klasu ključa i vrijednosti postoje dva Hadoop MapReduce API ugovora

  • Vrijednost mora definirati org.apache.hadoop.io.Writable sučelje
  • Ključ mora definirati sučelje org.apache.hadoop.io.WritableComparable

56) Navedite koja su tri načina u kojima se Hadoop može pokrenuti?

Tri načina rada u kojima se Hadoop može pokrenuti su

  • Pseudo distribuirani način rada
  • Samostalni (lokalni) način rada
  • Potpuno distribuirani način rada

57) Navedite što radi format unosa teksta?

Format unosa teksta stvorit će linijski objekt koji je heksadecimalni broj. Vrijednost se smatra cijelim redom teksta, dok se ključ smatra objektom retka. Maper će primiti vrijednost kao parametar 'tekst', a ključ kao parametar 'longwriteable'.


58) Navedite koliko InputSplitova napravi Hadoop Framework?

Hadoop će napraviti 5 podjela

  • 1 podjela za 64 K datoteke
  • 2 podijeljena za datoteke od 65 MB
  • 2 podjele za datoteke od 127mb

59) Spomenite što je distribuirana predmemorija u Hadoopu?

Distribuirana predmemorija u Hadoopu mogućnost je koju pruža okvir MapReduce. U vrijeme izvršavanja posla, koristi se za predmemoriju datoteke. Framework kopira potrebne datoteke u podređeni čvor prije izvršenja bilo kojeg zadatka na tom čvoru.


60) Objasnite kako Hadoop Classpath igra vitalnu ulogu u zaustavljanju ili pokretanju Hadoop demona?

Classpath će se sastojati od popisa direktorija koji sadrže jar datoteke za zaustavljanje ili pokretanje demona.

Ova pitanja za intervju također će vam pomoći u vašem životu