A 60 legnépszerűbb Hadoop-interjú kérdés és válasz (2024)

Íme a Hadoop MapReduce interjúkérdések és válaszok frissebb és tapasztaltabb jelöltek számára, hogy megszerezzék álmaik állását.

Hadoop MapReduce interjúkérdések

1) Mi az a Hadoop Map Reduce?

Nagy adatkészletek párhuzamos feldolgozásához egy Hadoop-fürtön keresztül a Hadoop MapReduce keretrendszert használják. Az adatelemzés kétlépcsős térkép- és redukciós folyamatot használ.


2) Hogyan működik a Hadoop MapReduce?

A MapReduce a térképfázisban minden dokumentumban megszámolja a szavakat, míg a redukciós fázisban a teljes gyűjteményre kiterjedő dokumentum szerint összesíti az adatokat. A térképfázis során a bemeneti adatokat részekre osztják elemzés céljából a Hadoop keretrendszeren keresztül párhuzamosan futó térképfeladatok.

👉 Ingyenes PDF letöltés: Hadoop & MapReduce Interjú kérdések és válaszok


3) Magyarázza el, mi az a keverés a MapReduce-ban?

Azt a folyamatot, amellyel a rendszer végrehajtja a rendezést, és bemenetként továbbítja a térképkimeneteket a reduktorba, keverésnek nevezzük.


4) Magyarázza el, mi az elosztott gyorsítótár a MapReduce Frameworkben?

Az elosztott gyorsítótár a MapReduce keretrendszer egyik fontos funkciója. Ha meg szeretne osztani néhány fájlt a Hadoop összes csomópontja között Cluster, Elosztott gyorsítótár kerül felhasználásra. A fájlok lehetnek futtatható jar fájlok vagy egyszerű tulajdonságfájlok.

Hadoop MapReduce interjúkérdések
Hadoop MapReduce interjúkérdések

5) Magyarázza el, mi az a NameNode a Hadoopban?

A NameNode a Hadoopban az a csomópont, ahol a Hadoop tárolja a fájl helyére vonatkozó összes információt HDFS (Hadoop elosztott fájlrendszer). Más szavakkal, a NameNode a HDFS fájlrendszer központi eleme. Rögzíti a fájlrendszerben lévő összes fájlt, és nyomon követi a fájladatokat a fürtben vagy több gépen


6) Magyarázza el, mi az a JobTracker a Hadoopban? Milyen műveleteket követ a Hadoop?

In Hadoop A MapReduce munkák beküldésére és nyomon követésére a JobTracker használatos. A munkakövető a saját JVM-folyamatán fut

A Job Tracker a következő műveleteket hajtja végre a Hadoopban

  • Az ügyféljelentkezés küldje el a munkákat a munkakövetőnek
  • A JobTracker a Név móddal kommunikál az adatok helyének meghatározásához
  • Az adatok közelében vagy a rendelkezésre álló helyekkel a JobTracker megkeresi a TaskTracker csomópontokat
  • A kiválasztott TaskTracker csomópontokon elküldi a munkát
  • Ha egy feladat meghiúsul, a Job tracker értesíti, és eldönti, hogy mit tegyen.
  • A TaskTracker csomópontokat a JobTracker figyeli

7) Magyarázza el, mi a szívverés a HDFS-ben?

A szívverés az adatcsomópont és a névcsomópont, valamint a feladatkövető és a feladatkövető között használt jelre vonatkozik, ha a Név csomópont vagy a feladatkövető nem reagál a jelre, akkor úgy tekintik, hogy problémák vannak az adatcsomóponttal vagy feladattal. nyomozó


8) Magyarázza el, mik azok az egyesítők, és mikor érdemes kombinálót használni a MapReduce Job-ban?

A hatékonyság növelése érdekében MapReduce program, Kombinátorokat használnak. Az adatok mennyisége csökkenthető kombináló segítségével, amelyet át kell vinni a reduktorokhoz. Ha a végrehajtott művelet kommutatív és asszociatív, használhatja a reduktor kódját kombinálóként. A kombináló végrehajtása nem garantált a Hadoopban


9) Mi történik, ha egy adatcsomópont meghibásodik?

Amikor egy adatcsomópont meghibásodik

  • A Jobtracker és a namenode észleli a hibát
  • A sikertelen csomóponton minden feladat újraütemezésre kerül
  • A Namenode replikálja a felhasználó adatait egy másik csomópontra

10) Magyarázza el, mi az a spekulatív végrehajtás?

A Hadoopban a spekulatív végrehajtás során bizonyos számú ismétlődő feladat indul el. Egy másik szolga csomóponton ugyanannak a leképezésnek vagy kicsinyítési feladatnak több másolata is végrehajtható a spekulatív végrehajtás segítségével. Egyszerűen fogalmazva, ha egy adott meghajtónak hosszú ideig tart egy feladat végrehajtása, a Hadoop ismétlődő feladatot hoz létre egy másik lemezen. A feladatot először befejező lemez megmarad, a nem előbb befejező lemezek pedig megsemmisülnek.


11) Magyarázza el, melyek a Mapper alapvető paraméterei?

A Mapper alapvető paraméterei a következők

  • LongWritable és szöveg
  • Szöveg és IntWritable

12) Magyarázza el, mi a MapReduce particionáló funkciója?

A MapReduce particionáló funkciója annak biztosítása, hogy egyetlen kulcs összes értéke ugyanahhoz a reduktorhoz kerüljön, ami végül elősegíti a térkép kimenet egyenletes elosztását a reduktorok között.


13) Magyarázza el, mi a különbség a bemeneti felosztás és a HDFS blokk között?

Az adatok logikai felosztása Split néven ismert, míg az adatok fizikai felosztása HDFS blokkként ismert


14) Magyarázza el, mi történik szöveges formátumban?

Szövegbeviteli formátumban a szövegfájl minden sora rekord. Az érték a sor tartalma, míg a kulcs a sor bájteltolása. Például Kulcs: longWritable, Érték: szöveg


15) Említse meg, melyek azok a fő konfigurációs paraméterek, amelyeket a felhasználónak meg kell adnia a MapReduce Job futtatásához?

A MapReduce keretrendszer felhasználójának meg kell adnia

  • A feladat beviteli helyei az elosztott fájlrendszerben
  • A feladat kimeneti helye az elosztott fájlrendszerben
  • Bemeneti formátum
  • Kimeneti formátum
  • A térkép funkciót tartalmazó osztály
  • A redukciós függvényt tartalmazó osztály
  • A leképező, reduktor és illesztőprogram osztályokat tartalmazó JAR fájl

16) Magyarázza el, mi az a WebDAV a Hadoopban?

A fájlok szerkesztésének és frissítésének támogatásához a WebDAV a HTTP kiterjesztések készlete. A legtöbb operációs rendszeren a WebDAV-megosztások fájlrendszerként csatlakoztathatók, így a HDFS-hez szabványos fájlrendszerként is hozzá lehet férni, ha a HDFS-t a WebDAV-on keresztül teszi közzé.


17) Magyarázza el, mi az a Sqoop a Hadoopban?

közötti adatátvitelhez Relációs adatbázis-kezelés (RDBMS) és a Hadoop HDFS egy Sqoop néven ismert eszközt használnak. A Sqoop használatával az adatok RDMS-ből is átvihetők MySQL or Oracle HDFS-be, valamint adatok exportálása HDFS-fájlból RDBMS-be


18) Magyarázza el, hogy a JobTracker hogyan ütemez egy feladatot?

A feladatkövető rendszerint néhány percenként szívverésüzeneteket küld a Jobtrackernek, hogy megbizonyosodjon arról, hogy a JobTracker aktív és működik. Az üzenet tájékoztatja a JobTrackert a rendelkezésre álló helyek számáról is, így a JobTracker naprakészen tudja tartani, hogy hol delegálható a fürt munka.


19) Magyarázza el, mi az a Sequencefileinputformat?

A Sequencefileinputformat a fájlok egymás utáni olvasására szolgál. Ez egy speciális tömörített bináris fájlformátum, amely az egyik MapReduce-feladat kimenete és egy másik MapReduce-feladat bemenete közötti adatátvitelre van optimalizálva.


20) Magyarázza el, mit csinál a conf.setMapper osztály?

A Conf.setMapperclass beállítja a leképező osztályt és a leképezési munkával kapcsolatos összes dolgot, mint például az adatok kiolvasása és a kulcs-érték pár generálása a leképezőből

21) Magyarázza el, mi az a Hadoop?

Ez egy nyílt forráskódú szoftver keretrendszer adatok tárolására és alkalmazások futtatására árucikk-hardvercsoportokon. Óriási feldolgozási teljesítményt és hatalmas tárhelyet biztosít bármilyen típusú adat számára.


22) Említse meg, mi a különbség az RDBMS és a Hadoop között?

RDBMS Hadoop
Az RDBMS egy relációs adatbázis-kezelő rendszer A Hadoop egy csomópont alapú lapos szerkezet
OLTP-feldolgozáshoz használt, míg a Hadoop Jelenleg analitikai és BIG DATA feldolgozásra használják
Az RDBMS-ben az adatbázis-fürt ugyanazokat az adatfájlokat használja, amelyek egy megosztott tárolóban vannak tárolva A Hadoopban a tárolási adatok függetlenül tárolhatók az egyes feldolgozási csomópontokban.
Az adatok tárolása előtt elő kell dolgoznia nincs szükség az adatok előzetes feldolgozására a tárolás előtt

23) Említse meg a Hadoop alapvető összetevőit?

A Hadoop alapvető összetevői a következők:

  • HDFS
  • MapReduce

24) Mi az a NameNode a Hadoopban?

A Hadoop NameNode-ja az a hely, ahol a Hadoop a HDFS-ben tárolja a fájl helyére vonatkozó összes információt. Ez a fő csomópont, amelyen a jobkövető fut, és metaadatokból áll.


25) Említse meg, melyek a Hadoop által használt adatösszetevők?

A Hadoop által használt adatösszetevők a következők


26) Említse meg, melyik a Hadoop által használt adattároló összetevő?

A Hadoop által használt adattároló összetevő a HBase.


27) Említse meg, melyek a Hadoopban meghatározott leggyakoribb beviteli formátumok?

A Hadoopban meghatározott leggyakoribb beviteli formátumok:

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Mi az InputSplit a Hadoopban?

A bemeneti fájlokat darabokra osztja, és minden felosztást hozzárendel egy leképezőhöz feldolgozás céljából.


29) Hadoop munkához hogyan írjon egyéni particionálót?

Ha egyéni particionálót ír egy Hadoop-feladathoz, a következő utat követi

  • Hozzon létre egy új osztályt, amely kiterjeszti a particionáló osztályt
  • A getPartition metódus felülbírálása
  • A MapReduce-t futtató burkolóban
  • Adja hozzá az egyéni particionálót a munkához a Partitioner Class metóduskészlet használatával, vagy – adja hozzá az egyéni particionálót a feladathoz konfigurációs fájlként

30) A Hadoopban végzett munka esetén módosítható a létrehozandó leképezők száma?

Nem, nem lehet módosítani a létrehozandó leképezők számát. A leképezők számát a bemeneti felosztások száma határozza meg.


31) Magyarázza el, mi az a sorozatfájl a Hadoopban?

A bináris kulcs/érték párok tárolásához sorozatfájlt használnak. A szokásos tömörített fájlokkal ellentétben a sorozatfájl támogatja a felosztást még akkor is, ha a fájlban lévő adatok tömörítettek.


32) Ha a Namenode nem működik, mi történik a job trackerrel?

A Namenode az egyetlen hibapont a HDFS-ben, így ha a Namenode nem működik, a fürt elindul.


33) Magyarázza el, hogyan történik az indexelés a HDFS-ben?

A Hadoop egyedi indexelési módszerrel rendelkezik. Miután az adatokat a blokk méretének megfelelően tárolták, a HDFS továbbra is tárolja az adatok utolsó részét, amely megmondja, hogy hol lesz az adatok következő része.


34) Magyarázza el, lehetséges-e fájlok keresése helyettesítő karakterekkel?

Igen, lehetséges a fájlok keresése helyettesítő karakterekkel.


35) Sorolja fel a Hadoop három konfigurációs fájlját?

A három konfigurációs fájl az

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Magyarázza el, hogyan ellenőrizheti, hogy a Namenode működik-e a jps paranccsal?

A jps parancs használata mellett a Namenode működésének ellenőrzésére is használhatja

/etc/init.d/hadoop-0.20-namenode állapot.


37) Magyarázza el, mi a „térkép” és mi a „reduktor” a Hadoopban?

A Hadoopban a térkép a HDFS-lekérdezésmegoldás egyik fázisa. A térkép beolvassa az adatokat egy bemeneti helyről, és a bemeneti típusnak megfelelően kulcsértékpárt ad ki.

A Hadoopban egy reduktor összegyűjti a leképező által generált kimenetet, feldolgozza azt, és létrehoz egy saját végső kimenetet.


38) A Hadoopban melyik fájl szabályozza a jelentéskészítést a Hadoopban?

A Hadoopban a hadoop-metrics.properties fájl vezérli a jelentéskészítést.


39) A Hadoop használatához sorolja fel a hálózati követelményeket?

A Hadoop használatához a hálózati követelmények listája a következő:

  • Jelszó nélküli SSH kapcsolat
  • Secure Shell (SSH) a szerverfolyamatok indításához

40) Említse meg, mi az a rack tudatosság?

A rack tudatosság az a mód, ahogyan a névcsomópont meghatározza a blokkok elhelyezését az állványdefiníciók alapján.


41) Magyarázza el, mi az a Task Tracker a Hadoopban?

A Hadoop Task Tracker egy szolga csomópont-démon a fürtben, amely feladatokat fogad el a JobTrackertől. Emellett néhány percenként szívverésüzeneteket küld a JobTrackernek, hogy megerősítse, hogy a JobTracker még életben van.


42) Említse meg, milyen démonok futnak a főcsomóponton és a szolga csomópontokon?

  • A mester csomóponton futó démonok „NameNode”
  • Az egyes Slave csomópontokon futó démonok a „Task Tracker” és „Data”

43) Magyarázza el, hogyan lehet hibakeresni a Hadoop kódot?

A Hadoop kód hibakeresésének népszerű módszerei a következők:

  • A Hadoop keretrendszer által biztosított webes felület használatával
  • Számlálók használatával

44) Magyarázza el, mi az a tárolási és számítási csomópont?

  • A tárolási csomópont az a gép vagy számítógép, amelyen a fájlrendszer található a feldolgozási adatok tárolására
  • A számítási csomópont az a számítógép vagy gép, ahol a tényleges üzleti logika végrehajtásra kerül.

45) Említse meg, mi a haszna a Context Object-nek?

A Context Object lehetővé teszi a leképező számára, hogy kölcsönhatásba lépjen a Hadoop többi részével

rendszer. Tartalmazza a feladat konfigurációs adatait, valamint az interfészeket, amelyek lehetővé teszik a kimenet kiadását.


46) Említse meg, mi a következő lépés a Mapper vagy a MapTask után?

A Mapper vagy a MapTask után következő lépés az, hogy a Mapper kimenetét rendezzük, és partíciókat hozunk létre a kimenethez.


47) Említse meg, hány az alapértelmezett partíció a Hadoopban?

A Hadoopban az alapértelmezett particionáló egy „Hash” partíció.


48) Magyarázza el, mi a célja a RecordReadernek a Hadoopban?

A Hadoopban a RecordReader betölti az adatokat a forrásból, és azokat (kulcs, érték) párokká alakítja, amelyek alkalmasak a Mapper általi olvasásra.


49) Magyarázza el, hogyan történik az adatok particionálása, mielőtt elküldené azokat a reduktornak, ha nincs egyéni partíció definiálva a Hadoopban?

Ha nincs egyéni partíció definiálva a Hadoopban, akkor egy alapértelmezett particionáló kiszámítja a kulcs hash értékét, és az eredmény alapján hozzárendeli a partíciót.


50) Magyarázza el, mi történik, ha a Hadoop 50 feladatot hoz létre egy feladathoz, és az egyik feladat meghiúsult?

Újraindítja a feladatot egy másik TaskTrackeren, ha a feladat a meghatározott korlátnál jobban meghiúsul.


51) Említse meg, mi a legjobb módja a fájlok HDFS-fürtök közötti másolásának?

A fájlok HDFS-fürtök közötti másolásának legjobb módja több csomópont és a distcp parancs használata, így a munkaterhelés megoszlik.


52) Említse meg, mi a különbség a HDFS és a NAS között?

A HDFS-adatblokkok egy fürtben lévő összes gép helyi meghajtói között vannak elosztva, míg a NAS-adatokat dedikált hardveren tárolják.


53) Említse meg, miben különbözik a Hadoop a többi adatfeldolgozó eszköztől?

A Hadoopban növelheti vagy csökkentheti a leképezők számát anélkül, hogy aggódnia kellene a feldolgozandó adatok mennyisége miatt.


54) Említse meg, milyen munkát végez a konf osztály?

A Job conf osztály különválasztja az ugyanazon a fürtön futó különböző jobokat. Elvégzi a feladat szintű beállításokat, például egy feladat deklarálását valós környezetben.


55) Említse meg, mi a Hadoop MapReduce API-szerződés kulcs- és értékosztályra vonatkozóan?

Egy kulcs- és értékosztályhoz két Hadoop MapReduce API-szerződés létezik

  • Az értéknek az org.apache.hadoop.io.Writable felületet kell meghatároznia
  • A kulcsnak az org.apache.hadoop.io.WritableComparable felület meghatározásának kell lennie

56) Említse meg, mi az a három mód, amelyben a Hadoop futtatható?

A Hadoop három üzemmódban futtatható

  • Pszeudo elosztott mód
  • Önálló (helyi) mód
  • Teljesen elosztott mód

57) Említse meg, mit csinál a szövegbeviteli formátum?

A szövegbeviteli formátum egy sorobjektumot hoz létre, amely hexadecimális szám. Az érték teljes soros szövegnek, míg a kulcs sorobjektumnak minősül. A leképező az értéket 'szöveg' paraméterként, míg a kulcsot 'hosszan írható' paraméterként kapja meg.


58) Említse meg, hány InputSplitet készít egy Hadoop-keretrendszer?

A Hadoop 5 felosztást fog végrehajtani

  • 1 felosztás 64K fájlokhoz
  • 2 megosztás 65 MB-os fájlokhoz
  • 2 felosztás a 127 MB fájlokhoz

59) Említse meg, mi az elosztott gyorsítótár a Hadoopban?

Az elosztott gyorsítótár a Hadoopban a MapReduce keretrendszer által biztosított lehetőség. A feladat végrehajtása során a fájl gyorsítótárazására szolgál. A Framework a szükséges fájlokat a szolga csomópontra másolja, mielőtt bármilyen feladatot végrehajtana azon a csomóponton.


60) Magyarázza el, hogy a Hadoop Classpath hogyan játszik létfontosságú szerepet a Hadoop démonok leállításában vagy indításakor?

A Classpath a démonok leállításához vagy elindításához szükséges jar fájlokat tartalmazó könyvtárak listájából áll.

Ezek az interjúkérdések a viva-ban is segítenek.