A 60 legnépszerűbb Hadoop-interjú kérdés és válasz (2024)
Íme a Hadoop MapReduce interjúkérdések és válaszok frissebb és tapasztaltabb jelöltek számára, hogy megszerezzék álmaik állását.
Hadoop MapReduce interjúkérdések
1) Mi az a Hadoop Map Reduce?
Nagy adatkészletek párhuzamos feldolgozásához egy Hadoop-fürtön keresztül a Hadoop MapReduce keretrendszert használják. Az adatelemzés kétlépcsős térkép- és redukciós folyamatot használ.
2) Hogyan működik a Hadoop MapReduce?
A MapReduce a térképfázisban minden dokumentumban megszámolja a szavakat, míg a redukciós fázisban a teljes gyűjteményre kiterjedő dokumentum szerint összesíti az adatokat. A térképfázis során a bemeneti adatokat részekre osztják elemzés céljából a Hadoop keretrendszeren keresztül párhuzamosan futó térképfeladatok.
👉 Ingyenes PDF letöltés: Hadoop & MapReduce Interjú kérdések és válaszok
3) Magyarázza el, mi az a keverés a MapReduce-ban?
Azt a folyamatot, amellyel a rendszer végrehajtja a rendezést, és bemenetként továbbítja a térképkimeneteket a reduktorba, keverésnek nevezzük.
4) Magyarázza el, mi az elosztott gyorsítótár a MapReduce Frameworkben?
Az elosztott gyorsítótár a MapReduce keretrendszer egyik fontos funkciója. Ha meg szeretne osztani néhány fájlt a Hadoop összes csomópontja között Cluster, Elosztott gyorsítótár kerül felhasználásra. A fájlok lehetnek futtatható jar fájlok vagy egyszerű tulajdonságfájlok.
5) Magyarázza el, mi az a NameNode a Hadoopban?
A NameNode a Hadoopban az a csomópont, ahol a Hadoop tárolja a fájl helyére vonatkozó összes információt HDFS (Hadoop elosztott fájlrendszer). Más szavakkal, a NameNode a HDFS fájlrendszer központi eleme. Rögzíti a fájlrendszerben lévő összes fájlt, és nyomon követi a fájladatokat a fürtben vagy több gépen
6) Magyarázza el, mi az a JobTracker a Hadoopban? Milyen műveleteket követ a Hadoop?
In Hadoop A MapReduce munkák beküldésére és nyomon követésére a JobTracker használatos. A munkakövető a saját JVM-folyamatán fut
A Job Tracker a következő műveleteket hajtja végre a Hadoopban
- Az ügyféljelentkezés küldje el a munkákat a munkakövetőnek
- A JobTracker a Név móddal kommunikál az adatok helyének meghatározásához
- Az adatok közelében vagy a rendelkezésre álló helyekkel a JobTracker megkeresi a TaskTracker csomópontokat
- A kiválasztott TaskTracker csomópontokon elküldi a munkát
- Ha egy feladat meghiúsul, a Job tracker értesíti, és eldönti, hogy mit tegyen.
- A TaskTracker csomópontokat a JobTracker figyeli
7) Magyarázza el, mi a szívverés a HDFS-ben?
A szívverés az adatcsomópont és a névcsomópont, valamint a feladatkövető és a feladatkövető között használt jelre vonatkozik, ha a Név csomópont vagy a feladatkövető nem reagál a jelre, akkor úgy tekintik, hogy problémák vannak az adatcsomóponttal vagy feladattal. nyomozó
8) Magyarázza el, mik azok az egyesítők, és mikor érdemes kombinálót használni a MapReduce Job-ban?
A hatékonyság növelése érdekében MapReduce program, Kombinátorokat használnak. Az adatok mennyisége csökkenthető kombináló segítségével, amelyet át kell vinni a reduktorokhoz. Ha a végrehajtott művelet kommutatív és asszociatív, használhatja a reduktor kódját kombinálóként. A kombináló végrehajtása nem garantált a Hadoopban
9) Mi történik, ha egy adatcsomópont meghibásodik?
Amikor egy adatcsomópont meghibásodik
- A Jobtracker és a namenode észleli a hibát
- A sikertelen csomóponton minden feladat újraütemezésre kerül
- A Namenode replikálja a felhasználó adatait egy másik csomópontra
10) Magyarázza el, mi az a spekulatív végrehajtás?
A Hadoopban a spekulatív végrehajtás során bizonyos számú ismétlődő feladat indul el. Egy másik szolga csomóponton ugyanannak a leképezésnek vagy kicsinyítési feladatnak több másolata is végrehajtható a spekulatív végrehajtás segítségével. Egyszerűen fogalmazva, ha egy adott meghajtónak hosszú ideig tart egy feladat végrehajtása, a Hadoop ismétlődő feladatot hoz létre egy másik lemezen. A feladatot először befejező lemez megmarad, a nem előbb befejező lemezek pedig megsemmisülnek.
11) Magyarázza el, melyek a Mapper alapvető paraméterei?
A Mapper alapvető paraméterei a következők
- LongWritable és szöveg
- Szöveg és IntWritable
12) Magyarázza el, mi a MapReduce particionáló funkciója?
A MapReduce particionáló funkciója annak biztosítása, hogy egyetlen kulcs összes értéke ugyanahhoz a reduktorhoz kerüljön, ami végül elősegíti a térkép kimenet egyenletes elosztását a reduktorok között.
13) Magyarázza el, mi a különbség a bemeneti felosztás és a HDFS blokk között?
Az adatok logikai felosztása Split néven ismert, míg az adatok fizikai felosztása HDFS blokkként ismert
14) Magyarázza el, mi történik szöveges formátumban?
Szövegbeviteli formátumban a szövegfájl minden sora rekord. Az érték a sor tartalma, míg a kulcs a sor bájteltolása. Például Kulcs: longWritable, Érték: szöveg
15) Említse meg, melyek azok a fő konfigurációs paraméterek, amelyeket a felhasználónak meg kell adnia a MapReduce Job futtatásához?
A MapReduce keretrendszer felhasználójának meg kell adnia
- A feladat beviteli helyei az elosztott fájlrendszerben
- A feladat kimeneti helye az elosztott fájlrendszerben
- Bemeneti formátum
- Kimeneti formátum
- A térkép funkciót tartalmazó osztály
- A redukciós függvényt tartalmazó osztály
- A leképező, reduktor és illesztőprogram osztályokat tartalmazó JAR fájl
16) Magyarázza el, mi az a WebDAV a Hadoopban?
A fájlok szerkesztésének és frissítésének támogatásához a WebDAV a HTTP kiterjesztések készlete. A legtöbb operációs rendszeren a WebDAV-megosztások fájlrendszerként csatlakoztathatók, így a HDFS-hez szabványos fájlrendszerként is hozzá lehet férni, ha a HDFS-t a WebDAV-on keresztül teszi közzé.
17) Magyarázza el, mi az a Sqoop a Hadoopban?
közötti adatátvitelhez Relációs adatbázis-kezelés (RDBMS) és a Hadoop HDFS egy Sqoop néven ismert eszközt használnak. A Sqoop használatával az adatok RDMS-ből is átvihetők MySQL or Oracle HDFS-be, valamint adatok exportálása HDFS-fájlból RDBMS-be
18) Magyarázza el, hogy a JobTracker hogyan ütemez egy feladatot?
A feladatkövető rendszerint néhány percenként szívverésüzeneteket küld a Jobtrackernek, hogy megbizonyosodjon arról, hogy a JobTracker aktív és működik. Az üzenet tájékoztatja a JobTrackert a rendelkezésre álló helyek számáról is, így a JobTracker naprakészen tudja tartani, hogy hol delegálható a fürt munka.
19) Magyarázza el, mi az a Sequencefileinputformat?
A Sequencefileinputformat a fájlok egymás utáni olvasására szolgál. Ez egy speciális tömörített bináris fájlformátum, amely az egyik MapReduce-feladat kimenete és egy másik MapReduce-feladat bemenete közötti adatátvitelre van optimalizálva.
20) Magyarázza el, mit csinál a conf.setMapper osztály?
A Conf.setMapperclass beállítja a leképező osztályt és a leképezési munkával kapcsolatos összes dolgot, mint például az adatok kiolvasása és a kulcs-érték pár generálása a leképezőből
21) Magyarázza el, mi az a Hadoop?
Ez egy nyílt forráskódú szoftver keretrendszer adatok tárolására és alkalmazások futtatására árucikk-hardvercsoportokon. Óriási feldolgozási teljesítményt és hatalmas tárhelyet biztosít bármilyen típusú adat számára.
22) Említse meg, mi a különbség az RDBMS és a Hadoop között?
RDBMS | Hadoop |
---|---|
Az RDBMS egy relációs adatbázis-kezelő rendszer | A Hadoop egy csomópont alapú lapos szerkezet |
OLTP-feldolgozáshoz használt, míg a Hadoop | Jelenleg analitikai és BIG DATA feldolgozásra használják |
Az RDBMS-ben az adatbázis-fürt ugyanazokat az adatfájlokat használja, amelyek egy megosztott tárolóban vannak tárolva | A Hadoopban a tárolási adatok függetlenül tárolhatók az egyes feldolgozási csomópontokban. |
Az adatok tárolása előtt elő kell dolgoznia | nincs szükség az adatok előzetes feldolgozására a tárolás előtt |
23) Említse meg a Hadoop alapvető összetevőit?
A Hadoop alapvető összetevői a következők:
- HDFS
- MapReduce
24) Mi az a NameNode a Hadoopban?
A Hadoop NameNode-ja az a hely, ahol a Hadoop a HDFS-ben tárolja a fájl helyére vonatkozó összes információt. Ez a fő csomópont, amelyen a jobkövető fut, és metaadatokból áll.
25) Említse meg, melyek a Hadoop által használt adatösszetevők?
A Hadoop által használt adatösszetevők a következők
26) Említse meg, melyik a Hadoop által használt adattároló összetevő?
A Hadoop által használt adattároló összetevő a HBase.
27) Említse meg, melyek a Hadoopban meghatározott leggyakoribb beviteli formátumok?
A Hadoopban meghatározott leggyakoribb beviteli formátumok:
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) Mi az InputSplit a Hadoopban?
A bemeneti fájlokat darabokra osztja, és minden felosztást hozzárendel egy leképezőhöz feldolgozás céljából.
29) Hadoop munkához hogyan írjon egyéni particionálót?
Ha egyéni particionálót ír egy Hadoop-feladathoz, a következő utat követi
- Hozzon létre egy új osztályt, amely kiterjeszti a particionáló osztályt
- A getPartition metódus felülbírálása
- A MapReduce-t futtató burkolóban
- Adja hozzá az egyéni particionálót a munkához a Partitioner Class metóduskészlet használatával, vagy – adja hozzá az egyéni particionálót a feladathoz konfigurációs fájlként
30) A Hadoopban végzett munka esetén módosítható a létrehozandó leképezők száma?
Nem, nem lehet módosítani a létrehozandó leképezők számát. A leképezők számát a bemeneti felosztások száma határozza meg.
31) Magyarázza el, mi az a sorozatfájl a Hadoopban?
A bináris kulcs/érték párok tárolásához sorozatfájlt használnak. A szokásos tömörített fájlokkal ellentétben a sorozatfájl támogatja a felosztást még akkor is, ha a fájlban lévő adatok tömörítettek.
32) Ha a Namenode nem működik, mi történik a job trackerrel?
A Namenode az egyetlen hibapont a HDFS-ben, így ha a Namenode nem működik, a fürt elindul.
33) Magyarázza el, hogyan történik az indexelés a HDFS-ben?
A Hadoop egyedi indexelési módszerrel rendelkezik. Miután az adatokat a blokk méretének megfelelően tárolták, a HDFS továbbra is tárolja az adatok utolsó részét, amely megmondja, hogy hol lesz az adatok következő része.
34) Magyarázza el, lehetséges-e fájlok keresése helyettesítő karakterekkel?
Igen, lehetséges a fájlok keresése helyettesítő karakterekkel.
35) Sorolja fel a Hadoop három konfigurációs fájlját?
A három konfigurációs fájl az
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Magyarázza el, hogyan ellenőrizheti, hogy a Namenode működik-e a jps paranccsal?
A jps parancs használata mellett a Namenode működésének ellenőrzésére is használhatja
/etc/init.d/hadoop-0.20-namenode állapot.
37) Magyarázza el, mi a „térkép” és mi a „reduktor” a Hadoopban?
A Hadoopban a térkép a HDFS-lekérdezésmegoldás egyik fázisa. A térkép beolvassa az adatokat egy bemeneti helyről, és a bemeneti típusnak megfelelően kulcsértékpárt ad ki.
A Hadoopban egy reduktor összegyűjti a leképező által generált kimenetet, feldolgozza azt, és létrehoz egy saját végső kimenetet.
38) A Hadoopban melyik fájl szabályozza a jelentéskészítést a Hadoopban?
A Hadoopban a hadoop-metrics.properties fájl vezérli a jelentéskészítést.
39) A Hadoop használatához sorolja fel a hálózati követelményeket?
A Hadoop használatához a hálózati követelmények listája a következő:
- Jelszó nélküli SSH kapcsolat
- Secure Shell (SSH) a szerverfolyamatok indításához
40) Említse meg, mi az a rack tudatosság?
A rack tudatosság az a mód, ahogyan a névcsomópont meghatározza a blokkok elhelyezését az állványdefiníciók alapján.
41) Magyarázza el, mi az a Task Tracker a Hadoopban?
A Hadoop Task Tracker egy szolga csomópont-démon a fürtben, amely feladatokat fogad el a JobTrackertől. Emellett néhány percenként szívverésüzeneteket küld a JobTrackernek, hogy megerősítse, hogy a JobTracker még életben van.
42) Említse meg, milyen démonok futnak a főcsomóponton és a szolga csomópontokon?
- A mester csomóponton futó démonok „NameNode”
- Az egyes Slave csomópontokon futó démonok a „Task Tracker” és „Data”
43) Magyarázza el, hogyan lehet hibakeresni a Hadoop kódot?
A Hadoop kód hibakeresésének népszerű módszerei a következők:
- A Hadoop keretrendszer által biztosított webes felület használatával
- Számlálók használatával
44) Magyarázza el, mi az a tárolási és számítási csomópont?
- A tárolási csomópont az a gép vagy számítógép, amelyen a fájlrendszer található a feldolgozási adatok tárolására
- A számítási csomópont az a számítógép vagy gép, ahol a tényleges üzleti logika végrehajtásra kerül.
45) Említse meg, mi a haszna a Context Object-nek?
A Context Object lehetővé teszi a leképező számára, hogy kölcsönhatásba lépjen a Hadoop többi részével
rendszer. Tartalmazza a feladat konfigurációs adatait, valamint az interfészeket, amelyek lehetővé teszik a kimenet kiadását.
46) Említse meg, mi a következő lépés a Mapper vagy a MapTask után?
A Mapper vagy a MapTask után következő lépés az, hogy a Mapper kimenetét rendezzük, és partíciókat hozunk létre a kimenethez.
47) Említse meg, hány az alapértelmezett partíció a Hadoopban?
A Hadoopban az alapértelmezett particionáló egy „Hash” partíció.
48) Magyarázza el, mi a célja a RecordReadernek a Hadoopban?
A Hadoopban a RecordReader betölti az adatokat a forrásból, és azokat (kulcs, érték) párokká alakítja, amelyek alkalmasak a Mapper általi olvasásra.
49) Magyarázza el, hogyan történik az adatok particionálása, mielőtt elküldené azokat a reduktornak, ha nincs egyéni partíció definiálva a Hadoopban?
Ha nincs egyéni partíció definiálva a Hadoopban, akkor egy alapértelmezett particionáló kiszámítja a kulcs hash értékét, és az eredmény alapján hozzárendeli a partíciót.
50) Magyarázza el, mi történik, ha a Hadoop 50 feladatot hoz létre egy feladathoz, és az egyik feladat meghiúsult?
Újraindítja a feladatot egy másik TaskTrackeren, ha a feladat a meghatározott korlátnál jobban meghiúsul.
51) Említse meg, mi a legjobb módja a fájlok HDFS-fürtök közötti másolásának?
A fájlok HDFS-fürtök közötti másolásának legjobb módja több csomópont és a distcp parancs használata, így a munkaterhelés megoszlik.
52) Említse meg, mi a különbség a HDFS és a NAS között?
A HDFS-adatblokkok egy fürtben lévő összes gép helyi meghajtói között vannak elosztva, míg a NAS-adatokat dedikált hardveren tárolják.
53) Említse meg, miben különbözik a Hadoop a többi adatfeldolgozó eszköztől?
A Hadoopban növelheti vagy csökkentheti a leképezők számát anélkül, hogy aggódnia kellene a feldolgozandó adatok mennyisége miatt.
54) Említse meg, milyen munkát végez a konf osztály?
A Job conf osztály különválasztja az ugyanazon a fürtön futó különböző jobokat. Elvégzi a feladat szintű beállításokat, például egy feladat deklarálását valós környezetben.
55) Említse meg, mi a Hadoop MapReduce API-szerződés kulcs- és értékosztályra vonatkozóan?
Egy kulcs- és értékosztályhoz két Hadoop MapReduce API-szerződés létezik
- Az értéknek az org.apache.hadoop.io.Writable felületet kell meghatároznia
- A kulcsnak az org.apache.hadoop.io.WritableComparable felület meghatározásának kell lennie
56) Említse meg, mi az a három mód, amelyben a Hadoop futtatható?
A Hadoop három üzemmódban futtatható
- Pszeudo elosztott mód
- Önálló (helyi) mód
- Teljesen elosztott mód
57) Említse meg, mit csinál a szövegbeviteli formátum?
A szövegbeviteli formátum egy sorobjektumot hoz létre, amely hexadecimális szám. Az érték teljes soros szövegnek, míg a kulcs sorobjektumnak minősül. A leképező az értéket 'szöveg' paraméterként, míg a kulcsot 'hosszan írható' paraméterként kapja meg.
58) Említse meg, hány InputSplitet készít egy Hadoop-keretrendszer?
A Hadoop 5 felosztást fog végrehajtani
- 1 felosztás 64K fájlokhoz
- 2 megosztás 65 MB-os fájlokhoz
- 2 felosztás a 127 MB fájlokhoz
59) Említse meg, mi az elosztott gyorsítótár a Hadoopban?
Az elosztott gyorsítótár a Hadoopban a MapReduce keretrendszer által biztosított lehetőség. A feladat végrehajtása során a fájl gyorsítótárazására szolgál. A Framework a szükséges fájlokat a szolga csomópontra másolja, mielőtt bármilyen feladatot végrehajtana azon a csomóponton.
60) Magyarázza el, hogy a Hadoop Classpath hogyan játszik létfontosságú szerepet a Hadoop démonok leállításában vagy indításakor?
A Classpath a démonok leállításához vagy elindításához szükséges jar fájlokat tartalmazó könyvtárak listájából áll.
Ezek az interjúkérdések a viva-ban is segítenek.