60 nejčastějších otázek a odpovědí na pohovor Hadoop (2025)

Zde jsou otázky a odpovědi na pohovor Hadoop MapReduce pro čerstvější i zkušené kandidáty, aby získali svou vysněnou práci.

Otázky k pohovoru Hadoop MapReduce

1) Co je Hadoop Map Reduce?

Pro paralelní zpracování velkých datových sad napříč clusterem Hadoop se používá framework Hadoop MapReduce. Analýza dat používá dvoukrokovou mapu a proces redukce.


2) Jak Hadoop MapReduce funguje?

V MapReduce během fáze mapování počítá slova v každém dokumentu, zatímco ve fázi redukce agreguje data podle dokumentu zahrnujícího celou kolekci. Během fáze mapování jsou vstupní data rozdělena do částí pro analýzu podle mapových úloh běžících paralelně napříč frameworkem Hadoop.

👉 Zdarma ke stažení PDF: Otázky a odpovědi k rozhovoru Hadoop & MapReduce


3) Vysvětlete, co je míchání v MapReduce?

Proces, kterým systém provádí třídění a přenáší výstupy map do reduktoru jako vstupy, je známý jako míchání


4) Vysvětlete, co je distribuovaná mezipaměť v MapReduce Framework?

Distribuovaná mezipaměť je důležitou funkcí poskytovanou frameworkem MapReduce. Když chcete sdílet některé soubory napříč všemi uzly v Hadoopu Cluster, Používá se distribuovaná mezipaměť. Soubory mohou být spustitelné soubory jar nebo jednoduchý soubor vlastností.

Otázky k pohovoru Hadoop MapReduce
Otázky k pohovoru Hadoop MapReduce

5) Vysvětlete, co je NameNode v Hadoop?

NameNode v Hadoopu je uzel, kde Hadoop ukládá všechny informace o umístění souboru HDFS (Hadoop Distributed File System). Jinými slovy, NameNode je středobodem systému souborů HDFS. Uchovává záznamy o všech souborech v systému souborů a sleduje data souborů napříč clusterem nebo více počítači


6) Vysvětlete, co je JobTracker v Hadoopu? Jaké akce následuje Hadoop?

In Hadoop pro odesílání a sledování úloh MapReduce se používá JobTracker. Job tracker běží na vlastním procesu JVM

Job Tracker provádí v Hadoopu následující akce

  • Klientská aplikace odesílá úlohy do nástroje pro sledování úloh
  • JobTracker komunikuje s režimem Name, aby určil umístění dat
  • V blízkosti dat nebo s dostupnými sloty JobTracker vyhledá uzly TaskTracker
  • Na vybraných uzlech TaskTracker odešle práci
  • Když se úkol nezdaří, Job tracker upozorní a rozhodne, co dělat.
  • Uzly TaskTracker jsou monitorovány JobTrackerem

7) Vysvětlete, co je srdeční tep v HDFS?

Heartbeat je signál používaný mezi datovým uzlem a Name nodem a mezi task tracker a job tracker, pokud uzel Name nebo job tracker nereaguje na signál, pak se má za to, že došlo k nějakým problémům s datovým uzlem nebo úlohou. stopař


8) Vysvětlete, co jsou slučovače a kdy byste měli slučovač použít v MapReduce Job?

Pro zvýšení účinnosti Program MapReduce, Používají se slučovače. Množství dat lze snížit pomocí slučovačů, které je třeba přenést do reduktorů. Pokud je prováděná operace komutativní a asociativní, můžete použít svůj redukční kód jako slučovač. Provedení slučovače není v Hadoopu zaručeno


9) Co se stane, když datový uzel selže?

Když selže datový uzel

  • Jobtracker a namenode detekují selhání
  • Na neúspěšném uzlu jsou všechny úkoly přeplánovány
  • Namenode replikuje data uživatele do jiného uzlu

10) Vysvětlete, co je to spekulativní exekuce?

V Hadoopu se během spekulativního provádění spouští určitý počet duplicitních úkolů. Na jiném podřízeném uzlu lze provést více kopií stejné úlohy mapy nebo snížení pomocí spekulativního provedení. Jednoduše řečeno, pokud konkrétnímu disku trvá dokončení úlohy dlouho, Hadoop vytvoří duplicitní úlohu na jiném disku. Disk, který dokončí úlohu jako první, je zachován a disky, které nedokončí jako první, jsou zabity.


11) Vysvětlete, jaké jsou základní parametry Mapperu?

Základní parametry Mapperu jsou

  • LongWritable a Text
  • Text a IntWritable

12) Vysvětlete, jaká je funkce MapReduce partitioner?

Funkce MapReduce partitioneru je zajistit, aby veškerá hodnota jednoho klíče šla do stejného reduktoru, což nakonec pomáhá rovnoměrnému rozložení mapového výstupu přes reduktory.


13) Vysvětlete, jaký je rozdíl mezi Input Split a HDFS Block?

Logické rozdělení dat je známé jako Split, zatímco fyzické rozdělení dat je známé jako HDFS Block


14) Vysvětlete, co se děje v textovém formátu?

Ve formátu pro zadávání textu je každý řádek v textovém souboru záznamem. Hodnota je obsah řádku, zatímco klíč je bajtový posun řádku. Například Key: longWritable, Value: text


15) Uveďte, jaké jsou hlavní konfigurační parametry, které musí uživatel zadat, aby spustil MapReduce Job?

Uživatel rozhraní MapReduce musí specifikovat

  • Vstupní umístění úlohy v distribuovaném systému souborů
  • Umístění výstupu úlohy v distribuovaném systému souborů
  • Vstupní formát
  • Výstupní formát
  • Třída obsahující funkci mapy
  • Třída obsahující funkci snížení
  • Soubor JAR obsahující třídu mapovače, reduktoru a ovladače

16) Vysvětlete, co je WebDAV v Hadoopu?

Pro podporu úprav a aktualizace souborů WebDAV je sada rozšíření HTTP. Na většině operačních systémů lze sdílené složky WebDAV připojit jako souborové systémy, takže je možné přistupovat k HDFS jako ke standardnímu souborovému systému vystavením HDFS přes WebDAV.


17) Vysvětlete, co je Sqoop v Hadoopu?

Pro přenos dat mezi Správa relačních databází (RDBMS) si Hadoop HDFS používá se nástroj známý jako Sqoop. Pomocí Sqoop lze data přenášet z RDMS jako MySQL or Oracle do HDFS a také export dat ze souboru HDFS do RDBMS


18) Vysvětlete, jak JobTracker naplánuje úkol?

Sledování úloh odesílá zprávy o srdečním tepu Jobtrackeru obvykle každých několik minut, aby se ujistil, že JobTracker je aktivní a funkční. Zpráva také informuje JobTracker o počtu dostupných slotů, takže JobTracker může zůstat aktuální, kde lze práci clusteru delegovat.


19) Vysvětlete, co je Sequencefileinputformat?

Sequencefileinputformat se používá pro postupné čtení souborů. Jedná se o specifický formát komprimovaného binárního souboru, který je optimalizován pro předávání dat mezi výstupem jedné úlohy MapReduce na vstup jiné úlohy MapReduce.


20) Vysvětlete, co dělá třída conf.setMapper?

Conf.setMapperclass nastavuje třídu mapovače a všechny věci související s mapovací úlohou, jako je čtení dat a generování páru klíč–hodnota z mapovače

21) Vysvětlete, co je Hadoop?

Jedná se o open-source softwarový rámec pro ukládání dat a spouštění aplikací na klastrech komoditního hardwaru. Poskytuje enormní výpočetní výkon a masivní úložiště pro jakýkoli typ dat.


22) Uveďte, jaký je rozdíl mezi RDBMS a Hadoop?

RDBMS Hadoop
RDBMS je systém pro správu relačních databází Hadoop je plochá struktura založená na uzlu
Používá se pro zpracování OLTP, zatímco Hadoop V současnosti se používá pro analytické a pro zpracování BIG DATA
V RDBMS používá databázový cluster stejné datové soubory uložené ve sdíleném úložišti V Hadoopu mohou být data úložiště uložena nezávisle v každém uzlu zpracování.
Před uložením musíte data předzpracovat data před uložením nemusíte předzpracovávat

23) Zmínit součásti jádra Hadoop?

Mezi součásti jádra Hadoop patří,

  • HDFS
  • MapReduce

24) Co je NameNode v Hadoopu?

NameNode v Hadoop je místo, kde Hadoop ukládá všechny informace o umístění souboru v HDFS. Je to hlavní uzel, na kterém běží nástroj pro sledování úloh a skládá se z metadat.


25) Uveďte, jaké datové komponenty používá Hadoop?

Datové komponenty používané Hadoopem jsou


26) Uveďte, jakou komponentu pro ukládání dat používá Hadoop?

Komponenta pro ukládání dat, kterou Hadoop používá, je HBase.


27) Uveďte, jaké jsou nejběžnější vstupní formáty definované v Hadoopu?

Nejběžnější vstupní formáty definované v Hadoop jsou;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Co je v Hadoopu InputSplit?

Rozdělí vstupní soubory na části a každé rozdělení přiřadí mapovači ke zpracování.


29) Jak pro úlohu Hadoop napíšete vlastní oddíl?

Když napíšete vlastní oddíl pro úlohu Hadoop, budete postupovat podle následující cesty

  • Vytvořte novou třídu, která rozšiřuje třídu Partitioner
  • Přepsat metodu getPartition
  • V obalu, který spouští MapReduce
  • Přidejte vlastní dělič oddílů do úlohy pomocí sady metod Partitioner Class nebo – přidejte vlastní dělič oddílů do úlohy jako konfigurační soubor

30) Je možné u úlohy v Hadoopu změnit počet vytvořených mapovačů?

Ne, není možné změnit počet vytvořených mapovačů. Počet mapovačů je určen počtem vstupních rozdělení.


31) Vysvětlete, co je sekvenční soubor v Hadoopu?

K uložení binárních párů klíč/hodnota se používá sekvenční soubor. Na rozdíl od běžného komprimovaného souboru podporuje sekvenční soubor rozdělení, i když jsou data uvnitř souboru komprimována.


32) Když je Namenode mimo provoz, co se stane s job trackerem?

Namenode je jediným bodem selhání v HDFS, takže když Namenode nefunguje, váš cluster se spustí.


33) Vysvětlete, jak se provádí indexování v HDFS?

Hadoop má jedinečný způsob indexování. Jakmile jsou data uložena podle velikosti bloku, bude HDFS nadále ukládat poslední část dat, která říká, kde bude další část dat.


34) Vysvětlete, je možné vyhledávat soubory pomocí zástupných znaků?

Ano, je možné vyhledávat soubory pomocí zástupných znaků.


35) Vypsat tři konfigurační soubory Hadoopu?

Tři konfigurační soubory jsou

  • core-site.xml
  • maped-site.xml
  • hdfs-site.xml

36) Vysvětlete, jak můžete zkontrolovat, zda Namenode funguje vedle příkazu jps?

Kromě použití příkazu jps můžete také použít ke kontrole, zda Namenode funguje

/etc/init.d/hadoop-0.20-namenode status.


37) Vysvětlete, co je „mapa“ a co je „reduktor“ v Hadoopu?

V Hadoopu je mapa fází řešení dotazů HDFS. Mapa čte data ze vstupního umístění a vydává pár klíč-hodnota podle typu vstupu.

V Hadoopu reduktor shromažďuje výstup generovaný mapovačem, zpracovává jej a vytváří vlastní konečný výstup.


38) Který soubor v Hadoopu řídí hlášení v Hadoopu?

V Hadoopu řídí hlášení soubor hadoop-metrics.properties.


39) Pro použití Hadoop uveďte síťové požadavky?

Pro použití Hadoop je seznam síťových požadavků:

  • SSH připojení bez hesla
  • Secure Shell (SSH) pro spouštění serverových procesů

40) Uveďte, co je to povědomí o stojanech?

Povědomí o stojanu je způsob, jakým jmenný uzel určuje, jak umístit bloky na základě definic stojanu.


41) Vysvětlete, co je Task Tracker v Hadoopu?

Task Tracker v Hadoopu je podřízený uzel démon v clusteru, který přijímá úlohy z JobTrackeru. Každých několik minut také odesílá zprávy o srdečním tepu do JobTracker, aby se potvrdilo, že JobTracker je stále naživu.


42) Uveďte, jaké démony běží na hlavním a podřízeném uzlu?

  • Démoni běžící na hlavním uzlu jsou „NameNode“
  • Démoni běžící na každém Slave uzlu jsou „Task Tracker“ a „Data“

43) Vysvětlete, jak můžete ladit kód Hadoop?

Populární metody pro ladění kódu Hadoop jsou:

  • Pomocí webového rozhraní poskytovaného frameworkem Hadoop
  • Pomocí čítačů

44) Vysvětlete, co je úložiště a výpočetní uzly?

  • Úložný uzel je stroj nebo počítač, kde se nachází váš souborový systém pro ukládání dat zpracování
  • Výpočetní uzel je počítač nebo stroj, kde bude prováděna vaše skutečná obchodní logika.

45) Uveďte, k čemu slouží Context Object?

Kontextový objekt umožňuje mapovači komunikovat se zbytkem Hadoopu

Systém. Zahrnuje konfigurační data pro úlohu a také rozhraní, která umožňují vydávat výstup.


46) Uveďte, jaký je další krok po Mapper nebo MapTask?

Dalším krokem po Mapperu nebo MapTask je seřazení výstupu Mapperu a vytvoření oddílů pro výstup.


47) Uveďte, jaké je číslo výchozího oddílu v Hadoop?

V Hadoopu je výchozím oddílem „Hash“ oddíl.


48) Vysvětlete, k čemu slouží RecordReader v Hadoopu?

V Hadoopu RecordReader načte data ze svého zdroje a převede je na páry (klíč, hodnota) vhodné pro čtení Mapperem.


49) Vysvětlete, jak jsou data rozdělena před odesláním do reduktoru, pokud v Hadoopu není definován žádný vlastní oddíl?

Pokud v Hadoopu není definován žádný vlastní oddíl, pak výchozí oddíl vypočítá hodnotu hash pro klíč a přiřadí oddíl na základě výsledku.


50) Vysvětlete, co se stane, když Hadoop vytvořil 50 úkolů pro úlohu a jeden z úkolů selhal?

Pokud úloha selže více, než je definovaný limit, restartuje úlohu znovu na jiném TaskTrackeru.


51) Uveďte, jaký je nejlepší způsob kopírování souborů mezi clustery HDFS?

Nejlepším způsobem kopírování souborů mezi clustery HDFS je použití více uzlů a příkazu distcp, takže zátěž je sdílena.


52) Uveďte, jaký je rozdíl mezi HDFS a NAS?

Datové bloky HDFS jsou distribuovány na lokální disky všech strojů v clusteru, zatímco data NAS jsou uložena na vyhrazeném hardwaru.


53) Uveďte, jak se Hadoop liší od jiných nástrojů pro zpracování dat?

V Hadoopu můžete zvýšit nebo snížit počet mapovačů, aniž byste se museli starat o objem dat ke zpracování.


54) Uveďte, jakou práci dělá třída conf?

Třída konfigurace úlohy odděluje různé úlohy běžící na stejném clusteru. Provádí nastavení úrovně úlohy, jako je deklarace úlohy v reálném prostředí.


55) Uveďte, co je smlouva Hadoop MapReduce API pro klíčovou a hodnotovou třídu?

Pro třídu klíčů a hodnot existují dvě smlouvy Hadoop MapReduce API

  • Hodnota musí definovat rozhraní org.apache.hadoop.io.Writable
  • Klíč musí definovat rozhraní org.apache.hadoop.io.WritableComparable

56) Uveďte, jaké jsou tři režimy, ve kterých lze Hadoop spustit?

Tři režimy, ve kterých lze Hadoop spustit, jsou

  • Pseudo distribuovaný režim
  • Samostatný (místní) režim
  • Plně distribuovaný režim

57) Uveďte, co dělá formát zadávání textu?

Formát vstupu textu vytvoří řádkový objekt, který je hexadecimálním číslem. Hodnota je považována za celý řádkový text, zatímco klíč je považován za řádkový objekt. Mapovač obdrží hodnotu jako parametr 'text', zatímco klíč jako parametr 'longwriteable'.


58) Uveďte, kolik InputSplits vytváří Hadoop Framework?

Hadoop udělá 5 splitů

  • 1 rozdělení pro 64 kB souborů
  • 2 rozdělení pro soubory o velikosti 65 MB
  • 2 rozdělení pro soubory o velikosti 127 MB

59) Uveďte, co je distribuovaná cache v Hadoopu?

Distribuovaná mezipaměť v Hadoopu je zařízení poskytované rámcem MapReduce. V době provádění úlohy se používá k ukládání souboru do mezipaměti. Framework zkopíruje potřebné soubory do podřízeného uzlu před provedením jakékoli úlohy v tomto uzlu.


60) Vysvětlete, jak hraje Hadoop Classpath zásadní roli při zastavování nebo spouštění v Hadoop démonech?

Classpath se bude skládat ze seznamu adresářů obsahujících soubory jar pro zastavení nebo spuštění démonů.

Tyto otázky na pohovoru také pomohou ve vašem životě (ústních)