Топ 60 въпроса и отговора за Hadoop интервю (2026)

Ето въпроси и отговори за интервю с Hadoop MapReduce за по-свежи и опитни кандидати, за да получат мечтаната работа.

Въпроси за интервю за Hadoop MapReduce

1) Какво е Hadoop Map Reduce?

За паралелна обработка на големи набори от данни в Hadoop клъстер се използва Hadoop MapReduce framework. Анализът на данни използва двуетапна карта и редуциран процес.


2) Как работи Hadoop MapReduce?

В MapReduce, по време на фазата на картата, той брои думите във всеки документ, докато във фазата на редуциране агрегира данните според документа, обхващащ цялата колекция. По време на фазата на картата входните данни се разделят на части за анализ чрез задачи за карта, изпълнявани паралелно в рамките на Hadoop.

👉 Безплатно изтегляне на PDF: Въпроси и отговори за интервю с Hadoop & MapReduce


3) Обяснете какво е разбъркване в MapReduce?

Процесът, чрез който системата извършва сортирането и прехвърля изходите на картата към редуктора като входове, е известен като разбъркване


4) Обяснете какво е разпределен кеш в MapReduce Framework?

Разпределеният кеш е важна функция, предоставена от рамката MapReduce. Когато искате да споделите някои файлове във всички възли в Hadoop Cluster, Използва се разпределен кеш. Файловете могат да бъдат изпълними jar файлове или обикновен файл със свойства.

Въпроси за интервю за Hadoop MapReduce
Въпроси за интервю за Hadoop MapReduce

5) Обяснете какво е NameNode в Hadoop?

NameNode в Hadoop е възелът, където Hadoop съхранява цялата информация за местоположението на файла HDFS (разпределена файлова система Hadoop)С други думи, NameNode е централният елемент на файловата система HDFS. Той съхранява запис на всички файлове във файловата система и tracсъхранява файловите данни в клъстера или на множество машини


6) Обяснете какво е ЙовTracker в Hadoop? Какви действия следва Hadoop?

In Hadoop за подаване и tracработни места, работа на king MapReduceTracкер се използва. Работа tracker се изпълнява на собствен JVM процес

Работа Tracker извършва следните действия в Hadoop

  • Клиентското приложение изпраща задания към заданието tracКер
  • РаботаTracker комуникира с режима Name, за да определи местоположението на данните
  • Близо до данните или със свободни слотове за работаTracкер локализира задачатаTracкер възли
  • По избрана задачаTracker Nodes, той изпраща работата
  • Когато една задача се провали, Job tracКер уведомява и решава какво да прави тогава.
  • ЗадачатаTracker възлите се наблюдават от JobTracКер

7) Обяснете какво е сърдечен ритъм в HDFS?

Сърдечният ритъм се отнася до сигнал, използван между възел с данни и възел с име, както и между възел за задачи. tracКер и работа tracker, ако възелът Name или задачата tracАко ker не отговаря на сигнала, се счита, че има някакви проблеми с възела за данни или задачата. tracКер


8) Обяснете какво представляват комбинаторите и кога трябва да използвате комбинатор в задача на MapReduce?

За повишаване ефективността на Програма MapReduce, Използват се комбайни. Количеството данни може да бъде намалено с помощта на комбинатори, които трябва да бъдат прехвърлени към редукторите. Ако извършената операция е комутативна и асоциативна, можете да използвате вашия редуктор код като комбинатор. Изпълнението на комбинатора не е гарантирано в Hadoop


9) Какво се случва, когато възел за данни се повреди?

Когато възел за данни се повреди

  • Работаtracker и namenode откриват грешката
  • На неуспешния възел всички задачи се планират отново
  • Namenode копира данните на потребителя в друг възел

10) Обяснете какво е спекулативно изпълнение?

В Hadoop по време на спекулативно изпълнение се стартира определен брой дублиращи се задачи. На различен подчинен възел могат да бъдат изпълнени множество копия на една и съща карта или редуцирана задача с помощта на Speculative Execution. С прости думи, ако определено устройство отнема много време за изпълнение на задача, Hadoop ще създаде дублирана задача на друг диск. Диск, който първи завършва задачата, се запазва, а дисковете, които не завършват първи, се унищожават.


11) Обяснете какви са основните параметри на Mapper?

Основните параметри на Mapper са

  • LongWritable и Text
  • Текст и IntWritable

12) Обяснете каква е функцията на MapReduce partitioner?

Функцията на MapReduce partitioner е да гарантира, че цялата стойност на един ключ отива към един и същ редуктор, което в крайна сметка спомага за равномерното разпределение на изхода на картата върху редукторите


13) Обяснете каква е разликата между Input Split и HDFS Block?

Логическото разделяне на данни е известно като Split, докато физическото разделяне на данни е известно като HDFS Block


14) Обяснете какво се случва в текстов формат?

Във формат за въвеждане на текст всеки ред в текстовия файл е запис. Стойността е съдържанието на реда, докато Key е отместването в байта на реда. Например Ключ: longWritable, Стойност: текст


15) Споменете кои са основните конфигурационни параметри, които потребителят трябва да посочи, за да изпълни MapReduce Job?

Потребителят на рамката MapReduce трябва да посочи

  • Входните местоположения на заданието в разпределената файлова система
  • Изходното местоположение на заданието в разпределената файлова система
  • Формат на въвеждане
  • Изходен формат
  • Клас, съдържащ функцията map
  • Клас, съдържащ функцията за намаляване
  • JAR файл, съдържащ класовете за картографиране, редуктор и драйвер

16) Обяснете какво е WebDAV в Hadoop?

За поддръжка на редактиране и актуализиране на файлове WebDAV е набор от разширения към HTTP. В повечето операционни системи WebDAV споделянията могат да бъдат монтирани като файлови системи, така че е възможно да получите достъп до HDFS като стандартна файлова система чрез излагане на HDFS през WebDAV.


17) Обяснете какво е Sqoop в Hadoop?

За прехвърляне на данни между Управление на релационни бази данни (RDBMS) намлява Hadoop HDFS използва се инструмент, известен като Sqoop. С помощта на Sqoop данните могат да се прехвърлят от RDMS като MySQL or Oracle в HDFS, както и експортиране на данни от HDFS файл към RDBMS


18) Обяснете как ЙовTracКер планира задача?

Задачата tracКер изпраща съобщения за сърдечен ритъм на Йовtracобикновено на всеки няколко минути, за да се увери, че ЙовTracкер е активен и функциониращ. Съобщението също така информира ЙовTracкер за броя на наличните слотове, така че работатаTracker може да бъде в крак с актуалните данни, при които работата по клъстера може да бъде делегирана


19) Обяснете какво е Sequencefileinputformat?

Sequencefileinputformat се използва за четене на файлове в последователност. Това е специфичен компресиран двоичен файлов формат, който е оптимизиран за предаване на данни между изхода на едно задание на MapReduce към входа на друго задание на MapReduce.


20) Обяснете какво прави класът conf.setMapper?

Conf.setMapperclass задава класа на картографа и всички неща, свързани с заданието за картографиране, като четене на данни и генериране на двойка ключ-стойност от картографа

21) Обяснете какво е Hadoop?

Това е софтуерна рамка с отворен код за съхраняване на данни и стартиране на приложения на клъстери от стоков хардуер. Той осигурява огромна мощност на обработка и масивно съхранение за всякакъв тип данни.


22) Споменете каква е разликата между RDBMS и Hadoop?

RDBMS Hadoop
RDBMS е система за управление на релационни бази данни Hadoop е плоска структура, базирана на възли
Използва се за OLTP обработка, докато Hadoop В момента се използва за аналитична обработка и обработка на ГОЛЕМИ ДАННИ
В RDBMS клъстерът на базата данни използва същите файлове с данни, съхранявани в споделено хранилище В Hadoop данните за съхранение могат да се съхраняват независимо във всеки обработващ възел.
Трябва да обработите предварително данните, преди да ги съхраните не е необходимо да обработвате предварително данни, преди да ги съхраните

23) Споменете основните компоненти на Hadoop?

Основните компоненти на Hadoop включват,

  • HDFS
  • MapReduce

24) Какво е NameNode в Hadoop?

NameNode в Hadoop е мястото, където Hadoop съхранява цялата информация за местоположението на файловете в HDFS. Това е главният възел, на който се осъществява задачата. tracker се изпълнява и се състои от метаданни.


25) Споменете какви са компонентите на данните, използвани от Hadoop?

Компонентите за данни, използвани от Hadoop, са


26) Споменете какъв е компонентът за съхранение на данни, използван от Hadoop?

Компонентът за съхранение на данни, използван от Hadoop, е HBase.


27) Споменете кои са най-често срещаните входни формати, дефинирани в Hadoop?

Най-често срещаните входни формати, дефинирани в Hadoop, са;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) В Hadoop какво е InputSplit?

Той разделя входните файлове на части и присвоява всяко разделяне на картограф за обработка.


29) За работа в Hadoop, как ще напишете персонализиран разделител?

Пишете персонализиран дял за задача на Hadoop, следвате следния път

  • Създайте нов клас, който разширява класа на Partitioner
  • Замени метода getPartition
  • В обвивката, която изпълнява MapReduce
  • Добавете персонализираното устройство за разделяне към заданието, като използвате метод set Partitioner Class или – добавете персонализираното устройство за разделяне към заданието като конфигурационен файл

30) За работа в Hadoop, възможно ли е да промените броя на картографите, които да бъдат създадени?

Не, не е възможно да промените броя на картографите, които да бъдат създадени. Броят на съпоставителите се определя от броя на разделянията на входа.


31) Обяснете какво е последователен файл в Hadoop?

За съхраняване на двоични двойки ключ/стойност се използва файл с последователност. За разлика от обикновения компресиран файл, последователният файл поддържа разделяне дори когато данните във файла са компресирани.


32) Когато Namenode не работи, какво се случва със задачата (job) tracкер?

Namenode е единствената точка на повреда в HDFS, така че когато Namenode не работи, вашият клъстер ще започне.


33) Обяснете как се извършва индексирането в HDFS?

Hadoop има уникален начин за индексиране. След като данните бъдат съхранени според размера на блока, HDFS ще продължи да съхранява последната част от данните, която казва къде ще бъде следващата част от данните.


34) Обяснете възможно ли е търсене на файлове с помощта на заместващи знаци?

Да, възможно е да търсите файлове с помощта на заместващи знаци.


35) Избройте трите конфигурационни файла на Hadoop?

Трите конфигурационни файла са

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Обяснете как можете да проверите дали Namenode работи освен с помощта на командата jps?

Освен да използвате командата jps, за да проверите дали Namenode работи, можете също да използвате

/etc/init.d/hadoop-0.20-namenode състояние.


37) Обяснете какво е „map“ и какво е „reducer“ в Hadoop?

В Hadoop картата е фаза в решаването на HDFS заявка. Картата чете данни от входно местоположение и извежда двойка ключ стойност според типа вход.

В Hadoop редукторът събира изхода, генериран от картографа, обработва го и създава свой собствен краен изход.


38) В Hadoop кой файл контролира отчитането в Hadoop?

В Hadoop файлът hadoop-metrics.properties контролира отчитането.


39) За използване на Hadoop избройте мрежовите изисквания?

За използване на Hadoop списъкът с мрежови изисквания е:

  • SSH връзка без парола
  • Secure Shell (SSH) за стартиране на сървърни процеси

40) Споменете какво е информираност за багажника?

Познаването на стелажа е начинът, по който namenode определя как да се поставят блокове въз основа на дефинициите на стелажа.


41) Обяснете какво е задача Tracкер в Hadoop?

Задача Tracker в Hadoop е демон на подчинен възел в клъстера, който приема задачи от Job (задание).Tracкер. Той също така изпраща съобщения за пулс до задачатаTracкер, на всеки няколко минути, за да потвърди, че работатаTracКер е все още жив.


42) Споменете какви демони работят на главен възел и подчинени възли?

  • Демоните, работещи на главния възел, са „NameNode“
  • Демоните, изпълнявани на всеки подчинен възел, са „Задача“ Tracкер“ и „Данни“

43) Обяснете как можете да дебъгвате Hadoop код?

Популярните методи за отстраняване на грешки в Hadoop код са:

  • Чрез използване на уеб интерфейс, предоставен от Hadoop framework
  • Чрез използване на броячи

44) Обяснете какво представляват възли за съхранение и изчисления?

  • Възелът за съхранение е машината или компютърът, където се намира вашата файлова система, за да съхранява обработваните данни
  • Компютърният възел е компютърът или машината, където ще се изпълнява вашата действителна бизнес логика.

45) Споменете каква е употребата на Context Object?

Контекстният обект позволява на картографа да взаимодейства с останалата част от Hadoop

система. Той включва конфигурационни данни за заданието, както и интерфейси, които му позволяват да излъчва изход.


46) Споменете коя е следващата стъпка след Mapper или MapTask?

Следващата стъпка след Mapper или MapTask е изходът на Mapper да бъде сортиран и за изхода ще бъдат създадени дялове.


47) Споменете какъв е броят на разделителя по подразбиране в Hadoop?

В Hadoop програмата за разделяне по подразбиране е "Hash" Partitioner.


48) Обяснете каква е целта на RecordReader в Hadoop?

В Hadoop RecordReader зарежда данните от техния източник и ги преобразува в двойки (ключ, стойност), подходящи за четене от Mapper.


49) Обяснете как се разделят данните, преди да бъдат изпратени към редуктора, ако в Hadoop не е дефиниран персонализиран разделител?

Ако в Hadoop не е дефинирано персонализирано устройство за разделяне, тогава устройство за разделяне по подразбиране изчислява хеш стойност за ключа и присвоява дяла въз основа на резултата.


50) Обяснете какво се случва, когато Hadoop създаде 50 задачи за работа и една от задачите е неуспешна?

Ще рестартира задачата отново на някоя друга задачаTracker, ако задачата се провали повече от определения лимит.


51) Споменете кой е най-добрият начин за копиране на файлове между HDFS клъстери?

Най-добрият начин за копиране на файлове между HDFS клъстери е чрез използване на множество възли и командата distcp, така че работното натоварване се споделя.


52) Споменете каква е разликата между HDFS и NAS?

HDFS блоковете данни се разпределят между локалните дискове на всички машини в клъстера, докато NAS данните се съхраняват на специален хардуер.


53) Споменете как Hadoop е различен от другите инструменти за обработка на данни?

В Hadoop можете да увеличите или намалите броя на картографите, без да се притеснявате за обема на данните, които трябва да бъдат обработени.


54) Споменете каква работа върши класът conf?

Job conf class отделя различни задачи, изпълнявани на един и същи клъстер. Той прави настройките на ниво работа, като например деклариране на работа в реална среда.


55) Споменете какво представляват Hadoop MapReduce API-тата.tracт за клас ключ и стойност?

За клас ключ и стойност има два Hadoop MapReduce API-та, които могат да...tract

  • Стойността трябва да дефинира интерфейса org.apache.hadoop.io.Writable
  • Ключът трябва да дефинира интерфейса org.apache.hadoop.io.WritableComparable

56) Споменете кои са трите режима, в които може да се изпълнява Hadoop?

Трите режима, в които може да се изпълнява Hadoop, са

  • Псевдо разпределен режим
  • Самостоятелен (локален) режим
  • Напълно разпределен режим

57) Споменете какво прави форматът за въвеждане на текст?

Форматът за въвеждане на текст ще създаде редов обект, който е шестнадесетично число. Стойността се разглежда като цял ред текст, докато ключът се счита като редов обект. Картографът ще получи стойността като параметър „text“, докато ключът ще бъде параметър „longwriteable“.


58) Споменете колко InputSplits се правят от Hadoop Framework?

Hadoop ще направи 5 разделяния

  • 1 разделяне за 64K файлове
  • 2 разделени за 65mb файлове
  • 2 разделяния за 127mb файлове

59) Споменете какво е разпределен кеш в Hadoop?

Разпределеният кеш в Hadoop е възможност, предоставена от рамката MapReduce. По време на изпълнение на заданието се използва за кеширане на файл. Рамката копира необходимите файлове в подчинения възел преди изпълнението на която и да е задача в този възел.


60) Обяснете как Hadoop Classpath играе жизненоважна роля в спиранетоping или започване с демони на Hadoop?

Classpath ще се състои от списък с директории, съдържащи jar файлове за спиране или стартиране на демони.

Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)

Обобщете тази публикация с: