Топ 60 въпроса и отговора за Hadoop интервю (2025)
Ето въпроси и отговори за интервю с Hadoop MapReduce за по-свежи и опитни кандидати, за да получат мечтаната работа.
Въпроси за интервю за Hadoop MapReduce
1) Какво е Hadoop Map Reduce?
За паралелна обработка на големи набори от данни в Hadoop клъстер се използва Hadoop MapReduce framework. Анализът на данни използва двуетапна карта и редуциран процес.
2) Как работи Hadoop MapReduce?
В MapReduce, по време на фазата на картата, той брои думите във всеки документ, докато във фазата на редуциране агрегира данните според документа, обхващащ цялата колекция. По време на фазата на картата входните данни се разделят на части за анализ чрез задачи за карта, изпълнявани паралелно в рамките на Hadoop.
👉 Безплатно изтегляне на PDF: Въпроси и отговори за интервю с Hadoop & MapReduce
3) Обяснете какво е разбъркване в MapReduce?
Процесът, чрез който системата извършва сортирането и прехвърля изходите на картата към редуктора като входове, е известен като разбъркване
4) Обяснете какво е разпределен кеш в MapReduce Framework?
Разпределеният кеш е важна функция, предоставена от рамката MapReduce. Когато искате да споделите някои файлове във всички възли в Hadoop Cluster, Използва се разпределен кеш. Файловете могат да бъдат изпълними jar файлове или обикновен файл със свойства.

5) Обяснете какво е NameNode в Hadoop?
NameNode в Hadoop е възелът, където Hadoop съхранява цялата информация за местоположението на файла HDFS (разпределена файлова система Hadoop). С други думи, NameNode е централната част на HDFS файлова система. Той поддържа запис на всички файлове във файловата система и проследява файловите данни в клъстера или множество машини
6) Обяснете какво е JobTracker в Hadoop? Какви са действията, последвани от Hadoop?
In Hadoop за изпращане и проследяване на задания на MapReduce се използва JobTracker. Проследяването на задания се изпълнява на собствен JVM процес
Job Tracker изпълнява следните действия в Hadoop
- Клиентското приложение изпраща работни места към инструмента за проследяване на задачи
- JobTracker комуникира с режима за име, за да определи местоположението на данните
- Близо до данните или с налични слотове JobTracker локализира възлите на TaskTracker
- На избрани възли на TaskTracker той изпраща работата
- Когато дадена задача се провали, Job tracker уведомява и решава какво да прави тогава.
- Възлите на TaskTracker се наблюдават от JobTracker
7) Обяснете какво е сърдечен ритъм в HDFS?
Heartbeat се отнася до сигнал, използван между възел за данни и възел за име и между инструмента за проследяване на задачи и инструмента за проследяване на задачи, ако възелът за име или инструментът за проследяване на задания не реагира на сигнала, тогава се счита, че има проблеми с възела за данни или задачата тракер
8) Обяснете какво представляват комбинаторите и кога трябва да използвате комбинатор в задача на MapReduce?
За повишаване ефективността на Програма MapReduce, Използват се комбайни. Количеството данни може да бъде намалено с помощта на комбинатори, които трябва да бъдат прехвърлени към редукторите. Ако извършената операция е комутативна и асоциативна, можете да използвате вашия редуктор код като комбинатор. Изпълнението на комбинатора не е гарантирано в Hadoop
9) Какво се случва, когато възел за данни се повреди?
Когато възел за данни се повреди
- Jobtracker и namenode откриват грешката
- На неуспешния възел всички задачи се планират отново
- Namenode копира данните на потребителя в друг възел
10) Обяснете какво е спекулативно изпълнение?
В Hadoop по време на спекулативно изпълнение се стартира определен брой дублиращи се задачи. На различен подчинен възел могат да бъдат изпълнени множество копия на една и съща карта или редуцирана задача с помощта на Speculative Execution. С прости думи, ако определено устройство отнема много време за изпълнение на задача, Hadoop ще създаде дублирана задача на друг диск. Диск, който първи завършва задачата, се запазва, а дисковете, които не завършват първи, се унищожават.
11) Обяснете какви са основните параметри на Mapper?
Основните параметри на Mapper са
- LongWritable и Text
- Текст и IntWritable
12) Обяснете каква е функцията на MapReduce partitioner?
Функцията на MapReduce partitioner е да гарантира, че цялата стойност на един ключ отива към един и същ редуктор, което в крайна сметка спомага за равномерното разпределение на изхода на картата върху редукторите
13) Обяснете каква е разликата между Input Split и HDFS Block?
Логическото разделяне на данни е известно като Split, докато физическото разделяне на данни е известно като HDFS Block
14) Обяснете какво се случва в текстов формат?
Във формат за въвеждане на текст всеки ред в текстовия файл е запис. Стойността е съдържанието на реда, докато Key е отместването в байта на реда. Например Ключ: longWritable, Стойност: текст
15) Споменете кои са основните конфигурационни параметри, които потребителят трябва да посочи, за да изпълни MapReduce Job?
Потребителят на рамката MapReduce трябва да посочи
- Входните местоположения на заданието в разпределената файлова система
- Изходното местоположение на заданието в разпределената файлова система
- Формат на въвеждане
- Изходен формат
- Клас, съдържащ функцията map
- Клас, съдържащ функцията за намаляване
- JAR файл, съдържащ класовете за картографиране, редуктор и драйвер
16) Обяснете какво е WebDAV в Hadoop?
За поддръжка на редактиране и актуализиране на файлове WebDAV е набор от разширения към HTTP. В повечето операционни системи WebDAV споделянията могат да бъдат монтирани като файлови системи, така че е възможно да получите достъп до HDFS като стандартна файлова система чрез излагане на HDFS през WebDAV.
17) Обяснете какво е Sqoop в Hadoop?
За прехвърляне на данни между Управление на релационни бази данни (RDBMS) намлява Hadoop HDFS използва се инструмент, известен като Sqoop. С помощта на Sqoop данните могат да се прехвърлят от RDMS като MySQL or Oracle в HDFS, както и експортиране на данни от HDFS файл към RDBMS
18) Обяснете как JobTracker планира задача?
Програмата за проследяване на задачи изпраща сърдечни съобщения до Jobtracker обикновено на всеки няколко минути, за да се увери, че JobTracker е активен и функционира. Съобщението също така информира JobTracker за броя на наличните слотове, така че JobTracker може да бъде в крак с това къде може да бъде делегирана работата на клъстера
19) Обяснете какво е Sequencefileinputformat?
Sequencefileinputformat се използва за четене на файлове в последователност. Това е специфичен компресиран двоичен файлов формат, който е оптимизиран за предаване на данни между изхода на едно задание на MapReduce към входа на друго задание на MapReduce.
20) Обяснете какво прави класът conf.setMapper?
Conf.setMapperclass задава класа на картографа и всички неща, свързани с заданието за картографиране, като четене на данни и генериране на двойка ключ-стойност от картографа
21) Обяснете какво е Hadoop?
Това е софтуерна рамка с отворен код за съхраняване на данни и стартиране на приложения на клъстери от стоков хардуер. Той осигурява огромна мощност на обработка и масивно съхранение за всякакъв тип данни.
22) Споменете каква е разликата между RDBMS и Hadoop?
RDBMS | Hadoop |
---|---|
RDBMS е система за управление на релационни бази данни | Hadoop е плоска структура, базирана на възли |
Използва се за OLTP обработка, докато Hadoop | В момента се използва за аналитична обработка и обработка на ГОЛЕМИ ДАННИ |
В RDBMS клъстерът на базата данни използва същите файлове с данни, съхранявани в споделено хранилище | В Hadoop данните за съхранение могат да се съхраняват независимо във всеки обработващ възел. |
Трябва да обработите предварително данните, преди да ги съхраните | не е необходимо да обработвате предварително данни, преди да ги съхраните |
23) Споменете основните компоненти на Hadoop?
Основните компоненти на Hadoop включват,
- HDFS
- MapReduce
24) Какво е NameNode в Hadoop?
NameNode в Hadoop е мястото, където Hadoop съхранява цялата информация за местоположението на файла в HDFS. Това е главният възел, на който работи инструментът за проследяване на задачи и се състои от метаданни.
25) Споменете какви са компонентите на данните, използвани от Hadoop?
Компонентите за данни, използвани от Hadoop, са
26) Споменете какъв е компонентът за съхранение на данни, използван от Hadoop?
Компонентът за съхранение на данни, използван от Hadoop, е HBase.
27) Споменете кои са най-често срещаните входни формати, дефинирани в Hadoop?
Най-често срещаните входни формати, дефинирани в Hadoop, са;
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) В Hadoop какво е InputSplit?
Той разделя входните файлове на части и присвоява всяко разделяне на картограф за обработка.
29) За работа в Hadoop, как ще напишете персонализиран разделител?
Пишете персонализиран дял за задача на Hadoop, следвате следния път
- Създайте нов клас, който разширява класа на Partitioner
- Замени метода getPartition
- В обвивката, която изпълнява MapReduce
- Добавете персонализираното устройство за разделяне към заданието, като използвате метод set Partitioner Class или – добавете персонализираното устройство за разделяне към заданието като конфигурационен файл
30) За работа в Hadoop, възможно ли е да промените броя на картографите, които да бъдат създадени?
Не, не е възможно да промените броя на картографите, които да бъдат създадени. Броят на съпоставителите се определя от броя на разделянията на входа.
31) Обяснете какво е последователен файл в Hadoop?
За съхраняване на двоични двойки ключ/стойност се използва файл с последователност. За разлика от обикновения компресиран файл, последователният файл поддържа разделяне дори когато данните във файла са компресирани.
32) Когато Namenode не работи, какво се случва с инструмента за проследяване на задания?
Namenode е единствената точка на повреда в HDFS, така че когато Namenode не работи, вашият клъстер ще започне.
33) Обяснете как се извършва индексирането в HDFS?
Hadoop има уникален начин за индексиране. След като данните бъдат съхранени според размера на блока, HDFS ще продължи да съхранява последната част от данните, която казва къде ще бъде следващата част от данните.
34) Обяснете възможно ли е търсене на файлове с помощта на заместващи знаци?
Да, възможно е да търсите файлове с помощта на заместващи знаци.
35) Избройте трите конфигурационни файла на Hadoop?
Трите конфигурационни файла са
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Обяснете как можете да проверите дали Namenode работи освен с помощта на командата jps?
Освен да използвате командата jps, за да проверите дали Namenode работи, можете също да използвате
/etc/init.d/hadoop-0.20-namenode състояние.
37) Обяснете какво е „map“ и какво е „reducer“ в Hadoop?
В Hadoop картата е фаза в решаването на HDFS заявка. Картата чете данни от входно местоположение и извежда двойка ключ стойност според типа вход.
В Hadoop редукторът събира изхода, генериран от картографа, обработва го и създава свой собствен краен изход.
38) В Hadoop кой файл контролира отчитането в Hadoop?
В Hadoop файлът hadoop-metrics.properties контролира отчитането.
39) За използване на Hadoop избройте мрежовите изисквания?
За използване на Hadoop списъкът с мрежови изисквания е:
- SSH връзка без парола
- Secure Shell (SSH) за стартиране на сървърни процеси
40) Споменете какво е информираност за багажника?
Познаването на стелажа е начинът, по който namenode определя как да се поставят блокове въз основа на дефинициите на стелажа.
41) Обяснете какво е Task Tracker в Hadoop?
Task Tracker в Hadoop е демон на подчинен възел в клъстера, който приема задачи от JobTracker. Той също така изпраща сърдечни съобщения до JobTracker на всеки няколко минути, за да потвърди, че JobTracker е все още жив.
42) Споменете какви демони работят на главен възел и подчинени възли?
- Демоните, работещи на главния възел, са „NameNode“
- Демоните, работещи на всеки Slave възел, са „Task Tracker“ и „Data“
43) Обяснете как можете да дебъгвате Hadoop код?
Популярните методи за отстраняване на грешки в Hadoop код са:
- Чрез използване на уеб интерфейс, предоставен от Hadoop framework
- Чрез използване на броячи
44) Обяснете какво представляват възли за съхранение и изчисления?
- Възелът за съхранение е машината или компютърът, където се намира вашата файлова система, за да съхранява обработваните данни
- Компютърният възел е компютърът или машината, където ще се изпълнява вашата действителна бизнес логика.
45) Споменете каква е употребата на Context Object?
Контекстният обект позволява на картографа да взаимодейства с останалата част от Hadoop
система. Той включва конфигурационни данни за заданието, както и интерфейси, които му позволяват да излъчва изход.
46) Споменете коя е следващата стъпка след Mapper или MapTask?
Следващата стъпка след Mapper или MapTask е изходът на Mapper да бъде сортиран и за изхода ще бъдат създадени дялове.
47) Споменете какъв е броят на разделителя по подразбиране в Hadoop?
В Hadoop програмата за разделяне по подразбиране е "Hash" Partitioner.
48) Обяснете каква е целта на RecordReader в Hadoop?
В Hadoop RecordReader зарежда данните от техния източник и ги преобразува в двойки (ключ, стойност), подходящи за четене от Mapper.
49) Обяснете как се разделят данните, преди да бъдат изпратени към редуктора, ако в Hadoop не е дефиниран персонализиран разделител?
Ако в Hadoop не е дефинирано персонализирано устройство за разделяне, тогава устройство за разделяне по подразбиране изчислява хеш стойност за ключа и присвоява дяла въз основа на резултата.
50) Обяснете какво се случва, когато Hadoop създаде 50 задачи за работа и една от задачите е неуспешна?
Той ще рестартира задачата отново на някой друг TaskTracker, ако задачата се провали повече от дефинирания лимит.
51) Споменете кой е най-добрият начин за копиране на файлове между HDFS клъстери?
Най-добрият начин за копиране на файлове между HDFS клъстери е чрез използване на множество възли и командата distcp, така че работното натоварване се споделя.
52) Споменете каква е разликата между HDFS и NAS?
HDFS блоковете данни се разпределят между локалните дискове на всички машини в клъстера, докато NAS данните се съхраняват на специален хардуер.
53) Споменете как Hadoop е различен от другите инструменти за обработка на данни?
В Hadoop можете да увеличите или намалите броя на картографите, без да се притеснявате за обема на данните, които трябва да бъдат обработени.
54) Споменете каква работа върши класът conf?
Job conf class отделя различни задачи, изпълнявани на един и същи клъстер. Той прави настройките на ниво работа, като например деклариране на работа в реална среда.
55) Споменете какъв е договорът за API на Hadoop MapReduce за клас ключ и стойност?
За клас ключ и стойност има два договора за API на Hadoop MapReduce
- Стойността трябва да дефинира интерфейса org.apache.hadoop.io.Writable
- Ключът трябва да дефинира интерфейса org.apache.hadoop.io.WritableComparable
56) Споменете кои са трите режима, в които може да се изпълнява Hadoop?
Трите режима, в които може да се изпълнява Hadoop, са
- Псевдо разпределен режим
- Самостоятелен (локален) режим
- Напълно разпределен режим
57) Споменете какво прави форматът за въвеждане на текст?
Форматът за въвеждане на текст ще създаде редов обект, който е шестнадесетично число. Стойността се разглежда като цял ред текст, докато ключът се счита като редов обект. Картографът ще получи стойността като параметър „text“, докато ключът ще бъде параметър „longwriteable“.
58) Споменете колко InputSplits се правят от Hadoop Framework?
Hadoop ще направи 5 разделяния
- 1 разделяне за 64K файлове
- 2 разделени за 65mb файлове
- 2 разделяния за 127mb файлове
59) Споменете какво е разпределен кеш в Hadoop?
Разпределеният кеш в Hadoop е възможност, предоставена от рамката MapReduce. По време на изпълнение на заданието се използва за кеширане на файл. Рамката копира необходимите файлове в подчинения възел преди изпълнението на която и да е задача в този възел.
60) Обяснете как Hadoop Classpath играе жизненоважна роля при спирането или стартирането на Hadoop демони?
Classpath ще се състои от списък с директории, съдържащи jar файлове за спиране или стартиране на демони.
Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)