60 лучших вопросов и ответов на собеседовании по Hadoop (2026 г.)
Вот вопросы и ответы на собеседовании по Hadoop MapReduce как для новичков, так и для опытных кандидатов, желающих получить работу своей мечты.
Hadoop MapReduce вопросов на собеседовании
1) Что такое сокращение карты Hadoop?
Для параллельной обработки больших наборов данных в кластере Hadoop используется платформа Hadoop MapReduce. Анализ данных использует двухэтапную карту и процесс сокращения.
2) Как работает Hadoop MapReduce?
В MapReduce на этапе карты подсчитывается количество слов в каждом документе, а на этапе сокращения агрегируются данные по документу, охватывающие всю коллекцию. На этапе сопоставления входные данные разделяются на части для анализа с помощью задач сопоставления, выполняемых параллельно в платформе Hadoop.
👉 Бесплатная загрузка PDF-файла: вопросы и ответы Hadoop и MapReduce для интервью
3) Объясните, что такое перетасовка в MapReduce?
Процесс, с помощью которого система выполняет сортировку и передает выходные данные карты в редуктор в качестве входных данных, называется перемешиванием.
4) Объясните, что такое распределенный кэш в MapReduce Framework?
Распределенный кэш — важная функция, предоставляемая платформой MapReduce. Если вы хотите поделиться некоторыми файлами со всеми узлами Hadoop Cluster, используется распределенный кэш. Файлы могут быть исполняемыми файлами jar или простым файлом свойств.

5) Объясните, что такое NameNode в Hadoop?
NameNode в Hadoop — это узел, где Hadoop хранит всю информацию о местоположении файлов. HDFS (распределенная файловая система Hadoop)Другими словами, NameNode — это центральный элемент файловой системы HDFS. Он хранит записи обо всех файлах в файловой системе и tracks данные файла по всему кластеру или нескольким машинам
6) Объясните, что такое Иов.TracЧто такое ker в Hadoop? Какие действия выполняет Hadoop?
In Hadoop для подачи и tracвакансии по MapReduce, работаTracИспользуется кер. Задание tracker запускается в собственном процессе JVM.
работа Tracker выполняет следующие действия в Hadoop.
- Клиентское приложение отправляет задания на вакансию tracкег
- работаTracKer передает данные в режим Name для определения местоположения данных.
- Работа рядом с данными или с доступными слотами.Tracкер находит задачуTracузлов кер
- По выбранной задачеTracKer Nodes отправляет работу.
- Когда задача не выполняется, работа tracКер уведомляет и принимает решение о дальнейших действиях.
- ЦелеваяTracУзлы ker отслеживаются с помощью задания.Tracкег
7) Объясните, что такое пульс в HDFS?
Сигнал "пульс" (Heartbeat) — это сигнал, используемый между узлом данных и узлом имен, а также между задачами. tracкер и работа tracker, если узел Name или задание tracЕсли ker не отвечает на сигнал, это означает, что есть проблемы с узлом данных или задачей. tracкег
8) Объясните, что такое объединители и когда их следует использовать в задании MapReduce?
Чтобы повысить эффективность Программа MapReduce, используются сумматоры. Объем данных можно уменьшить с помощью объединителей, которые необходимо передать в редукторы. Если выполняемая операция является коммутативной и ассоциативной, вы можете использовать свой код редуктора в качестве объединителя. Выполнение объединителя не гарантируется в Hadoop
9) Что происходит, когда узел данных выходит из строя?
Когда узел данных выходит из строя
- работаtracKerner и NameNode обнаруживают сбой.
- На вышедшем из строя узле все задачи перепланируются
- Namenode реплицирует данные пользователя на другой узел.
10) Объясните, что такое спекулятивное исполнение?
В Hadoop во время Speculative Execution запускается определенное количество повторяющихся задач. На другом подчиненном узле можно выполнить несколько копий одной и той же задачи карты или сокращения с помощью спекулятивного выполнения. Проще говоря, если конкретному диску требуется много времени для выполнения задачи, Hadoop создаст дубликат задачи на другом диске. Диск, который завершает задачу первым, сохраняется, а диски, которые не завершают задачу первым, уничтожаются.
11) Объясните, каковы основные параметры картографа?
Основные параметры Mapper:
- LongWritable и текст
- Текст и IntWritable
12) Объясните, какова функция разделителя MapReduce?
Функция разделителя MapReduce заключается в том, чтобы убедиться, что все значение одного ключа поступает в один и тот же редуктор, что в конечном итоге помогает равномерно распределить выходные данные карты по редукторам.
13) Объясните, в чем разница между входным разделением и блоком HDFS?
Логическое разделение данных называется разделением, а физическое разделение данных называется блоком HDFS.
14) Объясните, что происходит в текстовом формате?
В текстовом формате ввода каждая строка текстового файла представляет собой запись. Значение — это содержимое строки, а ключ — смещение строки в байтах. Например, ключ: longWritable, значение: текст.
15) Укажите, какие основные параметры конфигурации необходимо указать пользователю для запуска задания MapReduce?
Пользователю платформы MapReduce необходимо указать
- Входные местоположения задания в распределенной файловой системе
- Местоположение вывода задания в распределенной файловой системе.
- Формат ввода
- Выходной формат
- Класс, содержащий функцию карты
- Класс, содержащий функцию уменьшения
- JAR-файл, содержащий классы преобразователя, редуктора и драйвера.
16) Объясните, что такое WebDAV в Hadoop?
Для поддержки редактирования и обновления файлов WebDAV представляет собой набор расширений HTTP. В большинстве операционных систем общие ресурсы WebDAV можно монтировать как файловые системы, поэтому можно получить доступ к HDFS как к стандартной файловой системе, предоставляя HDFS через WebDAV.
17) Объясните, что такое Sqoop в Hadoop?
Чтобы передать данные между Управление реляционными базами данных (СУБД) и Hadoop HDFS используется инструмент, известный как Sqoop. Используя Sqoop, данные можно передавать из RDMS, например MySQL or Oracle в HDFS, а также экспорт данных из файла HDFS в RDBMS.
18) Объясните, как ИовTracКер планирует выполнение задачи?
Задание tracКер посылает Иову сигналы сердцебиения.tracобычно каждые несколько минут, чтобы убедиться, что работа выполняется.Tracker активен и функционирует. Сообщение также информирует Иова.Tracker о количестве доступных вакансий, поэтому работаTracKer может быть в курсе того, куда можно делегировать работу кластера.
19) Объясните, что такое входной формат файла последовательности?
Входной формат Sequencefile используется для последовательного чтения файлов. Это особый формат сжатого двоичного файла, оптимизированный для передачи данных между выходными данными одного задания MapReduce и входными данными другого задания MapReduce.
20) Объясните, что делает класс conf.setMapper?
Conf.setMapperclass устанавливает класс картографа и все, что связано с заданием карты, например чтение данных и генерацию пары ключ-значение из картографа.
21) Объясните, что такое Hadoop?
Это программная платформа с открытым исходным кодом для хранения данных и запуска приложений на кластерах обычного оборудования. Он обеспечивает огромную вычислительную мощность и объемное хранилище для любого типа данных.
22) Назовите, в чем разница между СУБД и Hadoop?
| RDBMS | Hadoop |
|---|---|
| СУБД — это система управления реляционными базами данных. | Hadoop — это плоская структура на основе узлов. |
| Он использовался для обработки OLTP, тогда как Hadoop | В настоящее время он используется для аналитики и обработки БОЛЬШИХ ДАННЫХ. |
| В СУБД кластер базы данных использует одни и те же файлы данных, хранящиеся в общем хранилище. | В Hadoop данные хранилища могут храниться независимо в каждом узле обработки. |
| Вам необходимо предварительно обработать данные перед их сохранением. | вам не нужно предварительно обрабатывать данные перед их сохранением |
23) Упомяните основные компоненты Hadoop?
Основные компоненты Hadoop включают:
- HDFS
- Уменьшение карты
24) Что такое NameNode в Hadoop?
NameNode в Hadoop — это узел, где Hadoop хранит всю информацию о местоположении файлов в HDFS. Это главный узел, на котором выполняется задание. tracker работает и состоит из метаданных.
25) Укажите, какие компоненты данных используются Hadoop?
Компоненты данных, используемые Hadoop,
26) Укажите, какой компонент хранения данных используется Hadoop?
Компонентом хранения данных, используемым Hadoop, является HBase.
27) Укажите, какие форматы ввода наиболее распространены в Hadoop?
Наиболее распространенные форматы ввода, определенные в Hadoop:
- ТекстИнпутФормат
- КлючЗначениеИнпутФормат
- SequenceFileInputFormat
28) Что такое InputSplit в Hadoop?
Он разбивает входные файлы на фрагменты и назначает каждое разделение преобразователю для обработки.
29) Как вы напишете собственный разделитель для задачи Hadoop?
Вы пишете собственный разделитель для задания Hadoop и следуете по следующему пути.
- Создайте новый класс, расширяющий класс Partitioner.
- Переопределить метод getPartition
- В оболочке, которая запускает MapReduce
- Добавьте пользовательский разделитель к заданию, используя набор методов Partitioner Class, или добавьте пользовательский разделитель к заданию в виде файла конфигурации.
30) Можно ли для задания в Hadoop изменить количество создаваемых картографов?
Нет, изменить количество создаваемых картографов невозможно. Количество картографов определяется количеством входных разбиений.
31) Объясните, что такое файл последовательности в Hadoop?
Для хранения пар двоичных ключей/значений используется файл последовательности. В отличие от обычного сжатого файла, файл последовательности поддерживает разделение, даже если данные внутри файла сжаты.
32) Что происходит с заданием, когда NameNode недоступен? tracкер?
Namenode — это единственная точка отказа в HDFS, поэтому, когда Namenode выйдет из строя, ваш кластер отключится.
33) Объясните, как происходит индексация в HDFS?
Hadoop имеет уникальный способ индексации. Как только данные будут сохранены в соответствии с размером блока, HDFS продолжит хранить последнюю часть данных, которая указывает, где будет следующая часть данных.
34) Объясните, можно ли искать файлы по подстановочным знакам?
Да, можно искать файлы, используя подстановочные знаки.
35) Перечислите три файла конфигурации Hadoop?
Три файла конфигурации:
- ядро-site.xml
- сопоставленный-site.xml
- hdfs-site.xml
36) Объясните, как с помощью команды jps можно проверить, работает ли Namenode?
Помимо использования команды jps, чтобы проверить, работает ли Namenode, вы также можете использовать
Статус /etc/init.d/hadoop-0.20-namenode.
37) Объясните, что такое «карта» и что такое «редуктор» в Hadoop?
В Hadoop карта — это этап решения запросов HDFS. Карта считывает данные из входного местоположения и выводит пару ключ-значение в соответствии с типом входных данных.
В Hadoop редуктор собирает выходные данные, сгенерированные картографом, обрабатывает их и создает собственный окончательный результат.
38) Какой файл в Hadoop управляет отчетами в Hadoop?
В Hadoop файл Hadoop-metrics.properties управляет отчетами.
39) Для использования Hadoop перечислите сетевые требования?
Для использования Hadoop список сетевых требований:
- SSH-соединение без пароля
- Secure Shell (SSH) для запуска серверных процессов
40) Назовите, что такое осведомленность о стойках?
Осведомленность о стойке — это способ, которым namenode определяет, как размещать блоки на основе определений стойки.
41) Объясните, что такое задача. Tracker в Hadoop?
Задача TracKer в Hadoop — это демон подчиненного узла в кластере, который принимает задачи от Job.Tracкер. Он также отправляет сигналы пульса Иову.Tracкаждые несколько минут подтверждать выполнение задания.TracКер всё ещё жив.
42) Укажите, какие демоны работают на главном и подчиненных узлах?
- Демоны, работающие на главном узле, — «NameNode».
- Демоны, работающие на каждом подчиненном узле, называются «Задачами». Trac«кер» и «Данные»
43) Объясните, как можно отладить код Hadoop?
Популярными методами отладки кода Hadoop являются:
- Используя веб-интерфейс, предоставляемый платформой Hadoop.
- С помощью счетчиков
44) Объясните, что такое узлы хранения и вычисления?
- Узел хранения — это машина или компьютер, на котором находится ваша файловая система для хранения данных обработки.
- Вычислительный узел — это компьютер или машина, на которой будет выполняться ваша реальная бизнес-логика.
45) Укажите, для чего используется объект контекста?
Объект контекста позволяет картографу взаимодействовать с остальной частью Hadoop.
система. Он включает данные конфигурации для задания, а также интерфейсы, которые позволяют ему выдавать выходные данные.
46) Укажите, какой следующий шаг будет после Mapper или MapTask?
Следующим шагом после Mapper или MapTask является сортировка вывода Mapper и создание разделов для вывода.
47) Укажите, какое количество разделителей по умолчанию в Hadoop?
В Hadoop разделителем по умолчанию является «хеш-разделитель».
48) Объясните, какова цель RecordReader в Hadoop?
В Hadoop RecordReader загружает данные из источника и преобразует их в пары (ключ, значение), подходящие для чтения Mapper.
49) Объясните, как секционируются данные перед отправкой в редуктор, если в Hadoop не определен специальный секционировщик?
Если в Hadoop не определен пользовательский разделитель, то разделитель по умолчанию вычисляет хэш-значение для ключа и назначает раздел на основе результата.
50) Объясните, что происходит, когда Hadoop порождает 50 задач для задания, и одна из задач не выполняется?
Это перезапустит задачу на каком-то другом задании.Tracker, если количество сбоев задачи превышает установленный лимит.
51) Укажите, как лучше всего копировать файлы между кластерами HDFS?
Лучший способ копирования файлов между кластерами HDFS — использование нескольких узлов и команды distcp, что позволяет разделить рабочую нагрузку.
52) Укажите, в чем разница между HDFS и NAS?
Блоки данных HDFS распределяются по локальным дискам всех компьютеров в кластере, а данные NAS хранятся на выделенном оборудовании.
53) Упомяните, чем Hadoop отличается от других инструментов обработки данных?
В Hadoop вы можете увеличивать или уменьшать количество картографов, не беспокоясь об объеме обрабатываемых данных.
54) Укажите, какую работу выполняет класс conf?
Класс Job conf разделяет разные задания, выполняемые в одном кластере. Он выполняет настройки уровня задания, такие как объявление задания в реальной среде.
55) Укажите, что представляют собой API Hadoop MapReduce.tract для класса «ключ-значение»?
Для классов «ключ» и «значение» существует два API Hadoop MapReduce.tract
- Значение должно определять интерфейс org.apache.hadoop.io.Writable.
- Ключ должен определять интерфейс org.apache.hadoop.io.WritableComparable.
56) Назовите три режима работы Hadoop?
Три режима, в которых может работать Hadoop:
- Псевдораспределенный режим
- Автономный (локальный) режим
- Полностью распределенный режим
57) Упомяните, что делает формат ввода текста?
Формат ввода текста создаст линейный объект, представляющий собой шестнадцатеричное число. Значение рассматривается как целый текст строки, а ключ — как объект строки. Сопоставитель получит значение как текстовый параметр, а ключ как параметр longwriteable.
58) Укажите, сколько входных сплитов создается Hadoop Framework?
Hadoop сделает 5 разделений
- 1 разделение для файлов размером 64 КБ
- 2 разделения для файлов по 65 МБ
- 2 разделения для файлов размером 127 МБ
59) Упомяните, что такое распределенный кеш в Hadoop?
Распределенный кеш в Hadoop — это возможность, предоставляемая платформой MapReduce. Во время выполнения задания он используется для кэширования файла. Платформа копирует необходимые файлы на подчиненный узел перед выполнением любой задачи на этом узле.
60) Объясните, какую важную роль играет путь к классам Hadoop в остановкеping или запуск в демонах Hadoop?
Путь к классам будет состоять из списка каталогов, содержащих файлы jar для остановки или запуска демонов.
Эти вопросы для собеседования также помогут вам в устной речи.
