60 лучших вопросов и ответов на собеседовании по Hadoop (2025 г.)

Вот вопросы и ответы на собеседовании по Hadoop MapReduce как для новичков, так и для опытных кандидатов, желающих получить работу своей мечты.

Hadoop MapReduce вопросов на собеседовании

1) Что такое сокращение карты Hadoop?

Для параллельной обработки больших наборов данных в кластере Hadoop используется платформа Hadoop MapReduce. Анализ данных использует двухэтапную карту и процесс сокращения.


2) Как работает Hadoop MapReduce?

В MapReduce на этапе карты подсчитывается количество слов в каждом документе, а на этапе сокращения агрегируются данные по документу, охватывающие всю коллекцию. На этапе сопоставления входные данные разделяются на части для анализа с помощью задач сопоставления, выполняемых параллельно в платформе Hadoop.

👉 Бесплатная загрузка PDF-файла: вопросы и ответы Hadoop и MapReduce для интервью


3) Объясните, что такое перетасовка в MapReduce?

Процесс, с помощью которого система выполняет сортировку и передает выходные данные карты в редуктор в качестве входных данных, называется перемешиванием.


4) Объясните, что такое распределенный кэш в MapReduce Framework?

Распределенный кэш — важная функция, предоставляемая платформой MapReduce. Если вы хотите поделиться некоторыми файлами со всеми узлами Hadoop Cluster, используется распределенный кэш. Файлы могут быть исполняемыми файлами jar или простым файлом свойств.

Hadoop MapReduce вопросов на собеседовании
Hadoop MapReduce вопросов на собеседовании

5) Объясните, что такое NameNode в Hadoop?

NameNode в Hadoop — это узел, где Hadoop хранит всю информацию о местоположении файлов. HDFS (распределенная файловая система Hadoop). Другими словами, NameNode является центральным элементом файловой системы HDFS. Он ведет учет всех файлов в файловой системе и отслеживает данные файлов в кластере или на нескольких машинах.


6) Объясните, что такое JobTracker в Hadoop? Какие действия выполняет Hadoop?

In Hadoop для отправки и отслеживания заданий MapReduce используется JobTracker. Трекер заданий, работающий на собственном процессе JVM

Job Tracker выполняет следующие действия в Hadoop

  • Клиентское приложение отправляет задания в систему отслеживания вакансий
  • JobTracker взаимодействует с режимом имени, чтобы определить местоположение данных.
  • Рядом с данными или при наличии свободных слотов JobTracker находит узлы TaskTracker.
  • На выбранных узлах TaskTracker он отправляет работу
  • Если задача не удается, трекер заданий уведомляет об этом и решает, что делать дальше.
  • Узлы TaskTracker контролируются JobTracker.

7) Объясните, что такое пульс в HDFS?

Heartbeat относится к сигналу, используемому между узлом данных и узлом имени, а также между средством отслеживания задач и средством отслеживания заданий. Если узел имени или средство отслеживания заданий не отвечает на сигнал, то считается, что существуют некоторые проблемы с узлом данных или задачей. трекер


8) Объясните, что такое объединители и когда их следует использовать в задании MapReduce?

Чтобы повысить эффективность Программа MapReduce, используются сумматоры. Объем данных можно уменьшить с помощью объединителей, которые необходимо передать в редукторы. Если выполняемая операция является коммутативной и ассоциативной, вы можете использовать свой код редуктора в качестве объединителя. Выполнение объединителя не гарантируется в Hadoop


9) Что происходит, когда узел данных выходит из строя?

Когда узел данных выходит из строя

  • Jobtracker и namenode обнаруживают сбой
  • На вышедшем из строя узле все задачи перепланируются
  • Namenode реплицирует данные пользователя на другой узел.

10) Объясните, что такое спекулятивное исполнение?

В Hadoop во время Speculative Execution запускается определенное количество повторяющихся задач. На другом подчиненном узле можно выполнить несколько копий одной и той же задачи карты или сокращения с помощью спекулятивного выполнения. Проще говоря, если конкретному диску требуется много времени для выполнения задачи, Hadoop создаст дубликат задачи на другом диске. Диск, который завершает задачу первым, сохраняется, а диски, которые не завершают задачу первым, уничтожаются.


11) Объясните, каковы основные параметры картографа?

Основные параметры Mapper:

  • LongWritable и текст
  • Текст и IntWritable

12) Объясните, какова функция разделителя MapReduce?

Функция разделителя MapReduce заключается в том, чтобы убедиться, что все значение одного ключа поступает в один и тот же редуктор, что в конечном итоге помогает равномерно распределить выходные данные карты по редукторам.


13) Объясните, в чем разница между входным разделением и блоком HDFS?

Логическое разделение данных называется разделением, а физическое разделение данных называется блоком HDFS.


14) Объясните, что происходит в текстовом формате?

В текстовом формате ввода каждая строка текстового файла представляет собой запись. Значение — это содержимое строки, а ключ — смещение строки в байтах. Например, ключ: longWritable, значение: текст.


15) Укажите, какие основные параметры конфигурации необходимо указать пользователю для запуска задания MapReduce?

Пользователю платформы MapReduce необходимо указать

  • Входные местоположения задания в распределенной файловой системе
  • Местоположение вывода задания в распределенной файловой системе.
  • Формат ввода
  • Выходной формат
  • Класс, содержащий функцию карты
  • Класс, содержащий функцию уменьшения
  • JAR-файл, содержащий классы преобразователя, редуктора и драйвера.

16) Объясните, что такое WebDAV в Hadoop?

Для поддержки редактирования и обновления файлов WebDAV представляет собой набор расширений HTTP. В большинстве операционных систем общие ресурсы WebDAV можно монтировать как файловые системы, поэтому можно получить доступ к HDFS как к стандартной файловой системе, предоставляя HDFS через WebDAV.


17) Объясните, что такое Sqoop в Hadoop?

Чтобы передать данные между Управление реляционными базами данных (СУБД) и Hadoop HDFS используется инструмент, известный как Sqoop. Используя Sqoop, данные можно передавать из RDMS, например MySQL or Oracle в HDFS, а также экспорт данных из файла HDFS в RDBMS.


18) Объясните, как JobTracker планирует задачу?

Трекер задач отправляет контрольные сообщения в Jobtracker обычно каждые несколько минут, чтобы убедиться, что JobTracker активен и работает. Сообщение также информирует JobTracker о количестве доступных слотов, поэтому JobTracker может быть в курсе того, куда можно делегировать работу кластера.


19) Объясните, что такое входной формат файла последовательности?

Входной формат Sequencefile используется для последовательного чтения файлов. Это особый формат сжатого двоичного файла, оптимизированный для передачи данных между выходными данными одного задания MapReduce и входными данными другого задания MapReduce.


20) Объясните, что делает класс conf.setMapper?

Conf.setMapperclass устанавливает класс картографа и все, что связано с заданием карты, например чтение данных и генерацию пары ключ-значение из картографа.

21) Объясните, что такое Hadoop?

Это программная платформа с открытым исходным кодом для хранения данных и запуска приложений на кластерах обычного оборудования. Он обеспечивает огромную вычислительную мощность и объемное хранилище для любого типа данных.


22) Назовите, в чем разница между СУБД и Hadoop?

RDBMS Hadoop
СУБД — это система управления реляционными базами данных. Hadoop — это плоская структура на основе узлов.
Он использовался для обработки OLTP, тогда как Hadoop В настоящее время он используется для аналитики и обработки БОЛЬШИХ ДАННЫХ.
В СУБД кластер базы данных использует одни и те же файлы данных, хранящиеся в общем хранилище. В Hadoop данные хранилища могут храниться независимо в каждом узле обработки.
Вам необходимо предварительно обработать данные перед их сохранением. вам не нужно предварительно обрабатывать данные перед их сохранением

23) Упомяните основные компоненты Hadoop?

Основные компоненты Hadoop включают:

  • HDFS
  • Уменьшение карты

24) Что такое NameNode в Hadoop?

NameNode в Hadoop — это место, где Hadoop хранит всю информацию о местоположении файлов в HDFS. Это главный узел, на котором работает средство отслеживания заданий, и он состоит из метаданных.


25) Укажите, какие компоненты данных используются Hadoop?

Компоненты данных, используемые Hadoop,


26) Укажите, какой компонент хранения данных используется Hadoop?

Компонентом хранения данных, используемым Hadoop, является HBase.


27) Укажите, какие форматы ввода наиболее распространены в Hadoop?

Наиболее распространенные форматы ввода, определенные в Hadoop:

  • ТекстИнпутФормат
  • КлючЗначениеИнпутФормат
  • SequenceFileInputFormat

28) Что такое InputSplit в Hadoop?

Он разбивает входные файлы на фрагменты и назначает каждое разделение преобразователю для обработки.


29) Как вы напишете собственный разделитель для задачи Hadoop?

Вы пишете собственный разделитель для задания Hadoop и следуете по следующему пути.

  • Создайте новый класс, расширяющий класс Partitioner.
  • Переопределить метод getPartition
  • В оболочке, которая запускает MapReduce
  • Добавьте пользовательский разделитель к заданию, используя набор методов Partitioner Class, или добавьте пользовательский разделитель к заданию в виде файла конфигурации.

30) Можно ли для задания в Hadoop изменить количество создаваемых картографов?

Нет, изменить количество создаваемых картографов невозможно. Количество картографов определяется количеством входных разбиений.


31) Объясните, что такое файл последовательности в Hadoop?

Для хранения пар двоичных ключей/значений используется файл последовательности. В отличие от обычного сжатого файла, файл последовательности поддерживает разделение, даже если данные внутри файла сжаты.


32) Когда Namenode не работает, что происходит с трекером вакансий?

Namenode — это единственная точка отказа в HDFS, поэтому, когда Namenode выйдет из строя, ваш кластер отключится.


33) Объясните, как происходит индексация в HDFS?

Hadoop имеет уникальный способ индексации. Как только данные будут сохранены в соответствии с размером блока, HDFS продолжит хранить последнюю часть данных, которая указывает, где будет следующая часть данных.


34) Объясните, можно ли искать файлы по подстановочным знакам?

Да, можно искать файлы, используя подстановочные знаки.


35) Перечислите три файла конфигурации Hadoop?

Три файла конфигурации:

  • ядро-site.xml
  • сопоставленный-site.xml
  • hdfs-site.xml

36) Объясните, как с помощью команды jps можно проверить, работает ли Namenode?

Помимо использования команды jps, чтобы проверить, работает ли Namenode, вы также можете использовать

Статус /etc/init.d/hadoop-0.20-namenode.


37) Объясните, что такое «карта» и что такое «редуктор» в Hadoop?

В Hadoop карта — это этап решения запросов HDFS. Карта считывает данные из входного местоположения и выводит пару ключ-значение в соответствии с типом входных данных.

В Hadoop редуктор собирает выходные данные, сгенерированные картографом, обрабатывает их и создает собственный окончательный результат.


38) Какой файл в Hadoop управляет отчетами в Hadoop?

В Hadoop файл Hadoop-metrics.properties управляет отчетами.


39) Для использования Hadoop перечислите сетевые требования?

Для использования Hadoop список сетевых требований:

  • SSH-соединение без пароля
  • Secure Shell (SSH) для запуска серверных процессов

40) Назовите, что такое осведомленность о стойках?

Осведомленность о стойке — это способ, которым namenode определяет, как размещать блоки на основе определений стойки.


41) Объясните, что такое трекер задач в Hadoop?

Трекер задач в Hadoop — это демон подчиненного узла в кластере, который принимает задачи от JobTracker. Он также каждые несколько минут отправляет контрольные сообщения в JobTracker, чтобы подтвердить, что JobTracker все еще работает.


42) Укажите, какие демоны работают на главном и подчиненных узлах?

  • Демоны, работающие на главном узле, — «NameNode».
  • На каждом подчиненном узле работают демоны «Task Tracker» и «Data».

43) Объясните, как можно отладить код Hadoop?

Популярными методами отладки кода Hadoop являются:

  • Используя веб-интерфейс, предоставляемый платформой Hadoop.
  • С помощью счетчиков

44) Объясните, что такое узлы хранения и вычисления?

  • Узел хранения — это машина или компьютер, на котором находится ваша файловая система для хранения данных обработки.
  • Вычислительный узел — это компьютер или машина, на которой будет выполняться ваша реальная бизнес-логика.

45) Укажите, для чего используется объект контекста?

Объект контекста позволяет картографу взаимодействовать с остальной частью Hadoop.

система. Он включает данные конфигурации для задания, а также интерфейсы, которые позволяют ему выдавать выходные данные.


46) Укажите, какой следующий шаг будет после Mapper или MapTask?

Следующим шагом после Mapper или MapTask является сортировка вывода Mapper и создание разделов для вывода.


47) Укажите, какое количество разделителей по умолчанию в Hadoop?

В Hadoop разделителем по умолчанию является «хеш-разделитель».


48) Объясните, какова цель RecordReader в Hadoop?

В Hadoop RecordReader загружает данные из источника и преобразует их в пары (ключ, значение), подходящие для чтения Mapper.


49) Объясните, как секционируются данные перед отправкой в ​​редуктор, если в Hadoop не определен специальный секционировщик?

Если в Hadoop не определен пользовательский разделитель, то разделитель по умолчанию вычисляет хэш-значение для ключа и назначает раздел на основе результата.


50) Объясните, что происходит, когда Hadoop порождает 50 задач для задания, и одна из задач не выполняется?

Он снова перезапустит задачу на каком-либо другом TaskTracker, если выполнение задачи превысит определенный предел.


51) Укажите, как лучше всего копировать файлы между кластерами HDFS?

Лучший способ копирования файлов между кластерами HDFS — использование нескольких узлов и команды distcp, что позволяет разделить рабочую нагрузку.


52) Укажите, в чем разница между HDFS и NAS?

Блоки данных HDFS распределяются по локальным дискам всех компьютеров в кластере, а данные NAS хранятся на выделенном оборудовании.


53) Упомяните, чем Hadoop отличается от других инструментов обработки данных?

В Hadoop вы можете увеличивать или уменьшать количество картографов, не беспокоясь об объеме обрабатываемых данных.


54) Укажите, какую работу выполняет класс conf?

Класс Job conf разделяет разные задания, выполняемые в одном кластере. Он выполняет настройки уровня задания, такие как объявление задания в реальной среде.


55) Укажите, что такое контракт API Hadoop MapReduce для класса ключей и значений?

Для класса ключа и значения существует два контракта API Hadoop MapReduce.

  • Значение должно определять интерфейс org.apache.hadoop.io.Writable.
  • Ключ должен определять интерфейс org.apache.hadoop.io.WritableComparable.

56) Назовите три режима работы Hadoop?

Три режима, в которых может работать Hadoop:

  • Псевдораспределенный режим
  • Автономный (локальный) режим
  • Полностью распределенный режим

57) Упомяните, что делает формат ввода текста?

Формат ввода текста создаст линейный объект, представляющий собой шестнадцатеричное число. Значение рассматривается как целый текст строки, а ключ — как объект строки. Сопоставитель получит значение как текстовый параметр, а ключ как параметр longwriteable.


58) Укажите, сколько входных сплитов создается Hadoop Framework?

Hadoop сделает 5 разделений

  • 1 разделение для файлов размером 64 КБ
  • 2 разделения для файлов по 65 МБ
  • 2 разделения для файлов размером 127 МБ

59) Упомяните, что такое распределенный кеш в Hadoop?

Распределенный кеш в Hadoop — это возможность, предоставляемая платформой MapReduce. Во время выполнения задания он используется для кэширования файла. Платформа копирует необходимые файлы на подчиненный узел перед выполнением любой задачи на этом узле.


60) Объясните, почему Hadoop Classpath играет жизненно важную роль в остановке или запуске демонов Hadoop?

Путь к классам будет состоять из списка каталогов, содержащих файлы jar для остановки или запуска демонов.

Эти вопросы для собеседования также помогут вам в устной речи.