60+ вопросов и ответов на собеседовании с Data Engineer в 2025 году

Вот вопросы и ответы на собеседовании по инженерии данных для новичков и опытных кандидатов в инженеры по обработке данных, которые смогут получить работу своей мечты.

 

Вопросы для собеседования с Data Engineer для первокурсников

1) Объясните инженерию данных.

Инженерия данных — это термин, используемый в области больших данных. Основное внимание уделяется применению сбора данных и исследований. Данные, полученные из различных источников, являются просто необработанными данными. Инженерия данных помогает преобразовать эти необработанные данные в полезную информацию.


2) Что такое моделирование данных?

Моделирование данных — это метод документирования сложного проекта программного обеспечения в виде диаграммы, которую может легко понять каждый. Это концептуальное представление объектов данных, которые связаны между различными объектами данных и правилами.

Моделирование данных


3) Перечислите различные типы схем проектирования в моделировании данных.

В моделировании данных в основном используются два типа схем: 1) схема «звезда» и 2) схема «снежинка».


4) Различают структурированные и неструктурированные данные.

Ниже приведена разница между структурированными и неструктурированными данными:

Параметр Структурированные данные Неструктурированные данные
Память СУБД Неуправляемые файловые структуры
Стандарт ADO.net, ODBC и SQL STMP, XML, CSV и SMS
Инструмент интеграции ELT (извлечение, преобразование, загрузка) Ручной ввод данных или пакетная обработка, включающая коды
масштабирование Масштабирование схемы затруднено Масштабировать очень легко.

5) Объясните все компоненты приложения Hadoop.

Ниже приведены компоненты приложения Hadoop:

Экосистема Hadoop и компоненты

  • Хадуп общий: Это общий набор утилит и библиотек, используемых Hadoop.
  • HDFS: Это приложение Hadoop связано с файловой системой, в которой хранятся данные Hadoop. Это распределенная файловая система с высокой пропускной способностью.
  • Hadoop MapReduce: В его основе лежит алгоритм обеспечения крупномасштабной обработки данных.
  • Хадуп ПРЯЖА: Он используется для управления ресурсами в кластере Hadoop. Его также можно использовать для планирования задач пользователей.

6) Что такое NameNode?

Это центральная часть HDFS. Он хранит данные HDFS и отслеживает различные файлы в кластерах. Здесь фактические данные не сохраняются. Данные хранятся в DataNodes.


7) Определите потоковую передачу Hadoop

Это утилита, которая позволяет создавать карты, сокращать задания и отправлять их в определенный кластер.


8) Какова полная форма HDFS?

HDFS означает распределенную файловую систему Hadoop.


9) Определите блок и сканер блоков в HDFS.

Блоки — это наименьшая единица файла данных. Hadoop автоматически разбивает огромные файлы на мелкие части.

Block Scanner проверяет список блоков, представленных в DataNode.


10) Какие действия происходят, когда Block Scanner обнаруживает поврежденный блок данных?

Ниже приведены шаги, которые выполняются, когда Block Scanner обнаруживает поврежденный блок данных:

1) Прежде всего, когда Block Scanner обнаруживает поврежденный блок данных, DataNode сообщает об этом NameNode.

2) NameNode запускает процесс создания новой реплики, используя реплику поврежденного блока.

3) Количество реплик правильных реплик пытается совпасть с коэффициентом репликации. Если совпадение обнаружено, поврежденный блок данных не будет удален.


11) Назовите два сообщения, которые NameNode получает от DataNode?

Есть два сообщения, которые NameNode получает от DataNode. Это 1) отчет о блокировке и 2) пульс.


12) Перечислить различные файлы конфигурации XML в Hadoop?

В Hadoop имеется пять файлов конфигурации XML:

  • Mapred-сайт
  • Основной сайт
  • HDFS-сайт
  • Пряжа-сайт

13) Каковы четыре V больших данных?

Четыре V больших данных:

  • Скорость
  • разнообразие
  • Объём
  • правдивость

14) Объясните особенности Hadoop

Важными особенностями Hadoop являются:

  • Это фреймворк с открытым исходным кодом, который доступен бесплатно.
  • Hadoop совместим со многими типами оборудования и обеспечивает легкий доступ к новому оборудованию внутри определенного узла.
  • Hadoop поддерживает более быструю распределенную обработку данных.
  • Он хранит данные в кластере, который не зависит от остальных операций.
  • Hadoop позволяет создавать по 3 реплики для каждого блока с разными узлами.

15) Объясните основные методы Редюсера.

  • setup(): используется для настройки таких параметров, как размер входных данных и распределенный кеш.
  • Cleanup(): этот метод используется для очистки временных файлов.
  • сокращение(): это сердце редуктора, которое вызывается один раз для каждого ключа с соответствующей уменьшенной задачей.

16) Как обозначается COSHH?

Аббревиатура COSHH — это расписание, основанное на классификации и оптимизации для гетерогенных систем Hadoop.


17) Объясните звездную схему

Схема звезды или Схема соединения звездой — это самый простой тип схемы хранилища данных. Она известна как звездная схема, потому что ее структура подобна звезде. В схеме «звезда» центр звезды может иметь одну таблицу фактов и несколько связанных таблиц измерений. Эта схема используется для запроса больших наборов данных.


18) Как развернуть решение для больших данных?

Выполните следующие шаги, чтобы развернуть решение для больших данных.

1) Интегрируйте данные, используя такие источники данных, как СУБД, SAP, MySQL, Salesforce
2) Храните извлеченные данные либо в базе данных NoSQL, либо в HDFS.
3) Разверните решение для больших данных, используя такие платформы обработки, как Pig, Sparkи MapReduce.


19) Объясните ФСКК

Проверка файловой системы или FSCK — это команда, используемая HDFS. Команда FSCK используется для проверки несоответствий и проблем в файле.


20) Объясните схему снежинки

A Схема снежинки является расширением звездообразной схемы и добавляет дополнительные измерения. Его называют снежинкой, потому что его диаграмма похожа на снежинку. Таблицы измерений нормализованы, что позволяет разбить данные на дополнительные таблицы.


21) Различайте схему звезды и снежинки.

Звезда Схема снежинки
Иерархии измерений хранятся в таблице измерений. Каждая иерархия хранится в отдельных таблицах.
Вероятность избыточности данных высока Вероятность избыточности данных невелика.
Он имеет очень простой дизайн БД. Имеет сложную конструкцию БД.
Обеспечить более быстрый способ обработки куба. Обработка куба происходит медленно из-за сложного соединения.

22) Объясните распределенную файловую систему Hadoop.

Hadoop работает с масштабируемыми распределенными файловыми системами, такими как S3, HFTP FS, FS и HDFS. Распределенная файловая система Hadoop создана на основе файловой системы Google. Эта файловая система спроектирована таким образом, что ее можно легко запускать в большом кластере компьютерной системы.


23) Объясните основные обязанности дата-инженера.

У дата-инженеров много обязанностей. Они управляют исходной системой данных. Инженеры по обработке данных упрощают сложную структуру данных и предотвращают дублирование данных. Часто они также обеспечивают ELT и преобразование данных.


24) Какова полная форма YARN?

Полная форма YARN — «Еще один переговорщик по ресурсам».


25) Перечислите различные режимы в Hadoop

Режимы в Hadoop: 1) Автономный режим 2) Псевдораспределенный режим 3) Полностью распределенный режим.


26) Как добиться безопасности в Hadoop?

Для обеспечения безопасности в Hadoop выполните следующие действия:

1) Первым шагом является защита канала аутентификации клиента на сервере. Предоставьте клиенту отметку времени.
2) На втором этапе клиент использует полученную метку времени для запроса у TGS билета на обслуживание.
3) На последнем этапе клиент использует служебный билет для самостоятельной аутентификации на конкретном сервере.


27) Что такое Heartbeat в Hadoop?

В Hadoop NameNode и DataNode взаимодействуют друг с другом. Heartbeat — это сигнал, который DataNode регулярно отправляет в NameNode, чтобы показать свое присутствие.


28) Различайте NAS и DAS в Hadoop.

NAS DAS
Емкость хранилища 109 1012 в байте. Емкость хранилища 109 в байте.
Стоимость управления за ГБ умеренная. Стоимость управления за ГБ высока.
Передавайте данные с помощью Ethernet или TCP/IP. Передача данных с использованием IDE/SCSI

29) Перечислите важные поля или языки, используемые инженером данных.

Вот несколько полей или языков, используемых инженерами данных:

  • Вероятность и линейная алгебра
  • Машинное обучение
  • Анализ тенденций и регрессия
  • Базы данных Hive QL и SQL

30) Что такое большие данные?

Это большой объем структурированных и неструктурированных данных, которые невозможно легко обработать традиционными методами хранения данных. Инженеры по обработке данных используют Hadoop для управления большими данными.


Вопросы на собеседовании с Data Engineer для опытных

31) Что такое планирование ФИФО?

Это алгоритм планирования заданий Hadoop. При таком планировании FIFO отправитель отчетов выбирает задания из рабочей очереди, начиная с самого старого задания.


32) Укажите номера портов по умолчанию, на которых в Hadoop запускаются средства отслеживания задач, NameNode и средства отслеживания заданий.

Номера портов по умолчанию, на которых в Hadoop запускаются средство отслеживания задач, NameNode и средство отслеживания заданий, следующие:

  • Трекер задач работает на порту 50060.
  • NameNode работает на порту 50070.
  • Job Tracker работает на порту 50030.

33) Как отключить сканер блоков на узле данных HDFS

Чтобы отключить сканер блоков на узле данных HDFS, установите для dfs.datanode.scan. period.hours значение 0.


34) Как определить расстояние между двумя узлами в Hadoop?

Расстояние равно сумме расстояний до ближайших узлов. Метод getDistance() используется для расчета расстояния между двумя узлами.


35) Зачем использовать стандартное оборудование в Hadoop?

Товарное оборудование легко приобрести и оно доступно по цене. Это система, совместимая с Windows, MS-DOS или Linux.


36) Определить коэффициент репликации в HDFS.

Коэффициент репликации — общее количество реплик файла в системе.


37) Какие данные хранятся в NameNode?

Namenode хранит метаданные для HDFS, такие как информация о блоках и информация о пространстве имен.


38) Что вы подразумеваете под Rack Awareness?

В кластере Haddop Namenode использует Datanode для улучшения сетевого трафика при чтении или записи любого файла, который находится ближе к соседней стойке, для запроса на чтение или запись. Namenode хранит идентификатор стойки каждого DataNode для получения информации о стойке. Эта концепция называется Rack Awareness в Hadoop.


39) Каковы функции Secondary NameNode?

Ниже приведены функции Secondary NameNode:

  • FsImage, в котором хранится копия файла EditLog и FsImage.
  • Сбой NameNode: если NameNode выйдет из строя, то FsImage вторичного NameNode можно использовать для воссоздания NameNode.
  • Контрольная точка: используется Secondary NameNode для подтверждения того, что данные в HDFS не повреждены.
  • Обновление: автоматически обновляет файлы EditLog и FsImage. Это помогает обновлять файл FsImage во вторичном NameNode.

40) Что происходит, когда NameNode не работает и пользователь отправляет новое задание?

NameNode — это единственная точка отказа в Hadoop, поэтому пользователь не может отправить новое задание и не может его выполнить. Если NameNode не работает, задание может завершиться неудачей, поскольку пользователю необходимо дождаться перезапуска NameNode, прежде чем запускать какое-либо задание.


41) Каковы основные этапы работы редуктора в Hadoop?

В Hadoop есть три основных этапа работы редюсера:

1. Перемешать: здесь Редюсер копирует выходные данные Mapper.

2. Сортировка. При сортировке Hadoop сортирует входные данные в Редуктор, используя тот же ключ.

3. Сокращение. На этом этапе выходные значения, связанные с ключом, уменьшаются для консолидации данных в окончательный результат.


42) Почему Hadoop использует объект Context?

Платформа Hadoop использует объект Context с классом Mapper для взаимодействия с остальной системой. Объект контекста получает сведения о конфигурации системы и задание в своем конструкторе.

Мы используем объект Context для передачи информации в методы setup(), cleanup() и map(). Этот объект делает важную информацию доступной во время операций с картой.


43) Определить объединитель в Hadoop

Это необязательный шаг между Map и уменьшить. Объединитель получает выходные данные функции Map, создает пары ключ-значение и отправляет их в Hadoop Редуктор. Задача Комбайнера — свести конечный результат из Map в сводные записи с одинаковым ключом.


44) Какой коэффициент репликации по умолчанию доступен в HDFS. Что он означает?

Коэффициент репликации по умолчанию, доступный в HDFS, равен трем. Коэффициент репликации по умолчанию указывает, что будет три реплики каждого данных.


45) Что вы подразумеваете под локальностью данных в Hadoop?

В системе больших данных размер данных огромен, поэтому перемещать данные по сети не имеет смысла. Теперь Hadoop пытается приблизить вычисления к данным. Таким образом, данные остаются локальными по отношению к сохраненному местоположению.


46) Определить балансировщик в HDFS

В HDFS балансировщик — это административный инструмент, используемый администраторами для балансировки данных между узлами данных и перемещения блоков с чрезмерно используемых узлов на недостаточно используемые.


47) Объясните безопасный режим в HDFS.

Это режим NameNode только для чтения в кластере. Изначально NameNode находится в безопасном режиме. Он предотвращает запись в файловую систему в безопасном режиме. В это время он собирает данные и статистику со всех узлов данных.


48) Какова важность распределенного кэша в Apache Hadoop?

Hadoop имеет полезную функцию, называемую распределенным кэшем, которая повышает производительность заданий за счет кэширования файлов, используемых приложениями. Приложение может указать файл для кэша с помощью конфигурации JobConf.

Платформа Hadoop создает копии этих файлов на узлах, на которых должна быть выполнена задача. Это делается до начала выполнения задачи. Распределенный кэш поддерживает распространение файлов только для чтения, а также файлов zip и jar.


49) Что такое Metastore в Hive?

Он хранит схему, а также расположение таблицы Hive.

Определения таблицы Hive, сопоставления и метаданные, которые хранятся в Metastore. Это можно сохранить в СУБД, поддерживаемой JPOX.


50) Что означает SerDe в Hive?

SerDe — это короткое название сериализатора или десериализатора. В Hive SerDe позволяет считывать данные из таблицы и записывать в определенное поле в любом формате.


51) Список компонентов, доступных в модели данных Hive.

В модели данных Hive имеются следующие компоненты:

  • таблицы
  • перегородки
  • Ведра

52) Объясните использование Hive в экосистеме Hadoop.

Hive предоставляет интерфейс для управления данными, хранящимися в экосистеме Hadoop. Hive используется для сопоставления и работы с таблицами HBase. Запросы Hive преобразуются в задания MapReduce, чтобы скрыть сложности, связанные с созданием и запуском заданий MapReduce.


53) Перечислите различные сложные типы данных/коллекции, поддерживаемые Hive.

Hive поддерживает следующие сложные типы данных:

  • Карта
  • Структура
  • массив
  • Союз

54) Объясните, как используется файл .hiverc в Hive?

В Hive .hiverc — это файл инициализации. Этот файл изначально загружается при запуске интерфейса командной строки (CLI) для Hive. Мы можем установить начальные значения параметров в файле .hiverc.


55) Можно ли создать в Hive более одной таблицы для одного файла данных?

Да, мы можем создать более одной схемы таблиц для файла данных. Hive сохраняет схему в Hive Metastore. На основе этой схемы мы можем получать разные результаты из одних и тех же данных.


56) Объясните различные реализации SerDe, доступные в Hive.

В Hive доступно множество реализаций SerDe. Вы также можете написать свою собственную реализацию SerDe. Ниже приведены некоторые известные реализации SerDe:

  • OpenCSVСерде
  • RegexSerDe
  • С разделителямиJSONSerDe
  • БайтСтримТипедСерДе

57) Функции создания таблиц списка, доступные в Hive

Ниже приведен список функций создания таблиц:

  • Взорвать (массив)
  • JSON_tuple()
  • Куча()
  • Взорваться (карта)

58) Что такое перекошенная таблица в Hive?

Скошенная таблица — это таблица, которая чаще всего содержит значения столбцов. В Hive, когда мы указываем таблицу как SKEWED во время создания, искаженные значения записываются в отдельные файлы, а оставшиеся значения переносятся в другой файл.


59) Перечислите объекты, созданные оператором create в MySQL.

Объекты, созданные оператором create в MySQL заключаются в следующем:

  • База данных
  • Индекс
  • Таблица
  • Информация о пользователе
  • Процесс
  • Вызывать
  • События
  • Просмотр
  • Функция

60) Как посмотреть структуру базы данных в MySQL?

Чтобы увидеть структуру базы данных в MySQL, вы можете использовать

ОПИСАТЬ команду. Синтаксис этой команды DESCRIBE Table name;.


Вопросы на собеседовании по SQL для инженеров по данным

61) Как искать определенную строку в MySQL столбец таблицы?

Используйте оператор regex для поиска строки в MySQL столбец. Здесь мы также можем определить различные типы регулярных выражений и выполнить поиск с использованием регулярных выражений.


62) Объясните, как анализ данных и большие данные могут увеличить доход компании?

Ниже приведены способы, с помощью которых аналитика данных и большие данные могут увеличить доход компании:

  • Эффективно используйте данные, чтобы обеспечить рост бизнеса.
  • Повышайте ценность клиента.
  • Переходим к аналитике для улучшения прогнозов численности персонала.
  • Снижение себестоимости продукции организаций.

Эти вопросы для собеседования также помогут вам в устной речи.