60+ запитань і відповідей на співбесіді з інженером даних у 2025 році

Ось запитання та відповіді на співбесіді з інженером обробки даних для нових і досвідчених кандидатів у інженери даних, щоб отримати роботу своєї мрії.

 

Запитання для співбесіди з інженером даних для першокурсників

1) Поясніть інженерію даних.

Інженерія даних — це термін, який використовується у великих даних. Він зосереджений на застосуванні збору даних і досліджень. Дані, отримані з різних джерел, є просто необробленими даними. Інженерія даних допомагає перетворити ці необроблені дані на корисну інформацію.


2) Що таке моделювання даних?

Моделювання даних це метод документування складного програмного забезпечення у вигляді діаграми, щоб кожен міг легко її зрозуміти. Це концептуальне представлення об’єктів даних, пов’язаних між різними об’єктами даних і правилами.

Моделювання даних


3) Перелічіть різні типи схем проектування в моделюванні даних

У моделюванні даних існує переважно два типи схем: 1) схема зірки та 2) схема сніжинки.


4) Розрізняйте структуровані та неструктуровані дані

Нижче наведено різницю між структурованими та неструктурованими даними:

Параметр Структуровані дані Неструктуровані дані
зберігання СУБД Некеровані файлові структури
стандарт ADO.net, ODBC і SQL STMP, XML, CSV і SMS
Інструмент інтеграції ELT (вилучення, перетворення, завантаження) Ручне введення даних або пакетна обробка, що включає коди
Масштабування Масштабування схеми складне Масштабування дуже просте.

5) Поясніть усі компоненти програми Hadoop

Далі компоненти програми Hadoop:

Екосистема та компоненти Hadoop

  • Hadoop Common: Це звичайний набір утиліт і бібліотек, які використовуються Hadoop.
  • HDFS: Ця програма Hadoop стосується файлової системи, у якій зберігаються дані Hadoop. Це розподілена файлова система з високою пропускною здатністю.
  • Hadoop MapReduce: Базується на алгоритмі забезпечення великомасштабної обробки даних.
  • Пряжа Hadoop: Він використовується для управління ресурсами в кластері Hadoop. Його також можна використовувати для планування завдань для користувачів.

6) Що таке NameNode?

Це центральна частина HDFS. Він зберігає дані HDFS і відстежує різні файли в кластерах. Тут фактичні дані не зберігаються. Дані зберігаються в DataNodes.


7) Визначте потокове передавання Hadoop

Це утиліта, яка дозволяє створювати карту та зменшує кількість робочих місць і надсилає їх у певний кластер.


8) Що таке повна форма HDFS?

HDFS означає розподілену файлову систему Hadoop.


9) Визначте Block і Block Scanner у HDFS

Блоки є найменшою одиницею файлу даних. Hadoop автоматично розбиває величезні файли на маленькі частини.

Сканер блоків перевіряє список блоків, представлених у DataNode.


10) Які кроки виконуються, коли сканер блоків виявляє пошкоджений блок даних?

Нижче наведено кроки, які виконуються, коли сканер блоків знаходить пошкоджений блок даних:

1) Перш за все, коли Block Scanner виявляє пошкоджений блок даних, DataNode повідомляє NameNode

2) NameNode запускає процес створення нової репліки з використанням репліки пошкодженого блоку.

3) Кількість реплікацій правильних реплік намагається зіставити з коефіцієнтом реплікації. Якщо знайдено відповідність, пошкоджений блок даних не буде видалено.


11) Назвіть два повідомлення, які NameNode отримує від DataNode?

Існує два повідомлення, які NameNode отримує від DataNode. Це 1) звіт про блокування та 2) серцебиття.


12) Перелік різноманітних файлів конфігурації XML у Hadoop?

У Hadoop є п’ять файлів конфігурації XML:

  • Мапред-сайт
  • Ядро сайту
  • HDFS-сайт
  • Пряжа-сайт

13) Що таке чотири V великих даних?

Чотири V великих даних:

  • Швидкість
  • Різноманітність
  • Об'єм
  • Правда

14) Поясніть особливості Hadoop

Важливими функціями Hadoop є:

  • Це фреймворк із відкритим вихідним кодом, доступний безкоштовно.
  • Hadoop сумісний із багатьма типами апаратного забезпечення та має простий доступ до нового обладнання в межах певного вузла.
  • Hadoop підтримує більш швидку розподілену обробку даних.
  • Він зберігає дані в кластері, який не залежить від решти операцій.
  • Hadoop дозволяє створити 3 репліки для кожного блоку з різними вузлами.

15) Поясніть основні методи Редуктора

  • setup (): використовується для налаштування таких параметрів, як розмір вхідних даних і розподілений кеш.
  • cleanup(): Цей метод використовується для очищення тимчасових файлів.
  • reduce(): це серцевина редюсера, яка викликається один раз для кожного ключа з пов’язаним скороченим завданням

16) Що таке абревіатура COSHH?

Абревіатура COSHH — розклад на основі класифікації та оптимізації для гетерогенних систем Hadoop.


17) Поясніть зіркову схему

Схема зірок або Схема приєднання зі зіркою є найпростішим типом схеми сховища даних. Її називають зірковою схемою, оскільки її структура схожа на зірку. У схемі зірки центр зірки може мати одну таблицю фактів і кілька пов’язаних таблиць розмірів. Ця схема використовується для запитів великих наборів даних.


18) Як розгорнути рішення для великих даних?

Виконайте наведені нижче дії, щоб розгорнути рішення для великих даних.

1) Інтегруйте дані за допомогою джерел даних, таких як RDBMS, SAP, MySQL, Salesforce
2) Зберігайте витягнуті дані в базі даних NoSQL або HDFS.
3) Розгорніть рішення для великих даних за допомогою фреймворків обробки, таких як Pig, Sparkі MapReduce.


19) Поясніть FSCK

Перевірка файлової системи або FSCK — це команда, яка використовується HDFS. Команда FSCK використовується для перевірки невідповідностей і проблем у файлі.


20) Поясніть схему сніжинки

A Схема сніжинки є розширенням зіркової схеми та додає додаткові розміри. Її так називають сніжинкою, тому що її діаграма виглядає як сніжинка. Таблиці розмірності нормалізуються, що розбиває дані на додаткові таблиці.


21) Розрізняйте схеми зірки та сніжинки

Star Схема сніжинки
Ієрархії розмірів зберігаються в таблиці розмірів. Кожна ієрархія зберігається в окремих таблицях.
Імовірність надмірності даних висока Шанси на резервування даних низькі.
Він має дуже простий дизайн БД Він має складну конструкцію БД
Забезпечте швидший спосіб обробки кубів Обробка куба відбувається повільно через складне об’єднання.

22) Поясніть розподілену файлову систему Hadoop

Hadoop працює з масштабованими розподіленими файловими системами, такими як S3, HFTP FS, FS і HDFS. Розподілена файлова система Hadoop створена на основі файлової системи Google. Ця файлова система розроблена таким чином, що її можна легко запускати у великому кластері комп’ютерної системи.


23) Поясніть основні обов’язки інженера даних

Інженери з даних мають багато обов’язків. Вони керують вихідною системою даних. Інженери даних спрощують складну структуру даних і запобігають дублюванню даних. Багато разів вони також забезпечують ELT і перетворення даних.


24) Що таке повна форма ПРЯЖИ?

Повна форма YARN — це ще один переговорник ресурсів.


25) Перелічіть різні режими в Hadoop

Режими в Hadoop: 1) Автономний режим 2) Псевдорозподілений режим 3) Повністю розподілений режим.


26) Як досягти безпеки в Hadoop?

Щоб забезпечити безпеку в Hadoop, виконайте такі дії:

1) Першим кроком є ​​захист каналу автентифікації клієнта на сервері. Надайте клієнту позначку часу.
2) На другому кроці клієнт використовує отриману мітку часу для запиту TGS на сервісний квиток.
3) На останньому кроці клієнт використовує сервісний квиток для самоавтентифікації на певному сервері.


27) Що таке Heartbeat у Hadoop?

У Hadoop NameNode і DataNode спілкуються один з одним. Heartbeat — це сигнал, який DataNode регулярно надсилає до NameNode, щоб показати свою присутність.


28) Розрізняйте NAS і DAS у Hadoop

NAS DAS
Ємність зберігання 109 в 1012 в байтах. Ємність зберігання 109 в байтах.
Вартість управління за ГБ помірна. Вартість управління за ГБ висока.
Передача даних за допомогою Ethernet або TCP/IP. Передача даних за допомогою IDE/SCSI

29) Перелічіть важливі поля або мови, які використовує інженер даних

Ось кілька полів або мов, які використовує інженер даних:

  • Імовірність, а також лінійна алгебра
  • навчання за допомогою машини
  • Аналіз трендів і регресія
  • Бази даних Hive QL і SQL

30) Що таке великі дані?

Це велика кількість структурованих і неструктурованих даних, які неможливо легко обробити традиційними методами зберігання даних. Інженери обробки даних використовують Hadoop для керування великими даними.


Запитання для співбесіди з інженером даних для досвідчених

31) Що таке планування FIFO?

Це алгоритм планування завдань Hadoop. У цьому плануванні FIFO репортер вибирає завдання з робочої черги, першими найстаріші завдання.


32) Згадайте номери портів за замовчуванням, на яких у Hadoop запускаються засіб відстеження завдань, NameNode і відстеження завдань

Номери портів за замовчуванням, на яких у Hadoop запускаються засіб відстеження завдань, NameNode і засіб відстеження завдань:

  • Відстеження завдань працює на порту 50060
  • NameNode працює на порту 50070
  • Job Tracker працює на порту 50030

33) Як вимкнути сканер блоків на вузлі даних HDFS

Щоб вимкнути сканер блоків на вузлі даних HDFS, встановіть для dfs.datanode.scan.period.hours значення 0.


34) Як визначити відстань між двома вузлами в Hadoop?

Відстань дорівнює сумі відстаней до найближчих вузлів. Метод getDistance() використовується для обчислення відстані між двома вузлами.


35) Навіщо використовувати звичайне обладнання в Hadoop?

Товарна фурнітура легко доступна і доступна. Це система, яка сумісна з Windows, MS-DOS або Linux.


36) Визначте коефіцієнт реплікації в HDFS

Коефіцієнт реплікації - це загальна кількість копій файлу в системі.


37) Які дані зберігаються в NameNode?

Namenode зберігає метадані для HDFS, наприклад інформацію про блоки та інформацію про простір імен.


38) Що ви маєте на увазі під Rack Awareness?

У кластері Haddop Namenode використовує Datanode для покращення мережевого трафіку під час читання або запису будь-якого файлу, який знаходиться ближче до сусідньої стійки для запиту на читання або запис. Namenode підтримує ідентифікатор стелажа кожного DataNode для отримання інформації про стек. Ця концепція називається Rack Awareness у Hadoop.


39) Які функції має Secondary NameNode?

Нижче наведено функції Secondary NameNode:

  • FsImage, який зберігає копію EditLog і файл FsImage.
  • Збій NameNode: якщо NameNode аварійно завершує роботу, FsImage вторинного NameNode можна використовувати для повторного створення NameNode.
  • Контрольна точка: використовується Secondary NameNode для підтвердження того, що дані в HDFS не пошкоджені.
  • Оновлення: автоматично оновлює файл EditLog і FsImage. Це допомагає оновлювати файл FsImage на Secondary NameNode.

40) Що відбувається, коли NameNode не працює, а користувач надсилає нове завдання?

NameNode є єдиною точкою відмови в Hadoop, тому користувач не може надіслати нове завдання, яке неможливо виконати. Якщо NameNode не працює, завдання може завершитися невдачею, тому що користувачеві потрібно дочекатися перезапуску NameNode перед виконанням будь-якого завдання.


41) Які основні етапи редюсера в Hadoop?

Існує три основні фази редуктора в Hadoop:

1. Shuffle: Тут Reducer копіює вихідні дані з Mapper.

2. Сортування: під час сортування Hadoop сортує вхідні дані в Reducer за допомогою того самого ключа.

3. Зменшити: на цьому етапі вихідні значення, пов’язані з ключем, зменшуються, щоб консолідувати дані в кінцевий вихід.


42) Чому Hadoop використовує об’єкт Context?

Фреймворк Hadoop використовує об’єкт Context із класом Mapper для взаємодії з іншою системою. Контекстний об’єкт отримує інформацію про конфігурацію системи та завдання у своєму конструкторі.

Ми використовуємо об’єкт Context для передачі інформації в методи setup(), cleanup() і map(). Цей об’єкт робить життєво важливу інформацію доступною під час роботи з картою.


43) Визначте Combiner у Hadoop

Це необов’язковий крок між Map і Reduce. Combiner отримує вихідні дані функції Map, створює пари ключів і значень і надсилає їх до Hadoop Reducer. Завдання комбінатора полягає в тому, щоб узагальнити кінцевий результат з карти в підсумкові записи з ідентичним ключем.


44) Який коефіцієнт реплікації за замовчуванням доступний у HDFS. Що це означає?

Стандартний коефіцієнт реплікації, доступний у HDFS, становить три. Коефіцієнт реплікації за замовчуванням вказує, що буде три репліки кожного з даних.


45) Що ви маєте на увазі під Локальністю даних у Hadoop?

У системі Big Data розмір даних величезний, і тому немає сенсу переміщувати дані по мережі. Тепер Hadoop намагається наблизити обчислення до даних. Таким чином, дані залишаються локальними для збереженого місця.


46) Визначте балансир у HDFS

У HDFS балансир — це адміністратор, який використовується персоналом адміністратора для відновлення балансу даних між DataNodes і переміщення блоків із надмірно використовуваних вузлів до недостатньо використовуваних вузлів.


47) Поясніть безпечний режим у HDFS

Це режим лише для читання для NameNode у кластері. Спочатку NameNode знаходиться в безпечному режимі. Це запобігає запису у файлову систему в безпечному режимі. У цей час він збирає дані та статистику з усіх DataNodes.


48) Яке значення розподіленого кешу в Apache Hadoop?

У Hadoop є корисна службова функція, так званий розподілений кеш, який покращує продуктивність завдань шляхом кешування файлів, які використовуються програмами. Програма може вказати файл для кешу за допомогою конфігурації JobConf.

Фреймворк Hadoop створює репліки цих файлів для вузлів, які мають виконуватися завдання. Це робиться перед початком виконання завдання. Розподілений кеш підтримує розповсюдження файлів лише для читання, а також файлів zip і jar.


49) Що таке Metastore у Hive?

Він зберігає схему, а також розташування таблиці Hive.

Таблиця Hive визначає, зіставляє та метадані, які зберігаються в Metastore. Це можна зберегти в RDBMS, що підтримується JPOX.


50) Що означає SerDe у Hive?

SerDe — це коротка назва для серіалізатора або десеріалізатора. У Hive SerDe дозволяє зчитувати дані з таблиці та записувати в певне поле в будь-якому потрібному форматі.


51) Список компонентів, доступних у моделі даних Hive

У моделі даних Hive є такі компоненти:

  • таблиці
  • перегородки
  • Відра

52) Поясніть використання Hive в екосистемі Hadoop.

Hive надає інтерфейс для керування даними, що зберігаються в екосистемі Hadoop. Hive використовується для відображення та роботи з таблицями HBase. Запити Hive перетворюються на завдання MapReduce, щоб приховати складність, пов’язану зі створенням і запуском завдань MapReduce.


53) Список різноманітних складних типів/колекції даних, які підтримує Hive

Hive підтримує такі складні типи даних:

  • карта
  • Структуру
  • масив
  • Union

54) Поясніть, як використовується файл .hiverc у Hive?

У Hive файлом ініціалізації є .hiverc. Цей файл спочатку завантажується, коли ми запускаємо інтерфейс командного рядка (CLI) для Hive. Ми можемо встановити початкові значення параметрів у файлі .hiverc.


55) Чи можна створити більше ніж одну таблицю в Hive для одного файлу даних?

Так, ми можемо створити більше однієї схеми таблиці для файлу даних. Hive зберігає схему в Hive Metastore. На основі цієї схеми ми можемо отримати різні результати з однакових Даних.


56) Поясніть різні реалізації SerDe, доступні в Hive

У Hive доступно багато реалізацій SerDe. Ви також можете написати власну реалізацію SerDe. Нижче наведено деякі відомі реалізації SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • РозмежованийJSONSerDe
  • ByteStreamTypedSerDe

57) Список функцій створення таблиць, доступних у Hive

Нижче наведено список функцій створення таблиці:

  • Рознести (масив)
  • JSON_tuple()
  • стек()
  • Рознести (карта)

58) Що таке перекошена таблиця в Hive?

Перекошена таблиця – це таблиця, яка частіше містить значення стовпців. У Hive, коли ми вказуємо таблицю як SKEWED під час створення, перекошені значення записуються в окремі файли, а решта значень передається в інший файл.


59) Перелік об’єктів, створених оператором create в MySQL.

Об’єкти, створені оператором create в MySQL полягають в наступному:

  • Database
  • індекс
  • таблиця
  • користувач
  • Процедура
  • Тригер
  • Event
  • вид
  • функція

60) Як переглянути структуру бази даних у MySQL?

Щоб побачити структуру бази даних у MySQL, Ви можете використовувати

Команда DESCRIBE. Синтаксис цієї команди такий DESCRIBE Table name;.


Питання для співбесіди з SQL для інженера даних

61) Як шукати певний рядок у MySQL колонка таблиці?

Використовуйте оператор регулярного виразу для пошуку рядка в MySQL колонка. Тут ми також можемо визначити різні типи регулярних виразів і здійснювати пошук за допомогою регулярного виразу.


62) Поясніть, як аналітика даних і великі дані можуть збільшити дохід компанії?

Нижче наведено способи, як аналітика даних і великі дані можуть збільшити дохід компанії.

  • Ефективно використовуйте дані, щоб забезпечити зростання бізнесу.
  • Збільште цінність клієнта.
  • Звернення до аналітики для покращення прогнозів рівня персоналу.
  • Зниження собівартості продукції організацій.

Ці запитання для співбесіди також допоможуть вам у життєдіяльності (усному)