60+ Въпроси и отговори за интервю за инженер по данни през 2025 г

Ето въпроси и отговори за интервю за Data Engineering за по-свежи и опитни кандидати за инженери по данни, за да получат мечтаната работа.

 

Въпроси за интервю с инженер по данни за първокурсници

1) Обяснете Data Engineering.

Инженеринг на данни е термин, използван в големите данни. Той се фокусира върху прилагането на събиране на данни и изследвания. Данните, генерирани от различни източници, са само необработени данни. Инженерингът на данни помага за преобразуването на тези необработени данни в полезна информация.


2) Какво е моделиране на данни?

Моделиране на данни е методът за документиране на сложен софтуерен дизайн като диаграма, така че всеки да може лесно да го разбере. Това е концептуално представяне на обекти с данни, които са свързани между различни обекти с данни и правилата.

Моделиране на данни


3) Избройте различни типове дизайнерски схеми в моделирането на данни

Има основно два типа схеми в моделирането на данни: 1) схема на звезда и 2) схема на снежинка.


4) Правете разлика между структурирани и неструктурирани данни

Следва разликата между структурирани и неструктурирани данни:

Параметър Структурирани данни Неструктурирани данни
Съхранение СУБД Неуправляеми файлови структури
Standard ADO.net, ODBC и SQL STMP, XML, CSV и SMS
Инструмент за интегриране ELT (извличане, трансформиране, зареждане) Ръчно въвеждане на данни или групова обработка, която включва кодове
мащабиране Мащабирането на схемата е трудно Мащабирането е много лесно.

5) Обяснете всички компоненти на приложение Hadoop

Следват компоненти на приложението Hadoop:

Hadoop EcoSystem и компоненти

  • Hadoop Common: Това е общ набор от помощни програми и библиотеки, които се използват от Hadoop.
  • HDFS: Това приложение на Hadoop се отнася до файловата система, в която се съхраняват данните на Hadoop. Това е разпределена файлова система с висока честотна лента.
  • Hadoop MapReduce: Базира се на алгоритъма за осигуряване на мащабна обработка на данни.
  • Hadoop YARN: Използва се за управление на ресурсите в клъстера Hadoop. Може да се използва и за планиране на задачи за потребители.

6) Какво е NameNode?

Това е централната част на HDFS. Той съхранява данни от HDFS и проследява различни файлове в клъстерите. Тук действителните данни не се съхраняват. Данните се съхраняват в DataNodes.


7) Дефинирайте стрийминг на Hadoop

Това е помощна програма, която позволява създаването на карта и намалява работните места и ги изпраща на конкретен клъстер.


8) Каква е пълната форма на HDFS?

HDFS означава Hadoop Distributed File System.


9) Дефинирайте блок и блок скенер в HDFS

Блоковете са най-малката единица от файл с данни. Hadoop автоматично разделя огромни файлове на малки парчета.

Block Scanner проверява списъка с блокове, които са представени на DataNode.


10) Какви са стъпките, които се случват, когато Block Scanner открие повреден блок от данни?

Следват стъпките, които се случват, когато Block Scanner намери повреден блок от данни:

1) Първо, когато Block Scanner намери повреден блок от данни, DataNode докладва на NameNode

2) NameNode стартира процеса на създаване на нова реплика, използвайки реплика на повредения блок.

3) Броят на репликациите на правилните реплики се опитва да съвпадне с фактора на репликация. Ако съвпадението бъде намерено, повреденият блок от данни няма да бъде изтрит.


11) Назовете две съобщения, които NameNode получава от DataNode?

Има две съобщения, които NameNode получава от DataNode. Те са 1) Отчет за блокиране и 2) Сърдечен ритъм.


12) Избройте различни XML конфигурационни файлове в Hadoop?

В Hadoop има пет XML конфигурационни файла:

  • Мапред-сайт
  • Основен сайт
  • HDFS-сайт
  • Прежда-сайт

13) Какво представляват четирите V на големите данни?

Четири V на големите данни са:

  • Скорост
  • разнообразие
  • Размер
  • истинност

14) Обяснете характеристиките на Hadoop

Важни характеристики на Hadoop са:

  • Това е рамка с отворен код, която се предлага безплатно.
  • Hadoop е съвместим с много видове хардуер и лесен за достъп до нов хардуер в конкретен възел.
  • Hadoop поддържа по-бързо разпределена обработка на данни.
  • Той съхранява данните в клъстера, който е независим от останалите операции.
  • Hadoop позволява създаване на 3 реплики за всеки блок с различни възли.

15) Обяснете основните методи на редуктора

  • setup (): Използва се за конфигуриране на параметри като размера на входните данни и разпределения кеш.
  • cleanup(): Този метод се използва за почистване на временни файлове.
  • reduce(): Това е сърцето на редуктора, който се извиква веднъж на ключ със свързаната намалена задача

16) Каква е абревиатурата на COSHH?

Съкращението на COSHH е базиран на класификация и оптимизация график за хетерогенни Hadoop системи.


17) Обяснете звездната схема

Звездна схема или Star Join Schema е най-простият тип схема на Data Warehouse. Известна е като звездна схема, защото структурата й е като звезда. В схемата Star центърът на звездата може да има една таблица с факти и множество свързани таблици с измерения. Тази схема се използва за заявки за големи набори от данни.


18) Как да разположим решение за големи данни?

Следвайте следните стъпки, за да внедрите решение за големи данни.

1) Интегрирайте данни, като използвате източници на данни като RDBMS, SAP, MySQL, Salesforce
2) Съхранявайте извлечените данни в NoSQL база данни или HDFS.
3) Внедрете решение за големи данни, като използвате рамки за обработка като Pig, Sparkи MapReduce.


19) Обяснете FSCK

Проверка на файловата система или FSCK е команда, използвана от HDFS. Командата FSCK се използва за проверка на несъответствия и проблем във файла.


20) Обяснете схемата на снежинка

A Схема на снежинка е разширение на звездна схема и добавя допълнителни измерения. Нарича се така като снежинка, защото диаграмата му прилича на снежинка. Таблиците с измерения са нормализирани, което разделя данните в допълнителни таблици.


21) Правете разлика между схемата на звезда и снежинка

Звезда Схема на снежинка
Йерархиите на размерите се съхраняват в таблица с размери. Всяка йерархия се съхранява в отделни таблици.
Шансовете за излишък на данни са високи Шансовете за излишък на данни са ниски.
Има много прост дизайн на DB Има сложен дизайн на DB
Осигурете по-бърз начин за обработка на куб Обработката на куб е бавна поради сложното свързване.

22) Обяснете разпределената файлова система Hadoop

Hadoop работи с мащабируеми разпределени файлови системи като S3, HFTP FS, FS и HDFS. Разпределената файлова система Hadoop е направена на файловата система на Google. Тази файлова система е проектирана така, че да може лесно да работи на голям клъстер от компютърната система.


23) Обяснете основните отговорности на инженера по данни

Инженерите по данни имат много отговорности. Те управляват системата източник на данни. Инженерите по данни опростяват сложната структура на данните и предотвратяват дублирането на данни. Много пъти те също така предоставят ELT и трансформация на данни.


24) Каква е пълната форма на ПРЕЖДА?

Пълната форма на YARN е още един преговарящ за ресурси.


25) Избройте различни режими в Hadoop

Режимите в Hadoop са 1) Самостоятелен режим 2) Псевдо разпределен режим 3) Напълно разпределен режим.


26) Как да постигнем сигурност в Hadoop?

Изпълнете следните стъпки, за да постигнете сигурност в Hadoop:

1) Първата стъпка е да защитите канала за удостоверяване на клиента към сървъра. Предоставете на клиента клеймо за време.
2) Във втората стъпка клиентът използва полученото времево клеймо, за да поиска TGS за билет за услуга.
3) В последната стъпка клиентът използва билет за услуга за самоудостоверяване към конкретен сървър.


27) Какво е Heartbeat в Hadoop?

В Hadoop NameNode и DataNode комуникират помежду си. Heartbeat е сигналът, изпращан редовно от DataNode до NameNode, за да покаже присъствието си.


28) Правете разлика между NAS и DAS в Hadoop

NAS DAS
Капацитетът за съхранение е 109 да 1012 в байт. Капацитетът за съхранение е 109 в байт.
Разходите за управление на GB са умерени. Разходите за управление на GB са високи.
Предавайте данни чрез Ethernet или TCP/IP. Предавайте данни чрез IDE/SCSI

29) Избройте важни полета или езици, използвани от инженера по данни

Ето няколко полета или езици, използвани от инженера по данни:

  • Вероятност, както и линейна алгебра
  • машина обучение
  • Анализ на тенденциите и регресия
  • Hive QL и SQL бази данни

30) Какво е Big Data?

Това е голямо количество структурирани и неструктурирани данни, които не могат лесно да бъдат обработени с традиционните методи за съхранение на данни. Инженерите по данни използват Hadoop за управление на големи данни.


Въпроси за интервю за инженер по данни за опитни

31) Какво е FIFO планиране?

Това е алгоритъм за планиране на работа на Hadoop. В това FIFO планиране репортерът избира задания от работна опашка, първо най-старото задание.


32) Споменете номерата на портовете по подразбиране, на които инструментът за проследяване на задачи, NameNode и инструментът за проследяване на задачи се изпълняват в Hadoop

Номерата на портове по подразбиране, на които се изпълнява инструментът за проследяване на задачи, NameNode и инструментът за проследяване на задания в Hadoop, са както следва:

  • Проследяването на задачи работи на 50060 порт
  • NameNode работи на 50070 порт
  • Job Tracker работи на 50030 порт

33) Как да деактивирате Block Scanner на HDFS Data Node

За да деактивирате Block Scanner на HDFS Data Node, задайте dfs.datanode.scan.period.hours на 0.


34) Как да дефинирам разстоянието между два възела в Hadoop?

Разстоянието е равно на сумата от разстоянието до най-близките възли. Методът getDistance() се използва за изчисляване на разстоянието между два възела.


35) Защо да използвате стандартен хардуер в Hadoop?

Стандартният хардуер е лесен за получаване и достъпен. Това е система, която е съвместима с Windows, MS-DOS или Linux.


36) Дефинирайте коефициента на репликация в HDFS

Факторът на репликация е общият брой копия на файл в системата.


37) Какви данни се съхраняват в NameNode?

Namenode съхранява метаданните за HDFS като информация за блокове и информация за пространство на имена.


38) Какво имате предвид под Rack Awareness?

В клъстера Haddop Namenode използва Datanode, за да подобри мрежовия трафик, докато чете или записва всеки файл, който е по-близо до близкия шкаф за заявка за четене или запис. Namenode поддържа идентификатора на стелажа на всеки DataNode, за да получи информация за стелажа. Тази концепция се нарича Rack Awareness в Hadoop.


39) Какви са функциите на Secondary NameNode?

Следват функциите на Secondary NameNode:

  • FsImage, който съхранява копие на EditLog и FsImage файл.
  • Срив на NameNode: Ако NameNode се срине, тогава FsImage на вторичния NameNode може да се използва за повторно създаване на NameNode.
  • Контролна точка: Използва се от Secondary NameNode, за да потвърди, че данните не са повредени в HDFS.
  • Актуализация: Автоматично актуализира файла EditLog и FsImage. Помага да поддържате актуализирания файл FsImage на Secondary NameNode.

40) Какво се случва, когато NameNode не работи и потребителят изпрати нова задача?

NameNode е единствената точка на повреда в Hadoop, така че потребителят не може да изпрати нова задача, която не може да бъде изпълнена. Ако NameNode не работи, тогава заданието може да се провали, тъй като този потребител трябва да изчака NameNode да се рестартира, преди да стартира каквото и да е задание.


41) Какви са основните фази на редуктора в Hadoop?

Има три основни фази на редуктора в Hadoop:

1. Разбъркване: Тук Reducer копира изхода от Mapper.

2. Сортиране: При сортиране Hadoop сортира входа към Reducer, като използва същия ключ.

3. Намаляване: В тази фаза изходните стойности, свързани с ключ, се редуцират, за да се консолидират данните в крайния изход.


42) Защо Hadoop използва Context обект?

Рамката на Hadoop използва Context обект с класа Mapper, за да взаимодейства с останалата система. Контекстният обект получава подробностите за системната конфигурация и заданието в своя конструктор.

Използваме обект Context, за да предадем информацията в методите setup(), cleanup() и map(). Този обект прави важна информация достъпна по време на операциите с картата.


43) Дефинирайте Combiner в Hadoop

Това е незадължителна стъпка между Map и Reduce. Combiner взема изхода от функцията Map, създава двойки ключови стойности и ги предава на Hadoop Reducer. Задачата на Combiner е да обобщи крайния резултат от Map в обобщени записи с идентичен ключ.


44) Какъв е факторът за репликация по подразбиране, наличен в HDFS Какво показва?

Коефициентът на репликация по подразбиране, наличен в HDFS, е три. Факторът на репликация по подразбиране показва, че ще има три реплики на всяка информация.


45) Какво имате предвид Локалност на данните в Hadoop?

В система с големи данни размерът на данните е огромен и затова няма смисъл да се преместват данни в мрежата. Сега Hadoop се опитва да приближи изчисленията до данните. По този начин данните остават локални спрямо съхраненото местоположение.


46) Дефиниране на балансьор в HDFS

В HDFS балансиращият е административен елемент, използван от администраторския персонал за повторно балансиране на данни в DataNodes и премества блокове от прекомерно използвани към недостатъчно използвани възли.


47) Обяснете безопасен режим в HDFS

Това е режим само за четене на NameNode в клъстер. Първоначално NameNode е в Safemode. Предотвратява запис във файлова система в Safemode. По това време той събира данни и статистики от всички DataNodes.


48) Какво е значението на разпределения кеш в Apache Hadoop?

Hadoop има полезна помощна функция, така наречената Distributed Cache, която подобрява производителността на заданията чрез кеширане на файловете, използвани от приложенията. Приложението може да посочи файл за кеша с помощта на конфигурацията на JobConf.

Рамката на Hadoop прави реплика на тези файлове към възлите, които трябва да бъдат изпълнени. Това се прави преди да започне изпълнението на задачата. Разпределеният кеш поддържа разпространението на файлове само за четене, както и zip и jar файлове.


49) Какво е Metastore в Hive?

Той съхранява схема, както и местоположението на таблицата Hive.

Таблицата Hive дефинира, съпоставя и метаданни, които се съхраняват в Metastore. Това може да се съхранява в RDBMS, поддържан от JPOX.


50) Какво означава SerDe в Hive?

SerDe е кратко име за сериализатор или десериализатор. В Hive SerDe позволява четене на данни от таблица и запис в конкретно поле във всеки формат, който желаете.


51) Избройте наличните компоненти в модела на данни Hive

Има следните компоненти в модела на данни Hive:

  • Маси
  • Дяловете
  • Кофи

52) Обяснете използването на Hive в екосистемата Hadoop.

Hive предоставя интерфейс за управление на данни, съхранявани в екосистемата Hadoop. Hive се използва за картографиране и работа с HBase таблици. Hive заявките се преобразуват в MapReduce задания, за да се скрие сложността, свързана със създаването и изпълнението на MapReduce задания.


53) Избройте различни сложни типове данни/колекция, които се поддържат от Hive

Hive поддържа следните сложни типове данни:

  • Карта
  • Структура
  • Array
  • съюз

54) Обяснете как се използва .hiverc файл в Hive?

В Hive .hiverc е файлът за инициализация. Този файл се зарежда първоначално, когато стартираме интерфейса на командния ред (CLI) за Hive. Можем да зададем началните стойности на параметрите в .hiverc файла.


55) Възможно ли е да създадете повече от една таблица в Hive за един файл с данни?

Да, можем да създадем повече от една схема на таблица за файл с данни. Hive записва схема в Hive Metastore. Въз основа на тази схема можем да извлечем различни резултати от едни и същи данни.


56) Обяснете различните реализации на SerDe, налични в Hive

В Hive има много реализации на SerDe. Можете също така да напишете своя собствена персонализирана реализация на SerDe. Следват някои известни реализации на SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Функции за генериране на списък с таблици, налични в Hive

Следва списък с функции за генериране на таблици:

  • Разгъване (масив)
  • JSON_tuple()
  • Подреждане ()
  • Експлозия (карта)

58) Какво е изкривена таблица в Hive?

Изкривена таблица е таблица, която съдържа по-често стойности на колони. В Hive, когато посочим таблица като SKEWED по време на създаването, изкривените стойности се записват в отделни файлове, а останалите стойности отиват в друг файл.


59) Избройте обекти, създадени от create statement in MySQL.

Обекти, създадени от create statement в MySQL са както следва:

  • База данни
  • индекс
  • Маса
  • Потребител
  • Процедура
  • Тригер
  • събитие
  • Гледка
  • функция

60) Как да видите структурата на базата данни в MySQL?

За да видите структурата на базата данни в MySQL, Можете да използвате

Команда DESCRIBE. Синтаксисът на тази команда е DESCRIBE Table name;.


Въпроси за интервю за SQL за инженер по данни

61) Как да търсите конкретен низ в MySQL колона на таблицата?

Използвайте оператор regex за търсене на низ в MySQL колона. Тук можем също да дефинираме различни видове регулярен израз и да търсим с помощта на регулярен израз.


62) Обяснете как анализите на данни и големите данни могат да увеличат приходите на компанията?

Следват начините, по които анализите на данни и големите данни могат да увеличат приходите на компанията:

  • Използвайте данните ефективно, за да се уверите в растежа на бизнеса.
  • Увеличаване на клиентската стойност.
  • Обръщане към анализи за подобряване на прогнозите за нивата на персонала.
  • Намаляване на производствените разходи на организациите.

Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)