Více než 60 otázek a odpovědí na pohovor s datovým inženýrem v roce 2025

Zde jsou otázky a odpovědi na pohovory s datovým inženýrstvím pro čerstvější i zkušené kandidáty na datové inženýry, aby získali svou vysněnou práci.

Otázky k pohovoru s datovým inženýrem pro osvěžovače

1) Vysvětlete datové inženýrství.

Datové inženýrství je termín používaný ve velkých datech. Zaměřuje se na aplikaci sběru dat a výzkumu. Data generovaná z různých zdrojů jsou pouze nezpracovaná data. Datové inženýrství pomáhá převádět tato nezpracovaná data na užitečné informace.

2) Co je datové modelování?

Datové modelování je metoda dokumentování komplexního softwarového návrhu jako diagramu, kterému každý snadno porozumí. Je to koncepční reprezentace datových objektů, které jsou spojeny mezi různými datovými objekty a pravidly.

Datové modelování

3) Vyjmenujte různé typy návrhových schémat v Data Modeling

V datovém modelování existují především dva typy schémat: 1) Hvězdné schéma a 2) Schéma sněhové vločky.

4) Rozlišujte mezi strukturovanými a nestrukturovanými daty

Níže je uveden rozdíl mezi strukturovanými a nestrukturovanými daty:

Parametr	Strukturovaná data	Nestrukturovaná data
Skladování	DBMS	Nespravované struktury souborů
Standard	ADO.net, ODBC a SQL	STMP, XML, CSV a SMS
Integrační nástroj	ELT (Extract, Transform, Load)	Ruční zadávání dat nebo dávkové zpracování, které zahrnuje kódy
škálování	Škálování schématu je obtížné	Škálování je velmi snadné.

5) Vysvětlete všechny součásti aplikace Hadoop

Následující jsou komponenty aplikace Hadoop:

Hadoop EcoSystem a komponenty

Hadoop běžné: Jedná se o běžnou sadu nástrojů a knihoven, které využívá Hadoop.
HDFS: Tato aplikace Hadoop se týká systému souborů, ve kterém jsou uložena data Hadoop. Jedná se o distribuovaný souborový systém s velkou šířkou pásma.
Hadoop MapReduce: Je založen na algoritmu pro poskytování rozsáhlého zpracování dat.
Hadoop příze: Používá se pro správu prostředků v rámci clusteru Hadoop. Může být také použit pro plánování úloh pro uživatele.

6) Co je NameNode?

Je středobodem HDFS. Ukládá data HDFS a sleduje různé soubory napříč clustery. Zde se skutečná data neukládají. Data jsou uložena v DataNodes.

7) Definujte streamování Hadoop

Je to utilita, která umožňuje vytvoření mapy a Redukuje úlohy a odesílá je do konkrétního clusteru.

8) Jaká je plná forma HDFS?

HDFS je zkratka pro Hadoop Distributed File System.

9) Definujte Block a Block Scanner v HDFS

Bloky jsou nejmenší jednotkou datového souboru. Hadoop automaticky rozděluje velké soubory na malé kousky.

Block Scanner ověřuje seznam bloků, které jsou prezentovány na DataNode.

10) Jaké jsou kroky, které nastanou, když Block Scanner zjistí poškozený datový blok?

Následují kroky, ke kterým dojde, když Block Scanner najde poškozený datový blok:

1) Za prvé, když Block Scanner najde poškozený datový blok, DataNode nahlásí NameNode

2) NameNode spustí proces vytváření nové repliky pomocí repliky poškozeného bloku.

3) Počet replikací správných replik se snaží odpovídat faktoru replikace. Pokud byla nalezena shoda, poškozený datový blok nebude smazán.

11) Jmenujte dvě zprávy, které NameNode dostává od DataNode?

Existují dvě zprávy, které NameNode dostává od DataNode. Jsou to 1) Zpráva o bloku a 2) Tlukot srdce.

12) Vypsat různé konfigurační soubory XML v Hadoop?

V Hadoopu je pět konfiguračních souborů XML:

Stránky Maped
Hlavní stránka
Web HDFS
Příze-site

13) Jaká jsou čtyři V velkých dat?

Čtyři V velkých dat jsou:

Rychlost
Různorodost
Objem nádrží
Pravdivost

14) Vysvětlete vlastnosti Hadoopu

Důležité vlastnosti Hadoop jsou:

Jedná se o open-source framework, který je dostupný jako freeware.
Hadoop je kompatibilní s mnoha typy hardwaru a snadný přístup k novému hardwaru v rámci konkrétního uzlu.
Hadoop podporuje rychlejší distribuované zpracování dat.
Ukládá data do clusteru, který je nezávislý na ostatních operacích.
Hadoop umožňuje vytvořit 3 repliky pro každý blok s různými uzly.

15) Vysvětlete hlavní metody Reduceru

setup (): Používá se pro konfiguraci parametrů, jako je velikost vstupních dat a distribuovaná mezipaměť.
cleanup(): Tato metoda se používá k čištění dočasných souborů.
snížit(): Je to srdce reduktoru, které je voláno jednou na klíč s přidruženou redukovanou úlohou

16) Jaká je zkratka COSHH?

Zkratka COSHH je Plán založený na klasifikaci a optimalizaci pro heterogenní hadoop systémy.

17) Vysvětlete Hvězdné schéma

Hvězdné schéma nebo Star Join Schema je nejjednodušší typ schématu Data Warehouse. To je známé jako hvězdné schéma, protože jeho struktura je jako hvězda. Ve schématu Hvězda může mít střed hvězdy jednu tabulku faktů a více přidružených tabulek dimenzí. Toto schéma se používá pro dotazování velkých souborů dat.

18) Jak nasadit řešení pro velká data?

Chcete-li nasadit řešení pro velká data, postupujte podle následujících kroků.

1) Integrujte data pomocí zdrojů dat, jako je RDBMS, SAP, MySQL, Salesforce
2) Ukládejte extrahovaná data do databáze NoSQL nebo HDFS.
3) Nasaďte řešení velkých dat pomocí zpracovatelských rámců, jako je Pig, Sparka MapReduce.

19) Vysvětlete FSCK

Kontrola systému souborů nebo FSCK je příkaz používaný HDFS. Příkaz FSCK se používá ke kontrole nekonzistencí a problémů v souboru.

20) Vysvětlete schéma sněhové vločky

A Schéma sněhové vločky je rozšíření hvězdicového schématu a přidává další dimenze. Je takzvaná jako sněhová vločka, protože její diagram vypadá jako sněhová vločka. Tabulky dimenzí jsou normalizovány, což rozděluje data do dalších tabulek.

21) Rozlišujte mezi schématem hvězdy a sněhové vločky

star	Schéma sněhových vloček
Hierarchie kót jsou uloženy v rozměrové tabulce.	Každá hierarchie je uložena do samostatných tabulek.
Pravděpodobnost redundance dat je vysoká	Pravděpodobnost redundance dat je nízká.
Má velmi jednoduchý DB design	Má komplexní DB design
Poskytněte rychlejší způsob zpracování kostek	Zpracování krychle je pomalé kvůli složitému spojení.

22) Vysvětlete distribuovaný souborový systém Hadoop

Hadoop pracuje se škálovatelnými distribuovanými systémy souborů, jako jsou S3, HFTP FS, FS a HDFS. Distribuovaný systém souborů Hadoop je vytvořen na systému souborů Google. Tento souborový systém je navržen tak, aby jej bylo možné snadno spustit na velkém clusteru počítačového systému.

23) Vysvětlete hlavní povinnosti datového inženýra

Datoví inženýři mají mnoho povinností. Spravují zdrojový systém dat. Datoví inženýři zjednodušují složitou datovou strukturu a zabraňují reduplikaci dat. Mnohokrát také poskytují ELT a transformaci dat.

24) Jaká je plná forma PŘÍZE?

Úplná forma YARN je další vyjednavač zdrojů.

25) Seznam různých režimů v Hadoop

Režimy v Hadoop jsou 1) Samostatný režim 2) Pseudo distribuovaný režim 3) Plně distribuovaný režim.

26) Jak dosáhnout bezpečnosti v Hadoopu?

Chcete-li dosáhnout zabezpečení v Hadoopu, proveďte následující kroky:

1) Prvním krokem je zabezpečení ověřovacího kanálu klienta na serveru. Poskytněte klientovi časové razítko.
2) Ve druhém kroku klient pomocí přijatého časového razítka požádá TGS o servisní tiket.
3) V posledním kroku klient použije servisní tiket pro vlastní autentizaci na konkrétní server.

27) Co je to Heartbeat v Hadoopu?

V Hadoopu spolu NameNode a DataNode komunikují. Heartbeat je signál, který pravidelně odesílá DataNode do NameNode, aby ukázal svou přítomnost.

28) Rozlišujte mezi NAS a DAS v Hadoopu

NAS	DAS
Kapacita úložiště je 10⁹na 10¹² v byte.	Kapacita úložiště je 10⁹v byte.
Náklady na správu na GB jsou mírné.	Náklady na správu na GB jsou vysoké.
Přenášejte data pomocí Ethernetu nebo TCP/IP.	Přenášejte data pomocí IDE/SCSI

29) Vyjmenujte důležitá pole nebo jazyky používané datovým inženýrem

Zde je několik polí nebo jazyků používaných datovým inženýrem:

Pravděpodobnost i lineární algebra
Strojové učení
Trendová analýza a regrese
Hive QL a SQL databáze

30) Co jsou velká data?

Jde o velké množství strukturovaných i nestrukturovaných dat, které nelze jednoduše zpracovat tradičními metodami ukládání dat. Datoví inženýři používají Hadoop ke správě velkých dat.

Otázky k pohovoru s datovým inženýrem pro zkušené

31) Co je plánování FIFO?

Je to plánovací algoritmus Hadoop Job. V tomto plánování FIFO reportér vybírá úlohy z pracovní fronty, nejstarší úloha jako první.

32) Uveďte výchozí čísla portů, na kterých běží nástroj pro sledování úloh, NameNode a nástroj pro sledování úloh v Hadoopu

Výchozí čísla portů, na kterých běží nástroj pro sledování úloh, NameNode a nástroj pro sledování úloh v Hadoop, jsou následující:

Sledování úloh běží na portu 50060
NameNode běží na portu 50070
Job Tracker běží na portu 50030

33) Jak deaktivovat Block Scanner na HDFS Data Node

Chcete-li deaktivovat Block Scanner na HDFS Data Node, nastavte dfs.datanode.scan.period.hours na 0.

34) Jak definovat vzdálenost mezi dvěma uzly v Hadoopu?

Vzdálenost je rovna součtu vzdáleností k nejbližším uzlům. K výpočtu vzdálenosti mezi dvěma uzly se používá metoda getDistance().

35) Proč používat komoditní hardware v Hadoopu?

Komoditní hardware je snadno dostupný a cenově dostupný. Je to systém, který je kompatibilní s Windows, MS-DOS nebo Linux.

36) Definujte replikační faktor v HDFS

Faktor replikace je celkový počet replik souboru v systému.

37) Jaká data jsou uložena v NameNode?

Namenode ukládá metadata pro HDFS, jako jsou informace o bloku a informace o jmenném prostoru.

38) Co myslíš tím Rack Awareness?

V clusteru Haddop používá Namenode Datanode ke zlepšení síťového provozu při čtení nebo zápisu jakéhokoli souboru, který je blíže k nedalekému racku, k požadavku čtení nebo zápisu. Namenode udržuje ID racku každého DataNode, aby získal informace o racku. Tento koncept se v Hadoopu nazývá Rack Awareness.

39) Jaké jsou funkce sekundárního NameNode?

Níže jsou uvedeny funkce sekundárního NameNode:

FsImage, který ukládá kopii souboru EditLog a FsImage.
Zhroucení NameNode: Pokud dojde k selhání NameNode, pak FsImage sekundárního NameNode lze použít k opětovnému vytvoření NameNode.
Kontrolní bod: Používá se sekundárním NameNode k potvrzení, že data nejsou poškozena v HDFS.
Aktualizace: Automaticky aktualizuje soubor EditLog a FsImage. Pomáhá udržovat soubor FsImage na sekundárním NameNode aktualizovaný.

40) Co se stane, když NameNode nefunguje a uživatel odešle novou úlohu?

NameNode je jediným bodem selhání v Hadoop, takže uživatel nemůže odeslat novou úlohu, kterou nelze provést. Pokud je NameNode mimo provoz, může se stát, že úloha selže, protože tento uživatel musí před spuštěním jakékoli úlohy počkat, až se NameNode restartuje.

41) Jaké jsou základní fáze reduktoru v Hadoopu?

V Hadoopu jsou tři základní fáze reduktoru:

1. Shuffle: Zde Reducer zkopíruje výstup z Mapperu.

2. Třídit: Při řazení Hadoop třídí vstup do Reduceru pomocí stejného klíče.

3. Redukovat: V této fázi jsou výstupní hodnoty spojené s klíčem redukovány, aby se data konsolidovala do konečného výstupu.

42) Proč Hadoop používá objekt Context?

Rámec Hadoop používá objekt Context s třídou Mapper k interakci se zbývajícím systémem. Kontextový objekt získá podrobnosti konfigurace systému a úlohy ve svém konstruktoru.

Objekt Context používáme k předání informací v metodách setup(), cleanup() a map(). Tento objekt zpřístupňuje důležité informace během mapových operací.

43) Definujte Combiner v Hadoopu

Je to volitelný krok mezi Map a Reduce. Combiner převezme výstup z funkce Map, vytvoří páry klíč-hodnota a odešle je do Hadoop Reducer. Úkolem Combineru je shrnout konečný výsledek z Map do souhrnných záznamů s identickým klíčem.

44) Jaký je výchozí faktor replikace dostupný v HDFS Co to znamená?

Výchozí faktor replikace dostupný v HDFS je tři. Výchozí faktor replikace označuje, že budou existovat tři repliky každého data.

45) Co myslíš Data Locality v Hadoopu?

V systému Big Data je velikost dat obrovská, a proto nemá smysl data přesouvat po síti. Nyní se Hadoop pokouší posunout výpočet blíže k datům. Data tak zůstanou lokální vzhledem k uloženému umístění.

46) Definujte Balancer v HDFS

V HDFS je balancer správou, kterou používají administrátoři k opětovnému vyvážení dat napříč DataNodes a přesouvá bloky z nadměrně využívaných uzlů do nevyužitých.

47) Vysvětlete Nouzový režim v HDFS

Je to režim jen pro čtení NameNode v clusteru. Zpočátku je NameNode v nouzovém režimu. Zabraňuje zápisu do souborového systému v nouzovém režimu. V tuto chvíli shromažďuje data a statistiky ze všech DataNodes.

48) Jaký význam má distribuovaná mezipaměť v Apache Hadoop?

Hadoop má užitečnou obslužnou funkci tzv. Distributed Cache, která zlepšuje výkon úloh ukládáním souborů využívaných aplikacemi do mezipaměti. Aplikace může určit soubor pro mezipaměť pomocí konfigurace JobConf.

Hadoop framework vytváří repliku těchto souborů do uzlů, u kterých musí být úloha provedena. To se provádí před zahájením provádění úlohy. Distribuovaná mezipaměť podporuje distribuci souborů pouze pro čtení, stejně jako soubory zip a jars.

49) Co je Metastore in Hive?

Ukládá schéma i umístění tabulky Hive.

Tabulka podregistru definuje, mapování a metadata, která jsou uložena v Metastore. To může být uloženo v RDBMS podporovaném JPOX.

50) Co znamená SerDe v Hive?

SerDe je zkratka pro Serializer nebo Deserializer. V Hive umožňuje SerDe číst data z tabulky a zapisovat do konkrétního pole v libovolném formátu, který chcete.

51) Vyjmenujte komponenty dostupné v datovém modelu Hive

V datovém modelu Hive jsou následující komponenty:

Tabulky
Příčky
Vědra

52) Vysvětlete použití Hive v ekosystému Hadoop.

Hive poskytuje rozhraní pro správu dat uložených v ekosystému Hadoop. Hive se používá pro mapování a práci s tabulkami HBase. Dotazy úlu jsou převedeny na úlohy MapReduce, aby se skryla složitost spojená s vytvářením a spouštěním úloh MapReduce.

53) Seznam různých komplexních datových typů/sběrů podporuje Hive

Hive podporuje následující komplexní datové typy:

Mapa
Struktura
Řada
svaz

54) Vysvětlete, jak se používá soubor .hiverc v Hive?

V Hive je .hiverc inicializační soubor. Tento soubor se zpočátku načte, když spustíme rozhraní příkazového řádku (CLI) pro Hive. Počáteční hodnoty parametrů můžeme nastavit v souboru .hiverc.

55) Je možné v Hive vytvořit více než jednu tabulku pro jeden datový soubor?

Ano, pro datový soubor můžeme vytvořit více než jedno schéma tabulky. Hive uloží schéma v Hive Metastore. Na základě tohoto schématu můžeme ze stejných dat získat různé výsledky.

56) Vysvětlete různé implementace SerDe dostupné v Hive

V Hive je k dispozici mnoho implementací SerDe. Můžete také napsat svou vlastní implementaci SerDe. Níže jsou uvedeny některé slavné implementace SerDe:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Seznam funkcí pro generování tabulek dostupných v Hive

Následuje seznam funkcí pro generování tabulky:

explodovat (pole)
JSON_tuple()
Zásobník()
explodovat (mapa)

58) Co je to šikmá tabulka v Hive?

Zkosená tabulka je tabulka, která obsahuje hodnoty sloupců častěji. Když v Hive určíme tabulku jako SKEWED během vytváření, zkosené hodnoty se zapíší do samostatných souborů a zbývající hodnoty se přesunou do jiného souboru.

59) Vypište objekty vytvořené příkazem create in MySQL.

Objekty vytvořené příkazem create in MySQL jsou následující:

Databáze
index
Tabulka
Uživatel
Postup
spoušť
událost
Zobrazit
funkce

60) Jak vidět strukturu databáze v MySQL?

Chcete-li vidět strukturu databáze v MySQL, Můžete použít

příkaz DESCRIBE. Syntaxe tohoto příkazu je DESCRIBE Table name;.

Otázky k pohovoru SQL pro datového inženýra

61) Jak vyhledat konkrétní řetězec v MySQL sloupec tabulky?

K vyhledání řetězce použijte operátor regulárního výrazu MySQL sloupec. Zde můžeme také definovat různé typy regulárních výrazů a hledat pomocí regulárního výrazu.

62) Vysvětlete, jak může datová analytika a velká data zvýšit příjmy společnosti?

Níže jsou uvedeny způsoby, jak může datová analytika a velká data zvýšit příjmy společnosti:

Používejte data efektivně, abyste zajistili růst firmy.
Zvyšte hodnotu pro zákazníky.
Začněte analyticky, abyste zlepšili prognózy počtu zaměstnanců.
Snížení výrobních nákladů organizací.

Tyto otázky na pohovoru také pomohou ve vašem životě (ústních)