Více než 60 otázek a odpovědí na pohovor s datovým inženýrem v roce 2025
Otázky k pohovoru s datovým inženýrem pro osvěžovače
1) Vysvětlete datové inženýrství.
Datové inženýrství je termín používaný ve velkých datech. Zaměřuje se na aplikaci sběru dat a výzkumu. Data generovaná z různých zdrojů jsou pouze nezpracovaná data. Datové inženýrství pomáhá převádět tato nezpracovaná data na užitečné informace.
2) Co je datové modelování?
Datové modelování je metoda dokumentování komplexního softwarového návrhu jako diagramu, kterému každý snadno porozumí. Je to koncepční reprezentace datových objektů, které jsou spojeny mezi různými datovými objekty a pravidly.
3) Vyjmenujte různé typy návrhových schémat v Data Modeling
V datovém modelování existují především dva typy schémat: 1) Hvězdné schéma a 2) Schéma sněhové vločky.
4) Rozlišujte mezi strukturovanými a nestrukturovanými daty
Níže je uveden rozdíl mezi strukturovanými a nestrukturovanými daty:
Parametr | Strukturovaná data | Nestrukturovaná data |
---|---|---|
Skladování | DBMS | Nespravované struktury souborů |
Standard | ADO.net, ODBC a SQL | STMP, XML, CSV a SMS |
Integrační nástroj | ELT (Extract, Transform, Load) | Ruční zadávání dat nebo dávkové zpracování, které zahrnuje kódy |
škálování | Škálování schématu je obtížné | Škálování je velmi snadné. |
5) Vysvětlete všechny součásti aplikace Hadoop
Následující jsou komponenty aplikace Hadoop:
- Hadoop běžné: Jedná se o běžnou sadu nástrojů a knihoven, které využívá Hadoop.
- HDFS: Tato aplikace Hadoop se týká systému souborů, ve kterém jsou uložena data Hadoop. Jedná se o distribuovaný souborový systém s velkou šířkou pásma.
- Hadoop MapReduce: Je založen na algoritmu pro poskytování rozsáhlého zpracování dat.
- Hadoop příze: Používá se pro správu prostředků v rámci clusteru Hadoop. Může být také použit pro plánování úloh pro uživatele.
6) Co je NameNode?
Je středobodem HDFS. Ukládá data HDFS a sleduje různé soubory napříč clustery. Zde se skutečná data neukládají. Data jsou uložena v DataNodes.
7) Definujte streamování Hadoop
Je to utilita, která umožňuje vytvoření mapy a Redukuje úlohy a odesílá je do konkrétního clusteru.
8) Jaká je plná forma HDFS?
HDFS je zkratka pro Hadoop Distributed File System.
9) Definujte Block a Block Scanner v HDFS
Bloky jsou nejmenší jednotkou datového souboru. Hadoop automaticky rozděluje velké soubory na malé kousky.
Block Scanner ověřuje seznam bloků, které jsou prezentovány na DataNode.
10) Jaké jsou kroky, které nastanou, když Block Scanner zjistí poškozený datový blok?
Následují kroky, ke kterým dojde, když Block Scanner najde poškozený datový blok:
1) Za prvé, když Block Scanner najde poškozený datový blok, DataNode nahlásí NameNode
2) NameNode spustí proces vytváření nové repliky pomocí repliky poškozeného bloku.
3) Počet replikací správných replik se snaží odpovídat faktoru replikace. Pokud byla nalezena shoda, poškozený datový blok nebude smazán.
11) Jmenujte dvě zprávy, které NameNode dostává od DataNode?
Existují dvě zprávy, které NameNode dostává od DataNode. Jsou to 1) Zpráva o bloku a 2) Tlukot srdce.
12) Vypsat různé konfigurační soubory XML v Hadoop?
V Hadoopu je pět konfiguračních souborů XML:
- Stránky Maped
- Hlavní stránka
- Web HDFS
- Příze-site
13) Jaká jsou čtyři V velkých dat?
Čtyři V velkých dat jsou:
- Rychlost
- Různorodost
- Objem nádrží
- Pravdivost
14) Vysvětlete vlastnosti Hadoopu
Důležité vlastnosti Hadoop jsou:
- Jedná se o open-source framework, který je dostupný jako freeware.
- Hadoop je kompatibilní s mnoha typy hardwaru a snadný přístup k novému hardwaru v rámci konkrétního uzlu.
- Hadoop podporuje rychlejší distribuované zpracování dat.
- Ukládá data do clusteru, který je nezávislý na ostatních operacích.
- Hadoop umožňuje vytvořit 3 repliky pro každý blok s různými uzly.
15) Vysvětlete hlavní metody Reduceru
- setup (): Používá se pro konfiguraci parametrů, jako je velikost vstupních dat a distribuovaná mezipaměť.
- cleanup(): Tato metoda se používá k čištění dočasných souborů.
- snížit(): Je to srdce reduktoru, které je voláno jednou na klíč s přidruženou redukovanou úlohou
16) Jaká je zkratka COSHH?
Zkratka COSHH je Plán založený na klasifikaci a optimalizaci pro heterogenní hadoop systémy.
17) Vysvětlete Hvězdné schéma
Hvězdné schéma nebo Star Join Schema je nejjednodušší typ schématu Data Warehouse. To je známé jako hvězdné schéma, protože jeho struktura je jako hvězda. Ve schématu Hvězda může mít střed hvězdy jednu tabulku faktů a více přidružených tabulek dimenzí. Toto schéma se používá pro dotazování velkých souborů dat.
18) Jak nasadit řešení pro velká data?
Chcete-li nasadit řešení pro velká data, postupujte podle následujících kroků.
1) Integrujte data pomocí zdrojů dat, jako je RDBMS, SAP, MySQL, Salesforce
2) Ukládejte extrahovaná data do databáze NoSQL nebo HDFS.
3) Nasaďte řešení velkých dat pomocí zpracovatelských rámců, jako je Pig, Sparka MapReduce.
19) Vysvětlete FSCK
Kontrola systému souborů nebo FSCK je příkaz používaný HDFS. Příkaz FSCK se používá ke kontrole nekonzistencí a problémů v souboru.
20) Vysvětlete schéma sněhové vločky
A Schéma sněhové vločky je rozšíření hvězdicového schématu a přidává další dimenze. Je takzvaná jako sněhová vločka, protože její diagram vypadá jako sněhová vločka. Tabulky dimenzí jsou normalizovány, což rozděluje data do dalších tabulek.
21) Rozlišujte mezi schématem hvězdy a sněhové vločky
star | Schéma sněhových vloček |
Hierarchie kót jsou uloženy v rozměrové tabulce. | Každá hierarchie je uložena do samostatných tabulek. |
Pravděpodobnost redundance dat je vysoká | Pravděpodobnost redundance dat je nízká. |
Má velmi jednoduchý DB design | Má komplexní DB design |
Poskytněte rychlejší způsob zpracování kostek | Zpracování krychle je pomalé kvůli složitému spojení. |
22) Vysvětlete distribuovaný souborový systém Hadoop
Hadoop pracuje se škálovatelnými distribuovanými systémy souborů, jako jsou S3, HFTP FS, FS a HDFS. Distribuovaný systém souborů Hadoop je vytvořen na systému souborů Google. Tento souborový systém je navržen tak, aby jej bylo možné snadno spustit na velkém clusteru počítačového systému.
23) Vysvětlete hlavní povinnosti datového inženýra
Datoví inženýři mají mnoho povinností. Spravují zdrojový systém dat. Datoví inženýři zjednodušují složitou datovou strukturu a zabraňují reduplikaci dat. Mnohokrát také poskytují ELT a transformaci dat.
24) Jaká je plná forma PŘÍZE?
Úplná forma YARN je další vyjednavač zdrojů.
25) Seznam různých režimů v Hadoop
Režimy v Hadoop jsou 1) Samostatný režim 2) Pseudo distribuovaný režim 3) Plně distribuovaný režim.
26) Jak dosáhnout bezpečnosti v Hadoopu?
Chcete-li dosáhnout zabezpečení v Hadoopu, proveďte následující kroky:
1) Prvním krokem je zabezpečení ověřovacího kanálu klienta na serveru. Poskytněte klientovi časové razítko.
2) Ve druhém kroku klient pomocí přijatého časového razítka požádá TGS o servisní tiket.
3) V posledním kroku klient použije servisní tiket pro vlastní autentizaci na konkrétní server.
27) Co je to Heartbeat v Hadoopu?
V Hadoopu spolu NameNode a DataNode komunikují. Heartbeat je signál, který pravidelně odesílá DataNode do NameNode, aby ukázal svou přítomnost.
28) Rozlišujte mezi NAS a DAS v Hadoopu
NAS | DAS |
Kapacita úložiště je 109 na 1012 v byte. | Kapacita úložiště je 109 v byte. |
Náklady na správu na GB jsou mírné. | Náklady na správu na GB jsou vysoké. |
Přenášejte data pomocí Ethernetu nebo TCP/IP. | Přenášejte data pomocí IDE/SCSI |
29) Vyjmenujte důležitá pole nebo jazyky používané datovým inženýrem
Zde je několik polí nebo jazyků používaných datovým inženýrem:
- Pravděpodobnost i lineární algebra
- Strojové učení
- Trendová analýza a regrese
- Hive QL a SQL databáze
30) Co jsou velká data?
Jde o velké množství strukturovaných i nestrukturovaných dat, které nelze jednoduše zpracovat tradičními metodami ukládání dat. Datoví inženýři používají Hadoop ke správě velkých dat.
Otázky k pohovoru s datovým inženýrem pro zkušené
31) Co je plánování FIFO?
Je to plánovací algoritmus Hadoop Job. V tomto plánování FIFO reportér vybírá úlohy z pracovní fronty, nejstarší úloha jako první.
32) Uveďte výchozí čísla portů, na kterých běží nástroj pro sledování úloh, NameNode a nástroj pro sledování úloh v Hadoopu
Výchozí čísla portů, na kterých běží nástroj pro sledování úloh, NameNode a nástroj pro sledování úloh v Hadoop, jsou následující:
- Sledování úloh běží na portu 50060
- NameNode běží na portu 50070
- Job Tracker běží na portu 50030
33) Jak deaktivovat Block Scanner na HDFS Data Node
Chcete-li deaktivovat Block Scanner na HDFS Data Node, nastavte dfs.datanode.scan.period.hours na 0.
34) Jak definovat vzdálenost mezi dvěma uzly v Hadoopu?
Vzdálenost je rovna součtu vzdáleností k nejbližším uzlům. K výpočtu vzdálenosti mezi dvěma uzly se používá metoda getDistance().
35) Proč používat komoditní hardware v Hadoopu?
Komoditní hardware je snadno dostupný a cenově dostupný. Je to systém, který je kompatibilní s Windows, MS-DOS nebo Linux.
36) Definujte replikační faktor v HDFS
Faktor replikace je celkový počet replik souboru v systému.
37) Jaká data jsou uložena v NameNode?
Namenode ukládá metadata pro HDFS, jako jsou informace o bloku a informace o jmenném prostoru.
38) Co myslíš tím Rack Awareness?
V clusteru Haddop používá Namenode Datanode ke zlepšení síťového provozu při čtení nebo zápisu jakéhokoli souboru, který je blíže k nedalekému racku, k požadavku čtení nebo zápisu. Namenode udržuje ID racku každého DataNode, aby získal informace o racku. Tento koncept se v Hadoopu nazývá Rack Awareness.
39) Jaké jsou funkce sekundárního NameNode?
Níže jsou uvedeny funkce sekundárního NameNode:
- FsImage, který ukládá kopii souboru EditLog a FsImage.
- Zhroucení NameNode: Pokud dojde k selhání NameNode, pak FsImage sekundárního NameNode lze použít k opětovnému vytvoření NameNode.
- Kontrolní bod: Používá se sekundárním NameNode k potvrzení, že data nejsou poškozena v HDFS.
- Aktualizace: Automaticky aktualizuje soubor EditLog a FsImage. Pomáhá udržovat soubor FsImage na sekundárním NameNode aktualizovaný.
40) Co se stane, když NameNode nefunguje a uživatel odešle novou úlohu?
NameNode je jediným bodem selhání v Hadoop, takže uživatel nemůže odeslat novou úlohu, kterou nelze provést. Pokud je NameNode mimo provoz, může se stát, že úloha selže, protože tento uživatel musí před spuštěním jakékoli úlohy počkat, až se NameNode restartuje.
41) Jaké jsou základní fáze reduktoru v Hadoopu?
V Hadoopu jsou tři základní fáze reduktoru:
1. Shuffle: Zde Reducer zkopíruje výstup z Mapperu.
2. Třídit: Při řazení Hadoop třídí vstup do Reduceru pomocí stejného klíče.
3. Redukovat: V této fázi jsou výstupní hodnoty spojené s klíčem redukovány, aby se data konsolidovala do konečného výstupu.
42) Proč Hadoop používá objekt Context?
Rámec Hadoop používá objekt Context s třídou Mapper k interakci se zbývajícím systémem. Kontextový objekt získá podrobnosti konfigurace systému a úlohy ve svém konstruktoru.
Objekt Context používáme k předání informací v metodách setup(), cleanup() a map(). Tento objekt zpřístupňuje důležité informace během mapových operací.
43) Definujte Combiner v Hadoopu
Je to volitelný krok mezi Map a Reduce. Combiner převezme výstup z funkce Map, vytvoří páry klíč-hodnota a odešle je do Hadoop Reducer. Úkolem Combineru je shrnout konečný výsledek z Map do souhrnných záznamů s identickým klíčem.
44) Jaký je výchozí faktor replikace dostupný v HDFS Co to znamená?
Výchozí faktor replikace dostupný v HDFS je tři. Výchozí faktor replikace označuje, že budou existovat tři repliky každého data.
45) Co myslíš Data Locality v Hadoopu?
V systému Big Data je velikost dat obrovská, a proto nemá smysl data přesouvat po síti. Nyní se Hadoop pokouší posunout výpočet blíže k datům. Data tak zůstanou lokální vzhledem k uloženému umístění.
46) Definujte Balancer v HDFS
V HDFS je balancer správou, kterou používají administrátoři k opětovnému vyvážení dat napříč DataNodes a přesouvá bloky z nadměrně využívaných uzlů do nevyužitých.
47) Vysvětlete Nouzový režim v HDFS
Je to režim jen pro čtení NameNode v clusteru. Zpočátku je NameNode v nouzovém režimu. Zabraňuje zápisu do souborového systému v nouzovém režimu. V tuto chvíli shromažďuje data a statistiky ze všech DataNodes.
48) Jaký význam má distribuovaná mezipaměť v Apache Hadoop?
Hadoop má užitečnou obslužnou funkci tzv. Distributed Cache, která zlepšuje výkon úloh ukládáním souborů využívaných aplikacemi do mezipaměti. Aplikace může určit soubor pro mezipaměť pomocí konfigurace JobConf.
Hadoop framework vytváří repliku těchto souborů do uzlů, u kterých musí být úloha provedena. To se provádí před zahájením provádění úlohy. Distribuovaná mezipaměť podporuje distribuci souborů pouze pro čtení, stejně jako soubory zip a jars.
49) Co je Metastore in Hive?
Ukládá schéma i umístění tabulky Hive.
Tabulka podregistru definuje, mapování a metadata, která jsou uložena v Metastore. To může být uloženo v RDBMS podporovaném JPOX.
50) Co znamená SerDe v Hive?
SerDe je zkratka pro Serializer nebo Deserializer. V Hive umožňuje SerDe číst data z tabulky a zapisovat do konkrétního pole v libovolném formátu, který chcete.
51) Vyjmenujte komponenty dostupné v datovém modelu Hive
V datovém modelu Hive jsou následující komponenty:
- Tabulky
- Příčky
- Vědra
52) Vysvětlete použití Hive v ekosystému Hadoop.
Hive poskytuje rozhraní pro správu dat uložených v ekosystému Hadoop. Hive se používá pro mapování a práci s tabulkami HBase. Dotazy úlu jsou převedeny na úlohy MapReduce, aby se skryla složitost spojená s vytvářením a spouštěním úloh MapReduce.
53) Seznam různých komplexních datových typů/sběrů podporuje Hive
Hive podporuje následující komplexní datové typy:
- Mapa
- Struktura
- Řada
- svaz
54) Vysvětlete, jak se používá soubor .hiverc v Hive?
V Hive je .hiverc inicializační soubor. Tento soubor se zpočátku načte, když spustíme rozhraní příkazového řádku (CLI) pro Hive. Počáteční hodnoty parametrů můžeme nastavit v souboru .hiverc.
55) Je možné v Hive vytvořit více než jednu tabulku pro jeden datový soubor?
Ano, pro datový soubor můžeme vytvořit více než jedno schéma tabulky. Hive uloží schéma v Hive Metastore. Na základě tohoto schématu můžeme ze stejných dat získat různé výsledky.
56) Vysvětlete různé implementace SerDe dostupné v Hive
V Hive je k dispozici mnoho implementací SerDe. Můžete také napsat svou vlastní implementaci SerDe. Níže jsou uvedeny některé slavné implementace SerDe:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Seznam funkcí pro generování tabulek dostupných v Hive
Následuje seznam funkcí pro generování tabulky:
- explodovat (pole)
- JSON_tuple()
- Zásobník()
- explodovat (mapa)
58) Co je to šikmá tabulka v Hive?
Zkosená tabulka je tabulka, která obsahuje hodnoty sloupců častěji. Když v Hive určíme tabulku jako SKEWED během vytváření, zkosené hodnoty se zapíší do samostatných souborů a zbývající hodnoty se přesunou do jiného souboru.
59) Vypište objekty vytvořené příkazem create in MySQL.
Objekty vytvořené příkazem create in MySQL jsou následující:
- Databáze
- index
- Tabulka
- Uživatel
- Postup
- spoušť
- událost
- Zobrazit
- funkce
60) Jak vidět strukturu databáze v MySQL?
Chcete-li vidět strukturu databáze v MySQL, Můžete použít
příkaz DESCRIBE. Syntaxe tohoto příkazu je DESCRIBE Table name;
.
Otázky k pohovoru SQL pro datového inženýra
61) Jak vyhledat konkrétní řetězec v MySQL sloupec tabulky?
K vyhledání řetězce použijte operátor regulárního výrazu MySQL sloupec. Zde můžeme také definovat různé typy regulárních výrazů a hledat pomocí regulárního výrazu.
62) Vysvětlete, jak může datová analytika a velká data zvýšit příjmy společnosti?
Níže jsou uvedeny způsoby, jak může datová analytika a velká data zvýšit příjmy společnosti:
- Používejte data efektivně, abyste zajistili růst firmy.
- Zvyšte hodnotu pro zákazníky.
- Začněte analyticky, abyste zlepšili prognózy počtu zaměstnanců.
- Snížení výrobních nákladů organizací.
Tyto otázky na pohovoru také pomohou ve vašem životě (ústních)