60+ pitanja i odgovora za intervju s inženjerom podataka u 2025

Evo pitanja i odgovora na intervjuu za Data Engineering za svježije i iskusne kandidate za inženjere podataka koji će dobiti posao iz snova.

 

Pitanja za intervju s inženjerom podataka za brucoše

1) Objasnite Data Engineering.

Podatkovni inženjering je termin koji se koristi u velikim podacima. Usredotočen je na primjenu prikupljanja podataka i istraživanja. Podaci dobiveni iz raznih izvora samo su sirovi podaci. Podatkovni inženjering pomaže pretvoriti ove neobrađene podatke u korisne informacije.


2) Što je modeliranje podataka?

Modeliranje podataka je metoda dokumentiranja složenog dizajna softvera kao dijagrama tako da ga svatko može lako razumjeti. To je konceptualni prikaz podatkovnih objekata koji su povezani između različitih podatkovnih objekata i pravila.

Modeliranje podataka


3) Navedite različite vrste shema dizajna u modeliranju podataka

Postoje uglavnom dvije vrste shema u modeliranju podataka: 1) shema zvijezda i 2) shema pahuljica.


4) Razlikovati strukturirane i nestrukturirane podatke

Slijedi razlika između strukturiranih i nestrukturiranih podataka:

Parametar Strukturirani podaci Nestrukturirani podaci
Čuvanje DBMS Neupravljane strukture datoteka
Servo ADO.net, ODBC i SQL STMP, XML, CSV i SMS
Alat za integraciju ELT (ekstrah, transformacija, učitavanje) Ručni unos podataka ili skupna obrada koja uključuje kodove
skaliranja Skaliranje sheme je teško Skaliranje je vrlo jednostavno.

5) Objasnite sve komponente Hadoop aplikacije

Slijede komponente Hadoop aplikacije:

Hadoop ekosustav i komponente

  • Hadoop Common: To je uobičajeni skup uslužnih programa i biblioteka koje koristi Hadoop.
  • HDFS: Ova Hadoop aplikacija odnosi se na datotečni sustav u kojem su pohranjeni Hadoop podaci. To je distribuirani datotečni sustav velike propusnosti.
  • Hadoop MapReduce: Temelji se na algoritmu za pružanje velike obrade podataka.
  • Hadoop YARN: Koristi se za upravljanje resursima unutar Hadoop klastera. Također se može koristiti za raspoređivanje zadataka za korisnike.

6) Što je NameNode?

To je središnji dio HDFS-a. Pohranjuje podatke HDFS-a i prati razne datoteke u klasterima. Ovdje se stvarni podaci ne pohranjuju. Podaci se pohranjuju u DataNodes.


7) Definirajte Hadoop streaming

To je uslužni program koji omogućuje stvaranje karte i smanjuje poslove i šalje ih u određeni klaster.


8) Koji je puni oblik HDFS-a?

HDFS je skraćenica za Hadoop Distributed File System.


9) Definirajte Block i Block Scanner u HDFS-u

Blokovi su najmanja jedinica podatkovne datoteke. Hadoop automatski dijeli ogromne datoteke na male dijelove.

Block Scanner provjerava popis blokova koji su predstavljeni na DataNode.


10) Koji su koraci koji se događaju kada Block Scanner otkrije oštećeni blok podataka?

Slijede koraci koji se događaju kada Block Scanner pronađe oštećeni blok podataka:

1) Prije svega, kada Block Scanner pronađe oštećeni blok podataka, DataNode izvješćuje NameNode

2) NameNode pokreće proces stvaranja nove replike koristeći repliku oštećenog bloka.

3) Broj replikacija ispravnih replika pokušava se uskladiti s faktorom replikacije. Ako se pronađe podudaranje, oštećeni blok podataka neće biti izbrisan.


11) Imenujte dvije poruke koje NameNode dobiva od DataNode?

Postoje dvije poruke koje NameNode dobiva od DataNode. To su 1) Izvješće o blokovima i 2) Otkucaji srca.


12) Navedite razne XML konfiguracijske datoteke u Hadoopu?

Postoji pet XML konfiguracijskih datoteka u Hadoopu:

  • Mapred-site
  • Core-site
  • HDFS-stranica
  • Mjesto pređe

13) Što su četiri V velikih podataka?

Četiri V velikih podataka su:

  • Brzina
  • Raznolikost
  • Volumen
  • Istinitost

14) Objasnite značajke Hadoopa

Važne karakteristike Hadoopa su:

  • To je okvir otvorenog koda koji je dostupan besplatno.
  • Hadoop je kompatibilan s mnogim vrstama hardvera i lako mu je pristupiti novom hardveru unutar određenog čvora.
  • Hadoop podržava bržu distribuiranu obradu podataka.
  • Pohranjuje podatke u klaster, koji je neovisan o ostalim operacijama.
  • Hadoop omogućuje stvaranje 3 replike za svaki blok s različitim čvorovima.

15) Objasnite glavne metode reduktora

  • setup (): Koristi se za konfiguriranje parametara poput veličine ulaznih podataka i distribuirane predmemorije.
  • cleanup(): Ova se metoda koristi za čišćenje privremenih datoteka.
  • smanji(): To je srce reduktora koji se poziva jednom po ključu s pridruženim smanjenim zadatkom

16) Koja je skraćenica od COSHH?

Skraćenica od COSHH je Classification and Optimization based Schedule for Heterogeneous Hadoop systems.


17) Objasnite zvjezdanu shemu

Shema zvijezda ili Star Join Schema je najjednostavniji tip sheme skladišta podataka. Poznata je kao zvjezdana shema jer je njena struktura poput zvijezde. U shemi zvijezda, središte zvijezde može imati jednu tablicu činjenica i više povezanih tablica dimenzija. Ova se shema koristi za postavljanje upita velikim skupovima podataka.


18) Kako implementirati rješenje za velike podatke?

Slijedite sljedeće korake kako biste implementirali rješenje za velike podatke.

1) Integrirajte podatke pomoću izvora podataka kao što su RDBMS, SAP, MySQL, Salesforce
2) Pohranite izvađene podatke u NoSQL bazu podataka ili HDFS.
3) Implementirajte rješenje za velike podatke pomoću okvira za obradu kao što je Pig, Sparki MapReduce.


19) Objasnite FSCK

File System Check ili FSCK je naredba koju koristi HDFS. Naredba FSCK koristi se za provjeru nedosljednosti i problema u datoteci.


20) Objasnite shemu pahuljice

A Shema snježne pahulje je proširenje zvjezdane sheme i dodaje dodatne dimenzije. Tako se zove pahuljica jer njen dijagram izgleda kao pahuljica. Tablice dimenzija su normalizirane, što dijeli podatke u dodatne tablice.


21) Razlikujte shemu zvijezda i pahuljica

zvijezda Shema snježne pahulje
Hijerarhije dimenzija pohranjene su u tablici dimenzija. Svaka hijerarhija je pohranjena u zasebne tablice.
Šanse za redundantnost podataka su visoke Šanse za redundantnost podataka su niske.
Ima vrlo jednostavan DB dizajn Ima složen dizajn DB-a
Omogućite brži način obrade kocke Obrada kocke je spora zbog složenog spajanja.

22) Objasnite Hadoop distribuirani datotečni sustav

Hadoop radi sa skalabilnim distribuiranim datotečnim sustavima kao što su S3, HFTP FS, FS i HDFS. Hadoop Distribuirani datotečni sustav napravljen je na Google datotečnom sustavu. Ovaj datotečni sustav dizajniran je na način da se može lako pokrenuti na velikom klasteru računalnog sustava.


23) Objasnite glavne odgovornosti podatkovnog inženjera

Inženjeri podataka imaju mnoge odgovornosti. Oni upravljaju izvornim sustavom podataka. Inženjeri podataka pojednostavljuju složenu strukturu podataka i sprječavaju dupliranje podataka. Mnogo puta također pružaju ELT i transformaciju podataka.


24) Koji je puni oblik PREĐE?

Puni oblik YARN-a je još jedan pregovarač o resursima.


25) Navedite različite načine rada u Hadoopu

Načini rada u Hadoopu su 1) Samostalni način 2) Pseudo distribuirani način 3) Potpuno distribuirani način.


26) Kako postići sigurnost u Hadoopu?

Izvršite sljedeće korake za postizanje sigurnosti u Hadoopu:

1) Prvi korak je osigurati kanal provjere autentičnosti klijenta na poslužitelju. Klijentu dostavite vremenski žig.
2) U drugom koraku, klijent koristi primljeni vremenski žig da zatraži TGS za servisnu kartu.
3) U zadnjem koraku, klijent koristi servisnu kartu za samoprovjeru autentičnosti određenom poslužitelju.


27) Što je Heartbeat u Hadoopu?

U Hadoopu, NameNode i DataNode međusobno komuniciraju. Otkucaj srca je signal koji DataNode redovito šalje NameNodeu kako bi pokazao svoju prisutnost.


28) Razlikujte NAS i DAS u Hadoopu

NAS DAS
Kapacitet skladištenja je 109 na 1012 u bajtu. Kapacitet skladištenja je 109 u bajtu.
Trošak upravljanja po GB je umjeren. Trošak upravljanja po GB je visok.
Prijenos podataka koristeći Ethernet ili TCP/IP. Prijenos podataka pomoću IDE/SCSI

29) Navedite važna polja ili jezike koje koristi inženjer podataka

Evo nekoliko polja ili jezika koje koristi inženjer podataka:

  • Vjerojatnost kao i linearna algebra
  • Strojno učenje
  • Analiza trenda i regresija
  • Hive QL i SQL baze podataka

30) Što je Big Data?

To je velika količina strukturiranih i nestrukturiranih podataka, koji se ne mogu lako obraditi tradicionalnim metodama pohrane podataka. Inženjeri podataka koriste Hadoop za upravljanje velikim podacima.


Pitanja za intervju s inženjerom podataka za iskusne

31) Što je FIFO raspoređivanje?

To je Hadoop algoritam za raspoređivanje poslova. U ovom FIFO rasporedu, izvjestitelj odabire poslove iz radnog reda, najstariji posao prvi.


32) Navedite zadane brojeve priključaka na kojima se alat za praćenje zadataka, NameNode i alat za praćenje poslova pokreću u Hadoopu

Zadani brojevi priključaka na kojima se alat za praćenje zadataka, NameNode i alat za praćenje poslova izvode u Hadoopu su sljedeći:

  • Praćenje zadataka radi na portu 50060
  • NameNode radi na 50070 portu
  • Job Tracker radi na portu 50030

33) Kako onemogućiti Block Scanner na HDFS podatkovnom čvoru

Kako biste onemogućili Block Scanner na HDFS podatkovnom čvoru, postavite dfs.datanode.scan.period.hours na 0.


34) Kako definirati udaljenost između dva čvora u Hadoopu?

Udaljenost je jednaka zbroju udaljenosti do najbližih čvorova. Metoda getDistance() koristi se za izračunavanje udaljenosti između dva čvora.


35) Zašto koristiti uobičajeni hardver u Hadoopu?

Standardni hardver je lako nabaviti i pristupačan je. To je sustav koji je kompatibilan sa Windows, MS-DOS ili Linux.


36) Definirajte faktor replikacije u HDFS-u

Faktor replikacije je ukupan broj replika datoteke u sustavu.


37) Koji su podaci pohranjeni u NameNode?

Namenode pohranjuje metapodatke za HDFS kao što su informacije o bloku i informacije o prostoru imena.


38) Što mislite pod Rack Awareness?

U klasteru Haddop, Namenode koristi Datanode za poboljšanje mrežnog prometa tijekom čitanja ili pisanja bilo koje datoteke koja je bliža obližnjem stalku za zahtjev za čitanje ili pisanje. Namenode održava rack id svakog DataNode-a za dobivanje rack informacija. Ovaj koncept se u Hadoopu naziva Rack Awareness.


39) Koje su funkcije Secondary NameNode?

Slijede funkcije Secondary NameNode:

  • FsImage koji pohranjuje kopiju EditLog i FsImage datoteke.
  • Pad NameNode: Ako se NameNode sruši, tada se FsImage sekundarnog NameNode može koristiti za ponovno stvaranje NameNode.
  • Kontrolna točka: koristi ju sekundarni čvor imena za potvrdu da podaci nisu oštećeni u HDFS-u.
  • Ažuriranje: automatski ažurira EditLog i FsImage datoteku. Pomaže ažurirati datoteku FsImage na sekundarnom čvoru imena.

40) Što se događa kada NameNode ne radi, a korisnik pošalje novi posao?

NameNode je jedina točka kvara u Hadoopu tako da korisnik ne može poslati novi posao koji se ne može izvršiti. Ako NameNode ne radi, posao možda neće uspjeti jer korisnik mora pričekati da se NameNode ponovno pokrene prije pokretanja bilo kojeg posla.


41) Koje su osnovne faze reduktora u Hadoopu?

Tri su osnovne faze reduktora u Hadoopu:

1. Shuffle: Ovdje Reducer kopira izlaz iz Mappera.

2. Sortiraj: U sortiranju, Hadoop sortira unos u Reducer koristeći isti ključ.

3. Smanjenje: U ovoj fazi, izlazne vrijednosti povezane s ključem se smanjuju kako bi se podaci konsolidirali u konačni izlaz.


42) Zašto Hadoop koristi Context object?

Hadoop framework koristi objekt Context s klasom Mapper kako bi komunicirao s preostalim sustavom. Kontekstni objekt dobiva detalje konfiguracije sustava i posao u svom konstruktoru.

Koristimo objekt Context kako bismo proslijedili informacije u metodama setup(), cleanup() i map(). Ovaj objekt čini vitalne informacije dostupnima tijekom rada s kartom.


43) Definirajte Combiner u Hadoopu

To je neobavezan korak između Map i Reduce. Combiner uzima izlaz iz funkcije Map, stvara parove ključnih vrijednosti i šalje ih u Hadoop Reducer. Zadatak kombinatora je sažeti konačni rezultat iz Mape u sumarne zapise s identičnim ključem.


44) Koji je zadani faktor replikacije dostupan u HDFS-u. Što označava?

Zadani faktor replikacije dostupan u HDFS-u je tri. Zadani faktor replikacije označava da će postojati tri replike svakog podatka.


45) Što mislite pod Lokalitet podataka u Hadoopu?

U Big Data sustavu veličina podataka je ogromna i zato nema smisla premještati podatke preko mreže. Sada Hadoop pokušava približiti računanje podacima. Na taj način podaci ostaju lokalni na pohranjenoj lokaciji.


46) Definirajte Balancer u HDFS-u

U HDFS-u, balanser je administrativni alat koji koristi administratorsko osoblje za ponovno balansiranje podataka na DataNodes i premješta blokove s pretjerano iskorištenih na nedovoljno iskorištene čvorove.


47) Objasnite Siguran način rada u HDFS-u

To je način rada samo za čitanje za NameNode u klasteru. U početku je NameNode u sigurnom načinu rada. Sprječava pisanje u datotečni sustav u sigurnom načinu rada. U ovom trenutku prikuplja podatke i statistiku sa svih čvorova podataka.


48) Koja je važnost distribuirane predmemorije u Apache Hadoopu?

Hadoop ima korisnu uslužnu značajku takozvanu Distributed Cache koja poboljšava izvedbu poslova predmemoriranjem datoteka koje koriste aplikacije. Aplikacija može odrediti datoteku za predmemoriju pomoću JobConf konfiguracije.

Hadoop framework čini repliku ovih datoteka na čvorovima koji zadatak treba izvršiti. To se radi prije početka izvršavanja zadatka. Distribuirana predmemorija podržava distribuciju datoteka samo za čitanje, kao i zip i jar datoteka.


49) Što je Metastore u Hiveu?

Pohranjuje shemu kao i lokaciju Hive tablice.

Hive tablica definira, preslikava i metapodatke koji su pohranjeni u Metastoreu. Ovo se može pohraniti u RDBMS koji podržava JPOX.


50) Što znači SerDe u košnici?

SerDe je skraćeni naziv za Serializer ili Deserializer. U Hive-u, SerDe omogućuje čitanje podataka iz tablice i pisanje u određeno polje u bilo kojem formatu koji želite.


51) Navedite komponente dostupne u podatkovnom modelu Hive

U modelu podataka Hive postoje sljedeće komponente:

  • Tablice
  • Particije
  • Korpe

52) Objasnite korištenje Hive-a u Hadoop ekosustavu.

Hive pruža sučelje za upravljanje podacima pohranjenim u Hadoop ekosustavu. Hive se koristi za mapiranje i rad s HBase tablicama. Hive upiti se pretvaraju u MapReduce poslove kako bi se sakrila složenost povezana sa stvaranjem i pokretanjem MapReduce poslova.


53) Navedite različite složene vrste podataka/zbirke koje Hive podržava

Hive podržava sljedeće složene vrste podataka:

  • Karta
  • struct
  • Poredak
  • Unija

54) Objasnite kako se koristi .hiverc datoteka u Hive-u?

U Hiveu, .hiverc je inicijalizacijska datoteka. Ova se datoteka inicijalno učitava kada pokrenemo sučelje naredbenog retka (CLI) za Hive. Početne vrijednosti parametara možemo postaviti u .hiverc datoteci.


55) Je li moguće stvoriti više od jedne tablice u Hiveu za jednu podatkovnu datoteku?

Da, možemo stvoriti više od jedne sheme tablice za podatkovnu datoteku. Hive sprema shemu u Hive Metastore. Na temelju ove sheme možemo dohvatiti različite rezultate iz istih podataka.


56) Objasnite različite SerDe implementacije dostupne u Hive-u

U Hiveu su dostupne mnoge SerDe implementacije. Također možete napisati vlastitu prilagođenu SerDe implementaciju. Slijede neke poznate SerDe implementacije:

  • OpenCSVSerde
  • RegexSerDe
  • OgraničenoJSONSerDe
  • ByteStreamTypedSerDe

57) Popis funkcija za generiranje tablica dostupnih u Hiveu

Slijedi popis funkcija za generiranje tablice:

  • Raširi (niz)
  • JSON_torka()
  • Stog()
  • Eksplodirati (karta)

58) Što je iskrivljena tablica u košnici?

Iskrivljena tablica je tablica koja češće sadrži vrijednosti stupaca. U Hiveu, kada odredimo tablicu kao SKEWED tijekom stvaranja, iskrivljene vrijednosti zapisuju se u zasebne datoteke, a preostale vrijednosti idu u drugu datoteku.


59) Navedite objekte stvorene naredbom create in MySQL.

Objekti stvoreni naredbom create in MySQL su kako slijedi:

  • Baza podataka
  • indeks
  • Stol
  • korisnik
  • Postupak
  • Okidač
  • događaj
  • Pogled
  • funkcija

60) Kako vidjeti strukturu baze podataka u MySQL?

Kako biste vidjeli strukturu baze podataka u MySQL, Možete koristiti

DESCRIBE naredba. Sintaksa ove naredbe je DESCRIBE Table name;.


Pitanja za SQL intervju za inženjera podataka

61) Kako tražiti određeni String u MySQL stupac tablice?

Upotrijebite regex operator za traženje niza MySQL stupac. Ovdje također možemo definirati razne vrste regularnih izraza i tražiti pomoću regularnog izraza.


62) Objasnite kako analitika podataka i veliki podaci mogu povećati prihod tvrtke?

Slijede načini na koje analitika podataka i veliki podaci mogu povećati prihod tvrtke:

  • Učinkovito koristite podatke kako biste osigurali rast poslovanja.
  • Povećajte vrijednost za kupca.
  • Okretanje analitici radi poboljšanja predviđanja broja osoblja.
  • Smanjenje troškova proizvodnje organizacija.

Ova pitanja za intervju također će vam pomoći u vašem životu