60+ pitanja i odgovora za intervju s inženjerom podataka u 2025
Pitanja za intervju s inženjerom podataka za brucoše
1) Objasnite Data Engineering.
Podatkovni inženjering je termin koji se koristi u velikim podacima. Usredotočen je na primjenu prikupljanja podataka i istraživanja. Podaci dobiveni iz raznih izvora samo su sirovi podaci. Podatkovni inženjering pomaže pretvoriti ove neobrađene podatke u korisne informacije.
2) Što je modeliranje podataka?
Modeliranje podataka je metoda dokumentiranja složenog dizajna softvera kao dijagrama tako da ga svatko može lako razumjeti. To je konceptualni prikaz podatkovnih objekata koji su povezani između različitih podatkovnih objekata i pravila.
3) Navedite različite vrste shema dizajna u modeliranju podataka
Postoje uglavnom dvije vrste shema u modeliranju podataka: 1) shema zvijezda i 2) shema pahuljica.
4) Razlikovati strukturirane i nestrukturirane podatke
Slijedi razlika između strukturiranih i nestrukturiranih podataka:
Parametar | Strukturirani podaci | Nestrukturirani podaci |
---|---|---|
Čuvanje | DBMS | Neupravljane strukture datoteka |
Servo | ADO.net, ODBC i SQL | STMP, XML, CSV i SMS |
Alat za integraciju | ELT (ekstrah, transformacija, učitavanje) | Ručni unos podataka ili skupna obrada koja uključuje kodove |
skaliranja | Skaliranje sheme je teško | Skaliranje je vrlo jednostavno. |
5) Objasnite sve komponente Hadoop aplikacije
Slijede komponente Hadoop aplikacije:
- Hadoop Common: To je uobičajeni skup uslužnih programa i biblioteka koje koristi Hadoop.
- HDFS: Ova Hadoop aplikacija odnosi se na datotečni sustav u kojem su pohranjeni Hadoop podaci. To je distribuirani datotečni sustav velike propusnosti.
- Hadoop MapReduce: Temelji se na algoritmu za pružanje velike obrade podataka.
- Hadoop YARN: Koristi se za upravljanje resursima unutar Hadoop klastera. Također se može koristiti za raspoređivanje zadataka za korisnike.
6) Što je NameNode?
To je središnji dio HDFS-a. Pohranjuje podatke HDFS-a i prati razne datoteke u klasterima. Ovdje se stvarni podaci ne pohranjuju. Podaci se pohranjuju u DataNodes.
7) Definirajte Hadoop streaming
To je uslužni program koji omogućuje stvaranje karte i smanjuje poslove i šalje ih u određeni klaster.
8) Koji je puni oblik HDFS-a?
HDFS je skraćenica za Hadoop Distributed File System.
9) Definirajte Block i Block Scanner u HDFS-u
Blokovi su najmanja jedinica podatkovne datoteke. Hadoop automatski dijeli ogromne datoteke na male dijelove.
Block Scanner provjerava popis blokova koji su predstavljeni na DataNode.
10) Koji su koraci koji se događaju kada Block Scanner otkrije oštećeni blok podataka?
Slijede koraci koji se događaju kada Block Scanner pronađe oštećeni blok podataka:
1) Prije svega, kada Block Scanner pronađe oštećeni blok podataka, DataNode izvješćuje NameNode
2) NameNode pokreće proces stvaranja nove replike koristeći repliku oštećenog bloka.
3) Broj replikacija ispravnih replika pokušava se uskladiti s faktorom replikacije. Ako se pronađe podudaranje, oštećeni blok podataka neće biti izbrisan.
11) Imenujte dvije poruke koje NameNode dobiva od DataNode?
Postoje dvije poruke koje NameNode dobiva od DataNode. To su 1) Izvješće o blokovima i 2) Otkucaji srca.
12) Navedite razne XML konfiguracijske datoteke u Hadoopu?
Postoji pet XML konfiguracijskih datoteka u Hadoopu:
- Mapred-site
- Core-site
- HDFS-stranica
- Mjesto pređe
13) Što su četiri V velikih podataka?
Četiri V velikih podataka su:
- Brzina
- Raznolikost
- Volumen
- Istinitost
14) Objasnite značajke Hadoopa
Važne karakteristike Hadoopa su:
- To je okvir otvorenog koda koji je dostupan besplatno.
- Hadoop je kompatibilan s mnogim vrstama hardvera i lako mu je pristupiti novom hardveru unutar određenog čvora.
- Hadoop podržava bržu distribuiranu obradu podataka.
- Pohranjuje podatke u klaster, koji je neovisan o ostalim operacijama.
- Hadoop omogućuje stvaranje 3 replike za svaki blok s različitim čvorovima.
15) Objasnite glavne metode reduktora
- setup (): Koristi se za konfiguriranje parametara poput veličine ulaznih podataka i distribuirane predmemorije.
- cleanup(): Ova se metoda koristi za čišćenje privremenih datoteka.
- smanji(): To je srce reduktora koji se poziva jednom po ključu s pridruženim smanjenim zadatkom
16) Koja je skraćenica od COSHH?
Skraćenica od COSHH je Classification and Optimization based Schedule for Heterogeneous Hadoop systems.
17) Objasnite zvjezdanu shemu
Shema zvijezda ili Star Join Schema je najjednostavniji tip sheme skladišta podataka. Poznata je kao zvjezdana shema jer je njena struktura poput zvijezde. U shemi zvijezda, središte zvijezde može imati jednu tablicu činjenica i više povezanih tablica dimenzija. Ova se shema koristi za postavljanje upita velikim skupovima podataka.
18) Kako implementirati rješenje za velike podatke?
Slijedite sljedeće korake kako biste implementirali rješenje za velike podatke.
1) Integrirajte podatke pomoću izvora podataka kao što su RDBMS, SAP, MySQL, Salesforce
2) Pohranite izvađene podatke u NoSQL bazu podataka ili HDFS.
3) Implementirajte rješenje za velike podatke pomoću okvira za obradu kao što je Pig, Sparki MapReduce.
19) Objasnite FSCK
File System Check ili FSCK je naredba koju koristi HDFS. Naredba FSCK koristi se za provjeru nedosljednosti i problema u datoteci.
20) Objasnite shemu pahuljice
A Shema snježne pahulje je proširenje zvjezdane sheme i dodaje dodatne dimenzije. Tako se zove pahuljica jer njen dijagram izgleda kao pahuljica. Tablice dimenzija su normalizirane, što dijeli podatke u dodatne tablice.
21) Razlikujte shemu zvijezda i pahuljica
zvijezda | Shema snježne pahulje |
Hijerarhije dimenzija pohranjene su u tablici dimenzija. | Svaka hijerarhija je pohranjena u zasebne tablice. |
Šanse za redundantnost podataka su visoke | Šanse za redundantnost podataka su niske. |
Ima vrlo jednostavan DB dizajn | Ima složen dizajn DB-a |
Omogućite brži način obrade kocke | Obrada kocke je spora zbog složenog spajanja. |
22) Objasnite Hadoop distribuirani datotečni sustav
Hadoop radi sa skalabilnim distribuiranim datotečnim sustavima kao što su S3, HFTP FS, FS i HDFS. Hadoop Distribuirani datotečni sustav napravljen je na Google datotečnom sustavu. Ovaj datotečni sustav dizajniran je na način da se može lako pokrenuti na velikom klasteru računalnog sustava.
23) Objasnite glavne odgovornosti podatkovnog inženjera
Inženjeri podataka imaju mnoge odgovornosti. Oni upravljaju izvornim sustavom podataka. Inženjeri podataka pojednostavljuju složenu strukturu podataka i sprječavaju dupliranje podataka. Mnogo puta također pružaju ELT i transformaciju podataka.
24) Koji je puni oblik PREĐE?
Puni oblik YARN-a je još jedan pregovarač o resursima.
25) Navedite različite načine rada u Hadoopu
Načini rada u Hadoopu su 1) Samostalni način 2) Pseudo distribuirani način 3) Potpuno distribuirani način.
26) Kako postići sigurnost u Hadoopu?
Izvršite sljedeće korake za postizanje sigurnosti u Hadoopu:
1) Prvi korak je osigurati kanal provjere autentičnosti klijenta na poslužitelju. Klijentu dostavite vremenski žig.
2) U drugom koraku, klijent koristi primljeni vremenski žig da zatraži TGS za servisnu kartu.
3) U zadnjem koraku, klijent koristi servisnu kartu za samoprovjeru autentičnosti određenom poslužitelju.
27) Što je Heartbeat u Hadoopu?
U Hadoopu, NameNode i DataNode međusobno komuniciraju. Otkucaj srca je signal koji DataNode redovito šalje NameNodeu kako bi pokazao svoju prisutnost.
28) Razlikujte NAS i DAS u Hadoopu
NAS | DAS |
Kapacitet skladištenja je 109 na 1012 u bajtu. | Kapacitet skladištenja je 109 u bajtu. |
Trošak upravljanja po GB je umjeren. | Trošak upravljanja po GB je visok. |
Prijenos podataka koristeći Ethernet ili TCP/IP. | Prijenos podataka pomoću IDE/SCSI |
29) Navedite važna polja ili jezike koje koristi inženjer podataka
Evo nekoliko polja ili jezika koje koristi inženjer podataka:
- Vjerojatnost kao i linearna algebra
- Strojno učenje
- Analiza trenda i regresija
- Hive QL i SQL baze podataka
30) Što je Big Data?
To je velika količina strukturiranih i nestrukturiranih podataka, koji se ne mogu lako obraditi tradicionalnim metodama pohrane podataka. Inženjeri podataka koriste Hadoop za upravljanje velikim podacima.
Pitanja za intervju s inženjerom podataka za iskusne
31) Što je FIFO raspoređivanje?
To je Hadoop algoritam za raspoređivanje poslova. U ovom FIFO rasporedu, izvjestitelj odabire poslove iz radnog reda, najstariji posao prvi.
32) Navedite zadane brojeve priključaka na kojima se alat za praćenje zadataka, NameNode i alat za praćenje poslova pokreću u Hadoopu
Zadani brojevi priključaka na kojima se alat za praćenje zadataka, NameNode i alat za praćenje poslova izvode u Hadoopu su sljedeći:
- Praćenje zadataka radi na portu 50060
- NameNode radi na 50070 portu
- Job Tracker radi na portu 50030
33) Kako onemogućiti Block Scanner na HDFS podatkovnom čvoru
Kako biste onemogućili Block Scanner na HDFS podatkovnom čvoru, postavite dfs.datanode.scan.period.hours na 0.
34) Kako definirati udaljenost između dva čvora u Hadoopu?
Udaljenost je jednaka zbroju udaljenosti do najbližih čvorova. Metoda getDistance() koristi se za izračunavanje udaljenosti između dva čvora.
35) Zašto koristiti uobičajeni hardver u Hadoopu?
Standardni hardver je lako nabaviti i pristupačan je. To je sustav koji je kompatibilan sa Windows, MS-DOS ili Linux.
36) Definirajte faktor replikacije u HDFS-u
Faktor replikacije je ukupan broj replika datoteke u sustavu.
37) Koji su podaci pohranjeni u NameNode?
Namenode pohranjuje metapodatke za HDFS kao što su informacije o bloku i informacije o prostoru imena.
38) Što mislite pod Rack Awareness?
U klasteru Haddop, Namenode koristi Datanode za poboljšanje mrežnog prometa tijekom čitanja ili pisanja bilo koje datoteke koja je bliža obližnjem stalku za zahtjev za čitanje ili pisanje. Namenode održava rack id svakog DataNode-a za dobivanje rack informacija. Ovaj koncept se u Hadoopu naziva Rack Awareness.
39) Koje su funkcije Secondary NameNode?
Slijede funkcije Secondary NameNode:
- FsImage koji pohranjuje kopiju EditLog i FsImage datoteke.
- Pad NameNode: Ako se NameNode sruši, tada se FsImage sekundarnog NameNode može koristiti za ponovno stvaranje NameNode.
- Kontrolna točka: koristi ju sekundarni čvor imena za potvrdu da podaci nisu oštećeni u HDFS-u.
- Ažuriranje: automatski ažurira EditLog i FsImage datoteku. Pomaže ažurirati datoteku FsImage na sekundarnom čvoru imena.
40) Što se događa kada NameNode ne radi, a korisnik pošalje novi posao?
NameNode je jedina točka kvara u Hadoopu tako da korisnik ne može poslati novi posao koji se ne može izvršiti. Ako NameNode ne radi, posao možda neće uspjeti jer korisnik mora pričekati da se NameNode ponovno pokrene prije pokretanja bilo kojeg posla.
41) Koje su osnovne faze reduktora u Hadoopu?
Tri su osnovne faze reduktora u Hadoopu:
1. Shuffle: Ovdje Reducer kopira izlaz iz Mappera.
2. Sortiraj: U sortiranju, Hadoop sortira unos u Reducer koristeći isti ključ.
3. Smanjenje: U ovoj fazi, izlazne vrijednosti povezane s ključem se smanjuju kako bi se podaci konsolidirali u konačni izlaz.
42) Zašto Hadoop koristi Context object?
Hadoop framework koristi objekt Context s klasom Mapper kako bi komunicirao s preostalim sustavom. Kontekstni objekt dobiva detalje konfiguracije sustava i posao u svom konstruktoru.
Koristimo objekt Context kako bismo proslijedili informacije u metodama setup(), cleanup() i map(). Ovaj objekt čini vitalne informacije dostupnima tijekom rada s kartom.
43) Definirajte Combiner u Hadoopu
To je neobavezan korak između Map i Reduce. Combiner uzima izlaz iz funkcije Map, stvara parove ključnih vrijednosti i šalje ih u Hadoop Reducer. Zadatak kombinatora je sažeti konačni rezultat iz Mape u sumarne zapise s identičnim ključem.
44) Koji je zadani faktor replikacije dostupan u HDFS-u. Što označava?
Zadani faktor replikacije dostupan u HDFS-u je tri. Zadani faktor replikacije označava da će postojati tri replike svakog podatka.
45) Što mislite pod Lokalitet podataka u Hadoopu?
U Big Data sustavu veličina podataka je ogromna i zato nema smisla premještati podatke preko mreže. Sada Hadoop pokušava približiti računanje podacima. Na taj način podaci ostaju lokalni na pohranjenoj lokaciji.
46) Definirajte Balancer u HDFS-u
U HDFS-u, balanser je administrativni alat koji koristi administratorsko osoblje za ponovno balansiranje podataka na DataNodes i premješta blokove s pretjerano iskorištenih na nedovoljno iskorištene čvorove.
47) Objasnite Siguran način rada u HDFS-u
To je način rada samo za čitanje za NameNode u klasteru. U početku je NameNode u sigurnom načinu rada. Sprječava pisanje u datotečni sustav u sigurnom načinu rada. U ovom trenutku prikuplja podatke i statistiku sa svih čvorova podataka.
48) Koja je važnost distribuirane predmemorije u Apache Hadoopu?
Hadoop ima korisnu uslužnu značajku takozvanu Distributed Cache koja poboljšava izvedbu poslova predmemoriranjem datoteka koje koriste aplikacije. Aplikacija može odrediti datoteku za predmemoriju pomoću JobConf konfiguracije.
Hadoop framework čini repliku ovih datoteka na čvorovima koji zadatak treba izvršiti. To se radi prije početka izvršavanja zadatka. Distribuirana predmemorija podržava distribuciju datoteka samo za čitanje, kao i zip i jar datoteka.
49) Što je Metastore u Hiveu?
Pohranjuje shemu kao i lokaciju Hive tablice.
Hive tablica definira, preslikava i metapodatke koji su pohranjeni u Metastoreu. Ovo se može pohraniti u RDBMS koji podržava JPOX.
50) Što znači SerDe u košnici?
SerDe je skraćeni naziv za Serializer ili Deserializer. U Hive-u, SerDe omogućuje čitanje podataka iz tablice i pisanje u određeno polje u bilo kojem formatu koji želite.
51) Navedite komponente dostupne u podatkovnom modelu Hive
U modelu podataka Hive postoje sljedeće komponente:
- Tablice
- Particije
- Korpe
52) Objasnite korištenje Hive-a u Hadoop ekosustavu.
Hive pruža sučelje za upravljanje podacima pohranjenim u Hadoop ekosustavu. Hive se koristi za mapiranje i rad s HBase tablicama. Hive upiti se pretvaraju u MapReduce poslove kako bi se sakrila složenost povezana sa stvaranjem i pokretanjem MapReduce poslova.
53) Navedite različite složene vrste podataka/zbirke koje Hive podržava
Hive podržava sljedeće složene vrste podataka:
- Karta
- struct
- Poredak
- Unija
54) Objasnite kako se koristi .hiverc datoteka u Hive-u?
U Hiveu, .hiverc je inicijalizacijska datoteka. Ova se datoteka inicijalno učitava kada pokrenemo sučelje naredbenog retka (CLI) za Hive. Početne vrijednosti parametara možemo postaviti u .hiverc datoteci.
55) Je li moguće stvoriti više od jedne tablice u Hiveu za jednu podatkovnu datoteku?
Da, možemo stvoriti više od jedne sheme tablice za podatkovnu datoteku. Hive sprema shemu u Hive Metastore. Na temelju ove sheme možemo dohvatiti različite rezultate iz istih podataka.
56) Objasnite različite SerDe implementacije dostupne u Hive-u
U Hiveu su dostupne mnoge SerDe implementacije. Također možete napisati vlastitu prilagođenu SerDe implementaciju. Slijede neke poznate SerDe implementacije:
- OpenCSVSerde
- RegexSerDe
- OgraničenoJSONSerDe
- ByteStreamTypedSerDe
57) Popis funkcija za generiranje tablica dostupnih u Hiveu
Slijedi popis funkcija za generiranje tablice:
- Raširi (niz)
- JSON_torka()
- Stog()
- Eksplodirati (karta)
58) Što je iskrivljena tablica u košnici?
Iskrivljena tablica je tablica koja češće sadrži vrijednosti stupaca. U Hiveu, kada odredimo tablicu kao SKEWED tijekom stvaranja, iskrivljene vrijednosti zapisuju se u zasebne datoteke, a preostale vrijednosti idu u drugu datoteku.
59) Navedite objekte stvorene naredbom create in MySQL.
Objekti stvoreni naredbom create in MySQL su kako slijedi:
- Baza podataka
- indeks
- Stol
- korisnik
- Postupak
- Okidač
- događaj
- Pogled
- funkcija
60) Kako vidjeti strukturu baze podataka u MySQL?
Kako biste vidjeli strukturu baze podataka u MySQL, Možete koristiti
DESCRIBE naredba. Sintaksa ove naredbe je DESCRIBE Table name;
.
Pitanja za SQL intervju za inženjera podataka
61) Kako tražiti određeni String u MySQL stupac tablice?
Upotrijebite regex operator za traženje niza MySQL stupac. Ovdje također možemo definirati razne vrste regularnih izraza i tražiti pomoću regularnog izraza.
62) Objasnite kako analitika podataka i veliki podaci mogu povećati prihod tvrtke?
Slijede načini na koje analitika podataka i veliki podaci mogu povećati prihod tvrtke:
- Učinkovito koristite podatke kako biste osigurali rast poslovanja.
- Povećajte vrijednost za kupca.
- Okretanje analitici radi poboljšanja predviđanja broja osoblja.
- Smanjenje troškova proizvodnje organizacija.
Ova pitanja za intervju također će vam pomoći u vašem životu