Peste 60 de întrebări și răspunsuri la interviu pentru inginer de date în 2025

Iată întrebările și răspunsurile la interviu pentru Data Engineering pentru candidații mai proaspeți și cu experiență în domeniul inginerilor de date pentru a obține jobul visat.

 

Întrebări de interviu pentru inginer de date pentru cei proaspăți

1) Explicați ingineria datelor.

Ingineria datelor este un termen folosit în Big Data. Se concentrează pe aplicarea colectării și cercetării datelor. Datele generate din diverse surse sunt doar date brute. Ingineria datelor ajută la transformarea acestor date brute în informații utile.


2) Ce este modelarea datelor?

Modelarea datelor este metoda de documentare a designului software complex sub formă de diagramă, astfel încât oricine să poată înțelege cu ușurință. Este o reprezentare conceptuală a obiectelor de date care sunt asociate între diferite obiecte de date și reguli.

Modelarea datelor


3) Enumerați diferite tipuri de scheme de proiectare în Data Modeling

Există în principal două tipuri de scheme în modelarea datelor: 1) Schema stea și 2) Schema fulg de zăpadă.


4) Distingeți între datele structurate și cele nestructurate

Mai jos este o diferență între datele structurate și cele nestructurate:

Parametru Date structurate Date nestructurate
Stocare Baze de date Structuri de fișiere negestionate
Standard ADO.net, ODBC și SQL STMP, XML, CSV și SMS
Instrument de integrare ELT (Extract, Transform, Load) Introducerea manuală a datelor sau procesarea în lot care include coduri
scalare Scalarea schemei este dificilă Scalare este foarte ușoară.

5) Explicați toate componentele unei aplicații Hadoop

Următoarele sunt componente ale aplicației Hadoop:

Hadoop EcoSystem și componente

  • Hadoop Common: Este un set comun de utilități și biblioteci care sunt utilizate de Hadoop.
  • HDFS: Această aplicație Hadoop se referă la sistemul de fișiere în care sunt stocate datele Hadoop. Este un sistem de fișiere distribuit cu lățime de bandă mare.
  • Hadoop MapReduce: Se bazează pe algoritmul pentru furnizarea de prelucrare a datelor la scară largă.
  • Hadoop YARN: Este folosit pentru gestionarea resurselor în cadrul clusterului Hadoop. Poate fi folosit și pentru programarea sarcinilor pentru utilizatori.

6) Ce este NameNode?

Este piesa centrală a HDFS. Stochează date HDFS și urmărește diferite fișiere în clustere. Aici, datele reale nu sunt stocate. Datele sunt stocate în DataNodes.


7) Definiți streaming Hadoop

Este un utilitar care permite crearea hărții și reduce locurile de muncă și le trimite la un anumit cluster.


8) Care este forma completă a HDFS?

HDFS înseamnă Hadoop Distributed File System.


9) Definiți scanerul bloc și bloc în HDFS

Blocurile sunt cea mai mică unitate a unui fișier de date. Hadoop împarte automat fișierele uriașe în bucăți mici.

Block Scanner verifică lista de blocuri care sunt prezentate pe un DataNode.


10) Care sunt pașii care au loc atunci când Block Scanner detectează un bloc de date corupt?

Următorii sunt pașii care apar atunci când Block Scanner găsește un bloc de date corupt:

1) În primul rând, când Block Scanner găsește un bloc de date corupt, DataNode raportează la NameNode

2) NameNode începe procesul de creare a unei noi replici folosind o replică a blocului corupt.

3) Numărul de replici ale replicilor corecte încearcă să se potrivească cu factorul de replicare. Dacă potrivirea găsită, blocul de date corupt nu va fi șters.


11) Numiți două mesaje pe care NameNode le primește de la DataNode?

Există două mesaje pe care NameNode le primește de la DataNode. Acestea sunt 1) Raport de blocare și 2) Bătăi inimii.


12) Listați diferite fișiere de configurare XML în Hadoop?

Există cinci fișiere de configurare XML în Hadoop:

  • Site-ul Mapred
  • Core-site
  • Site-ul HDFS
  • Locul de fire

13) Care sunt cele patru V ale datelor mari?

Patru V-uri ale datelor mari sunt:

  • Viteză
  • Varietate
  • Volum
  • Veridicitatea

14) Explicați caracteristicile Hadoop

Caracteristicile importante ale Hadoop sunt:

  • Este un cadru open-source care este disponibil gratuit.
  • Hadoop este compatibil cu multe tipuri de hardware și ușor de accesat hardware nou într-un anumit nod.
  • Hadoop acceptă procesarea mai rapidă a datelor.
  • Stochează datele în cluster, care este independent de restul operațiunilor.
  • Hadoop permite crearea a 3 replici pentru fiecare bloc cu noduri diferite.

15) Explicați principalele metode de Reducer

  • setup (): Este folosit pentru configurarea parametrilor precum dimensiunea datelor de intrare și memoria cache distribuită.
  • cleanup(): Această metodă este folosită pentru a curăța fișierele temporare.
  • reduce(): este o inimă a reductorului care este apelată o dată pe tastă cu sarcina redusă asociată

16) Care este abrevierea lui COSHH?

Abrevierea COSHH este Programul bazat pe clasificare și optimizare pentru sisteme Hadoop eterogene.


17) Explicați Schema Stelară

Schema stelelor sau Star Join Schema este cel mai simplu tip de schemă Data Warehouse. Este cunoscută sub numele de schemă stelară, deoarece structura sa este ca o stea. În schema Stelei, centrul stelei poate avea un tabel de fapte și un tabel de dimensiuni multiple asociat. Această schemă este utilizată pentru a interoga seturi mari de date.


18) Cum să implementezi o soluție de date mari?

Urmați următorii pași pentru a implementa o soluție de date mari.

1) Integrați datele folosind surse de date precum RDBMS, SAP, MySQL, Salesforce
2) Stocați datele extrase fie în baza de date NoSQL, fie în HDFS.
3) Implementați soluția de date mari folosind cadre de procesare precum Pig, Sparkși MapReduce.


19) Explicați FSCK

File System Check sau FSCK este o comandă folosită de HDFS. Comanda FSCK este utilizată pentru a verifica inconsecvențele și problemele din fișier.


20) Explicați schema fulgilor de nea

A Schema fulgilor de nea este o extensie a unei scheme stelare și adaugă dimensiuni suplimentare. Este așa-numitul fulg de zăpadă deoarece diagrama sa arată ca un fulg de zăpadă. Tabelele de dimensiuni sunt normalizate, ceea ce împarte datele în tabele suplimentare.


21) Distingeți între Schema Stele și Fulgi de Nea

Stea Schema fulgilor de zăpadă
Ierarhiile de dimensiuni sunt stocate în tabelul dimensional. Fiecare ierarhie este stocată în tabele separate.
Șansele de redundanță a datelor sunt mari Șansele de redundanță a datelor sunt scăzute.
Are un design DB foarte simplu Are un design DB complex
Oferiți o modalitate mai rapidă de procesare a cuburilor Procesarea cubului este lentă din cauza îmbinării complexe.

22) Explicați sistemul de fișiere distribuit Hadoop

Hadoop funcționează cu sisteme de fișiere distribuite scalabile precum S3, HFTP FS, FS și HDFS. Sistemul de fișiere distribuit Hadoop este realizat pe sistemul de fișiere Google. Acest sistem de fișiere este proiectat astfel încât să poată rula cu ușurință pe un cluster mare al sistemului informatic.


23) Explicați principalele responsabilități ale unui inginer de date

Inginerii de date au multe responsabilități. Ei gestionează sistemul sursă de date. Inginerii de date simplifică structura complexă a datelor și previn reduplicarea datelor. De multe ori oferă, de asemenea, ELT și transformarea datelor.


24) Care este forma completă de YARN?

Forma completă a YARN este încă un alt negociator de resurse.


25) Listați diferite moduri în Hadoop

Modurile din Hadoop sunt 1) Modul autonom 2) Modul pseudo-distribuit 3) Modul complet distribuit.


26) Cum să obțineți securitatea în Hadoop?

Efectuați următorii pași pentru a obține securitatea în Hadoop:

1) Primul pas este securizarea canalului de autentificare al clientului la server. Furnizați clientului marcat de timp.
2) În a doua etapă, clientul folosește ștampila primită pentru a solicita TGS un bilet de serviciu.
3) În ultimul pas, clientul utilizează biletul de serviciu pentru auto-autentificare la un anumit server.


27) Ce este Heartbeat în Hadoop?

În Hadoop, NameNode și DataNode comunică între ele. Heartbeat este semnalul trimis de DataNode către NameNode în mod regulat pentru a-și arăta prezența.


28) Distingeți între NAS și DAS în Hadoop

NAS DAS
Capacitatea de stocare este de 109 la 1012 în octet. Capacitatea de stocare este de 109 în octet.
Costul de gestionare per GB este moderat. Costul de gestionare per GB este ridicat.
Transmite date utilizând Ethernet sau TCP/IP. Transmite date utilizând IDE/SCSI

29) Enumerați câmpurile sau limbile importante utilizate de inginerul de date

Iată câteva câmpuri sau limbi folosite de inginerul de date:

  • Probabilitatea, precum și algebra liniară
  • Invatare mecanica
  • Analiza tendințelor și regresia
  • Hive baze de date QL și SQL

30) Ce este Big Data?

Este o cantitate mare de date structurate și nestructurate, care nu pot fi procesate cu ușurință prin metodele tradiționale de stocare a datelor. Inginerii de date folosesc Hadoop pentru a gestiona datele mari.


Întrebări de interviu pentru inginer de date pentru cei cu experiență

31) Ce este programarea FIFO?

Este un algoritm de programare Hadoop Job. În această programare FIFO, un reporter selectează joburi dintr-o coadă de lucru, primul job cel mai vechi.


32) Menționați numerele de porturi implicite pe care funcția de urmărire a sarcinilor, NameNode și trackerului de joburi rulează în Hadoop

Numerele de porturi implicite pe care funcția de urmărire a activităților, NameNode și trackerul de joburi rulează în Hadoop sunt următoarele:

  • Task tracker rulează pe portul 50060
  • NameNode rulează pe portul 50070
  • Job Tracker rulează pe portul 50030

33) Cum să dezactivați Block Scanner pe HDFS Data Node

Pentru a dezactiva Block Scanner pe HDFS Data Node, setați dfs.datanode.scan.period.hours la 0.


34) Cum se definește distanța dintre două noduri în Hadoop?

Distanța este egală cu suma distanței până la cele mai apropiate noduri. Metoda getDistance() este folosită pentru a calcula distanța dintre două noduri.


35) De ce să folosiți hardware-ul de bază în Hadoop?

Hardware-ul de bază este ușor de obținut și accesibil. Este un sistem compatibil cu Windows, MS-DOS sau Linux.


36) Definiți factorul de replicare în HDFS

Factorul de replicare este un număr total de replici ale unui fișier din sistem.


37) Ce date sunt stocate în NameNode?

Namenode stochează metadatele pentru HDFS, cum ar fi informații despre bloc și informații despre spațiul de nume.


38) Ce înțelegi prin Rack Awareness?

În clusterul Haddop, Namenode folosește Datanode pentru a îmbunătăți traficul de rețea în timp ce citește sau scrie orice fișier care este mai aproape de rack-ul din apropiere pentru a solicita Citire sau Scriere. Namenode menține id-ul de rack al fiecărui DataNode pentru a obține informații despre rack. Acest concept este numit Rack Awareness în Hadoop.


39) Care sunt funcțiile Secondary NameNode?

Următoarele sunt funcțiile Secondary NameNode:

  • FsImage care stochează o copie a fișierului EditLog și FsImage.
  • Crash NameNode: Dacă NameNode se blochează, atunci FsImage al NameNode secundar poate fi folosit pentru a recrea NameNode.
  • Punct de verificare: este folosit de Secondary NameNode pentru a confirma că datele nu sunt corupte în HDFS.
  • Actualizare: actualizează automat fișierul EditLog și FsImage. Ajută să păstrați actualizat fișierul FsImage de pe NameNode secundar.

40) Ce se întâmplă când NameNode este oprit și utilizatorul trimite o nouă lucrare?

NameNode este singurul punct de eșec în Hadoop, astfel încât utilizatorul nu poate trimite un nou job, nu poate fi executat. Dacă NameNode este oprit, atunci jobul poate eșua, deoarece acest utilizator trebuie să aștepte ca NameNode să repornească înainte de a rula orice job.


41) Care sunt fazele de bază ale reductorului în Hadoop?

Există trei faze de bază ale unui reductor în Hadoop:

1. Shuffle: Aici, Reducer copiază rezultatul din Mapper.

2. Sortare: în sortare, Hadoop sortează intrarea în Reducer folosind aceeași cheie.

3. Reducere: În această fază, valorile de ieșire asociate cu o cheie sunt reduse pentru a consolida datele în rezultatul final.


42) De ce folosește Hadoop obiectul Context?

Cadrul Hadoop folosește obiectul Context cu clasa Mapper pentru a interacționa cu sistemul rămas. Obiectul context primește detaliile de configurare a sistemului și jobul în constructorul său.

Folosim obiectul Context pentru a transmite informațiile în metodele setup(), cleanup() și map(). Acest obiect pune la dispoziție informații vitale în timpul operațiunilor pe hartă.


43) Definiți combinatorul în Hadoop

Este un pas opțional între Map și Reduce. Combiner preia rezultatul din funcția Map, creează perechi valori cheie și trimite la Hadoop Reducer. Sarcina lui Combiner este de a rezuma rezultatul final din Map în înregistrări rezumative cu o cheie identică.


44) Care este factorul de replicare implicit disponibil în HDFS Ce indică?

Factorul de replicare implicit disponibil în HDFS este trei. Factorul de replicare implicit indică faptul că vor exista trei replici ale fiecărei date.


45) Ce înseamnă localitatea datelor în Hadoop?

Într-un sistem Big Data, dimensiunea datelor este uriașă și, de aceea, nu are sens să muți datele în rețea. Acum, Hadoop încearcă să apropie calculul de date. În acest fel, datele rămân locale pentru locația stocată.


46) Definiți Balancer în HDFS

În HDFS, echilibrerul este un instrument administrativ utilizat de personalul administrativ pentru a reechilibra datele între nodurile de date și muta blocurile de la nodurile suprautilizate la cele subutilizate.


47) Explicați modul sigur în HDFS

Este un mod de numai citire al NameNode într-un cluster. Inițial, NameNode este în Safemode. Împiedică scrierea în sistemul de fișiere în Safemode. În acest moment, colectează date și statistici de la toate nodurile de date.


48) Care este importanța cache-ului distribuit în Apache Hadoop?

Hadoop are o caracteristică utilă, așa-numita Distributed Cache, care îmbunătățește performanța joburilor prin memorarea în cache a fișierelor utilizate de aplicații. O aplicație poate specifica un fișier pentru cache folosind configurația JobConf.

Cadrul Hadoop face replica acestor fișiere în nodurile pentru care trebuie executată o sarcină. Acest lucru se face înainte de a începe execuția sarcinii. Distributed Cache acceptă distribuirea de fișiere numai pentru citire, precum și fișiere zip și jar.


49) Ce este Metastore în Hive?

Stochează schema, precum și locația tabelului Hive.

Tabelul Hive definește, mapările și metadatele care sunt stocate în Metastore. Acesta poate fi stocat în RDBMS acceptat de JPOX.


50) Ce înseamnă SerDe în Hive?

SerDe este un nume scurt pentru Serializer sau Deserializer. În Hive, SerDe vă permite să citiți date din tabel și să scrieți într-un anumit câmp în orice format doriți.


51) Listați componentele disponibile în modelul de date Hive

Există următoarele componente în modelul de date Hive:

  • Mese
  • Pereții interni de separare
  • Cupă

52) Explicați utilizarea Hive în ecosistemul Hadoop.

Hive oferă o interfață pentru gestionarea datelor stocate în ecosistemul Hadoop. Hive este folosit pentru maparea și lucrul cu tabele HBase. Interogările Hive sunt convertite în joburi MapReduce pentru a ascunde complexitatea asociată cu crearea și rularea joburilor MapReduce.


53) Listați diferite tipuri/colecție de date complexe sunt acceptate de Hive

Hive acceptă următoarele tipuri de date complexe:

  • Hartă
  • structura
  • Mulțime
  • Uniune

54) Explicați cum este utilizat fișierul .hiverc din Hive?

În Hive, .hiverc este fișierul de inițializare. Acest fișier este încărcat inițial atunci când pornim Command Line Interface (CLI) pentru Hive. Putem seta valorile inițiale ale parametrilor în fișierul .hiverc.


55) Este posibil să creați mai mult de un tabel în Hive pentru un singur fișier de date?

Da, putem crea mai multe scheme de tabel pentru un fișier de date. Hive salvează schema în Hive Metastore. Pe baza acestei scheme, putem prelua rezultate diferite din aceleași date.


56) Explicați diferitele implementări SerDe disponibile în Hive

Există multe implementări SerDe disponibile în Hive. De asemenea, puteți scrie propria implementare personalizată SerDe. Următoarele sunt câteva implementări celebre SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Listează funcțiile de generare a tabelelor disponibile în Hive

Mai jos este o listă de funcții de generare a tabelelor:

  • Exploda (matrice)
  • JSON_tuple()
  • Grămadă()
  • Exploda (hartă)

58) Ce este o masă Skewed în Hive?

Un tabel Skewed este un tabel care conține valorile coloanei mai des. În Hive, când specificăm un tabel ca SKEWED în timpul creării, valorile deformate sunt scrise în fișiere separate, iar valorile rămase merg într-un alt fișier.


59) Enumerați obiectele create de instrucțiunea create în MySQL.

Obiecte create de declarația create în MySQL sunt după cum urmează:

  • Baza de date
  • index
  • Tabel
  • Utilizator
  • Procedură
  • trăgaci
  • eveniment
  • Vizualizare
  • Funcţie

60) Cum să vedeți structura bazei de date în MySQL?

Pentru a vedea structura bazei de date în MySQL, Aveți posibilitatea să utilizați

Comanda DESCRIBE. Sintaxa acestei comenzi este DESCRIBE Table name;.


Întrebări de interviu SQL pentru inginer de date

61) Cum să căutați un anumit șir în MySQL coloana tabelului?

Utilizați operatorul regex pentru a căuta un șir în MySQL coloană. Aici, putem, de asemenea, să definim diferite tipuri de expresii regulate și să căutăm folosind regex.


62) Explicați cum analiza datelor și datele mari pot crește veniturile companiei?

Următoarele sunt modalitățile prin care analiza datelor și big data pot crește veniturile companiei:

  • Utilizați datele în mod eficient pentru a vă asigura că afacerea crește.
  • Creșteți valoarea clientului.
  • Transformarea analitică pentru a îmbunătăți previziunile privind nivelul de personal.
  • Reducerea costurilor de producție ale organizațiilor.

Aceste întrebări de interviu vă vor ajuta, de asemenea, în viva (orale)