60+ dataingenjörsintervjufrågor och svar 2025

Här är Data Engineering-intervjufrågor och svar för både färskare och erfarna dataingenjörskandidater att få sitt drömjobb.

Dataingenjörsintervjufrågor för nybörjare

1) Förklara Data Engineering.

Datateknik är en term som används i big data. Den fokuserar på tillämpningen av datainsamling och forskning. Data som genereras från olika källor är bara rådata. Datateknik hjälper till att omvandla denna rådata till användbar information.

2) Vad är datamodellering?

Datamodellering är metoden för att dokumentera komplex mjukvarudesign som ett diagram så att alla enkelt kan förstå. Det är en konceptuell representation av dataobjekt som är associerade mellan olika dataobjekt och reglerna.

Datamodellering

3) Lista olika typer av designscheman i Data Modeling

Det finns huvudsakligen två typer av scheman i datamodellering: 1) Stjärnschema och 2) Snowflake-schema.

4) Skilj mellan strukturerad och ostrukturerad data

Följande är skillnaden mellan strukturerad och ostrukturerad data:

Parameter	Strukturerade data	Ostrukturerad data
lagring	DBMS	Ohanterade filstrukturer
Standard	ADO.net, ODBC och SQL	STMP, XML, CSV och SMS
Integrationsverktyg	ELT (extrahera, transformera, ladda)	Manuell datainmatning eller batchbehandling som inkluderar koder
skalning	Schema skalning är svårt	Skalning är väldigt lätt.

5) Förklara alla komponenter i en Hadoop-applikation

Följande är komponenter i Hadoop-applikationen:

Hadoop ekosystem och komponenter

Hadoop Common: Det är en vanlig uppsättning verktyg och bibliotek som används av Hadoop.
HDFS: Denna Hadoop-applikation relaterar till filsystemet där Hadoop-data lagras. Det är ett distribuerat filsystem med hög bandbredd.
Hadoop MapReduce: Den är baserad på algoritmen för tillhandahållande av storskalig databehandling.
Hadoop GARN: Det används för resurshantering inom Hadoop-klustret. Den kan också användas för uppgiftsschemaläggning för användare.

6) Vad är NameNode?

Det är mittpunkten i HDFS. Den lagrar data från HDFS och spårar olika filer över klustren. Här lagras inte den faktiska datan. Data lagras i DataNodes.

7) Definiera Hadoop-strömning

Det är ett verktyg som gör det möjligt att skapa kartan och minskar jobb och skickar dem till ett specifikt kluster.

8) Vad är den fullständiga formen av HDFS?

HDFS står för Hadoop Distributed File System.

9) Definiera Block och Block Scanner i HDFS

Block är den minsta enheten i en datafil. Hadoop delar automatiskt upp stora filer i små bitar.

Block Scanner verifierar listan över block som presenteras på en DataNode.

10) Vilka är stegen som inträffar när Block Scanner upptäcker ett skadat datablock?

Följande är stegen som inträffar när Block Scanner hittar ett skadat datablock:

1) Först av allt, när Block Scanner hittar ett skadat datablock, rapporterar DataNode till NameNode

2) NameNode starta processen att skapa en ny replik med en replik av det skadade blocket.

3) Replikeringsantalet för de korrekta replikerna försöker matcha med replikeringsfaktorn. Om matchningen hittas kommer skadat datablock inte att raderas.

11) Nämn två meddelanden som NameNode får från DataNode?

Det finns två meddelanden som NameNode får från DataNode. De är 1) Blockrapport och 2) Heartbeat.

12) Lista över olika XML-konfigurationsfiler i Hadoop?

Det finns fem XML-konfigurationsfiler i Hadoop:

Kartlagd plats
Kärnplats
HDFS-webbplats
Garn-plats

13) Vad är fyra V för big data?

Fyra V:n av big data är:

Hastighet
Variety
Volym
sanningshalten

14) Förklara funktionerna i Hadoop

Viktiga funktioner i Hadoop är:

Det är ett ramverk med öppen källkod som är tillgängligt gratisprogram.
Hadoop är kompatibel med de många typerna av hårdvara och lätt att komma åt ny hårdvara inom en specifik nod.
Hadoop stöder snabbare distribuerad behandling av data.
Den lagrar data i klustret, som är oberoende av resten av operationerna.
Hadoop tillåter att skapa 3 repliker för varje block med olika noder.

15) Förklara de viktigaste metoderna för Reducer

setup (): Den används för att konfigurera parametrar som storleken på indata och distribuerad cache.
cleanup(): Denna metod används för att rensa temporära filer.
reduce(): Det är hjärtat i reduceraren som anropas en gång per nyckel med tillhörande reducerade uppgift

16) Vad är förkortningen av COSHH?

Förkortningen av COSHH är klassificerings- och optimeringsbaserat schema för heterogena Hadoop-system.

17) Förklara stjärnschema

Stjärnskema eller Star Join Schema är den enklaste typen av Data Warehouse-schema. Det är känt som stjärnschema eftersom dess struktur är som en stjärna. I stjärnschemat kan stjärnans mitt ha en faktatabell och flera associerade dimensionstabeller. Detta schema används för att söka efter stora datamängder.

18) Hur distribuerar man en big data-lösning?

Följ följande steg för att distribuera en big data-lösning.

1) Integrera data med hjälp av datakällor som RDBMS, SAP, MySQL, Salesforce
2) Lagra data som extraherats i antingen NoSQL-databas eller HDFS.
3) Implementera big data-lösning med bearbetningsramverk som Pig, Spark, och MapReduce.

19) Förklara FSCK

File System Check eller FSCK är kommandot som används av HDFS. FSCK-kommandot används för att kontrollera inkonsekvenser och problem i filen.

20) Förklara Snowflake Schema

A Snöflingaschema är en förlängning av ett stjärnschema och lägger till ytterligare dimensioner. Den kallas så kallad snöflinga eftersom dess diagram ser ut som en snöflinga. Dimensionstabellerna är normaliserade, vilket delar upp data i ytterligare tabeller.

21) Skilj mellan stjärn- och snöflingaschema

Stjärna	SnowFlake Schema
Dimensionshierarkier lagras i dimensionstabell.	Varje hierarki lagras i separata tabeller.
Chansen för dataredundans är stor	Chansen för dataredundans är låg.
Den har en mycket enkel DB-design	Den har en komplex DB-design
Ge ett snabbare sätt för kubbearbetning	Kubbearbetningen är långsam på grund av den komplexa sammanfogningen.

22) Förklara Hadoop distribuerade filsystem

Hadoop fungerar med skalbara distribuerade filsystem som S3, HFTP FS, FS och HDFS. Hadoop Distributed File System skapas på Googles filsystem. Detta filsystem är utformat på ett sätt att det enkelt kan köras på ett stort kluster av datorsystemet.

23) Förklara en dataingenjörs huvudansvar

Dataingenjörer har många ansvarsområden. De hanterar källsystemet för data. Dataingenjörer förenklar komplex datastruktur och förhindrar reduplicering av data. Många gånger tillhandahåller de också ELT och datatransformation.

24) Vilken är den fullständiga formen av GARN?

Den fullständiga formen av YARN är Yet Another Resource Negotiator.

25) Lista olika lägen i Hadoop

Lägen i Hadoop är 1) Fristående läge 2) Pseudodistribuerat läge 3) Fullt distribuerat läge.

26) Hur uppnår man säkerhet i Hadoop?

Utför följande steg för att uppnå säkerhet i Hadoop:

1) Det första steget är att säkra klientens autentiseringskanal till servern. Ge kunden tidsstämplad.
2) I det andra steget använder klienten den mottagna tidsstämpeln för att begära TGS för en servicebiljett.
3) I det sista steget använder klienten servicebiljett för självautentisering till en specifik server.

27) Vad är Heartbeat i Hadoop?

I Hadoop kommunicerar NameNode och DataNode med varandra. Heartbeat är signalen som skickas av DataNode till NameNode regelbundet för att visa dess närvaro.

28) Skilj mellan NAS och DAS i Hadoop

NAS	DAS
Lagringskapacitet är 10⁹till 10¹² i byte.	Lagringskapacitet är 10⁹i byte.
Förvaltningskostnaden per GB är måttlig.	Förvaltningskostnaden per GB är hög.
Överför data med Ethernet eller TCP/IP.	Överför data med IDE/SCSI

29) Lista viktiga fält eller språk som används av dataingenjören

Här är några fält eller språk som används av dataingenjör:

Sannolikhet samt linjär algebra
Maskininlärning
Trendanalys och regression
Hive QL- och SQL-databaser

30) Vad är Big Data?

Det är en stor mängd strukturerad och ostrukturerad data, som inte enkelt kan bearbetas med traditionella datalagringsmetoder. Dataingenjörer använder Hadoop för att hantera big data.

Dataingenjörsintervjufrågor för erfarna

31) Vad är FIFO-schemaläggning?

Det är en Hadoop jobbschemaläggningsalgoritm. I denna FIFO-schemaläggning väljer en reporter jobb från en arbetskö, det äldsta jobbet först.

32) Nämn standardportnummer på vilka uppgiftsspårare, NameNode och jobbspårare körs i Hadoop

Standardportnummer för vilka uppgiftsspårare, NameNode och jobbspårare körs i Hadoop är följande:

Task tracker körs på 50060 port
NameNode körs på 50070 port
Job Tracker körs på 50030 port

33) Hur man inaktiverar Block Scanner på HDFS Data Node

För att inaktivera Block Scanner på HDFS Data Node, ställ in dfs.datanode.scan.period.hours till 0.

34) Hur definierar man avståndet mellan två noder i Hadoop?

Avståndet är lika med summan av avståndet till de närmaste noderna. Metoden getDistance() används för att beräkna avståndet mellan två noder.

35) Varför använda råvaruhårdvara i Hadoop?

Varuhårdvara är lätt att få tag på och prisvärd. Det är ett system som är kompatibelt med Windows, MS-DOS eller Linux.

36) Definiera replikeringsfaktor i HDFS

Replikeringsfaktor är det totala antalet repliker av en fil i systemet.

37) Vilken data lagras i NameNode?

Namenode lagrar metadata för HDFS som blockinformation och namnområdesinformation.

38) Vad menar du med Rack Awareness?

I Haddop-klustret använder Namenode Datanode för att förbättra nätverkstrafiken medan du läser eller skriver en fil som är närmare det närliggande racket för att läsa eller skriva begäran. Namenode upprätthåller rack-ID för varje DataNode för att erhålla rackinformation. Detta koncept kallas Rack Awareness i Hadoop.

39) Vilka funktioner har Secondary NameNode?

Följande är funktionerna för Secondary NameNode:

FsImage som lagrar en kopia av EditLog- och FsImage-filen.
NameNode-krasch: Om NameNode kraschar, kan Secondary NameNodes FsImage användas för att återskapa NameNode.
Kontrollpunkt: Den används av Secondary NameNode för att bekräfta att data inte är skadade i HDFS.
Uppdatering: Den uppdaterar automatiskt EditLog- och FsImage-filen. Det hjälper till att hålla FsImage-filen på Secondary NameNode uppdaterad.

40) Vad händer när NameNode är nere och användaren skickar in ett nytt jobb?

NameNode är den enda felpunkten i Hadoop så att användaren inte kan skicka in ett nytt jobb kan inte köras. Om NameNode är nere kan jobbet misslyckas, på grund av detta måste användaren vänta på att NameNode startar om innan något jobb körs.

41) Vilka är de grundläggande faserna av reducerare i Hadoop?

Det finns tre grundläggande faser av en reducerare i Hadoop:

1. Blanda: Här kopierar Reducer utdata från Mapper.

2. Sortera: I sortering sorterar Hadoop inmatningen till Reducer med samma tangent.

3. Reducera: I denna fas reduceras utdatavärden som är associerade med en nyckel för att konsolidera data till den slutliga utmatningen.

42) Varför använder Hadoop Context-objekt?

Hadoop-ramverket använder Context-objekt med Mapper-klassen för att interagera med det återstående systemet. Kontextobjekt hämtar systemkonfigurationsdetaljerna och jobbet i sin konstruktor.

Vi använder Context-objekt för att skicka informationen i metoderna setup(), cleanup() och map(). Detta objekt gör viktig information tillgänglig under kartoperationerna.

43) Definiera Combiner i Hadoop

Det är ett valfritt steg mellan Map och Reduce. Combiner tar utdata från kartfunktionen, skapar nyckelvärdespar och skickar till Hadoop Reducer. Combiners uppgift är att sammanfatta det slutliga resultatet från Map till sammanfattande poster med en identisk nyckel.

44) Vilken är standardreplikeringsfaktorn tillgänglig i HDFS. Vad den indikerar?

Standardreplikeringsfaktorn i HDFS är tre. Standardreplikeringsfaktor indikerar att det kommer att finnas tre repliker av varje data.

45) Vad menar du med datalokalitet i Hadoop?

I ett Big Data-system är datastorleken enorm, och det är därför det inte är meningsfullt att flytta data över nätverket. Nu försöker Hadoop flytta beräkningen närmare data. På så sätt förblir data lokal på den lagrade platsen.

46) Definiera Balancer i HDFS

I HDFS är balancern en administratör som används av administratörspersonal för att balansera om data över DataNodes och flyttar block från överutnyttjade till underutnyttjade noder.

47) Förklara felsäkert läge i HDFS

Det är ett skrivskyddat läge för NameNode i ett kluster. Ursprungligen är NameNode i Säkert läge. Det förhindrar skrivning till filsystemet i Säkert läge. För närvarande samlar den in data och statistik från alla DataNodes.

48) Vad är betydelsen av distribuerad cache i Apache Hadoop?

Hadoop har en användbar hjälpfunktion så kallad Distributed Cache som förbättrar prestanda för jobb genom att cachelagra filerna som används av applikationer. En applikation kan ange en fil för cachen med hjälp av JobConf-konfiguration.

Hadoop-ramverket gör repliker av dessa filer till noderna till en som en uppgift måste utföras. Detta görs innan utförandet av uppgiften startar. Distributed Cache stöder distribution av skrivskyddade filer samt zips och jars-filer.

49) Vad är Metastore i Hive?

Den lagrar såväl schemat som Hive-tabellplatsen.

Hive-tabellen definierar, mappningar och metadata som lagras i Metastore. Detta kan lagras i RDBMS som stöds av JPOX.

50) Vad menas med SerDe i Hive?

SerDe är ett kortnamn för Serializer eller Deserializer. I Hive tillåter SerDe att läsa data från tabell till och skriva till ett specifikt fält i vilket format du vill.

51) Lista komponenter som är tillgängliga i Hive-datamodellen

Det finns följande komponenter i Hive-datamodellen:

Bord
partitioner
Skopor

52) Förklara användningen av Hive i Hadoop ekosystem.

Hive tillhandahåller ett gränssnitt för att hantera data lagrad i Hadoop ekosystem. Hive används för att kartlägga och arbeta med HBase-tabeller. Hive-frågor konverteras till MapReduce-jobb för att dölja komplexiteten i samband med att skapa och köra MapReduce-jobb.

53) Lista olika komplexa datatyper/insamling stöds av Hive

Hive stöder följande komplexa datatyper:

Karta
Struktur
array
Unionen

54) Förklara hur .hiverc-filen i Hive används?

I Hive är .hiverc initialiseringsfilen. Den här filen laddas initialt när vi startar Command Line Interface (CLI) för Hive. Vi kan ställa in initialvärdena för parametrar i .hiverc-filen.

55) Är det möjligt att skapa mer än en tabell i Hive för en enda datafil?

Ja, vi kan skapa mer än ett tabellschema för en datafil. Hive sparar schemat i Hive Metastore. Baserat på detta schema kan vi hämta olika resultat från samma data.

56) Förklara olika SerDe-implementationer tillgängliga i Hive

Det finns många SerDe-implementationer tillgängliga i Hive. Du kan också skriva din egen anpassade SerDe-implementering. Följande är några kända SerDe-implementationer:

ÖppnaCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Lista tabellgenererande funktioner tillgängliga i Hive

Följande är en lista över tabellgenererande funktioner:

Explodera (array)
JSON_tuple()
Stack()
Explodera(karta)

58) Vad är ett skevt bord i Hive?

En skev tabell är en tabell som innehåller kolumnvärden oftare. I Hive, när vi anger en tabell som SKEWED under skapandet, skrivs skeva värden in i separata filer och återstående värden går till en annan fil.

59) Lista över objekt som skapats av create-satsen i MySQL.

Objekt skapade av skapa uttalande i MySQL är följande:

Databas
index
Bord
Användare
Tillvägagångssätt
Trigger
Event
Visa
Funktion

60) Hur man ser databasstrukturen i MySQL?

För att se databasstrukturen i MySQL, Kan du använda

Kommandot DESCRIBE. Syntaxen för detta kommando är DESCRIBE Table name;.

SQL-intervjufrågor för dataingenjör

61) Hur man söker efter en specifik sträng i MySQL tabell kolumn?

Använd regex-operatorn för att söka efter en sträng i MySQL kolumn. Här kan vi också definiera olika typer av reguljära uttryck och söka efter med hjälp av regex.

62) Förklara hur dataanalys och big data kan öka företagets intäkter?

Följande är sätten hur dataanalys och big data kan öka företagets intäkter:

Använd data effektivt för att säkerställa att verksamheten växer.
Öka kundvärdet.
Vänd analytisk för att förbättra prognoser för personalnivåer.
Att skära ner produktionskostnaderna för organisationerna.

Dessa intervjufrågor kommer också att hjälpa dig i din viva (orals)