60+ dataingeniørinterviewspørgsmål og svar i 2025

Her er Data Engineering-interviewspørgsmål og svar til både friskere og erfarne dataingeniørkandidater til at få deres drømmejob.

Dataingeniørinterviewspørgsmål til nybegyndere

1) Forklar Data Engineering.

Datateknik er et begreb, der bruges i big data. Det fokuserer på anvendelsen af dataindsamling og forskning. De data, der genereres fra forskellige kilder, er kun rådata. Datateknik hjælper med at konvertere disse rådata til nyttig information.

2) Hvad er datamodellering?

Datamodellering er metoden til at dokumentere komplekst softwaredesign som et diagram, så enhver let kan forstå. Det er en konceptuel repræsentation af dataobjekter, der er forbundet mellem forskellige dataobjekter og reglerne.

Datamodellering

3) Angiv forskellige typer designskemaer i Data Modeling

Der er hovedsageligt to typer skemaer i datamodellering: 1) Stjerneskema og 2) Snowflake-skema.

4) Skelne mellem strukturerede og ustrukturerede data

Følgende er forskellen mellem strukturerede og ustrukturerede data:

Parameter	Strukturerede data	Ustrukturerede data
Opbevaring	DBMS	Uadministrerede filstrukturer
Standard	ADO.net, ODBC og SQL	STMP, XML, CSV og SMS
Integrationsværktøj	ELT (ekstrahere, transformere, indlæse)	Manuel dataindtastning eller batchbehandling, der inkluderer koder
skalering	Skemaskalering er vanskelig	Skalering er meget let.

5) Forklar alle komponenter i en Hadoop-applikation

Følgende er komponenter i Hadoop-applikationen:

Hadoop økosystem og komponenter

Hadoop Common: Det er et fælles sæt af hjælpeprogrammer og biblioteker, der bruges af Hadoop.
HDFS: Denne Hadoop-applikation relaterer sig til det filsystem, hvori Hadoop-dataene er gemt. Det er et distribueret filsystem med høj båndbredde.
Hadoop MapReduce: Den er baseret på algoritmen til levering af databehandling i stor skala.
Hadoop GARN: Det bruges til ressourcestyring i Hadoop-klyngen. Det kan også bruges til opgaveplanlægning for brugere.

6) Hvad er NameNode?

Det er midtpunktet i HDFS. Det gemmer data fra HDFS og sporer forskellige filer på tværs af klyngerne. Her bliver de faktiske data ikke gemt. Dataene gemmes i DataNodes.

7) Definer Hadoop-streaming

Det er et værktøj, som giver mulighed for at oprette kortet og reducerer job og sender dem til en bestemt klynge.

8) Hvad er den fulde form for HDFS?

HDFS står for Hadoop Distributed File System.

9) Definer Blok og Blok Scanner i HDFS

Blokke er den mindste enhed i en datafil. Hadoop opdeler automatisk store filer i små stykker.

Block Scanner verificerer listen over blokke, der præsenteres på en DataNode.

10) Hvad er de trin, der sker, når Block Scanner registrerer en beskadiget datablok?

Følgende er de trin, der opstår, når Block Scanner finder en beskadiget datablok:

1) Først og fremmest, når Block Scanner finder en beskadiget datablok, rapporterer DataNode til NameNode

2) NameNode start processen med at oprette en ny replika ved hjælp af en replika af den korrupte blok.

3) Replikationsantal af de korrekte replikaer forsøger at matche med replikationsfaktoren. Hvis match fundet korrupte data blok vil ikke blive slettet.

11) Nævn to beskeder, som NameNode får fra DataNode?

Der er to beskeder, som NameNode får fra DataNode. De er 1) Blokrapport og 2) Hjerteslag.

12) Liste over forskellige XML-konfigurationsfiler i Hadoop?

Der er fem XML-konfigurationsfiler i Hadoop:

Kortlagt websted
Kerne-site
HDFS-site
Garn-site

13) Hvad er fire V'er af big data?

Fire V'er af big data er:

Velocity
Variation
Bind
Veracity

14) Forklar funktionerne i Hadoop

Vigtige funktioner i Hadoop er:

Det er en open source-ramme, der er tilgængelig freeware.
Hadoop er kompatibel med de mange typer hardware og nem adgang til ny hardware inden for en specifik node.
Hadoop understøtter hurtigere distribueret behandling af data.
Den gemmer dataene i klyngen, som er uafhængig af resten af operationerne.
Hadoop gør det muligt at oprette 3 replikaer for hver blok med forskellige noder.

15) Forklar de vigtigste metoder til Reducer

setup (): Det bruges til at konfigurere parametre som størrelsen af inputdata og distribueret cache.
cleanup(): Denne metode bruges til at rense midlertidige filer.
reduce(): Det er hjertet af reduceringen, som kaldes én gang pr. nøgle med den tilhørende reducerede opgave

16) Hvad er forkortelsen for COSHH?

Forkortelsen af COSHH er klassificerings- og optimeringsbaseret skema for heterogene Hadoop-systemer.

17) Forklar Stjerneskema

Stjerneskema eller Star Join Schema er den enkleste type Data Warehouse-skema. Det er kendt som stjerneskema, fordi dets struktur er som en stjerne. I stjerneskemaet kan midten af stjernen have én faktatabel og flere tilknyttede dimensionstabel. Dette skema bruges til at forespørge på store datasæt.

18) Hvordan implementerer man en big data-løsning?

Følg følgende trin for at implementere en big data-løsning.

1) Integrer data ved hjælp af datakilder som RDBMS, SAP, MySQL, Salesforce
2) Gem data udtrukne data i enten NoSQL-database eller HDFS.
3) Implementer big data-løsning ved hjælp af behandlingsrammer som Pig, Spark, og MapReduce.

19) Forklar FSCK

File System Check eller FSCK er kommandoen, der bruges af HDFS. FSCK-kommandoen bruges til at kontrollere uoverensstemmelser og problemer i filen.

20) Forklar Snowflake Schema

A Snefnugskema er en udvidelse af et stjerneskema, og det tilføjer yderligere dimensioner. Det er såkaldt som snefnug, fordi dets diagram ligner et snefnug. Dimensionstabellerne er normaliserede, hvilket opdeler data i yderligere tabeller.

21) Skelne mellem stjerne- og snefnugskema

Stjerne	Snefnug-skema
Dimensionshierarkier gemmes i dimensionstabel.	Hvert hierarki er gemt i separate tabeller.
Chancerne for dataredundans er høje	Chancerne for dataredundans er lave.
Den har et meget simpelt DB-design	Det har et komplekst DB-design
Giv en hurtigere måde til kubebehandling	Kubebehandlingen er langsom på grund af den komplekse sammenføjning.

22) Forklar Hadoop distribuerede filsystem

Hadoop arbejder med skalerbare distribuerede filsystemer som S3, HFTP FS, FS og HDFS. Hadoop Distributed File System er lavet på Googles filsystem. Dette filsystem er designet på en måde, så det nemt kan køre på en stor klynge af computersystemet.

23) Forklar en dataingeniørs hovedansvar

Dataingeniører har mange ansvarsområder. De administrerer datakildesystemet. Dataingeniører forenkler kompleks datastruktur og forhindrer reduplicering af data. Mange gange leverer de også ELT og datatransformation.

24) Hvad er den fulde form for GARN?

Den fulde form for YARN er Yet Another Resource Negotiator.

25) Angiv forskellige tilstande i Hadoop

Tilstande i Hadoop er 1) Standalone-tilstand 2) Pseudo-distribueret tilstand 3) Fuldt distribueret tilstand.

26) Hvordan opnår man sikkerhed i Hadoop?

Udfør følgende trin for at opnå sikkerhed i Hadoop:

1) Det første trin er at sikre klientens autentificeringskanal til serveren. Giv kunden tidsstemplet.
2) I det andet trin bruger klienten det modtagne tidsstemplet til at anmode om TGS om en servicebillet.
3) I det sidste trin bruger klienten servicebillet til selvgodkendelse til en specifik server.

27) Hvad er hjerteslag i Hadoop?

I Hadoop kommunikerer NameNode og DataNode med hinanden. Heartbeat er det signal, som DataNode sender til NameNode regelmæssigt for at vise dets tilstedeværelse.

28) Skelne mellem NAS og DAS i Hadoop

NAS	DAS
Lagerkapacitet er 10⁹til 10¹² i byte.	Lagerkapacitet er 10⁹i byte.
Administrationsomkostninger pr. GB er moderate.	Administrationsomkostninger pr. GB er høje.
Overfør data ved hjælp af Ethernet eller TCP/IP.	Overfør data ved hjælp af IDE/SCSI

29) Angiv vigtige felter eller sprog, der bruges af dataingeniør

Her er et par felter eller sprog, der bruges af dataingeniør:

Sandsynlighed samt lineær algebra
Maskinelæring
Trendanalyse og regression
Hive QL- og SQL-databaser

30) Hvad er Big Data?

Det er en stor mængde strukturerede og ustrukturerede data, som ikke let kan behandles med traditionelle datalagringsmetoder. Dataingeniører bruger Hadoop til at administrere big data.

Dataingeniør interviewspørgsmål til erfarne

31) Hvad er FIFO-planlægning?

Det er en Hadoop Job planlægningsalgoritme. I denne FIFO-planlægning vælger en reporter job fra en arbejdskø, det ældste job først.

32) Nævn standardportnumre, som task tracker, NameNode og job tracker kører på i Hadoop

Standard portnumre, som opgavesporing, NameNode og jobsporing kører på i Hadoop, er som følger:

Opgavesporing kører på 50060 port
NameNode kører på 50070 port
Job Tracker kører på 50030 port

33) Sådan deaktiveres Block Scanner på HDFS Data Node

For at deaktivere Block Scanner på HDFS Data Node skal du indstille dfs.datanode.scan.period.hours til 0.

34) Hvordan definerer man afstanden mellem to noder i Hadoop?

Afstanden er lig med summen af afstanden til de nærmeste knudepunkter. Metoden getDistance() bruges til at beregne afstanden mellem to noder.

35) Hvorfor bruge råvarehardware i Hadoop?

Commodity hardware er let at skaffe og overkommelig. Det er et system, der er kompatibelt med Windows, MS-DOS eller Linux.

36) Definer replikationsfaktor i HDFS

Replikeringsfaktor er et samlet antal replikaer af en fil i systemet.

37) Hvilke data gemmes i NameNode?

Namenode gemmer metadata for HDFS, såsom blokinformation og navneområdeinformation.

38) Hvad mener du med Rack Awareness?

I Haddop-klyngen bruger Namenode Datanode til at forbedre netværkstrafikken, mens du læser eller skriver enhver fil, der er tættere på det nærliggende rack til Read- eller Write-anmodning. Namenode vedligeholder rack-id'et for hver DataNode for at opnå rackinformation. Dette koncept kaldes Rack Awareness i Hadoop.

39) Hvad er funktionerne i Secondary NameNode?

Følgende er funktionerne i Secondary NameNode:

FsImage som gemmer en kopi af EditLog og FsImage fil.
NameNode crash: Hvis NameNode går ned, kan Secondary NameNode's FsImage bruges til at genskabe NameNode.
Kontrolpunkt: Det bruges af Secondary NameNode til at bekræfte, at data ikke er beskadiget i HDFS.
Opdatering: Den opdaterer automatisk EditLog- og FsImage-filen. Det hjælper med at holde FsImage-filen på Secondary NameNode opdateret.

40) Hvad sker der, når NameNode er nede, og brugeren sender et nyt job?

NameNode er det enkelte fejlpunkt i Hadoop, så brugeren ikke kan indsende et nyt job kan ikke udføres. Hvis NameNode er nede, kan jobbet mislykkes, på grund af dette skal brugeren vente på, at NameNode genstarter, før et job køres.

41) Hvad er de grundlæggende faser af reducering i Hadoop?

Der er tre grundlæggende faser af en reducering i Hadoop:

1. Bland: Her kopierer Reducer outputtet fra Mapper.

2. Sorter: I sortering sorterer Hadoop input til Reducer ved hjælp af den samme tast.

3. Reducer: I denne fase reduceres outputværdier forbundet med en nøgle for at konsolidere dataene til det endelige output.

42) Hvorfor bruger Hadoop Context-objekt?

Hadoop framework bruger Context-objekt med Mapper-klassen for at interagere med det resterende system. Kontekstobjekt henter systemkonfigurationsdetaljerne og jobbet i sin konstruktør.

Vi bruger Context-objekt til at videregive oplysningerne i setup(), cleanup() og map() metoder. Dette objekt gør vital information tilgængelig under kortoperationerne.

43) Definer Combiner i Hadoop

Det er et valgfrit trin mellem Kort og Reducer. Combiner tager outputtet fra Map-funktionen, opretter nøgleværdipar og sender til Hadoop Reducer. Combiners opgave er at sammenfatte det endelige resultat fra Map til oversigtsposter med en identisk nøgle.

44) Hvad er standardreplikeringsfaktoren tilgængelig i HDFS. Hvad angiver den?

Standardreplikeringsfaktoren er tilgængelig i HDFS er tre. Standardreplikeringsfaktor angiver, at der vil være tre replikaer af hver data.

45) Hvad mener du med datalokalitet i Hadoop?

I et Big Data-system er datastørrelsen enorm, og derfor giver det ikke mening at flytte data på tværs af netværket. Nu forsøger Hadoop at flytte beregning tættere på data. På denne måde forbliver dataene lokale på den gemte placering.

46) Definer Balancer i HDFS

I HDFS er balanceren en administrativ, der bruges af administratorpersonale til at rebalancere data på tværs af DataNodes og flytte blokke fra overudnyttede til underudnyttede noder.

47) Forklar sikker tilstand i HDFS

Det er en skrivebeskyttet tilstand af NameNode i en klynge. Til at begynde med er NameNode i Safemode. Det forhindrer skrivning til filsystemet i fejlsikret tilstand. På dette tidspunkt indsamler den data og statistik fra alle DataNodes.

48) Hvad er vigtigheden af distribueret cache i Apache Hadoop?

Hadoop har en nyttig hjælpefunktion såkaldt Distributed Cache, som forbedrer ydelsen af jobs ved at cache de filer, der bruges af applikationer. Et program kan angive en fil til cachen ved hjælp af JobConf-konfiguration.

Hadoop framework gør replika af disse filer til noderne til en, som en opgave skal udføres. Dette gøres før udførelsen af opgaven starter. Distribueret cache understøtter distribution af skrivebeskyttede filer samt zips og jars-filer.

49) Hvad er Metastore i Hive?

Det gemmer skema såvel som Hive-tabellens placering.

Hive-tabel definerer, tilknytninger og metadata, der er gemt i Metastore. Dette kan gemmes i RDBMS understøttet af JPOX.

50) Hvad betyder SerDe i Hive?

SerDe er et kort navn for Serializer eller Deserializer. I Hive giver SerDe mulighed for at læse data fra tabel til og skrive til et specifikt felt i ethvert format, du ønsker.

51) Liste over komponenter, der er tilgængelige i Hive-datamodellen

Der er følgende komponenter i Hive-datamodellen:

tabeller
skillevægge
spande

52) Forklar brugen af Hive i Hadoop-økosystemet.

Hive giver en grænseflade til at administrere data, der er lagret i Hadoop-økosystemet. Hive bruges til at kortlægge og arbejde med HBase-tabeller. Hive-forespørgsler konverteres til MapReduce-job for at skjule kompleksiteten forbundet med at oprette og køre MapReduce-job.

53) Liste over forskellige komplekse datatyper/indsamling understøttes af Hive

Hive understøtter følgende komplekse datatyper:

Kort
Struktur
Array
Union

54) Forklar hvordan .hiverc-filen i Hive bruges?

I Hive er .hiverc initialiseringsfilen. Denne fil indlæses oprindeligt, når vi starter Command Line Interface (CLI) for Hive. Vi kan indstille startværdierne for parametre i .hiverc-filen.

55) Er det muligt at oprette mere end én tabel i Hive for en enkelt datafil?

Ja, vi kan oprette mere end ét tabelskema til en datafil. Hive gemmer skema i Hive Metastore. Baseret på dette skema kan vi hente forskellige resultater fra samme data.

56) Forklar forskellige SerDe-implementeringer, der er tilgængelige i Hive

Der er mange SerDe-implementeringer tilgængelige i Hive. Du kan også skrive din egen tilpassede SerDe-implementering. Følgende er nogle berømte SerDe-implementeringer:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Liste tabelgenererende funktioner, der er tilgængelige i Hive

Følgende er en liste over tabelgenererende funktioner:

Explode (array)
JSON_tuple()
Stak()
Eksploder (kort)

58) Hvad er et skævt bord i Hive?

En skæv tabel er en tabel, der oftere indeholder kolonneværdier. Når vi i Hive angiver en tabel som SKEWED under oprettelsen, skrives skæve værdier i separate filer, og de resterende værdier går til en anden fil.

59) Liste over objekter, der er oprettet af create statement in MySQL.

Objekter oprettet af create statement in MySQL er som følger:

Database
Indeks
Bordlampe
Bruger
Procedure
Udløser
Begivenhed
Specifikation
Funktion

60) Sådan ser du databasestrukturen i MySQL?

For at se databasestrukturen i MySQL, Kan du bruge

DESCRIBE kommando. Syntaks for denne kommando er DESCRIBE Table name;.

SQL interviewspørgsmål til dataingeniør

61) Sådan søger du efter en specifik streng i MySQL tabel kolonne?

Brug regex-operator til at søge efter en streng i MySQL kolonne. Her kan vi også definere forskellige typer regulære udtryk og søge efter ved hjælp af regex.

62) Forklar, hvordan dataanalyse og big data kan øge virksomhedens omsætning?

Følgende er måderne, hvorpå dataanalyse og big data kan øge virksomhedens omsætning:

Brug data effektivt for at sikre, at virksomheden vokser.
Øg kundeværdien.
Drej analytisk for at forbedre prognoser for personaleniveauer.
Reduktion af produktionsomkostningerne for organisationerne.

Disse interviewspørgsmål vil også hjælpe i din viva(orals)