60+ dataingeniørinterviewspørgsmål og svar i 2025
Dataingeniørinterviewspørgsmål til nybegyndere
1) Forklar Data Engineering.
Datateknik er et begreb, der bruges i big data. Det fokuserer på anvendelsen af dataindsamling og forskning. De data, der genereres fra forskellige kilder, er kun rådata. Datateknik hjælper med at konvertere disse rådata til nyttig information.
2) Hvad er datamodellering?
Datamodellering er metoden til at dokumentere komplekst softwaredesign som et diagram, så enhver let kan forstå. Det er en konceptuel repræsentation af dataobjekter, der er forbundet mellem forskellige dataobjekter og reglerne.
3) Angiv forskellige typer designskemaer i Data Modeling
Der er hovedsageligt to typer skemaer i datamodellering: 1) Stjerneskema og 2) Snowflake-skema.
4) Skelne mellem strukturerede og ustrukturerede data
Følgende er forskellen mellem strukturerede og ustrukturerede data:
Parameter | Strukturerede data | Ustrukturerede data |
---|---|---|
Opbevaring | DBMS | Uadministrerede filstrukturer |
Standard | ADO.net, ODBC og SQL | STMP, XML, CSV og SMS |
Integrationsværktøj | ELT (ekstrahere, transformere, indlæse) | Manuel dataindtastning eller batchbehandling, der inkluderer koder |
skalering | Skemaskalering er vanskelig | Skalering er meget let. |
5) Forklar alle komponenter i en Hadoop-applikation
Følgende er komponenter i Hadoop-applikationen:
- Hadoop Common: Det er et fælles sæt af hjælpeprogrammer og biblioteker, der bruges af Hadoop.
- HDFS: Denne Hadoop-applikation relaterer sig til det filsystem, hvori Hadoop-dataene er gemt. Det er et distribueret filsystem med høj båndbredde.
- Hadoop MapReduce: Den er baseret på algoritmen til levering af databehandling i stor skala.
- Hadoop GARN: Det bruges til ressourcestyring i Hadoop-klyngen. Det kan også bruges til opgaveplanlægning for brugere.
6) Hvad er NameNode?
Det er midtpunktet i HDFS. Det gemmer data fra HDFS og sporer forskellige filer på tværs af klyngerne. Her bliver de faktiske data ikke gemt. Dataene gemmes i DataNodes.
7) Definer Hadoop-streaming
Det er et værktøj, som giver mulighed for at oprette kortet og reducerer job og sender dem til en bestemt klynge.
8) Hvad er den fulde form for HDFS?
HDFS står for Hadoop Distributed File System.
9) Definer Blok og Blok Scanner i HDFS
Blokke er den mindste enhed i en datafil. Hadoop opdeler automatisk store filer i små stykker.
Block Scanner verificerer listen over blokke, der præsenteres på en DataNode.
10) Hvad er de trin, der sker, når Block Scanner registrerer en beskadiget datablok?
Følgende er de trin, der opstår, når Block Scanner finder en beskadiget datablok:
1) Først og fremmest, når Block Scanner finder en beskadiget datablok, rapporterer DataNode til NameNode
2) NameNode start processen med at oprette en ny replika ved hjælp af en replika af den korrupte blok.
3) Replikationsantal af de korrekte replikaer forsøger at matche med replikationsfaktoren. Hvis match fundet korrupte data blok vil ikke blive slettet.
11) Nævn to beskeder, som NameNode får fra DataNode?
Der er to beskeder, som NameNode får fra DataNode. De er 1) Blokrapport og 2) Hjerteslag.
12) Liste over forskellige XML-konfigurationsfiler i Hadoop?
Der er fem XML-konfigurationsfiler i Hadoop:
- Kortlagt websted
- Kerne-site
- HDFS-site
- Garn-site
13) Hvad er fire V'er af big data?
Fire V'er af big data er:
- Velocity
- Variation
- Bind
- Veracity
14) Forklar funktionerne i Hadoop
Vigtige funktioner i Hadoop er:
- Det er en open source-ramme, der er tilgængelig freeware.
- Hadoop er kompatibel med de mange typer hardware og nem adgang til ny hardware inden for en specifik node.
- Hadoop understøtter hurtigere distribueret behandling af data.
- Den gemmer dataene i klyngen, som er uafhængig af resten af operationerne.
- Hadoop gør det muligt at oprette 3 replikaer for hver blok med forskellige noder.
15) Forklar de vigtigste metoder til Reducer
- setup (): Det bruges til at konfigurere parametre som størrelsen af inputdata og distribueret cache.
- cleanup(): Denne metode bruges til at rense midlertidige filer.
- reduce(): Det er hjertet af reduceringen, som kaldes én gang pr. nøgle med den tilhørende reducerede opgave
16) Hvad er forkortelsen for COSHH?
Forkortelsen af COSHH er klassificerings- og optimeringsbaseret skema for heterogene Hadoop-systemer.
17) Forklar Stjerneskema
Stjerneskema eller Star Join Schema er den enkleste type Data Warehouse-skema. Det er kendt som stjerneskema, fordi dets struktur er som en stjerne. I stjerneskemaet kan midten af stjernen have én faktatabel og flere tilknyttede dimensionstabel. Dette skema bruges til at forespørge på store datasæt.
18) Hvordan implementerer man en big data-løsning?
Følg følgende trin for at implementere en big data-løsning.
1) Integrer data ved hjælp af datakilder som RDBMS, SAP, MySQL, Salesforce
2) Gem data udtrukne data i enten NoSQL-database eller HDFS.
3) Implementer big data-løsning ved hjælp af behandlingsrammer som Pig, Spark, og MapReduce.
19) Forklar FSCK
File System Check eller FSCK er kommandoen, der bruges af HDFS. FSCK-kommandoen bruges til at kontrollere uoverensstemmelser og problemer i filen.
20) Forklar Snowflake Schema
A Snefnugskema er en udvidelse af et stjerneskema, og det tilføjer yderligere dimensioner. Det er såkaldt som snefnug, fordi dets diagram ligner et snefnug. Dimensionstabellerne er normaliserede, hvilket opdeler data i yderligere tabeller.
21) Skelne mellem stjerne- og snefnugskema
Stjerne | Snefnug-skema |
Dimensionshierarkier gemmes i dimensionstabel. | Hvert hierarki er gemt i separate tabeller. |
Chancerne for dataredundans er høje | Chancerne for dataredundans er lave. |
Den har et meget simpelt DB-design | Det har et komplekst DB-design |
Giv en hurtigere måde til kubebehandling | Kubebehandlingen er langsom på grund af den komplekse sammenføjning. |
22) Forklar Hadoop distribuerede filsystem
Hadoop arbejder med skalerbare distribuerede filsystemer som S3, HFTP FS, FS og HDFS. Hadoop Distributed File System er lavet på Googles filsystem. Dette filsystem er designet på en måde, så det nemt kan køre på en stor klynge af computersystemet.
23) Forklar en dataingeniørs hovedansvar
Dataingeniører har mange ansvarsområder. De administrerer datakildesystemet. Dataingeniører forenkler kompleks datastruktur og forhindrer reduplicering af data. Mange gange leverer de også ELT og datatransformation.
24) Hvad er den fulde form for GARN?
Den fulde form for YARN er Yet Another Resource Negotiator.
25) Angiv forskellige tilstande i Hadoop
Tilstande i Hadoop er 1) Standalone-tilstand 2) Pseudo-distribueret tilstand 3) Fuldt distribueret tilstand.
26) Hvordan opnår man sikkerhed i Hadoop?
Udfør følgende trin for at opnå sikkerhed i Hadoop:
1) Det første trin er at sikre klientens autentificeringskanal til serveren. Giv kunden tidsstemplet.
2) I det andet trin bruger klienten det modtagne tidsstemplet til at anmode om TGS om en servicebillet.
3) I det sidste trin bruger klienten servicebillet til selvgodkendelse til en specifik server.
27) Hvad er hjerteslag i Hadoop?
I Hadoop kommunikerer NameNode og DataNode med hinanden. Heartbeat er det signal, som DataNode sender til NameNode regelmæssigt for at vise dets tilstedeværelse.
28) Skelne mellem NAS og DAS i Hadoop
NAS | DAS |
Lagerkapacitet er 109 til 1012 i byte. | Lagerkapacitet er 109 i byte. |
Administrationsomkostninger pr. GB er moderate. | Administrationsomkostninger pr. GB er høje. |
Overfør data ved hjælp af Ethernet eller TCP/IP. | Overfør data ved hjælp af IDE/SCSI |
29) Angiv vigtige felter eller sprog, der bruges af dataingeniør
Her er et par felter eller sprog, der bruges af dataingeniør:
- Sandsynlighed samt lineær algebra
- Maskinelæring
- Trendanalyse og regression
- Hive QL- og SQL-databaser
30) Hvad er Big Data?
Det er en stor mængde strukturerede og ustrukturerede data, som ikke let kan behandles med traditionelle datalagringsmetoder. Dataingeniører bruger Hadoop til at administrere big data.
Dataingeniør interviewspørgsmål til erfarne
31) Hvad er FIFO-planlægning?
Det er en Hadoop Job planlægningsalgoritme. I denne FIFO-planlægning vælger en reporter job fra en arbejdskø, det ældste job først.
32) Nævn standardportnumre, som task tracker, NameNode og job tracker kører på i Hadoop
Standard portnumre, som opgavesporing, NameNode og jobsporing kører på i Hadoop, er som følger:
- Opgavesporing kører på 50060 port
- NameNode kører på 50070 port
- Job Tracker kører på 50030 port
33) Sådan deaktiveres Block Scanner på HDFS Data Node
For at deaktivere Block Scanner på HDFS Data Node skal du indstille dfs.datanode.scan.period.hours til 0.
34) Hvordan definerer man afstanden mellem to noder i Hadoop?
Afstanden er lig med summen af afstanden til de nærmeste knudepunkter. Metoden getDistance() bruges til at beregne afstanden mellem to noder.
35) Hvorfor bruge råvarehardware i Hadoop?
Commodity hardware er let at skaffe og overkommelig. Det er et system, der er kompatibelt med Windows, MS-DOS eller Linux.
36) Definer replikationsfaktor i HDFS
Replikeringsfaktor er et samlet antal replikaer af en fil i systemet.
37) Hvilke data gemmes i NameNode?
Namenode gemmer metadata for HDFS, såsom blokinformation og navneområdeinformation.
38) Hvad mener du med Rack Awareness?
I Haddop-klyngen bruger Namenode Datanode til at forbedre netværkstrafikken, mens du læser eller skriver enhver fil, der er tættere på det nærliggende rack til Read- eller Write-anmodning. Namenode vedligeholder rack-id'et for hver DataNode for at opnå rackinformation. Dette koncept kaldes Rack Awareness i Hadoop.
39) Hvad er funktionerne i Secondary NameNode?
Følgende er funktionerne i Secondary NameNode:
- FsImage som gemmer en kopi af EditLog og FsImage fil.
- NameNode crash: Hvis NameNode går ned, kan Secondary NameNode's FsImage bruges til at genskabe NameNode.
- Kontrolpunkt: Det bruges af Secondary NameNode til at bekræfte, at data ikke er beskadiget i HDFS.
- Opdatering: Den opdaterer automatisk EditLog- og FsImage-filen. Det hjælper med at holde FsImage-filen på Secondary NameNode opdateret.
40) Hvad sker der, når NameNode er nede, og brugeren sender et nyt job?
NameNode er det enkelte fejlpunkt i Hadoop, så brugeren ikke kan indsende et nyt job kan ikke udføres. Hvis NameNode er nede, kan jobbet mislykkes, på grund af dette skal brugeren vente på, at NameNode genstarter, før et job køres.
41) Hvad er de grundlæggende faser af reducering i Hadoop?
Der er tre grundlæggende faser af en reducering i Hadoop:
1. Bland: Her kopierer Reducer outputtet fra Mapper.
2. Sorter: I sortering sorterer Hadoop input til Reducer ved hjælp af den samme tast.
3. Reducer: I denne fase reduceres outputværdier forbundet med en nøgle for at konsolidere dataene til det endelige output.
42) Hvorfor bruger Hadoop Context-objekt?
Hadoop framework bruger Context-objekt med Mapper-klassen for at interagere med det resterende system. Kontekstobjekt henter systemkonfigurationsdetaljerne og jobbet i sin konstruktør.
Vi bruger Context-objekt til at videregive oplysningerne i setup(), cleanup() og map() metoder. Dette objekt gør vital information tilgængelig under kortoperationerne.
43) Definer Combiner i Hadoop
Det er et valgfrit trin mellem Kort og Reducer. Combiner tager outputtet fra Map-funktionen, opretter nøgleværdipar og sender til Hadoop Reducer. Combiners opgave er at sammenfatte det endelige resultat fra Map til oversigtsposter med en identisk nøgle.
44) Hvad er standardreplikeringsfaktoren tilgængelig i HDFS. Hvad angiver den?
Standardreplikeringsfaktoren er tilgængelig i HDFS er tre. Standardreplikeringsfaktor angiver, at der vil være tre replikaer af hver data.
45) Hvad mener du med datalokalitet i Hadoop?
I et Big Data-system er datastørrelsen enorm, og derfor giver det ikke mening at flytte data på tværs af netværket. Nu forsøger Hadoop at flytte beregning tættere på data. På denne måde forbliver dataene lokale på den gemte placering.
46) Definer Balancer i HDFS
I HDFS er balanceren en administrativ, der bruges af administratorpersonale til at rebalancere data på tværs af DataNodes og flytte blokke fra overudnyttede til underudnyttede noder.
47) Forklar sikker tilstand i HDFS
Det er en skrivebeskyttet tilstand af NameNode i en klynge. Til at begynde med er NameNode i Safemode. Det forhindrer skrivning til filsystemet i fejlsikret tilstand. På dette tidspunkt indsamler den data og statistik fra alle DataNodes.
48) Hvad er vigtigheden af distribueret cache i Apache Hadoop?
Hadoop har en nyttig hjælpefunktion såkaldt Distributed Cache, som forbedrer ydelsen af jobs ved at cache de filer, der bruges af applikationer. Et program kan angive en fil til cachen ved hjælp af JobConf-konfiguration.
Hadoop framework gør replika af disse filer til noderne til en, som en opgave skal udføres. Dette gøres før udførelsen af opgaven starter. Distribueret cache understøtter distribution af skrivebeskyttede filer samt zips og jars-filer.
49) Hvad er Metastore i Hive?
Det gemmer skema såvel som Hive-tabellens placering.
Hive-tabel definerer, tilknytninger og metadata, der er gemt i Metastore. Dette kan gemmes i RDBMS understøttet af JPOX.
50) Hvad betyder SerDe i Hive?
SerDe er et kort navn for Serializer eller Deserializer. I Hive giver SerDe mulighed for at læse data fra tabel til og skrive til et specifikt felt i ethvert format, du ønsker.
51) Liste over komponenter, der er tilgængelige i Hive-datamodellen
Der er følgende komponenter i Hive-datamodellen:
- tabeller
- skillevægge
- spande
52) Forklar brugen af Hive i Hadoop-økosystemet.
Hive giver en grænseflade til at administrere data, der er lagret i Hadoop-økosystemet. Hive bruges til at kortlægge og arbejde med HBase-tabeller. Hive-forespørgsler konverteres til MapReduce-job for at skjule kompleksiteten forbundet med at oprette og køre MapReduce-job.
53) Liste over forskellige komplekse datatyper/indsamling understøttes af Hive
Hive understøtter følgende komplekse datatyper:
- Kort
- Struktur
- Array
- Union
54) Forklar hvordan .hiverc-filen i Hive bruges?
I Hive er .hiverc initialiseringsfilen. Denne fil indlæses oprindeligt, når vi starter Command Line Interface (CLI) for Hive. Vi kan indstille startværdierne for parametre i .hiverc-filen.
55) Er det muligt at oprette mere end én tabel i Hive for en enkelt datafil?
Ja, vi kan oprette mere end ét tabelskema til en datafil. Hive gemmer skema i Hive Metastore. Baseret på dette skema kan vi hente forskellige resultater fra samme data.
56) Forklar forskellige SerDe-implementeringer, der er tilgængelige i Hive
Der er mange SerDe-implementeringer tilgængelige i Hive. Du kan også skrive din egen tilpassede SerDe-implementering. Følgende er nogle berømte SerDe-implementeringer:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Liste tabelgenererende funktioner, der er tilgængelige i Hive
Følgende er en liste over tabelgenererende funktioner:
- Explode (array)
- JSON_tuple()
- Stak()
- Eksploder (kort)
58) Hvad er et skævt bord i Hive?
En skæv tabel er en tabel, der oftere indeholder kolonneværdier. Når vi i Hive angiver en tabel som SKEWED under oprettelsen, skrives skæve værdier i separate filer, og de resterende værdier går til en anden fil.
59) Liste over objekter, der er oprettet af create statement in MySQL.
Objekter oprettet af create statement in MySQL er som følger:
- Database
- Indeks
- Bordlampe
- Bruger
- Procedure
- Udløser
- Begivenhed
- Specifikation
- Funktion
60) Sådan ser du databasestrukturen i MySQL?
For at se databasestrukturen i MySQL, Kan du bruge
DESCRIBE kommando. Syntaks for denne kommando er DESCRIBE Table name;
.
SQL interviewspørgsmål til dataingeniør
61) Sådan søger du efter en specifik streng i MySQL tabel kolonne?
Brug regex-operator til at søge efter en streng i MySQL kolonne. Her kan vi også definere forskellige typer regulære udtryk og søge efter ved hjælp af regex.
62) Forklar, hvordan dataanalyse og big data kan øge virksomhedens omsætning?
Følgende er måderne, hvorpå dataanalyse og big data kan øge virksomhedens omsætning:
- Brug data effektivt for at sikre, at virksomheden vokser.
- Øg kundeværdien.
- Drej analytisk for at forbedre prognoser for personaleniveauer.
- Reduktion af produktionsomkostningerne for organisationerne.
Disse interviewspørgsmål vil også hjælpe i din viva(orals)