60+ dataingeniørintervjuspørsmål og svar i 2024

Her er Data Engineering-intervjuspørsmål og svar for ferskere og erfarne dataingeniørkandidater for å få drømmejobben.

 

Dataingeniørintervjuspørsmål for ferskinger

1) Forklar Data Engineering.

Datateknikk er et begrep som brukes i big data. Den fokuserer på anvendelse av datainnsamling og forskning. Dataene generert fra ulike kilder er bare rådata. Datateknikk hjelper til med å konvertere disse rådataene til nyttig informasjon.


2) Hva er datamodellering?

Datamodellering er metoden for å dokumentere kompleks programvaredesign som et diagram slik at alle enkelt kan forstå. Det er en konseptuell representasjon av dataobjekter som er knyttet mellom ulike dataobjekter og reglene.

Datamodellering


3) List opp ulike typer designskjemaer i Data Modeling

Det er hovedsakelig to typer skjemaer i datamodellering: 1) Stjerneskjema og 2) Snowflake-skjema.


4) Skille mellom strukturerte og ustrukturerte data

Følgende er forskjellen mellom strukturerte og ustrukturerte data:

Parameter Strukturerte data Ustrukturerte data
oppbevaring DBMS Uadministrerte filstrukturer
standard ADO.net, ODBC og SQL STMP, XML, CSV og SMS
Integrasjonsverktøy ELT (ekstrahere, transformere, laste) Manuell dataregistrering eller batchbehandling som inkluderer koder
skalering Skjemaskalering er vanskelig Skalering er veldig enkelt.

5) Forklar alle komponentene i en Hadoop-applikasjon

Følgende er komponenter i Hadoop-applikasjonen:

Hadoop økosystem og komponenter

  • Hadoop Common: Det er et vanlig sett med verktøy og biblioteker som brukes av Hadoop.
  • HDFS: Denne Hadoop-applikasjonen er relatert til filsystemet der Hadoop-dataene er lagret. Det er et distribuert filsystem med høy båndbredde.
  • Hadoop MapReduce: Den er basert i henhold til algoritmen for å tilby storskala databehandling.
  • Hadoop GARN: Den brukes til ressursstyring innenfor Hadoop-klyngen. Den kan også brukes til oppgaveplanlegging for brukere.

6) Hva er NameNode?

Det er midtpunktet i HDFS. Den lagrer data fra HDFS og sporer forskjellige filer på tvers av klyngene. Her lagres ikke de faktiske dataene. Dataene lagres i DataNodes.


7) Definer Hadoop-streaming

Det er et verktøy som gjør det mulig å lage kartet og reduserer jobber og sender dem til en bestemt klynge.


8) Hva er den fullstendige formen for HDFS?

HDFS står for Hadoop Distributed File System.


9) Definer Block and Block Scanner i HDFS

Blokker er den minste enheten i en datafil. Hadoop deler automatisk store filer i små biter.

Block Scanner verifiserer listen over blokker som presenteres på en DataNode.


10) Hva er trinnene som skjer når Block Scanner oppdager en ødelagt datablokk?

Følgende er trinnene som skjer når Block Scanner finner en ødelagt datablokk:

1) Først av alt, når Block Scanner finner en ødelagt datablokk, rapporterer DataNode til NameNode

2) NameNode start prosessen med å lage en ny replika ved å bruke en replika av den ødelagte blokken.

3) Replikeringstall for de riktige replikaene prøver å samsvare med replikasjonsfaktoren. Hvis samsvaret blir funnet, vil ikke datablokken slettes.


11) Nevn to meldinger som NameNode får fra DataNode?

Det er to meldinger som NameNode får fra DataNode. De er 1) Blokkrapport og 2) Hjerteslag.


12) Liste ut ulike XML-konfigurasjonsfiler i Hadoop?

Det er fem XML-konfigurasjonsfiler i Hadoop:

  • Kartlagt-side
  • Kjerne-side
  • HDFS-side
  • Garn-side

13) Hva er fire V-er for big data?

Fire V-er av big data er:

  • Velocity
  • Variasjon
  • Volum
  • sannferdighet

14) Forklar funksjonene til Hadoop

Viktige funksjoner i Hadoop er:

  • Det er et åpen kildekode-rammeverk som er tilgjengelig gratis.
  • Hadoop er kompatibel med de mange typer maskinvare og enkel tilgang til ny maskinvare innenfor en bestemt node.
  • Hadoop støtter raskere distribuert behandling av data.
  • Den lagrer dataene i klyngen, som er uavhengig av resten av operasjonene.
  • Hadoop lar deg lage 3 replikaer for hver blokk med forskjellige noder.

15) Forklar hovedmetodene til Reducer

  • oppsett (): Den brukes til å konfigurere parametere som størrelsen på inngangsdata og distribuert cache.
  • cleanup(): Denne metoden brukes til å rense midlertidige filer.
  • reduser(): Det er hjertet av reduseringsverktøyet som kalles en gang per nøkkel med tilhørende redusert oppgave

16) Hva er forkortelsen for COSHH?

Forkortelsen av COSHH er klassifiserings- og optimaliseringsbasert tidsplan for heterogene Hadoop-systemer.


17) Forklar stjerneskjema

Stjerneskjema eller Star Join Schema er den enkleste typen Data Warehouse-skjema. Det er kjent som stjerneskjema fordi strukturen er som en stjerne. I stjerneskjemaet kan midten av stjernen ha én faktatabell og flere tilknyttede dimensjonstabeller. Dette skjemaet brukes til å forespørre store datasett.


18) Hvordan distribuere en big data-løsning?

Følg trinnene nedenfor for å distribuere en big data-løsning.

1) Integrer data ved hjelp av datakilder som RDBMS, SAP, MySQL, Salesforce
2) Lagre data uttrukket data i enten NoSQL-database eller HDFS.
3) Implementer big data-løsning ved å bruke prosesseringsrammer som Pig, Spark, og MapReduce.


19) Forklar FSCK

File System Check eller FSCK er kommandoen som brukes av HDFS. FSCK-kommandoen brukes til å sjekke inkonsekvenser og problemer i filen.


20) Forklar Snowflake Schema

A Snøfnuggskjema er en utvidelse av et stjerneskjema, og det legger til flere dimensjoner. Det er såkalt snøfnugg fordi diagrammet ser ut som et snøfnugg. Dimensjonstabellene er normaliserte, som deler data i flere tabeller.


21) Skill mellom Star og Snowflake Schema

Stjerne SnowFlake-skjema
Dimensjonshierarkier lagres i dimensjonstabell. Hvert hierarki er lagret i separate tabeller.
Sjansen for dataredundans er stor Sjansen for dataredundans er liten.
Den har en veldig enkel DB-design Den har en kompleks DB-design
Gi en raskere måte for kubebehandling Kubebehandlingen er treg på grunn av den komplekse sammenføyningen.

22) Forklar Hadoop distribuerte filsystem

Hadoop fungerer med skalerbare distribuerte filsystemer som S3, HFTP FS, FS og HDFS. Hadoop distribuert filsystem er laget på Googles filsystem. Dette filsystemet er utformet på en måte som enkelt kan kjøres på en stor klynge av datasystemet.


23) Forklar hovedansvaret til en dataingeniør

Dataingeniører har mange oppgaver. De administrerer kildesystemet for data. Dataingeniører forenkler kompleks datastruktur og forhindrer reduplisering av data. Mange ganger gir de også ELT og datatransformasjon.


24) Hva er den fullstendige formen for GARN?

Den fullstendige formen for YARN er Yet Another Resource Negotiator.


25) List opp ulike moduser i Hadoop

Modi i Hadoop er 1) Frittstående modus 2) Pseudo-distribuert modus 3) Fullt distribuert modus.


26) Hvordan oppnå sikkerhet i Hadoop?

Utfør følgende trinn for å oppnå sikkerhet i Hadoop:

1) Det første trinnet er å sikre autentiseringskanalen til klienten til serveren. Gi tidsstemplet til klienten.
2) I det andre trinnet bruker klienten det mottatte tidsstemplet for å be om TGS for en servicebillett.
3) I det siste trinnet bruker klienten servicebillett for selvgodkjenning til en spesifikk server.


27) Hva er hjerteslag i Hadoop?

I Hadoop kommuniserer NameNode og DataNode med hverandre. Heartbeat er signalet som sendes av DataNode til NameNode regelmessig for å vise tilstedeværelsen.


28) Skille mellom NAS og DAS i Hadoop

NAS DAS
Lagringskapasitet er 109 til 1012 i byte. Lagringskapasitet er 109 i byte.
Forvaltningskostnaden per GB er moderat. Administrasjonskostnaden per GB er høy.
Overfør data ved hjelp av Ethernet eller TCP/IP. Overfør data ved hjelp av IDE/SCSI

29) List opp viktige felt eller språk som brukes av dataingeniør

Her er noen felt eller språk som brukes av dataingeniør:

  • Sannsynlighet samt lineær algebra
  • Maskinlæring
  • Trendanalyse og regresjon
  • Hive QL- og SQL-databaser

30) Hva er Big Data?

Det er en stor mengde strukturerte og ustrukturerte data, som ikke enkelt kan behandles med tradisjonelle datalagringsmetoder. Dataingeniører bruker Hadoop til å administrere big data.


Dataingeniørintervjuspørsmål for erfarne

31) Hva er FIFO-planlegging?

Det er en Hadoop jobbplanleggingsalgoritme. I denne FIFO-planleggingen velger en reporter jobber fra en arbeidskø, den eldste jobben først.


32) Nevn standard portnumre som oppgavesporing, NameNode og jobbsporing kjører på i Hadoop

Standard portnumre som oppgavesporing, NameNode og jobbsporing kjører på i Hadoop er som følger:

  • Oppgavesporing kjører på 50060 port
  • NameNode kjører på 50070 port
  • Job Tracker kjører på 50030 port

33) Hvordan deaktivere Block Scanner på HDFS Data Node

For å deaktivere Block Scanner på HDFS Data Node, sett dfs.datanode.scan.period.hours til 0.


34) Hvordan definere avstanden mellom to noder i Hadoop?

Avstanden er lik summen av avstanden til de nærmeste nodene. Metoden getDistance() brukes til å beregne avstanden mellom to noder.


35) Hvorfor bruke råvaremaskinvare i Hadoop?

Varemaskinvare er lett å få tak i og rimelig. Det er et system som er kompatibelt med Windows, MS-DOS eller Linux.


36) Definer replikasjonsfaktor i HDFS

Replikeringsfaktor er et totalt antall replikaer av en fil i systemet.


37) Hvilke data lagres i NameNode?

Namenode lagrer metadata for HDFS som blokkinformasjon og navneromsinformasjon.


38) Hva mener du med Rack Awareness?

I Haddop-klyngen bruker Namenode Datanode for å forbedre nettverkstrafikken mens du leser eller skriver en fil som er nærmere det nærliggende racket for å lese eller skrive-forespørsel. Namenode opprettholder rack-IDen til hver DataNode for å oppnå rackinformasjon. Dette konseptet kalles Rack Awareness i Hadoop.


39) Hva er funksjonene til Secondary NameNode?

Følgende er funksjonene til Secondary NameNode:

  • FsImage som lagrer en kopi av EditLog og FsImage-filen.
  • NameNode-krasj: Hvis NameNode krasjer, kan Secondary NameNode's FsImage brukes til å gjenskape NameNode.
  • Sjekkpunkt: Det brukes av Secondary NameNode for å bekrefte at data ikke er ødelagt i HDFS.
  • Oppdatering: Den oppdaterer automatisk EditLog- og FsImage-filen. Det hjelper å holde FsImage-filen på Secondary NameNode oppdatert.

40) Hva skjer når NameNode er nede, og brukeren sender inn en ny jobb?

NameNode er det eneste feilpunktet i Hadoop slik at brukeren ikke kan sende inn en ny jobb kan ikke utføres. Hvis NameNode er nede, kan jobben mislykkes, på grunn av dette må brukeren vente til NameNode starter på nytt før en jobb kjøres.


41) Hva er de grunnleggende fasene av redusering i Hadoop?

Det er tre grunnleggende faser av en redusering i Hadoop:

1. Bland: Her kopierer Reducer utdataene fra Mapper.

2. Sorter: I sortering sorterer Hadoop inndataene til Reducer med samme nøkkel.

3. Reduser: I denne fasen reduseres utgangsverdier knyttet til en nøkkel for å konsolidere dataene til den endelige utgangen.


42) Hvorfor bruker Hadoop Context-objekt?

Hadoop-rammeverket bruker Context-objekt med Mapper-klassen for å samhandle med det gjenværende systemet. Kontekstobjekt henter systemkonfigurasjonsdetaljer og jobb i konstruktøren.

Vi bruker Context object for å sende informasjonen i setup(), cleanup() og map() metodene. Dette objektet gjør viktig informasjon tilgjengelig under kartoperasjonene.


43) Definer Combiner i Hadoop

Det er et valgfritt trinn mellom Kart og Reduser. Combiner tar utdata fra kartfunksjonen, lager nøkkelverdipar og sender til Hadoop Reducer. Combiners oppgave er å oppsummere det endelige resultatet fra Map til sammendragsposter med identisk nøkkel.


44) Hva er standard replikeringsfaktor tilgjengelig i HDFS. Hva indikerer den?

Standard replikeringsfaktor i tilgjengelig i HDFS er tre. Standard replikeringsfaktor indikerer at det vil være tre replikaer av hver data.


45) Hva mener du med datalokalitet i Hadoop?

I et Big Data-system er størrelsen på data enorm, og derfor er det ikke fornuftig å flytte data over nettverket. Nå prøver Hadoop å flytte beregningen nærmere data. På denne måten forblir dataene lokale for den lagrede plasseringen.


46) Definer Balanser i HDFS

I HDFS er balanseringsenheten en administrasjon som brukes av adminstab for å rebalansere data på tvers av DataNodes og flytte blokker fra overutnyttede til underutnyttede noder.


47) Forklar sikker modus i HDFS

Det er en skrivebeskyttet modus for NameNode i en klynge. I utgangspunktet er NameNode i sikkermodus. Det forhindrer skriving til filsystemet i sikkermodus. På dette tidspunktet samler den inn data og statistikk fra alle DataNodene.


48) Hva er viktigheten av distribuert cache i Apache Hadoop?

Hadoop har en nyttig verktøyfunksjon såkalt distribuert cache som forbedrer ytelsen til jobber ved å bufre filene som brukes av applikasjoner. En applikasjon kan spesifisere en fil for cachen ved hjelp av JobConf-konfigurasjon.

Hadoop-rammeverket gjør replikering av disse filene til nodene til en som en oppgave må utføres. Dette gjøres før utførelsen av oppgaven starter. Distribuert cache støtter distribusjon av skrivebeskyttede filer samt zip-filer og jars-filer.


49) Hva er Metastore i Hive?

Den lagrer skjema så vel som Hive-tabellplasseringen.

Hive-tabell definerer, tilordninger og metadata som er lagret i Metastore. Dette kan lagres i RDBMS støttet av JPOX.


50) Hva mener SerDe i Hive?

SerDe er et kort navn for Serializer eller Deserializer. I Hive lar SerDe lese data fra tabell til og skrive til et spesifikt felt i hvilket som helst format du ønsker.


51) Liste over komponenter som er tilgjengelige i Hive-datamodellen

Det er følgende komponenter i Hive-datamodellen:

  • tabeller
  • Skillevegger
  • Bøtter

52) Forklar bruken av Hive i Hadoop-økosystemet.

Hive gir et grensesnitt for å administrere data som er lagret i Hadoop-økosystemet. Hive brukes til kartlegging og arbeid med HBase-tabeller. Hive-spørringer konverteres til MapReduce-jobber for å skjule kompleksiteten knyttet til å opprette og kjøre MapReduce-jobber.


53) Liste over ulike komplekse datatyper/innsamling støttes av Hive

Hive støtter følgende komplekse datatyper:

  • kart
  • struct
  • Array
  • Union

54) Forklar hvordan .hiverc-filen i Hive brukes?

I Hive er .hiverc initialiseringsfilen. Denne filen blir først lastet når vi starter Command Line Interface (CLI) for Hive. Vi kan angi startverdiene til parametere i .hiverc-filen.


55) Er det mulig å lage mer enn én tabell i Hive for en enkelt datafil?

Ja, vi kan lage mer enn ett tabellskjema for en datafil. Hive lagrer skjema i Hive Metastore. Basert på dette skjemaet kan vi hente forskjellige resultater fra samme data.


56) Forklar forskjellige SerDe-implementeringer tilgjengelig i Hive

Det er mange SerDe-implementeringer tilgjengelig i Hive. Du kan også skrive din egen tilpassede SerDe-implementering. Følgende er noen kjente SerDe-implementeringer:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Liste tabellgenererende funksjoner tilgjengelig i Hive

Følgende er en liste over tabellgenererende funksjoner:

  • Explode (array)
  • JSON_tuple()
  • Stable()
  • Eksploder (kart)

58) Hva er et skjevt bord i Hive?

En skjev tabell er en tabell som inneholder kolonneverdier oftere. I Hive, når vi spesifiserer en tabell som SKEWED under opprettelsen, blir skjeve verdier skrevet inn i separate filer, og gjenværende verdier går til en annen fil.


59) List opp objekter opprettet av create statement i MySQL.

Objekter opprettet av create statement i MySQL er som følger:

  • Database
  • Index
  • Bord
  • Bruker
  • Prosedyre
  • Avtrekker
  • Event
  • Se
  • Funksjon

60) Hvordan se databasestrukturen i MySQL?

For å se databasestrukturen i MySQL, Kan du bruke

DESCRIBE kommando. Syntaksen for denne kommandoen er DESCRIBE Table name;.


SQL-intervjuspørsmål for dataingeniør

61) Hvordan søke etter en bestemt streng i MySQL tabellkolonne?

Bruk regex-operator for å søke etter en streng i MySQL søyle. Her kan vi også definere ulike typer regulære uttrykk og søke etter ved hjelp av regex.


62) Forklar hvordan dataanalyse og big data kan øke bedriftens inntekter?

Følgende er måtene dataanalyse og big data kan øke selskapets inntekter på:

  • Bruk data effektivt for å sikre at virksomheten vokser.
  • Øk kundeverdien.
  • Snu analytisk for å forbedre prognosene for bemanningsnivåer.
  • Kutte ned produksjonskostnadene til organisasjonene.

Disse intervjuspørsmålene vil også hjelpe i din viva(orals)