Topp 25 ETL-testintervjuspørsmål og -svar for 2024
ETL-testintervjuspørsmål for ferskinger
1) Hva er ETL?
I datavarehusarkitektur er ETL en viktig komponent, som administrerer dataene for enhver forretningsprosess. ETL står for Trekk ut, forvandle og Laste. Extract gjør prosessen med å lese data fra en database. Transform utfører konvertering av data til et format som kan være passende for rapportering og analyse. Mens last gjør prosessen med å skrive dataene inn i måldatabasen.
👉 Gratis PDF-nedlasting: ETL Testing Intervju Spørsmål og Svar
2) Forklar hva ETL-testingen omfatter?
ETL-testing inkluderer:
- Kontroller om dataene transformeres riktig i henhold til forretningskrav
- Bekreft at de projiserte dataene er lastet inn i datavarehuset uten trunkering og tap av data
- Sørg for at ETL-applikasjonen rapporterer ugyldige data og erstatter med standardverdier
- Sørg for at data lastes inn i forventet tidsramme for å forbedre skalerbarhet og ytelse
3) Nevn hva slags datavarehusapplikasjoner er og hva er forskjellen mellom datautvinning og datavarehus?
Typene datavarehusapplikasjoner er
- Informasjonsbehandling
- Analytisk prosessering
- Data Mining
Datautvinning kan defineres som prosessen med å trekke ut skjult prediktiv informasjon fra store databaser og tolke dataene mens datavarehus kan gjøre bruk av en datamine for analytisk behandling av dataene på en raskere måte. Datavarehus er prosessen med å samle data fra flere kilder til ett felles depot
4) Hva er de ulike verktøyene som brukes i ETL?
- Cognos Decision Stream
- Oracle Lagerbygger
- Forretningsobjekter XI
- SAS bedriftslager
- SAS Enterprise ETL server
5) Hva er fakta? Hva er typene fakta?
Det er en sentral komponent i en flerdimensjonal modell som inneholder tiltakene som skal analyseres. Fakta er relatert til dimensjoner.
Typer fakta er
- Tilsetningsfakta
- Semi-additiv fakta
- Ikke-additiv fakta
6) Forklar hva er kuber og OLAP kuber?
Kuber er databehandlingsenheter som består av faktatabeller og dimensjoner fra datavarehuset. Det gir flerdimensjonal analyse.
OLAP står for Online Analytics Processing, og OLAP-kuben lagrer store data i flerdimensjonal form for rapporteringsformål. Den består av fakta kalt som mål kategorisert etter dimensjoner.
7) Forklar hva som er sporingsnivå og hva er typene?
Sporingsnivå er mengden data som er lagret i loggfilene. Sporingsnivå kan klassifiseres i to Normal og Verbose. Normalt nivå forklarer sporingsnivået på en detaljert måte, mens detaljert forklarer sporingsnivåene på hver rad.
8) Forklar hva er Grain of Fact?
Kornfakta kan defineres som nivået faktainformasjonen lagres på. Det er også kjent som faktagranularitet
9) Forklar hva faktaløst faktaskjema er og hva er mål?
En faktatabell uten mål er kjent som Faktaløs faktatabell. Den kan se antall hendelser som forekommer. For eksempel brukes det til å registrere en hendelse som antall ansatte i et selskap.
De numeriske dataene basert på kolonner i en faktatabell er kjent som mål
10) Forklar hva er transformasjon?
En transformasjon er et depotobjekt som genererer, modifiserer eller sender data. Transformasjon er av to typer aktiv og passiv
ETL-utviklerintervjuspørsmål og svar for erfarne
11) Forklar bruken av Lookup Transformation?
Oppslagstransformasjonen er nyttig for
- Hente en relatert verdi fra en tabell ved å bruke en kolonneverdi
- Oppdater sakte skiftende dimensjonstabell
- Kontroller om poster allerede finnes i tabellen
12) Forklar hva er partisjonering, hasj-partisjonering og round robin-partisjonering?
For å forbedre ytelsen deles transaksjoner under, dette kalles partisjonering. Partisjonering muliggjør Informatikk Server for opprettelse av flere tilkoblinger til ulike kilder
Typene partisjoner er
Round-Robin partisjonering:
- Ved informatica fordeles data jevnt mellom alle partisjoner
- I hver partisjon hvor antallet rader som skal behandles er omtrent det samme, er denne partisjonen gjeldende
Hash-partisjonering:
- For det formål å partisjonere nøkler for å gruppere data blant partisjoner, bruker Informatica-serveren en hash-funksjon
- Den brukes når man sikrer at prosessgrupper av rader med samme partisjoneringsnøkkel i samme partisjon må sikres
13) Nevn hva som er fordelen med å bruke DataReader Destination Adapter?
Fordelen med å bruke DataReader Destination Adapter er at den fyller ut en ADO-rekordsett (består av poster og kolonner) i minnet og eksponerer dataene fra DataFlow-oppgaven ved å implementere DataReader-grensesnittet, slik at andre applikasjoner kan konsumere dataene.
14) Ved å bruke SSIS (SQL Server Integration Service) hva er de mulige måtene å oppdatere tabellen på?
For å oppdatere tabellen ved hjelp av SSIS er de mulige måtene:
- Bruk SQL kommando
- Bruk et mellombord
- Bruk cache
- Bruk skriptoppgaven
- Bruk fullstendig databasenavn for oppdatering hvis MSSQL brukes
15) Hvis du har en ikke-OLEDB-kilde (Object Linking and Embedding Database) for oppslaget, hva ville du gjort?
Hvis du har en ikke-OLEBD-kilde for oppslaget, må du bruke Cache for å laste data og bruke den som kilde
16) I hvilket tilfelle bruker du dynamisk cache og statisk cache i tilkoblede og ukoblede transformasjoner?
- Dynamisk cache brukes når du må oppdatere hovedtabell og sakte skiftende dimensjoner (SCD) type 1
- For flate filer brukes statisk cache
17) Forklar hva er forskjellene mellom Unconnected og Connected lookup?
Tilkoblet oppslag | Utilkoblet oppslag |
---|---|
Tilkoblet oppslag deltar i kartlegging | Den brukes når oppslagsfunksjon brukes i stedet for en uttrykkstransformasjon under kartlegging |
Flere verdier kan returneres | Returnerer bare én utgangsport |
Den kan kobles til en annen transformasjon og returnerer en verdi | En annen transformasjon kan ikke kobles til |
Statisk eller dynamisk cache kan brukes for tilkoblet oppslag | Ikke tilkoblet som bare statisk cache |
Tilkoblet oppslag støtter brukerdefinerte standardverdier | Utilkoblet oppslag støtter ikke brukerdefinerte standardverdier |
I Connected Lookup kan flere kolonner returneres fra samme rad eller settes inn i dynamisk oppslagsbuffer | Utilkoblet oppslag angir én returport og returnerer én kolonne fra hver rad |
18) Forklar hva er datakildevisning?
En datakildevisning lar deg definere relasjonsskjemaet som skal brukes i analysetjenestedatabasene. I stedet for direkte fra datakildeobjekter, opprettes dimensjoner og kuber fra datakildevisninger.
19) Forklar hva som er forskjellen mellom OLAP-verktøy og ETL-verktøy?
Forskjellen mellom ETL og OLAP-verktøyet er det
ETL-verktøy er ment for å trekke ut data fra de eldre systemene og laste inn i spesifisert database med en eller annen prosess for å rense data.
Eksempel: Datastadium, Informatica etc.
Mens OLAP er ment for rapporteringsformål i OLAP-data tilgjengelig i flerveismodell.
Eksempel: Business Objects, Cognos etc.
20) Hvordan du kan trekke ut SAP data ved hjelp av Informatica?
- Med strømtilkoblingsalternativet trekker du ut SAP data ved hjelp av informatica
- Installer og konfigurer PowerConnect-verktøyet
- Importer kilden til kildeanalysatoren. Mellom Informatica og SAP Powerconnect fungerer som en inngangsport. Det neste trinnet er å generere ABAP-koden for kartleggingen, så er det bare informatica som kan hente data fra SAP
- For å koble til og importere kilder fra eksterne systemer brukes Power Connect
21) Nevn hva som er forskjellen mellom Power Mart og Power Center?
Kraftsenter | Power Mart |
---|---|
Anta å behandle store mengder data | Anta å behandle lavt datavolum |
Den støtter ERP-kilder som f.eks SAP, myke mennesker osv. | Den støtter ikke ERP-kilder |
Den støtter lokalt og globalt depot | Den støtter lokalt depot |
Den konverterer lokalt til globalt depot | Den har ingen spesifikasjoner for å konvertere lokalt til globalt depot |
22) Forklar hva oppstillingsplass er og hva er hensikten med en oppstillingsplass?
Dataoppsamling er et område hvor du holder dataene midlertidig på datavarehusserveren. Datainnsamling inkluderer følgende trinn
- Kildedatautvinning og datatransformasjon (restrukturering)
- Datatransformasjon (datarensing, verditransformasjon)
- Surrogatnøkkeloppdrag
23) Hva er bussskjema?
For de ulike forretningsprosessene for å identifisere de vanlige dimensjonene, brukes BUS-skjema. Den kommer med tilpassede dimensjoner sammen med en standardisert definisjon av informasjon
24) Forklar hva er datarensing?
Datarensing er en prosess for å slette data fra datavarehuset. Den sletter søppeldata som rader med nullverdier eller ekstra mellomrom.
25) Forklar hva er skjemaobjekter?
Skjemaobjekter er den logiske strukturen som direkte refererer til databasens data. Skjemaobjekter inkluderer tabeller, visninger, sekvenssynonymer, indekser, klynger, funksjonspakker og databasekoblinger
26) Forklar disse begrepene Session, Worklet, Mapplet og Workflow ?
- Mapplet: Det arrangerer eller skaper sett med transformasjon
- Arbeidsbok: Den representerer et spesifikt sett med oppgaver gitt
- arbeidsflyt: Det er et sett med instruksjoner som forteller serveren hvordan den skal utføre oppgaver
- Økt: Det er et sett med parametere som forteller serveren hvordan den skal flytte data fra kilder til mål
Disse intervjuspørsmålene vil også hjelpe i din viva(orals)