Top 25 ETL-testinterviewspørgsmål og -svar for 2025
ETL-testinterviewspørgsmål for nybegyndere
1) Hvad er ETL?
I data warehousing arkitektur er ETL en vigtig komponent, som styrer dataene for enhver forretningsproces. ETL står for Uddrag, transformer og Load. Extract udfører processen med at læse data fra en database. Transform udfører konvertering af data til et format, der kunne være passende til rapportering og analyse. Mens indlæsning udfører processen med at skrive dataene ind i måldatabasen.
👉 Gratis PDF-download: ETL-testinterviewspørgsmål og -svar
2) Forklar, hvad ETL-testoperationerne omfatter?
ETL-test inkluderer:
- Bekræft, om dataene transformeres korrekt i henhold til forretningskrav
- Bekræft, at de projekterede data er indlæst i datavarehuset uden nogen trunkering og datatab
- Sørg for, at ETL-applikationen rapporterer ugyldige data og erstatter dem med standardværdier
- Sørg for, at data indlæses i den forventede tidsramme for at forbedre skalerbarheden og ydeevnen
3) Nævn, hvad er typerne af data warehouse-applikationer, og hvad er forskellen mellem data mining og data warehousing?
Typerne af datavarehusapplikationer er
- Info behandling
- Analytisk bearbejdning
- Data Mining
Data mining kan defineres som processen med at udtrække skjulte forudsigende informationer fra store databaser og fortolke dataene, mens data warehousing kan gøre brug af en datamine til analytisk behandling af dataene på en hurtigere måde. Datalagring er processen med at aggregere data fra flere kilder til ét fælles lager
4) Hvad er de forskellige værktøjer, der bruges i ETL?
- Cognos Decision Stream
- Oracle Lagerbygger
- Forretningsobjekter XI
- SAS erhvervslager
- SAS Enterprise ETL server
5) Hvad er fakta? Hvilke typer fakta er der?
Det er en central komponent i en multidimensionel model, som indeholder de mål, der skal analyseres. Fakta er relateret til dimensioner.
Typer af fakta er
- Additive fakta
- Semi-additive fakta
- Ikke-additive fakta
6) Forklar hvad er terninger og OLAP terninger?
Kuber er databehandlingsenheder bestående af faktatabeller og dimensioner fra datavarehuset. Det giver multidimensionel analyse.
OLAP står for Online Analytics Processing, og OLAP cube gemmer store data i muti-dimensional form til rapporteringsformål. Den består af fakta, der kaldes mål, kategoriseret efter dimensioner.
7) Forklar, hvad der er sporingsniveau, og hvad er typerne?
Sporingsniveau er mængden af data, der er gemt i logfilerne. Sporingsniveau kan klassificeres i to Normal og Verbose. Normalt niveau forklarer sporingsniveauet på en detaljeret måde, mens detaljeret forklarer sporingsniveauerne på hver række.
8) Forklar, hvad er Grain of Fact?
Kornfaktum kan defineres som det niveau, hvorpå faktaoplysningerne er lagret. Det er også kendt som Fact Granularity
9) Forklar, hvad faktaløst faktaskema er, og hvad er Measures?
En faktatabel uden mål er kendt som faktatabel uden fakta. Det kan se antallet af hændelser. For eksempel bruges det til at registrere en hændelse, såsom medarbejderantal i en virksomhed.
De numeriske data baseret på kolonner i en faktatabel er kendt som Mål
10) Forklar hvad transformation er?
En transformation er et depotobjekt, som genererer, ændrer eller videregiver data. Transformation er af to typer aktiv og passiv
ETL-udviklerinterviewspørgsmål og svar til erfarne
11) Forklar brugen af Lookup Transformation?
Opslagstransformationen er nyttig til
- Hentning af en relateret værdi fra en tabel ved hjælp af en kolonneværdi
- Opdater langsomt skiftende dimensionstabel
- Kontroller, om der allerede findes poster i tabellen
12) Forklar, hvad er partitionering, hash-partitionering og round robin-partitionering?
For at forbedre ydeevnen er transaktioner underopdelt, dette kaldes partitionering. Opdeling muliggør computer Server til oprettelse af flere forbindelser til forskellige kilder
Typerne af partitioner er
Round-Robin opdeling:
- Ved informatica fordeles data jævnt mellem alle partitioner
- I hver partition, hvor antallet af rækker, der skal behandles, er omtrent det samme, er denne opdeling gældende
Hash-partitionering:
- Med det formål at partitionere nøgler til at gruppere data blandt partitioner anvender Informatica-serveren en hash-funktion
- Det bruges til at sikre, at processerne grupper af rækker med den samme partitioneringsnøgle i samme partition skal sikres
13) Nævn hvad er fordelen ved at bruge DataReader Destination Adapter?
Fordelen ved at bruge DataReader Destination Adapter er, at den udfylder en ADO rekordsæt (består af poster og kolonner) i hukommelsen og eksponerer dataene fra DataFlow-opgaven ved at implementere DataReader-grænsefladen, så andre applikationer kan forbruge dataene.
14) Brug af SSIS (SQL Server Integration Service) hvad er de mulige måder at opdatere tabellen på?
For at opdatere tabel ved hjælp af SSIS er de mulige måder:
- Brug SQL kommando
- Brug et mellembord
- Brug cache
- Brug scriptopgaven
- Brug det fulde databasenavn til opdatering, hvis MSSQL bruges
15) Hvis du har en ikke-OLEDB-kilde (Object Linking and Embedding Database) til opslag, hvad ville du gøre?
Hvis du har en ikke-OLEBD-kilde til opslag, skal du bruge cache til at indlæse data og bruge det som kilde
16) I hvilket tilfælde bruger du dynamisk cache og statisk cache i forbundne og ikke-forbundne transformationer?
- Dynamisk cache bruges, når du skal opdatere mastertabel og langsomt skiftende dimensioner (SCD) type 1
- Til flade filer bruges statisk cache
17) Forklar hvad forskellene er mellem Unconnected og Connected lookup?
Forbundet opslag | Uforbundet opslag |
---|---|
Connected lookup deltager i kortlægningen | Det bruges, når opslagsfunktionen bruges i stedet for en udtrykstransformation under kortlægning |
Flere værdier kan returneres | Returnerer kun én udgangsport |
Det kan forbindes med en anden transformation og returnerer en værdi | En anden transformation kan ikke forbindes |
Statisk eller dynamisk cache kan bruges til tilsluttet opslag | Ikke forbundet som kun statisk cache |
Forbundet opslag understøtter brugerdefinerede standardværdier | Uforbundet opslag understøtter ikke brugerdefinerede standardværdier |
I Connected Lookup kan flere kolonner returneres fra den samme række eller indsættes i dynamisk opslagscache | Uforbundet opslag udpeger én returport og returnerer én kolonne fra hver række |
18) Forklar, hvad er datakildevisning?
En datakildevisning gør det muligt at definere det relationelle skema, som vil blive brugt i analyseservicedatabaserne. I stedet for direkte fra datakildeobjekter oprettes dimensioner og kuber ud fra datakildevisninger.
19) Forklar, hvad der er forskellen mellem OLAP-værktøjer og ETL-værktøjer?
Forskellen mellem ETL og OLAP værktøj er det
ETL værktøj er beregnet til at udtrække data fra de ældre systemer og indlæse i specificeret database med en vis proces med at rense data.
Eksempel: Datastadium, Informatica mv.
Mens OLAP er beregnet til rapporteringsformål i OLAP-data, der er tilgængelige i flervejsmodel.
Eksempel: Business Objects, Cognos osv.
20) Hvordan du kan udtrække SAP data ved hjælp af Informatica?
- Med muligheden for strømtilslutning trækker du ud SAP data ved hjælp af informatica
- Installer og konfigurer PowerConnect-værktøjet
- Importer kilden til kildeanalysatoren. Mellem Informatica og SAP Powerconnect fungerer som en gateaway. Det næste trin er at generere ABAP-koden til kortlægningen, hvorefter kun informatica kan trække data fra SAP
- For at forbinde og importere kilder fra eksterne systemer bruges Power Connect
21) Nævn hvad er forskellen mellem Power Mart og Power Center?
Power Center | Power Mart |
---|---|
Antag at behandle enorme mængder data | Antag at behandle lav mængde data |
Den understøtter ERP-kilder som f.eks SAP, bløde mennesker osv. | Det understøtter ikke ERP-kilder |
Det understøtter lokalt og globalt lager | Det understøtter lokalt lager |
Det konverterer lokalt til globalt lager | Det har ingen specifikation for at konvertere lokalt til globalt lager |
22) Forklar, hvad et rasteområde er, og hvad er formålet med en rasteplads?
Dataopsamling er et område, hvor du holder dataene midlertidige på datavarehusserveren. Datainddeling omfatter følgende trin
- Kildedataudtræk og datatransformation (omstrukturering)
- Datatransformation (datarensning, værditransformation)
- Surrogatnøgletildelinger
23) Hvad er busskema?
For at de forskellige forretningsprocesser skal identificere de fælles dimensioner, bruges BUS-skema. Den leveres med tilpassede dimensioner sammen med en standardiseret definition af information
24) Forklar, hvad er datarensning?
Datarensning er en proces med sletning af data fra datavarehuset. Det sletter uønskede data som rækker med nulværdier eller ekstra mellemrum.
25) Forklar, hvad er skemaobjekter?
Skemaobjekter er den logiske struktur, der direkte refererer til databasens data. Skemaobjekter inkluderer tabeller, visninger, sekvenssynonymer, indekser, klynger, funktionspakker og databaselinks
26) Forklar disse udtryk Session, Worklet, Mapplet og Workflow ?
- Mapplet: Det arrangerer eller skaber sæt af transformation
- Arbejdsbog: Det repræsenterer et specifikt sæt af opgaver
- Workflow: Det er et sæt instruktioner, der fortæller serveren, hvordan opgaver skal udføres
- Session: Det er et sæt parametre, der fortæller serveren, hvordan den skal flytte data fra kilder til mål
Disse interviewspørgsmål vil også hjælpe i din viva(orals)