Top 25 ETL-testinterviewspørgsmål og -svar for 2024

Her er ETL Testing interviewspørgsmål og svar til friskere såvel som erfarne kandidater til at få deres drømmejob.

 

ETL-testinterviewspørgsmål for nybegyndere


1) Hvad er ETL?

I data warehousing architecture, ETL er en vigtig komponent, som administrerer dataene for enhver forretningsproces. ETL står for Uddrag, transformer , Load. Extract udfører processen med at læse data fra en database. Transform udfører konvertering af data til et format, der kunne være passende til rapportering og analyse. Mens indlæsning udfører processen med at skrive dataene ind i måldatabasen.

👉 Gratis PDF-download: ETL-testinterviewspørgsmål og -svar


2) Forklar, hvad ETL-testning er operationer omfatter?

ETL-test inkluderer:

  • Bekræft, om dataene transformeres korrekt i henhold til forretningskrav
  • Bekræft, at de projekterede data er indlæst i datavarehuset uden nogen trunkering og datatab
  • Sørg for, at ETL-applikationen rapporterer ugyldige data og erstatter dem med standardværdier
  • Sørg for, at data indlæses i den forventede tidsramme for at forbedre skalerbarheden og ydeevnen

ETL proces
ETL


3) Nævn, hvad er typerne af data warehouse-applikationer, og hvad er forskellen mellem data mining og data warehousing?

Typerne af datavarehusapplikationer er

  • Info behandling
  • Analytisk bearbejdning
  • Data Mining

Data mining kan defineres som processen med at udtrække skjulte forudsigende informationer fra store databaser og fortolke dataene, mens data warehousing kan gøre brug af en datamine til analytisk behandling af dataene på en hurtigere måde. Datalagring er processen med at aggregere data fra flere kilder til ét fælles lager


4) Hvad er de forskellige værktøjer, der bruges i ETL?

  • Cognos Decision Stream
  • Oracle Lagerbygger
  • Forretningsobjekter XI
  • SAS erhvervslager
  • SAS Enterprise ETL server

5) Hvad er fakta? Hvilke typer fakta er der?

Det er en central komponent i en multidimensionel model, som indeholder de mål, der skal analyseres. Fakta er relateret til dimensioner.

Typer af fakta er

  • Additive fakta
  • Semi-additive fakta
  • Ikke-additive fakta

6) Forklar hvad er terninger og OLAP terninger?

Kuber er databehandlingsenheder bestående af faktatabeller og dimensioner fra datavarehuset. Det giver multidimensionel analyse.

OLAP står for Online Analytics Processing, og OLAP cube gemmer store data i muti-dimensional form til rapporteringsformål. Den består af fakta, der kaldes mål, kategoriseret efter dimensioner.


7) Forklar, hvad der er sporingsniveau, og hvad er typerne?

Sporingsniveau er mængden af ​​data, der er gemt i logfilerne. Sporingsniveau kan klassificeres i to Normal og Verbose. Normalt niveau forklarer sporingsniveauet på en detaljeret måde, mens detaljeret forklarer sporingsniveauerne på hver række.


8) Forklar, hvad er Grain of Fact?

Kornfaktum kan defineres som det niveau, hvorpå faktaoplysningerne er lagret. Det er også kendt som Fact Granularity


9) Forklar, hvad faktaløst faktaskema er, og hvad er Measures?

En faktatabel uden mål er kendt som faktatabel uden fakta. Det kan se antallet af hændelser. For eksempel bruges det til at registrere en hændelse, såsom medarbejderantal i en virksomhed.

De numeriske data baseret på kolonner i en faktatabel er kendt som Mål


10) Forklar hvad transformation er?

En transformation er et depotobjekt, som genererer, ændrer eller videregiver data. Transformation er af to typer aktiv og passiv


ETL-udviklerinterviewspørgsmål og svar til erfarne

11) Forklar brugen af ​​Lookup Transformation?

Opslagstransformationen er nyttig til

  • Hentning af en relateret værdi fra en tabel ved hjælp af en kolonneværdi
  • Opdater langsomt skiftende dimensionstabel
  • Kontroller, om der allerede findes poster i tabellen

12) Forklar, hvad er partitionering, hash-partitionering og round robin-partitionering?

For at forbedre ydeevnen er transaktioner underopdelt, dette kaldes partitionering. Opdeling muliggør computer Server til oprettelse af flere forbindelser til forskellige kilder

Typerne af partitioner er

Round-Robin opdeling:

  • Ved informatica fordeles data jævnt mellem alle partitioner
  • I hver partition, hvor antallet af rækker, der skal behandles, er omtrent det samme, er denne opdeling gældende

Hash-partitionering:

  • Med det formål at partitionere nøgler til at gruppere data blandt partitioner anvender Informatica-serveren en hash-funktion
  • Det bruges til at sikre, at processerne grupper af rækker med den samme partitioneringsnøgle i samme partition skal sikres

13) Nævn hvad er fordelen ved at bruge DataReader Destination Adapter?

Fordelen ved at bruge DataReader Destination Adapter er, at den udfylder en ADO rekordsæt (består af poster og kolonner) i hukommelsen og eksponerer dataene fra DataFlow-opgaven ved at implementere DataReader-grænsefladen, så andre applikationer kan forbruge dataene.


14) Brug af SSIS (SQL Server Integration Service) hvad er de mulige måder at opdatere tabellen på?

For at opdatere tabel ved hjælp af SSIS er de mulige måder:

  • Brug SQL kommando
  • Brug et mellembord
  • Brug cache
  • Brug scriptopgaven
  • Brug det fulde databasenavn til opdatering, hvis MSSQL bruges

15) Hvis du har en ikke-OLEDB-kilde (Object Linking and Embedding Database) til opslag, hvad ville du gøre?

Hvis du har en ikke-OLEBD-kilde til opslag, skal du bruge cache til at indlæse data og bruge det som kilde


16) I hvilket tilfælde bruger du dynamisk cache og statisk cache i forbundne og ikke-forbundne transformationer?

  • Dynamisk cache bruges, når du skal opdatere mastertabel og langsomt skiftende dimensioner (SCD) type 1
  • Til flade filer bruges statisk cache

17) Forklar hvad forskellene er mellem Unconnected og Connected lookup?

Forbundet opslag Uforbundet opslag
Connected lookup deltager i kortlægningen Det bruges, når opslagsfunktionen bruges i stedet for en udtrykstransformation under kortlægning
Flere værdier kan returneres Returnerer kun én udgangsport
Det kan forbindes med en anden transformation og returnerer en værdi En anden transformation kan ikke forbindes
Statisk eller dynamisk cache kan bruges til tilsluttet opslag Ikke forbundet som kun statisk cache
Forbundet opslag understøtter brugerdefinerede standardværdier Uforbundet opslag understøtter ikke brugerdefinerede standardværdier
I Connected Lookup kan flere kolonner returneres fra den samme række eller indsættes i dynamisk opslagscache Uforbundet opslag udpeger én returport og returnerer én kolonne fra hver række

18) Forklar, hvad er datakildevisning?

En datakildevisning gør det muligt at definere det relationelle skema, som vil blive brugt i analyseservicedatabaserne. I stedet for direkte fra datakildeobjekter oprettes dimensioner og kuber ud fra datakildevisninger.


19) Forklar, hvad der er forskellen mellem OLAP-værktøjer og ETL-værktøjer?

Forskellen mellem ETL og OLAP værktøj er det

ETL værktøj er beregnet til at udtrække data fra de ældre systemer og indlæse i specificeret database med en vis proces med at rense data.

Eksempel: Datastadium, Informatica mv.

Mens OLAP er beregnet til rapporteringsformål i OLAP-data, der er tilgængelige i flervejsmodel.

Eksempel: Business Objects, Cognos osv.


20) Hvordan kan du udtrække SAP-data ved hjælp af Informatica?

  • Med strømtilslutningsmuligheden udtrækker du SAP-data ved hjælp af informatica
  • Installer og konfigurer PowerConnect-værktøjet
  • Importer kilden til kildeanalysatoren. Mellem Informatica og SAP Powerconnect fungerer som en gateaway. Det næste trin er at generere ABAP-koden til kortlægningen, hvorefter kun informatica kan trække data fra SAP
  • For at forbinde og importere kilder fra eksterne systemer bruges Power Connect

21) Nævn hvad er forskellen mellem Power Mart og Power Center?

Power Center Power Mart
Antag at behandle enorme mængder data Antag at behandle lav mængde data
Det understøtter ERP-kilder som SAP, people soft osv. Det understøtter ikke ERP-kilder
Det understøtter lokalt og globalt lager Det understøtter lokalt lager
Det konverterer lokalt til globalt lager Det har ingen specifikation for at konvertere lokalt til globalt lager

22) Forklar, hvad et rasteområde er, og hvad er formålet med en rasteplads?

Dataopsamling er et område, hvor du holder dataene midlertidige på datavarehusserveren. Datainddeling inkluderer following trin

  • Kildedataudtræk og datatransformation (omstrukturering)
  • Datatransformation (datarensning, værditransformation)
  • Surrogatnøgletildelinger

23) Hvad er busskema?

For at de forskellige forretningsprocesser skal identificere de fælles dimensioner, bruges BUS-skema. Den leveres med tilpassede dimensioner sammen med en standardiseret definition af information


24) Forklar, hvad er datarensning?

Datarensning er en proces med sletning af data fra datavarehuset. Det sletter uønskede data som rækker med nulværdier eller ekstra mellemrum.


25) Forklar, hvad er skemaobjekter?

Skemaobjekter er den logiske struktur, der direkte refererer til databasens data. Skemaobjekter inkluderer tabeller, visninger, sekvenssynonymer, indekser, clusters, funktionspakker og databaselinks


26) Forklar disse udtryk Session, Worklet, Mapplet og Workflow ?

  • Mapplet: Det arrangerer eller skaber sæt af transformation
  • Arbejdsbog: Det repræsenterer et specifikt sæt af opgaver
  • Workflow: Det er et sæt instruktioner, der fortæller serveren, hvordan opgaver skal udføres
  • Session: Det er et sæt parametre, der fortæller serveren, hvordan den skal flytte data fra kilder til mål

Disse interviewspørgsmål vil også hjælpe i din viva(orals)