Topp 25 ETL-testintervjufrågor och svar för 2025
ETL-testintervjufrågor för nybörjare
1) Vad är ETL?
I datalagerarkitektur är ETL en viktig komponent som hanterar data för alla affärsprocesser. ETL står för Extrahera, transformera och Ladda. Extract gör processen att läsa data från en databas. Transform gör omvandlingen av data till ett format som kan vara lämpligt för rapportering och analys. Medan load gör processen att skriva data till måldatabasen.
👉 Gratis PDF-nedladdning: ETL-testintervjufrågor och svar
2) Förklara vad ETL-testningen omfattar?
ETL-testning inkluderar:
- Verifiera om data transformeras korrekt enligt affärskrav
- Verifiera att den projicerade datan laddas in i datalagret utan trunkering och dataförlust
- Se till att ETL-applikationen rapporterar ogiltiga data och ersätter dem med standardvärden
- Se till att data laddas vid förväntad tidsram för att förbättra skalbarhet och prestanda
3) Nämn vilka typer av datalagerapplikationer finns och vad är skillnaden mellan datautvinning och datalager?
Typerna av datalagerapplikationer är
- Informationsbearbetning
- Analytisk bearbetning
- Data Mining
Data mining kan definieras som processen att extrahera dold prediktiv information från stora databaser och tolka data medan datalager kan använda sig av en datamina för analytisk bearbetning av data på ett snabbare sätt. Datalagring är processen att aggregera data från flera källor till ett gemensamt arkiv
4) Vilka olika verktyg används i ETL?
- Cognos Decision Stream
- Oracle Lagerbyggare
- Affärsobjekt XI
- SAS företagslager
- SAS Enterprise ETL-server
5) Vad är fakta? Vilka typer av fakta finns det?
Det är en central komponent i en flerdimensionell modell som innehåller de åtgärder som ska analyseras. Fakta är relaterade till dimensioner.
Typer av fakta är
- Additiva fakta
- Halvadditiva fakta
- Fakta som inte är tillsatser
6) Förklara vad är kuber och OLAP kuber?
Kuber är databehandlingsenheter som består av faktatabeller och dimensioner från datalagret. Det ger flerdimensionell analys.
OLAP står för Online Analytics Processing, och OLAP-kuben lagrar stor data i flerdimensionell form för rapporteringsändamål. Den består av fakta som kallas mått kategoriserade efter dimensioner.
7) Förklara vad som är spårningsnivå och vilka typer är det?
Spårningsnivå är mängden data som lagras i loggfilerna. Spårningsnivå kan klassificeras i två Normal och Verbose. Normal nivå förklarar spårningsnivån på ett detaljerat sätt medan utförligt förklarar spårningsnivåerna på varje rad.
8) Förklara vad är Grain of Fact?
Kornfakta kan definieras som den nivå på vilken faktainformationen lagras. Det är också känt som faktagranularitet
9) Förklara vad faktalöst faktaschema är och vad är åtgärder?
En faktatabell utan mått kallas Faktalös faktatabell. Den kan se antalet inträffade händelser. Det används till exempel för att registrera en händelse som antalet anställda i ett företag.
De numeriska uppgifterna baserade på kolumner i en faktatabell kallas mått
10) Förklara vad är transformation?
En transformation är ett förvarsobjekt som genererar, modifierar eller skickar data. Transformation är av två typer aktiv och passiv
Intervjufrågor och svar för ETL-utvecklare för erfarna
11) Förklara användningen av Lookup Transformation?
Uppslagstransformationen är användbar för
- Hämta ett relaterat värde från en tabell med ett kolumnvärde
- Uppdatera långsamt ändrande dimensionstabell
- Kontrollera om poster redan finns i tabellen
12) Förklara vad är partitionering, hash-partitionering och round robin-partitionering?
För att förbättra prestandan delas transaktioner upp, detta kallas för partitionering. Partitionering möjliggör Informatik Server för att skapa flera anslutningar till olika källor
Typerna av partitioner är
Round-Robin partitionering:
- Genom informatica fördelas data jämnt mellan alla partitioner
- I varje partition där antalet rader att bearbeta är ungefär detsamma är denna partitionering tillämplig
Hash-partitionering:
- I syfte att partitionera nycklar för att gruppera data bland partitioner använder Informatica-servern en hashfunktion
- Den används när man säkerställer att processgrupper av rader med samma partitioneringsnyckel i samma partition måste säkerställas
13) Nämn vad är fördelen med att använda DataReader Destination Adapter?
Fördelen med att använda DataReader Destination Adapter är att den fyller en ADO-rekord (består av poster och kolumner) i minnet och exponerar data från DataFlow-uppgiften genom att implementera DataReader-gränssnittet, så att andra applikationer kan konsumera data.
14) Använda SSIS (SQL Server Integration Service) vilka är de möjliga sätten att uppdatera tabellen?
För att uppdatera tabellen med SSIS är de möjliga sätten:
- Använd SQL kommando
- Använd ett mellanställningsbord
- Använd cache
- Använd skriptuppgiften
- Använd fullständigt databasnamn för uppdatering om MSSQL används
15) Om du har en icke-OLEDB-källa (Object Linking and Embedding Database) för sökningen, vad skulle du göra?
Om du har en icke-OLEBD-källa för sökningen måste du använda cache för att ladda data och använda den som källa
16) I vilket fall använder du dynamisk cache och statisk cache i anslutna och oanslutna transformationer?
- Dynamisk cache används när du måste uppdatera huvudtabell och långsamt ändrande dimensioner (SCD) typ 1
- För platta filer används statisk cache
17) Förklara vad är skillnaderna mellan Unconnected och Connected lookup?
Connected Lookup | Oansluten sökning |
---|---|
Connected lookup deltar i kartläggningen | Den används när uppslagsfunktionen används istället för en uttrycksomvandling vid mappning |
Flera värden kan returneras | Returnerar endast en utgångsport |
Den kan kopplas till en annan transformation och returnerar ett värde | En annan transformation kan inte kopplas ihop |
Statisk eller dynamisk cache kan användas för ansluten Lookup | Oansluten som endast statisk cache |
Connected lookup stöder användardefinierade standardvärden | Oansluten uppslagning stöder inte användardefinierade standardvärden |
I Connected Lookup kan flera kolumner returneras från samma rad eller infogas i dynamisk lookup-cache | Oansluten uppslagning anger en returport och returnerar en kolumn från varje rad |
18) Förklara vad är datakällavy?
En datakällavy gör det möjligt att definiera relationsschemat som kommer att användas i analystjänstdatabaserna. I stället för direkt från datakällobjekt skapas dimensioner och kuber från datakällvyer.
19) Förklara vad som är skillnaden mellan OLAP-verktyg och ETL-verktyg?
Skillnaden mellan ETL och OLAP-verktyget är det
ETL-verktyg är avsedd för att extrahera data från de äldre systemen och ladda in i specificerad databas med någon process för att rensa data.
Exempelvis: Datastadium, Informatica mm.
Medan OLAP är avsedd för rapporteringsändamål i OLAP-data tillgängliga i flervägsmodell.
Exempelvis: Business Objects, Cognos etc.
20) Hur du kan extrahera SAP data med hjälp av Informatica?
- Med strömanslutningsalternativet extraherar du SAP data med hjälp av informatica
- Installera och konfigurera PowerConnect-verktyget
- Importera källan till källanalysatorn. Mellan Informatica och SAP Powerconnect fungerar som en inkörsport. Nästa steg är att generera ABAP-koden för mappningen som endast informatica kan hämta data från SAP
- För att ansluta och importera källor från externa system används Power Connect
21) Nämn vad är skillnaden mellan Power Mart och Power Center?
Power Center | Power Mart |
---|---|
Antag att du ska bearbeta stora mängder data | Antag att du bearbetar en liten mängd data |
Den stöder ERP-källor som t.ex SAP, människor mjuka etc. | Det stöder inte ERP-källor |
Det stöder lokalt och globalt arkiv | Det stöder lokalt arkiv |
Det konverterar lokalt till globalt arkiv | Den har ingen specifikation för att konvertera lokalt till globalt arkiv |
22) Förklara vad uppställningsplats är och vad är syftet med en uppställningsplats?
Datalagring är ett område där du håller data temporärt på datalagerservern. Dataindelning inkluderar följande steg
- Källdataextraktion och datatransformation (omstrukturering)
- Datatransformation (datarensning, värdetransformation)
- Surrogatnyckeltilldelningar
23) Vad är Bus Schema?
För att de olika affärsprocesserna ska identifiera de gemensamma dimensionerna används BUS-schema. Den levereras med anpassade mått tillsammans med en standardiserad definition av information
24) Förklara vad är datarensning?
Datarensning är en process för att radera data från datalager. Den tar bort skräpdata som rader med nollvärden eller extra mellanslag.
25) Förklara vad är Schema Objects?
Schemaobjekt är den logiska strukturen som direkt refererar till databasens data. Schemaobjekt inkluderar tabeller, vyer, sekvenssynonymer, index, kluster, funktionspaket och databaslänkar
26) Förklara dessa termer Session, Worklet, Mapplet och Workflow ?
- Mapplet: Det arrangerar eller skapar uppsättningar av transformation
- Arbetsblad: Det representerar en specifik uppsättning uppgifter som ges
- Arbetsflöde: Det är en uppsättning instruktioner som talar om för servern hur uppgifterna ska utföras
- Session: Det är en uppsättning parametrar som talar om för servern hur data ska flyttas från källor till mål
Dessa intervjufrågor kommer också att hjälpa dig i din viva (orals)