25 najpopularniejszych pytań i odpowiedzi do rozmów kwalifikacyjnych dotyczących testowania ETL w roku 2026
Pytania do rozmowy kwalifikacyjnej testującej ETL dla nowicjuszy
1) Co to jest ETL?
W architekturze magazynowania danych ETL jest ważnym komponentem, który zarządza danymi dla dowolnego procesu biznesowego. ETL oznacza Wyodrębnij, przekształć oraz Załadować. Ekstrakt wykonuje proces odczytywania danych z bazy danych. Transformacja polega na konwertowaniu danych do formatu, który może być odpowiedni do raportowania i analiz. Podczas gdy ładowanie wykonuje proces zapisywania danych w docelowej bazie danych.
👉 Bezpłatne pobieranie pliku PDF: Pytania i odpowiedzi dotyczące wywiadu testującego ETL
2) Wyjaśnij, na czym polegają operacje testowania ETL?
Testowanie ETL obejmuje:
- Sprawdź, czy dane przekształcają się poprawnie zgodnie z wymaganiami biznesowymi
- Sprawdź, czy projektowane dane zostały załadowane do hurtowni danych bez żadnego obcięcia i utraty danych
- Upewnij się, że aplikacja ETL zgłasza nieprawidłowe dane i zastępuje je wartościami domyślnymi
- Aby poprawić skalowalność i wydajność, upewnij się, że dane ładują się w oczekiwanych ramach czasowych

3) Wspomnij, jakie są rodzaje aplikacji hurtowni danych i jaka jest różnica między eksploracją danych a hurtownią danych?
Rodzaje aplikacji hurtowni danych to:
- Przetwarzanie informacji
- Przetwarzanie analityczne
- Data Mining
Data mining można zdefiniować jako proces wydobywania ukrytych informacji predykcyjnych z dużych baz danych i interpretacji danych, podczas gdy hurtownia danych może wykorzystywać kopalnię danych do szybszego analitycznego przetwarzania danych. Magazyn danych to proces agregowania danych z wielu źródeł w jedno wspólne repozytorium
4) Jakie są różne narzędzia stosowane w ETL?
- Strumień decyzji Cognos
- Oracle Konstruktor Magazynu
- Obiekty Biznesowe XI
- Magazyn biznesowy SAS
- Serwer SAS Enterprise ETL
5) Co jest faktem? Jakie są rodzaje faktów?
Jest to centralny element wielowymiarowego modelu, który zawiera miary podlegające analizie. Fakty są powiązane z wymiarami.
Rodzaje faktów są
- Dodatkowe fakty
- Fakty półdodatkowe
- Fakty nieaddytywne
6) Wyjaśnij, czym są kostki i kostki OLAP?
Kostki to jednostki przetwarzania danych składające się z tabel faktów i wymiarów z hurtowni danych. Zapewnia analizę wielowymiarową.
OLAP oznacza przetwarzanie analityki online, a kostka OLAP przechowuje duże dane w formie wielowymiarowej do celów raportowania. Składa się z faktów zwanych miarami podzielonymi według wymiarów.
7) Wyjaśnij, co to jest poziom śledzenia i jakie są jego typy?
Poziom śledzenia to ilość danych przechowywanych w plikach dziennika. Poziom śledzenia można podzielić na dwa poziomy: Normalny i Pełny. Poziom normalny szczegółowo wyjaśnia poziom śledzenia, natomiast poziom szczegółowy wyjaśnia poziomy śledzenia w każdym wierszu.
8) Wyjaśnij, czym jest ziarno faktów?
Fakt ziarnowy można zdefiniować jako poziom, na którym przechowywana jest informacja o fakcie. Nazywa się ją także szczegółowością faktów
9) Wyjaśnij, czym jest schemat faktów pozbawiony faktów i czym są miary?
Tabela faktów bez miar nazywana jest tabelą faktów bez faktów. Może wyświetlić liczbę występujących zdarzeń. Służy na przykład do rejestrowania zdarzenia, takiego jak liczba pracowników w firmie.
Dane liczbowe oparte na kolumnach tabeli faktów nazywane są miarami
10) Wyjaśnij, czym jest transformacja?
Transformacja to obiekt repozytorium, który generuje, modyfikuje lub przekazuje dane. Transformacja jest dwojakiego rodzaju: Aktywna i Pasywna
Pytania i odpowiedzi dotyczące wywiadu z programistą ETL dla doświadczonych
11) Wyjaśnij zastosowanie transformacji wyszukiwania?
Transformacja wyszukiwania jest przydatna w przypadku
- Pobieranie powiązanej wartości z tabeli przy użyciu wartości kolumny
- Zaktualizuj powoli zmieniającą się tabelę wymiarów
- Sprawdź, czy rekordy już istnieją w tabeli
12) Wyjaśnij, co to jest partycjonowanie, partycjonowanie mieszające i partycjonowanie okrężne?
Aby poprawić wydajność, transakcje są dzielone na mniejsze części, co nazywa się partycjonowaniem. Partycjonowanie umożliwia Informatyka Serwer do tworzenia wielu połączeń do różnych źródeł
Rodzaje partycji to
Partycjonowanie okrężne:
- Według Informatica dane są równomiernie rozłożone pomiędzy wszystkimi partycjami
- W każdej partycji, w której liczba wierszy do przetworzenia jest w przybliżeniu taka sama, ma zastosowanie ten podział
Partycjonowanie skrótu:
- W celu partycjonowania kluczy w celu grupowania danych pomiędzy partycjami serwer Informatica wykorzystuje funkcję haszującą
- Jest używany, gdy należy zapewnić procesy grup wierszy z tym samym kluczem partycjonowania w tej samej partycji
13) Wspomnij, jaka jest zaleta korzystania z adaptera docelowego DataReader?
Zaletą korzystania z adaptera docelowego DataReader jest to, że wypełnia on plik Zestaw rekordów ADO (składa się z rekordów i kolumn) w pamięci i udostępnia dane z zadania DataFlow poprzez implementację interfejsu DataReader, dzięki czemu inna aplikacja może korzystać z danych.
14) Jakie są możliwe sposoby aktualizacji tabeli za pomocą SSIS (usługi integracji serwera SQL)?
Aby zaktualizować tabelę za pomocą SSIS, możliwe sposoby to:
- Użyj SQL komenda
- Użyj tabeli pomostowej
- Użyj pamięci podręcznej
- Użyj zadania skryptu
- Użyj pełnej nazwy bazy danych do aktualizacji, jeśli używany jest MSSQL
15) Jeśli do wyszukiwania masz źródło inne niż OLEDB (baza danych o łączeniu obiektów i osadzaniu obiektów), co byś zrobił?
W przypadku, gdy do wyszukiwania masz źródło inne niż OLEBD, musisz użyć pamięci podręcznej, aby załadować dane i użyć ich jako źródła
16) W jakim przypadku używasz dynamicznej pamięci podręcznej i statycznej pamięci podręcznej w transformacjach połączonych i niepołączonych?
- Dynamiczna pamięć podręczna jest używana, gdy trzeba zaktualizować tabelę główną i wolno zmieniające się wymiary (SCD) typu 1
- W przypadku plików płaskich używana jest statyczna pamięć podręczna
17) Wyjaśnij, jakie są różnice pomiędzy wyszukiwaniem niepołączonym i połączonym?
| Połączone wyszukiwanie | Niepołączone wyszukiwanie |
|---|---|
| Połączone wyszukiwanie uczestniczy w mapowaniu | Jest używany, gdy podczas mapowania zamiast transformacji wyrażenia używana jest funkcja wyszukiwania |
| Można zwrócić wiele wartości | Zwraca tylko jeden port wyjściowy |
| Można go połączyć z innymi transformacjami i zwrócić wartość | Nie można podłączyć kolejnej transformacji |
| Do połączonego wyszukiwania można używać statycznej lub dynamicznej pamięci podręcznej | Niepołączone, ponieważ jest to tylko statyczna pamięć podręczna |
| Połączone wyszukiwanie obsługuje wartości domyślne zdefiniowane przez użytkownika | Niepołączone wyszukiwanie nie obsługuje wartości domyślnych zdefiniowanych przez użytkownika |
| W Connected Lookup wiele kolumn można zwrócić z tego samego wiersza lub wstawić do dynamicznej pamięci podręcznej wyszukiwania | Wyszukiwanie niepołączone wyznacza jeden port zwrotny i zwraca jedną kolumnę z każdego wiersza |
18) Wyjaśnij, co to jest widok źródła danych?
Widok źródła danych umożliwia zdefiniowanie schematu relacyjnego, który będzie wykorzystywany w bazach danych usług analitycznych. Zamiast bezpośrednio z obiektów źródła danych, wymiary i kostki są tworzone na podstawie widoków źródła danych.
19) Wyjaśnij, jaka jest różnica pomiędzy narzędziami OLAP i narzędziami ETL?
Różnica między narzędziem ETL i OLAP polega na tym
Narzędzie ETL jest przeznaczony do ekstrakcji danych ze starszych systemów i załadowania ich do określonej bazy danych z pewnym procesem czyszczenia danych.
Przykład: Etap danych, Informatyka itp.
Natomiast OLAP przeznaczony jest do celów raportowania, w danych OLAP dostępnych w modelu wielokierunkowym.
Przykład: Obiekty biznesowe, Cognos itp.
20) Jak możesz wyodrębnić SAP dane za pomocą Informatyki?
- Z opcją podłączenia zasilania wyodrębnisz SAP danych za pomocą informatyki
- Zainstaluj i skonfiguruj narzędzie PowerConnect
- Zaimportuj źródło do narzędzia Source Analyzer. Między informatyką a SAP Powerconnect działa jak bramka. Następnym krokiem jest wygenerowanie kodu ABAP do mapowania, z którego tylko informatica może pobierać dane SAP
- Do podłączania i importowania źródeł z systemów zewnętrznych wykorzystywany jest Power Connect
21) Wspomnij, jaka jest różnica pomiędzy Power Mart i Power Center?
| Centrum mocy | Power Mart |
|---|---|
| Załóżmy, że przetwarzasz ogromną ilość danych | Załóżmy, że przetwarzasz małą ilość danych |
| Obsługuje źródła ERP takie jak SAP, ludzie miękcy itp. | Nie obsługuje źródeł ERP |
| Obsługuje repozytorium lokalne i globalne | Obsługuje lokalne repozytorium |
| Konwertuje repozytorium lokalne na globalne | Nie ma specyfikacji konwersji repozytorium lokalnego na globalne |
22) Wyjaśnij, czym jest obszar przejściowy i jaki jest cel obszaru tymczasowego?
Przygotowanie danych to obszar, w którym tymczasowo przechowujesz dane na serwerze magazynu danych. Przygotowanie danych obejmuje następujące kroki
- Ekstrakcja i transformacja danych źródłowych (restrukturyzacja)
- Transformacja danych (czyszczenie danych, transformacja wartości)
- Kluczowe zadania zastępcze
23) Co to jest schemat magistrali?
Aby różne procesy biznesowe mogły zidentyfikować wspólne wymiary, używany jest schemat BUS. Ma zgodne wymiary wraz ze znormalizowaną definicją informacji
24) Wyjaśnij, na czym polega usuwanie danych?
Czyszczenie danych to proces usuwania danych z hurtowni danych. Usuwa niepotrzebne dane, takie jak wiersze z wartościami null lub dodatkowymi spacjami.
25) Wyjaśnij, czym są obiekty schematu?
Obiekty schematu to struktura logiczna, która bezpośrednio odnosi się do danych baz danych. Obiekty schematu obejmują tabele, widoki, synonimy sekwencji, indeksy, klastry, pakiety funkcji i łącza baz danych.
26) Wyjaśnij pojęcia Sesja, Worklet, Mapplet i Workflow?
- Mapplet: Porządkuje lub tworzy zbiory transformacji
- Zadanie: Reprezentuje konkretny zestaw zadanych zadań
- Workflow: Jest to zestaw instrukcji, które mówią serwerowi, jak wykonywać zadania
- Sesja: Jest to zestaw parametrów, który mówi serwerowi, jak przenosić dane ze źródeł do celu
Te pytania podczas rozmowy kwalifikacyjnej pomogą również w Twoim życiu (ustach)
