Топ-25 запитань і відповідей на співбесіді з тестування ETL на 2025 рік
Питання для співбесіди з тестування ETL для першокурсників
1) Що таке ETL?
В архітектурі сховищ даних ETL є важливим компонентом, який керує даними для будь-якого бізнес-процесу. ETL означає Витяг, трансформація та Навантаження. Extract виконує процес читання даних із бази даних. Transform перетворює дані у формат, який може бути придатним для звітів та аналізу. Тоді як load виконує процес запису даних у цільову базу даних.
👉 Безкоштовне завантаження PDF: запитання та відповіді на співбесіді з тестування ETL
2) Поясніть, що включає в себе операції тестування ETL?
Тестування ETL включає:
- Перевірте, чи правильно дані трансформуються відповідно до вимог бізнесу
- Переконайтеся, що спроектовані дані завантажуються в сховище даних без будь-якого скорочення та втрати даних
- Переконайтеся, що програма ETL повідомляє недійсні дані та замінює значення за замовчуванням
- Переконайтеся, що дані завантажуються в очікуваний період часу, щоб покращити масштабованість і продуктивність
3) Згадайте, які існують типи додатків сховищ даних і яка різниця між інтелектуальним аналізом даних і сховищами даних?
Типи додатків сховищ даних є
- Обробка інформації
- Аналітична обробка
- Видобуток даних
Видобуток даних можна визначити як процес вилучення прихованої прогнозної інформації з великих баз даних та інтерпретації даних, тоді як сховища даних можуть використовувати шахту даних для швидшої аналітичної обробки даних. Зберігання даних це процес агрегування даних з кількох джерел в одне загальне сховище
4) Які інструменти використовуються в ETL?
- Потік рішень Cognos
- Oracle Будівельник складу
- Бізнес-об'єкти XI
- Бізнес-склад SAS
- Сервер SAS Enterprise ETL
5) Що таке факт? Які бувають види фактів?
Це центральний компонент багатовимірної моделі, яка містить показники, що підлягають аналізу. Факти пов’язані з вимірами.
Види фактів бувають
- Додаткові факти
- Напівадитивні факти
- Неадитивні факти
6) Поясніть, що таке куби та куби OLAP?
Куби — це одиниці обробки даних, що складаються з таблиць фактів і розмірів зі сховища даних. Він забезпечує багатовимірний аналіз.
OLAP означає Online Analytics Processing, а куб OLAP зберігає великі дані в багатовимірній формі для звітування. Він складається з фактів, які називаються мірами, класифікованими за розмірами.
7) Поясніть, що таке рівень трасування та які бувають типи?
Рівень трасування — це кількість даних, що зберігаються у файлах журналу. Рівень трасування можна розділити на звичайний і докладний. Звичайний рівень детально пояснює рівень трасування, тоді як докладний пояснює рівні трасування в кожному рядку.
8) Поясніть, що таке зерно факту?
Зерновий факт можна визначити як рівень, на якому зберігається фактова інформація. Він також відомий як деталізація фактів
9) Поясніть, що таке безфактична схема фактів і що таке міри?
Таблиця фактів без заходів відома як безфактична таблиця фактів. Він може переглядати кількість подій, що відбуваються. Наприклад, він використовується для запису такої події, як кількість співробітників у компанії.
Числові дані на основі стовпців у таблиці фактів називаються мірами
10) Поясніть, що таке трансформація?
Трансформація — це об’єкт сховища, який генерує, змінює або передає дані. Трансформація буває двох типів: активна і пасивна
Запитання та відповіді на співбесіді розробника ETL для досвідчених
11) Поясніть використання перетворення пошуку?
Перетворення пошуку корисно для
- Отримання пов’язаного значення з таблиці за допомогою значення стовпця
- Оновіть таблицю розмірів, що повільно змінюється
- Перевірте, чи вже існують записи в таблиці
12) Поясніть, що таке секціонування, хеш-розбиття та циклічне розділення?
Для підвищення продуктивності транзакції поділяються на частини, це називається розділенням. Розбиття дозволяє Інформатика Сервер для створення багаторазового підключення до різних джерел
Види перегородок бувають
Колоподібне розділення:
- За допомогою інформатики дані рівномірно розподіляються між усіма розділами
- У кожному розділі, де кількість рядків для обробки приблизно однакова, це розділення застосовується
Хеш-розбиття:
- З метою розділення ключів для групування даних між розділами сервер Informatica застосовує хеш-функцію
- Він використовується, коли необхідно забезпечити групи процесів рядків з однаковим ключем розділення в одному розділі
13) Згадайте, яка перевага використання цільового адаптера DataReader?
Перевага використання цільового адаптера DataReader полягає в тому, що він заповнює Набір записів ADO (складається із записів і стовпців) у пам’яті та відкриває дані із завдання DataFlow шляхом впровадження інтерфейсу DataReader, щоб інша програма могла споживати дані.
14) Які можливі способи оновлення таблиці за допомогою SSIS (служба інтеграції SQL Server)?
Для оновлення таблиці за допомогою SSIS можливі такі способи:
- Використовувати SQL команда
- Використовуйте постановочний стіл
- Використовуйте кеш
- Використовуйте завдання зі сценарію
- Використовуйте повну назву бази даних для оновлення, якщо використовується MSSQL
15) Якщо у вас є джерело не-OLEDB (база даних зв’язування та вбудовування об’єктів) для пошуку, що ви будете робити?
У випадку, якщо у вас є джерело не-OLEBD для пошуку, ви повинні використовувати кеш для завантаження даних і використання їх як джерела
16) У якому випадку ви використовуєте динамічний кеш і статичний кеш у підключених і не підключених перетвореннях?
- Динамічний кеш використовується, коли потрібно оновити основну таблицю та розміри, що повільно змінюються (SCD) типу 1
- Для плоских файлів використовується статичний кеш
17) Поясніть, у чому полягають відмінності між пошуком без підключення та підключенням?
Підключений пошук | Непідключений пошук |
---|---|
Підключений пошук бере участь у відображенні | Він використовується, коли функція пошуку використовується замість перетворення виразу під час відображення |
Можна повернути декілька значень | Повертає лише один вихідний порт |
Він може бути підключений до інших перетворень і повертає значення | Інше перетворення не підключається |
Для підключеного пошуку можна використовувати статичний або динамічний кеш | Не підключено як лише статичний кеш |
Підключений пошук підтримує визначені користувачем значення за замовчуванням | Непідключений пошук не підтримує визначені користувачем значення за замовчуванням |
У Connected Lookup кілька стовпців можна повернути з того самого рядка або вставити в кеш динамічного пошуку | Непідключений пошук призначає один порт повернення та повертає один стовпець із кожного рядка |
18) Поясніть, що таке перегляд джерела даних?
Перегляд джерела даних дозволяє визначити реляційну схему, яка використовуватиметься в базах даних служб аналізу. Замість того, щоб безпосередньо з об’єктів джерела даних, розміри та куби створюються з представлень джерела даних.
19) Поясніть, у чому різниця між інструментами OLAP та інструментами ETL?
Різниця між інструментом ETL і OLAP полягає в тому
Інструмент ETL призначений для вилучення даних із застарілих систем і завантаження у вказану базу даних із деяким процесом очищення даних.
приклад: Data stage, Informatica тощо.
Хоча OLAP призначений для створення звітів у даних OLAP, доступних у багатонаправленій моделі.
приклад: Business Objects, Cognos тощо.
20) Як можна добувати SAP даних за допомогою Informatica?
- За допомогою опції підключення живлення ви витягуєте SAP даних з використанням інформатики
- Встановіть і налаштуйте інструмент PowerConnect
- Імпортуйте джерело в Source Analyzer. Між Informatica і SAP Powerconnect діє як шлюз. Наступним кроком є створення коду ABAP для відображення, з якого лише informatica зможе отримати дані SAP
- Для підключення та імпорту джерел із зовнішніх систем використовується Power Connect
21) Згадайте, яка різниця між Power Mart і Power Center?
Центр живлення | Power Mart |
---|---|
Припустимо, обробити величезний обсяг даних | Припустимо, обробити невеликий обсяг даних |
Він підтримує такі джерела ERP, як SAP, люди м'які тощо | Він не підтримує джерела ERP |
Він підтримує локальні та глобальні репозиторії | Він підтримує локальне сховище |
Він перетворює локальне сховище в глобальне | Він не має специфікації для перетворення локального в глобальне сховище |
22) Поясніть, що таке сценічний майданчик і яке його призначення?
Постановка даних — це область, де ви тимчасово зберігаєте дані на сервері сховища даних. Постановка даних включає наступні кроки
- Витяг вихідних даних і трансформація даних (реструктуризація)
- Перетворення даних (очищення даних, перетворення значень)
- Призначення сурогатних ключів
23) Що таке схема шини?
Для різних бізнес-процесів для визначення загальних параметрів використовується схема BUS. Він має узгоджені розміри разом із стандартизованим визначенням інформації
24) Поясніть, що таке видалення даних?
Очищення даних — це процес видалення даних зі сховища даних. Він видаляє небажані дані, наприклад рядки з нульовими значеннями або зайвими пробілами.
25) Поясніть, що таке об’єкти схеми?
Об’єкти схеми – це логічна структура, яка безпосередньо посилається на дані бази даних. Об’єкти схеми включають таблиці, подання, синоніми послідовностей, індекси, кластери, пакети функцій і посилання на бази даних
26) Поясніть ці терміни: сеанс, робоча програма, маплет і робочий процес?
- Маплет: Він організовує або створює набори трансформацій
- Worklet: Він являє собою певний набір поставлених завдань
- Процедура: Це набір інструкцій, які повідомляють серверу, як виконувати завдання
- Сесія: Це набір параметрів, який повідомляє серверу, як перемістити дані з джерел до цільових
Ці запитання для співбесіди також допоможуть вам у життєдіяльності (усному)