Топ 25 на въпросите и отговорите за интервю за тестване на ETL за 2025 г
Въпроси за интервю за тестване на ETL за първокурсници
1) Какво е ETL?
В архитектурата за съхранение на данни ETL е важен компонент, който управлява данните за всеки бизнес процес. ETL означава Извличане, трансформиране намлява Натоварване. Extract извършва процеса на четене на данни от база данни. Transform преобразува данните във формат, който може да бъде подходящ за отчитане и анализ. Докато load извършва процеса на записване на данните в целевата база данни.
👉 Безплатно изтегляне на PDF: Въпроси и отговори за интервю за ETL тестване
2) Обяснете какво включват операциите за тестване на ETL?
ETL тестването включва:
- Проверете дали данните се трансформират правилно според бизнес изискванията
- Уверете се, че проектираните данни са заредени в хранилището на данни без съкращаване и загуба на данни
- Уверете се, че ETL приложението отчита невалидни данни и ги заменя със стойности по подразбиране
- Уверете се, че данните се зареждат в очакваната времева рамка, за да подобрите скалируемостта и производителността
3) Споменете какви са видовете приложения за съхранение на данни и каква е разликата между извличане на данни и съхранение на данни?
Видовете приложения за съхранение на данни са
- Обработка на информация
- Аналитична обработка
- Data Mining
Извличане на данни може да се дефинира като процес на извличане на скрита прогнозна информация от големи бази данни и интерпретиране на данните, докато складирането на данни може да използва мина за данни за аналитична обработка на данните по по-бърз начин. Съхранение на данни е процес на агрегиране на данни от множество източници в едно общо хранилище
4) Какви са различните инструменти, използвани в ETL?
- Cognos Decision Stream
- Oracle Строител на складове
- Бизнес обекти XI
- SAS бизнес склад
- SAS Enterprise ETL сървър
5) Какво е факт? Какви са видовете факти?
Това е централен компонент на многоизмерен модел, който съдържа мерките, които трябва да бъдат анализирани. Фактите са свързани с измеренията.
Видове факти са
- Допълнителни факти
- Полуадитивни факти
- Неадитивни факти
6) Обяснете какво представляват кубовете и OLAP кубовете?
Кубовете са единици за обработка на данни, съставени от таблици с факти и измерения от хранилището на данни. Предоставя многоизмерен анализ.
OLAP означава обработка на онлайн анализи, а OLAP кубът съхранява големи данни в многоизмерна форма за целите на отчитането. Състои се от факти, наречени мерки, категоризирани по измерения.
7) Обяснете какво е ниво на проследяване и какви са видовете?
Нивото на проследяване е количеството данни, съхранявани в регистрационните файлове. Нивото на проследяване може да бъде класифицирано като нормално и подробно. Нормалното ниво обяснява нивото на проследяване по подробен начин, докато подробното обяснява нивата на проследяване на всеки ред.
8) Обяснете какво е Grain of Fact?
Зърнестият факт може да се определи като нивото, на което се съхранява фактическата информация. Известен е още като детайлност на фактите
9) Обяснете какво е безфактична фактологична схема и какво е Мерки?
Таблица с факти без мерки е известна като таблица с факти без факти. Може да преглежда броя на случващите се събития. Например, той се използва за записване на събитие като брой служители в компания.
Числовите данни, базирани на колони в таблица с факти, са известни като мерки
10) Обяснете какво е трансформация?
Трансформацията е обект на хранилище, който генерира, модифицира или предава данни. Трансформациите са два вида активни и пасивни
Въпроси и отговори за интервю за ETL разработчици за опитни
11) Обяснете използването на трансформацията за търсене?
Трансформацията за търсене е полезна за
- Получаване на свързана стойност от таблица с помощта на стойност на колона
- Актуализирайте бавно променящата се таблица с размери
- Проверете дали вече съществуват записи в таблицата
12) Обяснете какво е разделяне, хеш разделяне и кръгово разделяне?
За да се подобри производителността, транзакциите са подразделени, това се нарича разделяне. Разделянето позволява Информатика Сървър за създаване на множество връзки към различни източници
Видовете прегради са
Кръгово разделяне:
- Чрез informatica данните се разпределят равномерно между всички дялове
- Във всеки дял, където броят на редовете за обработка е приблизително еднакъв, това разделяне е приложимо
Хеш разделяне:
- За целите на разделяне на ключове за групиране на данни между дялове сървърът на Informatica прилага хеш функция
- Използва се, когато се гарантира, че трябва да се осигурят групи от редове с един и същ ключ за разделяне в един и същи дял
13) Споменете какво е предимството от използването на целевия адаптер на DataReader?
Предимството на използването на DataReader Destination Adapter е, че той попълва ADO набор от записи (състои се от записи и колони) в паметта и излага данните от задачата DataFlow чрез внедряване на интерфейса DataReader, така че друго приложение да може да използва данните.
14) Използване на SSIS (SQL Server Integration Service) какви са възможните начини за актуализиране на таблицата?
За да актуализирате таблица с помощта на SSIS, възможните начини са:
- Употреба SQL команда
- Използвайте сценична маса
- Използвайте кеша
- Използвайте задачата на скрипта
- Използвайте пълното име на базата данни за актуализиране, ако се използва MSSQL
15) В случай че имате източник, различен от OLEDB (база данни за свързване и вграждане на обекти) за търсене, какво бихте направили?
В случай, че имате източник, различен от OLEBD, за търсенето, тогава трябва да използвате кеша, за да заредите данни и да ги използвате като източник
16) В какъв случай използвате динамичен кеш и статичен кеш в свързани и несвързани трансформации?
- Динамичният кеш се използва, когато трябва да актуализирате главна таблица и бавно променящи се измерения (SCD) тип 1
- За плоски файлове се използва статичен кеш
17) Обяснете какви са разликите между несвързано и свързано търсене?
Свързано търсене | Несвързано търсене |
---|---|
Свързаното търсене участва в картографирането | Използва се, когато функцията за търсене се използва вместо трансформация на израз при картографиране |
Могат да бъдат върнати множество стойности | Връща само един изходен порт |
Може да се свърже с други трансформации и да връща стойност | Друга трансформация не може да бъде свързана |
Статичен или динамичен кеш може да се използва за свързано търсене | Несвързан като само статичен кеш |
Свързаното търсене поддържа дефинирани от потребителя стойности по подразбиране | Несвързаното търсене не поддържа дефинирани от потребителя стойности по подразбиране |
В Connected Lookup няколко колони могат да бъдат върнати от същия ред или вмъкнати в кеша за динамично търсене | Несвързаното търсене обозначава един порт за връщане и връща една колона от всеки ред |
18) Обяснете какво е изглед на източник на данни?
Изглед на източник на данни позволява да се дефинира релационната схема, която ще се използва в базите данни на услугите за анализ. Вместо директно от обекти на източник на данни, измеренията и кубовете се създават от изгледи на източник на данни.
19) Обяснете каква е разликата между OLAP инструментите и ETL инструментите?
Разликата между ETL и OLAP инструмента е, че
ETL инструмент е предназначен за извличане на данни от наследени системи и зареждане в определена база данни с някакъв процес на почистване на данни.
Пример: Data stage, Informatica и др.
Докато OLAP е предназначен за целите на отчитането в OLAP данни, налични в многопосочен модел.
Пример: Business Objects, Cognos и др.
20) Как можете да извлечете SAP данни с помощта на Informatica?
- С опцията за захранване извличате SAP данни с помощта на информатика
- Инсталирайте и конфигурирайте инструмента PowerConnect
- Импортирайте източника в Source Analyzer. Между Informatica и SAP Powerconnect действа като шлюз. Следващата стъпка е да генерирате ABAP кода за картографирането, от което само informatica може да изтегля данни SAP
- За свързване и импортиране на източници от външни системи се използва Power Connect
21) Споменете каква е разликата между Power Mart и Power Center?
Център за захранване | Power Mart |
---|---|
Да предположим, че обработваме огромен обем данни | Да предположим, че обработвате малък обем данни |
Той поддържа ERP източници като SAP, хора меки и т.н. | Не поддържа ERP източници |
Поддържа локално и глобално хранилище | Поддържа локално хранилище |
Преобразува локално в глобално хранилище | Няма спецификация за преобразуване на локално в глобално хранилище |
22) Обяснете какво представлява зоната за спиране и каква е нейната цел?
Подреждането на данни е област, в която съхранявате данните временно на сървъра за съхранение на данни. Подреждането на данни включва следните стъпки
- Извличане на изходни данни и трансформиране на данни (преструктуриране)
- Трансформация на данни (почистване на данни, трансформация на стойности)
- Присвояване на сурогатни ключове
23) Какво е автобусна схема?
За различните бизнес процеси за идентифициране на общите измерения се използва BUS схема. Той идва със съобразени размери заедно със стандартизирана дефиниция на информация
24) Обяснете какво е изчистване на данни?
Изчистването на данни е процес на изтриване на данни от хранилището на данни. Той изтрива нежелани данни като редове с нулеви стойности или допълнителни интервали.
25) Обяснете какво представляват обектите на схемата?
Обектите на схемата са логическата структура, която директно препраща към данните от базите данни. Обектите на схемата включват таблици, изгледи, синоними на последователности, индекси, клъстери, функционални пакети и връзки към бази данни
26) Обяснете тези термини сесия, работна клетка, маплет и работен поток?
- Mapplet: Той подрежда или създава набори от трансформация
- Worklet: Той представлява определен набор от дадени задачи
- Workflow: Това е набор от инструкции, които казват на сървъра как да изпълнява задачи
- Сесия: Това е набор от параметри, който казва на сървъра как да премести данни от източници към цел
Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)