25 лучших вопросов и ответов на собеседовании по тестированию ETL на 2025 год
Вопросы для собеседования по тестированию ETL для новичков
1) Что такое ETL?
В архитектуре хранилищ данных ETL является важным компонентом, который управляет данными любого бизнес-процесса. ЭТЛ означает Извлечь, Преобразовать и нагрузка. Extract выполняет процесс чтения данных из базы данных. Transform выполняет преобразование данных в формат, подходящий для отчетности и анализа. В то время как загрузка выполняет процесс записи данных в целевую базу данных.
👉 Бесплатная загрузка в формате PDF: Вопросы и ответы для собеседования по тестированию ETL
2) Объясните, что включает в себя операции тестирования ETL?
ETL-тестирование включает в себя:
- Проверьте, правильно ли данные преобразуются в соответствии с бизнес-требованиями.
- Убедитесь, что прогнозируемые данные загружены в хранилище данных без усечения и потери данных.
- Убедитесь, что приложение ETL сообщает неверные данные и заменяет их значениями по умолчанию.
- Убедитесь, что данные загружаются в ожидаемые сроки, чтобы улучшить масштабируемость и производительность.
3) Назовите типы приложений для хранения данных и в чем разница между интеллектуальным анализом данных и хранилищем данных?
Типы приложений хранилища данных:
- Обработка информации
- Аналитическая обработка
- Добыча данных
Сбор данных можно определить как процесс извлечения скрытой прогнозной информации из больших баз данных и интерпретации данных, в то время как хранилище данных может использовать шахту данных для более быстрой аналитической обработки данных. Хранилище данных это процесс объединения данных из нескольких источников в один общий репозиторий
4) Какие инструменты используются в ETL?
- Поток принятия решений Cognos
- Oracle Строитель складов
- Бизнес-объекты XI
- Бизнес-склад SAS
- ETL-сервер SAS Enterprise
5) Что такое факт? Каковы типы фактов?
Это центральный компонент многомерной модели, которая содержит показатели, подлежащие анализу. Факты связаны с измерениями.
Типы фактов
- Аддитивные факты
- Полусаддитивные факты
- Неаддитивные факты
6) Объясните, что такое кубы и OLAP-кубы?
Кубы — это единицы обработки данных, состоящие из таблиц фактов и измерений из хранилища данных. Он обеспечивает многомерный анализ.
OLAP означает обработку онлайн-аналитики, а куб OLAP хранит большие данные в многомерной форме для целей отчетности. Он состоит из фактов, называемых мерами, классифицированных по измерениям.
7) Объясните, что такое уровень трассировки и какие бывают типы?
Уровень трассировки — это объем данных, хранящихся в файлах журналов. Уровень трассировки можно разделить на два уровня: нормальный и подробный. Обычный уровень подробно объясняет уровень трассировки, а подробный объясняет уровни трассировки в каждой строке.
8) Объясните, что такое зерно факта?
Факт зерна можно определить как уровень, на котором хранится информация о фактах. Это также известно как детализация фактов.
9) Объясните, что такое схема бесфактических фактов и что такое меры?
Таблица фактов без мер известна как таблица фактов без фактов. Он может просматривать количество происходящих событий. Например, он используется для записи такого события, как подсчет сотрудников в компании.
Числовые данные, основанные на столбцах таблицы фактов, известны как меры.
10) Объясните, что такое трансформация?
Преобразование — это объект репозитория, который генерирует, изменяет или передает данные. Трансформация бывает двух типов: активная и пассивная.
Вопросы и ответы на собеседовании с разработчиком ETL для опытных
11) Объясните использование преобразования поиска?
Преобразование поиска полезно для
- Получение связанного значения из таблицы с использованием значения столбца
- Обновить медленно меняющуюся таблицу измерений
- Проверьте, существуют ли уже записи в таблице
12) Объясните, что такое секционирование, хеш-секционирование и циклическое секционирование?
Для повышения производительности транзакции подразделяются на части, это называется секционированием. Разделение позволяет информатика Сервер для создания множественного подключения к различным источникам
Типы перегородок:
Круговое разделение:
- По информатике данные распределяются равномерно по всем разделам.
- В каждом разделе, где количество обрабатываемых строк примерно одинаково, это разделение применимо.
Хэш-разделение:
- С целью разделения ключей для группировки данных по разделам сервер Informatica применяет хеш-функцию.
- Он используется, когда необходимо обеспечить наличие групп строк процессов с одинаковым ключом разделения в одном разделе.
13) Укажите, в чем преимущество использования адаптера назначения DataReader?
Преимущество использования адаптера назначения DataReader заключается в том, что он заполняет набор записей ADO (состоят из записей и столбцов) в памяти и предоставляет данные из задачи DataFlow путем реализации интерфейса DataReader, чтобы другое приложение могло использовать данные.
14) Каковы возможные способы обновления таблицы с помощью SSIS (службы интеграции SQL Server)?
Чтобы обновить таблицу с помощью SSIS, возможны следующие способы:
- Использовать SQL команду
- Используйте промежуточную таблицу
- Использовать кеш
- Используйте задачу «Скрипт»
- Используйте полное имя базы данных для обновления, если используется MSSQL.
15) Если у вас есть источник для поиска, отличный от OLEDB (база данных связывания и внедрения объектов), что бы вы сделали?
Если у вас есть источник, отличный от OLEBD, для поиска вам необходимо использовать кэш для загрузки данных и использовать его в качестве источника.
16) В каком случае вы используете динамический и статический кеш в связанных и несвязных преобразованиях?
- Динамический кеш используется, когда необходимо обновить основную таблицу и медленно меняющиеся измерения (SCD) типа 1.
- Для плоских файлов используется статический кеш.
17) Объясните, в чем разница между несвязанным и подключенным поиском?
Связанный поиск | Несвязный поиск |
---|---|
Связанный поиск участвует в сопоставлении | Он используется, когда функция поиска используется вместо преобразования выражения при сопоставлении. |
Может быть возвращено несколько значений | Возвращает только один выходной порт |
Он может быть связан с другими преобразованиями и возвращает значение. | Другая трансформация не может быть подключена |
Статический или динамический кеш можно использовать для подключенного поиска. | Не подключен, поскольку только статический кеш |
Связанный поиск поддерживает определяемые пользователем значения по умолчанию. | Неподключенный поиск не поддерживает определенные пользователем значения по умолчанию. |
В подключенном поиске несколько столбцов можно вернуть из одной и той же строки или вставить в кэш динамического поиска. | Несвязный поиск назначает один обратный порт и возвращает один столбец из каждой строки. |
18) Объясните, что такое представление источника данных?
Представление источника данных позволяет определить реляционную схему, которая будет использоваться в базах данных служб анализа. Измерения и кубы создаются не непосредственно из объектов источника данных, а из представлений источника данных.
19) Объясните, в чем разница между инструментами OLAP и инструментами ETL?
Разница между инструментами ETL и OLAP заключается в том, что
Инструмент ETL предназначен для извлечения данных из устаревших систем и загрузки в указанную базу данных с некоторым процессом очистки данных.
Пример: Стадия данных, Информатика и т. д.
Хотя OLAP предназначен для целей отчетности, данные OLAP доступны в многонаправленной модели.
Пример: Бизнес-объекты, Cognos и т. д.
20) Как можно извлечь SAP данные с использованием информатики?
- С опцией подключения к электросети вы извлекаете SAP данные с использованием информатики
- Установите и настройте инструмент PowerConnect.
- Импортируйте источник в анализатор источников. Между информатикой и SAP Powerconnect действует как шлюз. Следующим шагом является создание кода ABAP для сопоставления, после чего только информатика сможет извлекать данные из SAP
- Для подключения и импорта источников из внешних систем используется Power Connect.
21) Назовите, в чем разница между Power Mart и Power Center?
Центр силы | Power Mart |
---|---|
Предположим, для обработки огромного объема данных | Предположим, для обработки небольшого объема данных |
Он поддерживает источники ERP, такие как SAP, люди мягкие и т. д. | Он не поддерживает источники ERP. |
Он поддерживает локальный и глобальный репозиторий. | Он поддерживает локальный репозиторий |
Он преобразует локальный репозиторий в глобальный. | У него нет спецификации для преобразования локального репозитория в глобальный. |
22) Объясните, что такое плацдарм и какова его цель?
Промежуточное хранение данных — это область, в которой вы временно храните данные на сервере хранилища данных. Промежуточное хранение данных включает следующие шаги
- Извлечение исходных данных и преобразование данных (реструктуризация)
- Преобразование данных (очистка данных, преобразование значений)
- Суррогатные ключевые назначения
23) Что такое схема шины?
Для определения общих аспектов различных бизнес-процессов используется схема BUS. Он имеет согласованные размеры и стандартизированное определение информации.
24) Объясните, что такое очистка данных?
Очистка данных — это процесс удаления данных из хранилища данных. Он удаляет ненужные данные, такие как строки с нулевыми значениями или дополнительными пробелами.
25) Объясните, что такое объекты схемы?
Объекты схемы — это логическая структура, которая напрямую ссылается на данные базы данных. Объекты схемы включают таблицы, представления, синонимы последовательностей, индексы, кластеры, пакеты функций и ссылки на базы данных.
26) Объясните эти термины «Сессия», «ворлет», «маплет» и «рабочий процесс»?
- Маплет: Он организует или создает наборы трансформаций.
- Рабочий лист: Он представляет собой определенный набор задач, поставленных
- Процедура: Это набор инструкций, которые сообщают серверу, как выполнять задачи.
- сессия: Это набор параметров, которые сообщают серверу, как перемещать данные из источников в целевые.
Эти вопросы для собеседования также помогут вам в устной речи.