25 年 2025 大 ETL 测试面试问题与答案
针对应届毕业生的 ETL 测试面试问题
1) 什么是 ETL?
在数据仓库架构中,ETL 是一个重要组件,用于管理任何业务流程的数据。ETL 代表 提取、转换 和 载荷。提取是从数据库读取数据的过程。转换是将数据转换为适合报告和分析的格式。而加载是将数据写入目标数据库的过程。
2)解释ETL测试操作包括哪些?
ETL 测试包括:
- 验证数据是否根据业务要求正确转换
- 验证投影数据是否已加载到数据仓库中,没有任何截断和数据丢失
- 确保 ETL 应用程序报告无效数据并用默认值替换
- 确保数据在预期的时间范围内加载,以提高可扩展性和性能
3) 提及数据仓库应用程序的类型有哪些以及数据挖掘和数据仓库之间有什么区别?
数据仓库应用程序的类型包括
- 信息处理
- 分析处理
- 数据挖掘
数据挖掘 可以定义为从大型数据库中提取隐藏的预测信息并解释数据的过程,而数据仓库可以利用数据挖掘以更快的方式对数据进行分析处理。 数据仓库 是将来自多个来源的数据聚合到一个公共存储库的过程
4)ETL中使用了哪些各种工具?
- Cognos 决策流
- Oracle 仓库建造者
- 商业对象 XI
- SAS 业务仓库
- SAS 企业 ETL 服务器
5)什么是事实?事实有哪些类型?
它是多维模型的核心组件,包含要分析的指标。事实与维度相关。
事实类型包括
- 附加事实
- 半加成事实
- 非可加性事实
6)解释什么是多维数据集和 OLAP 多维数据集?
多维数据集是由数据仓库中的事实表和维度组成的数据处理单元。它提供多维分析。
OLAP 代表在线分析处理,OLAP 多维数据集以多维形式存储大量数据以用于报告目的。它由按维度分类的称为度量的事实组成。
7)解释什么是跟踪级别以及有哪些类型?
跟踪级别是指日志文件中存储的数据量。跟踪级别分为普通和详细两种。普通级别以详细的方式解释跟踪级别,而详细级别则逐行解释跟踪级别。
8)解释什么是事实?
事实粒度可以定义为事实信息存储的级别。它也称为事实粒度
9)解释什么是无事实事实模式以及什么是度量?
没有度量的事实表称为无事实事实表。它可以查看发生的事件的数量。例如,它用于记录公司员工人数等事件。
基于事实表中列的数字数据称为度量
10)解释什么是转变?
转换是生成、修改或传递数据的存储库对象。转换有两种类型:主动转换和被动转换
经验丰富的 ETL 开发人员面试问题及答案
11)解释查找转换的用途?
查找转换适用于
- 使用列值从表中获取相关值
- 更新渐变维度表
- 验证表中是否已存在记录
12)解释什么是分区、哈希分区和循环分区?
为了提高性能,交易被细分,这称为分区。分区可以 Informatica的 用于创建与各种来源的多个连接的服务器
分区的类型包括
循环分区:
- 通过 Informatica,数据在所有分区之间均匀分布
- 在每个分区中,要处理的行数大致相同,此分区适用
哈希分区:
- 为了使用分区键对分区之间的数据进行分组,Informatica 服务器应用了哈希函数
- 当需要确保同一分区中具有相同分区键的行的处理组时使用它
13)说出使用DataReader目标适配器的优点是什么?
使用 DataReader 目标适配器的优点是它填充了一个 ADO 记录集 (由记录和列组成)在内存中,并通过实现 DataReader 接口公开来自 DataFlow 任务的数据,以便其他应用程序可以使用该数据。
14) 使用 SSIS(SQL Server 集成服务),有哪些可能的方法来更新表?
要使用 SSIS 更新表,可能的方法有:
- 使用 SQL 命令
- 使用临时表
- 使用缓存
- 使用脚本任务
- 如果使用 MSSQL,则使用完整数据库名称进行更新
15)如果您有非 OLEDB(对象链接和嵌入数据库)的查找源,您会怎么做?
如果你的查找源不是 OLEBD,那么你必须使用缓存来加载数据并将其用作源
16)在什么情况下在连接和非连接转换中使用动态缓存和静态缓存?
- 当你必须更新主表和缓慢变化维度 (SCD) 类型 1 时,使用动态缓存
- 对于平面文件,使用静态缓存
17)解释非连接查找和连接查找之间的区别是什么?
连接查找 | 未连接查找 |
---|---|
连接查找参与映射 | 在映射时使用查找函数而不是表达式转换时使用它 |
可以返回多个值 | 仅返回一个输出端口 |
它可以连接到另一个转换并返回一个值 | 无法连接其他转换 |
静态或动态缓存可用于连接查找 | 未连接,仅作为静态缓存 |
连接查找支持用户定义的默认值 | 未连接的查找不支持用户定义的默认值 |
在连接查找中,可以从同一行返回多个列或将其插入到动态查找缓存中 | 未连接查找指定一个返回端口并从每行返回一列 |
18)解释什么是数据源视图?
数据源视图允许定义将在分析服务数据库中使用的关系架构。维度和多维数据集不是直接从数据源对象创建,而是从数据源视图创建。
19)解释 OLAP 工具和 ETL 工具之间的区别是什么?
ETL 和 OLAP 工具之间的区别在于
ETL工具 旨在从遗留系统中提取数据,并通过一些数据清理过程加载到指定的数据库中。
示例: 数据阶段、Informatica 等
而 OLAP 则旨在用于在多向模型中可用的 OLAP 数据中进行报告的目的。
示例: 商业对象、Cognos 等
20)如何提取 SAP 使用 Informatica 的数据?
- 使用电源连接选项,您可以提取 SAP 使用信息学的数据
- 安装并配置 PowerConnect 工具
- 将源导入源分析器。在 Informatica 和 SAP Powerconnect 充当网关。下一步是生成映射的 ABAP 代码,然后只有 Informatica 可以从中提取数据 SAP
- 要连接并导入来自外部系统的源,请使用 Power Connect
21)请提及 Power Mart 和 Power Center 之间有何区别?
电力中心 | 电力市场 |
---|---|
假设要处理大量数据 | 假设处理少量数据 |
它支持以下 ERP 源: SAP、人力软件等 | 不支持 ERP 源 |
支持本地和全局存储库 | 支持本地存储库 |
它将本地存储库转换为全局存储库 | 没有将本地存储库转换为全局存储库的规范 |
22)解释什么是暂存区以及暂存区的用途是什么?
数据暂存是数据仓库服务器上临时保存数据的区域。数据暂存包括以下步骤
- 源数据提取和数据转换(重组)
- 数据转换(数据清理、价值转换)
- 代理键分配
23)什么是总线模式?
为了识别各种业务流程的共同维度,使用 BUS 模式。它带有一致的维度以及标准化的信息定义
24)解释什么是数据清除?
数据清除是从数据仓库中删除数据的过程。它会删除垃圾数据,例如具有空值或多余空格的行。
25)解释什么是 Schema Objects?
模式对象是直接引用数据库数据的逻辑结构。模式对象包括表、视图、序列同义词、索引、集群、函数包和数据库链接
26)解释这些术语:Session、Worklet、Mapplet 和 Workflow?
- Mapplet: 它安排或创建一系列变换
- 工作片段: 它代表给定的一组特定任务
- 工作流程: 它是一组告诉服务器如何执行任务的指令
- 会议: 它是一组参数,告诉服务器如何将数据从源移动到目标
这些面试问题也会对你的口试有帮助