Informatica PowerCenter 教程: Archi结构,组件

Informatica PowerCenter Archi质地

Informatica PowerCenter 的整体架构是面向服务的 Archi架构(SOA)。Informatica ETL 工具架构由以下服务和组件组成:

  1. 存储库服务 – 负责维护 Informatica 元数据并提供对其他服务的访问。
  2. 集成服务 – 负责将数据从源移动到目标
  3. 报告服务 – 可以生成报告
  4. Nodes – 执行上述服务的计算平台
  5. 信息设计师 – 用于创建源和目标之间的映射
  6. 工作流程管理器 – 用于创建工作流程和其他任务及其执行
  7. 工作流监控器 – 用于监控工作流程的执行
  8. 存储库管理器 – 用于管理存储库中的对象
Informatica的 Archi结构图
Informatica的 Archi结构图

信息领域

Informatica 域是 Informatica 工具中的基本管理单元。它是节点和服务的集合。此外,可以根据管理要求将这些节点和服务分类为文件夹和子文件夹。

例如,在下面的屏幕截图中,您可以看到在域窗口下创建了文件夹“Domain_Rajesh”,我们在该文件夹下创建了一个节点名“node01_rajesh”并将服务创建为“guru99 integration services”。

Informatica 中的域
Informatica 中的域

节点是域内机器的逻辑表示。节点是运行 Informatica 的服务和进程所必需的。

一个域中可以有多个节点。在域中,您还会发现一个网关节点。

网关节点负责接收来自不同客户端工具的请求,并将这些请求路由到不同的节点和服务。

Domain 中有两种类型的服务

  • 服务管理器:服务管理器管理域操作,如身份验证、授权和日志记录。它还在节点上运行应用服务以及管理用户和组。
  • 应用服务:应用服务代表服务器特定的服务,如集成服务、存储库服务和报告服务。这些服务根据配置在不同的节点上运行。

Informatica PowerCenter 存储库

PowerCenter 存储库是一个关系数据库,类似于 Oracle,Sybase, SQL 服务器,由存储库服务管理。它由存储元数据的数据库表组成。

Informatica PowerCenter 中有三种 Informatica 客户端工具。它们是 Informatica

  • 设计师
  • 工作流监控器
  • 工作流程管理器

这些客户端只能使用存储库服务访问存储库。

为了管理存储库,存在一个名为存储库服务的 Informatica 服务。单个存储库服务仅处理一个存储库。此外,存储库服务可以在多个节点上执行以提高性能。

存储库服务对对象使用锁,因此多个用户不能同时修改同一个对象。

您可以在存储库中启用版本控制。使用版本控制功能,您可以维护同一对象的不同版本。

在存储库中创建的对象可以具有以下三种状态

  • 有效:有效对象是指那些语法符合 Informatica 要求的对象。这些对象可用于执行工作流。
  • 无效:无效对象是指不符合指定标准或规则的对象。在 Informatica 中保存任何对象时,都会检查其语法和属性是否有效,并根据状态标记该对象。
  • 受影响:受影响的对象是其子对象无效的对象。例如,在映射中,如果您使用可重复使用的转换,并且此转换对象变为无效,则映射将被标记为受影响。

Informatica 中的域配置

如前所述,域是 Informatica 中的基本管理控制。它是由集成服务、存储库服务和各种节点等其他服务组成的父实体。

可以使用 Informatica 管理控制台进行域配置。可以使用 Web 浏览器启动控制台。

Informatica 中的域配置

一旦在 Web 浏览器中打开,它就会提示管理员登录。密码是在 Informatica 安装期间设置的。

Informatica 中的域配置

登录 Informatica 域后,主页如下所示。

Informatica 中的域配置

在左侧窗格中显示域下的现有节点、存储库服务、集成服务。

在主窗口上,它显示这些服务的状态,无论是启动还是关闭。

Informatica 中的域属性

点击管理页面中的属性菜单来查看域的属性。

Informatica 中的域属性

Informatica 中的域属性

以下是 Informatica 中域的关键属性:

弹性超时 – 如果任何集成服务或存储库服务出现故障,则弹性超时就是应用程序服务尝试连接这些服务的秒数。

重启期 – 这是域重新启动服务所花费的最大秒数。

调度模式 – 它是负载均衡器用于将任务调度到各个节点的策略。

数据库类型 – 配置域的数据库类型。

数据库主机 – 配置域的机器的主机名。

数据库端口 & 姓名 – 它是域的数据库端口和数据库实例名称。

这些属性可以根据要求进行修改。

PowerCenter 客户端和服务器连接

PowerCenter 客户端工具是安装在客户端机器上的开发工具。PowerCenter 设计器、工作流管理器、存储库管理器和工作流监视器是主要的客户端工具。

我们在这些客户端工具中创建的映射和对象保存在 Informatica 服务器上的 Informatica 存储库中。因此客户端工具必须与服务器具有网络连接。

另一方面,PowerCenter 客户端连接到源和目标以导入元数据和源/目标结构定义。因此,它还必须具有与源/目标系统的连接。

  • 为了连接到集成服务和存储库服务,PowerCenter 客户端使用 TCP/IP 协议和
  • 要连接到源/目标,PowerCenter 客户端使用 ODBC 驱动程序。

Informatica 中的存储库服务

这款 存储库服务 Informatica 中的 维护从 PowerCenter 客户端到 PowerCenter 存储库的连接。它是一个单独的多线程进程,它获取、插入和更新存储库内的元数据。它还负责维护存储库元数据内的一致性。

Informatica 中的存储库服务
Informatica 中的存储库服务

Informationica 中的集成服务

集成服务是 Informatica 的执行引擎,换句话说,这是执行我们在 Informatica 中创建的任务的实体。它的工作原理如下:

  • 用户执行工作流
  • Informatica 指示集成服务执行工作流
  • 集成服务从存储库读取工作流详细信息
  • 集成服务开始执行工作流内的任务
  • 一旦执行完成,任务的状态就会更新,即失败、成功或中止。
  • 执行完成后,生成会话日志和工作流日志。
  • 该服务负责将数据加载到目标系统
  • 集成服务还整合了来自不同来源的数据

例如,它可以组合来自 Oracle 表和平面文件源的数据。

因此,总而言之,Informatica 集成服务是一个驻留在 Informatica 服务器上等待分配任务执行的进程。当我们执行工作流时,集成服务会收到执行工作流的通知。然后,集成服务读取工作流以了解详细信息,例如它必须执行哪些任务(如映射)以及在什么时间执行。然后,服务从存储库读取任务详细信息并继续执行。

来源和 Targets

Informationica 是 ETL 和数据集成工具,您将始终处理和转换某种形式的数据。Informatica 中映射的输入称为源系统。我们从源导入源定义,然后连接到它以获取映射中的源数据。源可以有不同类型的源,并且可以位于多个位置。根据您的要求,目标系统可以是关系或平面文件系统。平面文件目标在 Informatica 服务器计算机上生成,稍后可以使用 ftp 进行传输。

相关的– 这些类型的源是数据库系统表。这些数据库系统通常由创建和维护这些数据的其他应用程序拥有。它可以是客户关系管理数据库、人力资源数据库等。在 Informatica 中使用这些源,我们要么获得这些数据集的副本,要么获得这些系统的选择权限。

平面文件 – 在 Informatica 中,平面文件是继关系数据库之后最常见的数据源。平面文件可以是逗号分隔文件、制表符分隔文件或固定宽度文件。Informatica 支持任何代码页,如 ascii 或 Unicode。要在 Informatica 中使用平面文件,必须像导入关系表一样导入其定义。

总结

  • Informatica PowerCenter 的总体架构如下: 面向服务 Archi质地 (SOA)。
  • Informatica 域是 Informatica 工具中的基本管理单元。
  • PowerCenter 存储库是一个关系数据库,类似于 Oracle、Sybase、SQL服务器并由存储库服务进行管理。
  • 可以使用 Informatica 管理控制台完成域配置。
  • Informatica 中域的属性:弹性超时、重启周期、调度模式、数据库类型、数据库主机以及数据库端口和名称
  • PowerCenter 客户端工具是安装在客户端计算机上的开发工具。
  • Informatica 中的存储库服务维护从 PowerCenter 客户端到 PowerCenter 存储库的连接。
  • 集成服务是 Informatica 的执行引擎,换句话说,这是执行我们在 Informatica 中创建的任务的实体。