Tutorial do DataStage para iniciantes: IBM Treinamento DataStage (ferramenta ETL)

O que é DataStage?

DataStage é uma ferramenta ETL usada para extrair, transformar e carregar dados da origem ao destino alvo. A fonte desses dados pode incluir arquivos sequenciais, arquivos indexados, bancos de dados relacionais, fontes de dados externas, arquivos, aplicativos corporativos, etc. O DataStage é usado para facilitar a análise de negócios, fornecendo dados de qualidade para ajudar na obtenção de inteligência de negócios.

A ferramenta DataStage ETL é usada em uma grande organização como uma interface entre diferentes sistemas. Ele cuida da extração, tradução e carregamento de dados da origem ao destino alvo. Foi lançado pela primeira vez pela VMark em meados dos anos 90. Com IBM adquirindo a DataStage em 2005, ela foi renomeada para IBM WebSphere DataStage e posterior para IBM Infoesfera.

As várias versões do Datastage disponíveis no mercado até agora foram Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft e assim por diante. A última edição é IBM InfoSphere DataStage

IBM O servidor de informações inclui os seguintes produtos,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Diretor de Serviços de Informação InfoSphere
  • IBM Analisador de informações do InfoSphere
  • IBM FastTrack do servidor de informações
  • IBM Glossário de negócios do InfoSphere

Visão geral do DataStage

O Datastage possui os seguintes recursos.

  • Ele pode integrar dados da mais ampla variedade de fontes de dados empresariais e externas
  • Implementa regras de validação de dados
  • É útil no processamento e transformação de grandes quantidades de dados
  • Ele usa abordagem de processamento paralelo escalável
  • Ele pode lidar com transformações complexas e gerenciar vários processos de integração
  • Aproveite a conectividade direta com aplicativos empresariais como fontes ou destinos
  • Aproveite metadados para análise e manutenção
  • Operatestes em lote, em tempo real ou como um serviço Web

Nas seções seguintes deste tutorial do DataStage, descrevemos brevemente os seguintes aspectos do IBM InfoSphere DataStage:

  • Transformação de dados
  • Empregos
  • Processamento paralelo

O InfoSphere DataStage e o QualityStage podem acessar dados em aplicativos corporativos e fontes de dados como:

Tipos de estágio de processamento

IBM O trabalho da infosfera consiste em estágios individuais interligados. Descreve o fluxo de dados de uma fonte de dados para um destino de dados. Normalmente, um estágio tem no mínimo uma entrada de dados e/ou uma saída de dados. No entanto, alguns estágios podem aceitar mais de uma entrada de dados e saída para mais de um estágio.

No design do trabalho, vários estágios que você pode usar são:

  • Estágio de transformação
  • Estágio de filtro
  • Estágio agregador
  • Estágio de remoção de duplicatas
  • Entrar no estágio
  • Estágio de pesquisa
  • Estágio de cópia
  • Estágio de classificação
  • Containers

Componentes do DataStage e Archiarquitetura

DataStage tem quatro componentes principais, a saber,

  1. administrador: É usado para tarefas administrativas. Isso inclui configurar usuários do DataStage, definir critérios de eliminação e criar e mover projetos.
  2. Manager: É a interface principal do Repositório do ETL DataStage. É usado para armazenamento e gerenciamento de metadados reutilizáveis. Através do gerenciador DataStage é possível visualizar e editar o conteúdo do Repositório.
  3. Designer: Uma interface de design usada para criar aplicativos OU tarefas do DataStage. Ele especifica a fonte de dados, a transformação necessária e o destino dos dados. Os trabalhos são compilados para criar um executável agendado pelo Diretor e executado pelo Servidor
  4. Diretor: Ele é usado para validar, planejar, executar e monitorar tarefas do servidor DataStage e tarefas paralelas.
Estágio de dados Archidiagrama de arquitetura
Estágio de dados Archidiagrama de arquitetura

A imagem acima explica como IBM O Infosphere DataStage interage com outros elementos do IBM Plataforma de servidor de informações. O DataStage é dividido em duas seções, Componentes compartilhados e tempo de execução Archiarquitetura.

   
Atividades

Partilhado

Interface de usuário unificada

  • Uma interface de design gráfico é usada para criar aplicativos InfoSphere DataStage (conhecidos como tarefas).
  • Cada trabalho determina as fontes de dados, as transformações necessárias e o destino dos dados.
  • Os trabalhos são compilados para criar fluxos de trabalho paralelos e componentes reutilizáveis. Eles são planejados e executados pelo InfoSphere DataStage e QualityStage Director.
  • O cliente Designer gerencia metadados no repositório. Enquanto os dados de execução compilados são implementados na camada Information Server Engine.

Serviços Comuns

  • Serviços de metadados, como análise de impacto e pesquisa
  • Serviços de design que suportam desenvolvimento e manutenção de tarefas do InfoSphere DataStage
  • Serviços de execução que suportam todas as funções do InfoSphere DataStage

Processamento Paralelo Comum

  • O mecanismo executa tarefas executáveis ​​que extraem, transformam e carregam dados em uma ampla variedade de configurações.
  • A abordagem de seleção do mecanismo de processamento paralelo e pipeline para lidar com um alto volume de trabalho.

Runtime Archiarquitetura

Script de SST

  • Descreve a geração do OSH (orquestrar Shell Script) e o fluxo de execução do IBM e o fluxo de IBM Infosphere DataStage usando o mecanismo Information Server
  • Ele permite usar técnicas gráficas de apontar e clicar para desenvolver fluxos de trabalho para extrair, limpar, transformar, integrar e carregar dados em arquivos de destino.

Pré-requisito para ferramenta Datastage

Para o DataStage, você precisará da configuração a seguir.

  • Infosfera
  • Servidor DataStage 9.1.2 ou superior
  • Microsoft Visual Studio .NET 2010 Edição Expressa C++
  • Oracle cliente (cliente completo, não um cliente instantâneo) se estiver conectado a um Oracle banco de dados
  • Cliente DB2 se estiver conectado a um banco de dados DB2

Agora nesta série de tutoriais do DataStage para iniciantes, aprenderemos como fazer download e instalar o InfoSphere Information Server.

Download e instalação do InfoSphere Information Server

Para acessar o DataStage, baixe e instale a versão mais recente do IBM Servidor InfoSphere. O servidor suporta AIX, Linux e Windows sistema operacional. Você pode escolher conforme a necessidade.

Para migrar seus dados de uma versão mais antiga do infosphere para uma nova versão, use a ferramenta de intercâmbio de ativos.

Arquivos de instalação

Para instalar e configurar o Infosphere Datastage, você deve ter os seguintes arquivos em sua configuração.

Para a Windows,

  • Pacote de Implantação Etl-windows-oracle.pkg
  • Pacote de Implantação Etl-windows-db2.pkg

Para o Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • Pacote de Implantação Etl-linux-oracle.pkg

Fluxo de processo de dados alterados em um trabalho de estágio de transação do CDC

Fluxo de processo de dados alterados em um CDC

  1. O serviço 'InfoSphere CDC' para o banco de dados monitora e captura a mudança de um banco de dados de origem
  2. De acordo com a definição de replicação, o “InfoSphere CDC” transfere os dados alterados para o “InfoSphere CDC para InfoSphere DataStage”.
  3. O servidor “InfoSphere CDC for InfoSphere DataStage” envia dados para o “estágio de transação do CDC” por meio de uma sessão TCP/IP. O servidor “InfoSphere CDC for InfoSphere DataStage” também envia uma mensagem COMMIT (juntamente com informações de marcador) para marcar o limite da transação no log capturado.
  4. Para cada mensagem COMMIT enviada pelo servidor “InfoSphere CDC for InfoSphere DataStage”, o “estágio de transação do CDC” cria marcadores de fim de onda (EOW). Esses marcadores são enviados em todos os links de saída para o estágio do conector do banco de dados de destino.
  5. Quando o “estágio do conector do banco de dados de destino” recebe um marcador de fim de onda em todos os links de entrada, ele grava as informações do marcador em uma tabela de marcadores e, em seguida, confirma a transação no banco de dados de destino.
  6. O servidor “InfoSphere CDC for InfoSphere DataStage” solicita informações de marcadores de uma tabela de marcadores no “banco de dados de destino”.
  7. O servidor “InfoSphere CDC for InfoSphere DataStage” recebe as informações do Bookmark.

Esta informação é usada para,

  • Determine o ponto inicial no log de transações onde as alterações serão lidas quando a replicação começar.
  • Para determinar se o log de transações existente pode ser limpo

Configurando a replicação SQL

Antes de começar com o Datastage, você precisa configurar o banco de dados. Você criará dois bancos de dados DB2.

  • Um para servir como fonte de replicação e
  • Um como alvo.

Você também criará duas tabelas (Produto e Estoque) e as preencherá com dados de amostra. Então você pode testar sua integração entre SQL Replicação e Datastage.

Seguindo em frente, você configurará a replicação SQL criando tabelas de controle, conjuntos de assinaturas, registros e membros do conjunto de assinaturas. Aprenderemos mais sobre isso em detalhes na próxima seção.

Aqui pegaremos um exemplo de item de vendas no varejo como nosso banco de dados e criaremos duas tabelas Inventário e Produto. Essas tabelas carregarão dados da origem ao destino por meio desses conjuntos. (tabelas de controle, conjuntos de assinaturas, registros e membros do conjunto de assinaturas.)

Passo 1) Crie um banco de dados de origem denominado VENDAS. Neste banco de dados, crie duas tabelas PRODUTOS com Estoque.

Passo 2) Execute o seguinte comando para criar o banco de dados SALES.

db2 create database SALES

Passo 3) Ative a criação de log de arquivamento para o banco de dados SALES. Além disso, faça backup do banco de dados usando os seguintes comandos

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Passo 4) No mesmo prompt de comandos, mude para o subdiretório setupDB no diretório sqlrepl-datastage-tutorial que você extraiu do arquivo compactado transferido por download.

Configurando a replicação SQL

Passo 5) Use o comando a seguir para criar a tabela de inventário e importar dados para a tabela executando o comando a seguir.

importação db2 de inventário.ixf de ixf criar em inventário

Passo 6) Crie uma tabela de destino. Nomeie o banco de dados de destino como ESTÁGIODB.

Como agora você criou os bancos de dados de origem e de destino, na próxima etapa deste tutorial do DataStage, veremos como replicá-los.

As informações a seguir podem ser úteis para configurando fonte de dados ODBC.

Criando os objetos de replicação SQL

A imagem abaixo mostra como o fluxo de dados alterados é entregue do banco de dados de origem ao destino. Você cria um mapeamento de origem para destino entre tabelas conhecido como membros do conjunto de assinaturas e agrupar os membros em um tudo incluso.

Criando os objetos de replicação SQL

A unidade de replicação no InfoSphere CDC (Change Data Capture) é chamada de assinatura.

  • As alterações feitas na fonte são capturadas na “tabela de controle de captura” que é enviada para a tabela CD e depois para a tabela de destino. Enquanto o programa apply terá os detalhes sobre a linha de onde as alterações precisam ser feitas. Ele também se juntará à tabela de CDs no conjunto de assinaturas.
  • Uma assinatura contém detalhes de mapeamento que especificam como os dados em um armazenamento de dados de origem são aplicados a um armazenamento de dados de destino. Observe que o CDC agora é referido como Replicação de dados da Infosfera.
  • Quando uma assinatura é executada, o InfoSphere CDC captura alterações no banco de dados de origem. O InfoSphere CDC entrega os dados alterados ao destino e armazena informações do ponto de sincronização em uma tabela de marcadores no banco de dados de destino.
  • O InfoSphere CDC usa as informações do marcador para monitorar o progresso da tarefa do InfoSphere DataStage.
  • Em caso de falha, as informações do marcador são utilizadas como ponto de reinicialização. Em nosso exemplo, o ASN.IBMA tabela SNAP_FEEDETL armazena informações de ponto de sincronização relacionadas ao DataStage que são usadas para rastrear o progresso do DataStage.

Nesta seção de IBM Tutorial de treinamento do DataStage, você precisa fazer o seguinte,

  • Crie tabelas CAPTURE CONTROL e tabelas APPLY CONTROL para armazenar opções de replicação
  • Registre as tabelas PRODUCT e INVENTORY como fontes de replicação
  • Crie um conjunto de assinaturas com dois membros
  • Criar membros do conjunto de assinaturas e tabelas CCD de destino

Use o programa de linha de comando ASNCLP para configurar a replicação SQL

Passo 1) Localize o arquivo de script crtCtlTablesCaptureServer.asnclp no diretório sqlrepl-datastage-tutorial/setupSQLRep.

Passo 2) No arquivo substitua e " ” com seu ID de usuário e senha para se conectar ao banco de dados SALES.

Passo 3) Mude os diretórios para o diretório sqlrepl-datastage-tutorial/setupSQLRep e execute o script. Use o seguinte comando. O comando irá se conectar ao banco de dados SALES, gerar um script SQL para criação das tabelas de controle do Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Passo 4) Localize o arquivo de script crtCtlTablesApplyCtlServer.asnclp no mesmo diretório. Agora substitua duas instâncias de e " ” com o ID do usuário e senha para conexão com o banco de dados STAGEDB.

Passo 5) Agora, no mesmo prompt de comando, use o seguinte comando para criar tabelas de controle de aplicação.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Passo 6) Localize os arquivos de script crtRegistration.asnclp e substitua todas as instâncias de com o ID do usuário para conexão com o banco de dados SALES. Além disso, altere “ ”Para a senha de conexão.

Passo 7) Para registrar as tabelas de origem, use o seguinte script. Como parte da criação do cadastro, o programa ASNCLP criará duas tabelas CD. CDPRODUTO E CDINVENTÁRIO.

asnclp –f crtRegistration.asnclp

O comando CREATE REGISTRATION usa as seguintes opções:

  • Atualização Diferencial: solicita ao programa Apply que atualize a tabela de destino somente quando as linhas na tabela de origem forem alteradas
  • Imagem de ambos: Esta opção é usada para registrar o valor na coluna de origem antes da alteração ocorrer e uma para o valor após a alteração ocorrer.

Passo 8) Para conectar-se ao banco de dados de destino (STAGEDB), siga as etapas a seguir.

  • Encontre o arquivo crtTableSpaceApply.bat e abra-o em um editor de texto
  • Substituir e com o ID de usuário e senha
  • Na janela de comando do DB2, insira crtTableSpaceApply.bat e execute o arquivo.
  • Este arquivo em lote cria um novo espaço de tabela no banco de dados de destino (STAGEDB)

Passo 9) Localize os arquivos de script crtSubscriptionSetAndAddMembers.asnclp e faça as alterações a seguir.

  • Substitua todas as instâncias de e com o ID do usuário e senha para conexão com o banco de dados SALES (fonte).
  • Substitua todas as instâncias de e com o ID do usuário para conexão com o banco de dados STAGEDB (destino).

Após as alterações, execute o script para criar o conjunto de assinaturas (ST00) que agrupa as tabelas de origem e de destino. O script também cria dois membros do conjunto de assinaturas e CCD (dados de alteração consistente) no banco de dados de destino que armazenará os dados modificados. Esses dados serão consumidos pelo Infosphere DataStage.

Passo 10) Execute o script para criar o conjunto de assinaturas, os membros do conjunto de assinaturas e as tabelas CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Várias opções usadas para criar um conjunto de assinaturas e dois membros incluem

  • Concluir na condensação
  • Externo
  • Exportação de importação de tipo de carga
  • Tempo contínuo

Passo 11) Devido ao defeito nas ferramentas de administração de replicação. Você precisa executar outro arquivo em lote para definir a coluna TARGET_CAPTURE_SCHEMA no IBMTabela de controle SNAP_SUBS_SET como nula.

  • Localize o arquivo updateTgtCapSchema.bat. Abra-o em um editor de texto. Substituir e com o ID do usuário para conexão com o banco de dados STAGEDB.
  • Na janela de comando do DB2, insira o comando updateTgtCapSchema.bat e execute o arquivo.

Criando os arquivos de definição para mapear tabelas CCD para o DataStage

Antes de fazermos a replicação na próxima etapa, precisamos conectar a tabela CCD ao DataStage. Nesta seção, veremos como conectar o SQL ao DataStage.

Para conectar a tabela CCD ao DataStage, é necessário criar arquivos de definição do Datastage (.dxs). O formato de arquivo .dsx é usado pelo DataStage para importar e exportar definições de tarefa. Você usará o script ASNCLP para criar dois arquivos .dsx. Por exemplo, aqui criamos dois arquivos .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: cria uma sequência de tarefas que direciona o fluxo de trabalho dos quatro trabalhos paralelos.
  • stagedb_AQ00_SET00_pJobs.dsx : Cria os quatro trabalhos paralelos

O programa ASNCLP mapeia automaticamente a coluna CCD para o formato Datastage Column. Só é suportado quando o ASNCLP é executado em Windows, Linux ou Procedimento Unix.

Arquivos de definição para mapear tabelas CCD para o DataStage

Os jobs do Datastage extraem linhas da tabela CCD.

  1. Uma tarefa define um ponto de sincronização onde o DataStage parou na extração de dados das duas tabelas. A tarefa obtém essas informações selecionando o valor SYNCHPOINT para o conjunto de assinaturas ST00 na lista IBMtabela SNAP_SUBS_SET e inserindo-a na coluna MAX_SYNCHPOINT do IBMTabela SNAP_FEEDETL.
  2. Duas tarefas que extraem dados das tabelas PRODUCT_CCD e INVENTORY_CCD. Os trabalhos sabem quais linhas começar a extrair selecionando os valores MIN_SYNCHPOINT e MAX_SYNCHPOINT na lista IBMTabela SNAP_FEEDETL para o conjunto de assinaturas.

Iniciando a replicação

Para iniciar a replicação, você usará as etapas abaixo. Quando as tabelas CCD são preenchidas com dados, isso indica que a configuração de replicação foi validada. Para visualizar os dados replicados nas tabelas CCD de destino, utilize a interface gráfica com o usuário do DB2 Control Center.

Passo 1) Certifique-se de que o DB2 esteja em execução, caso contrário, use início do DB2 comando.

Passo 2) Em seguida, use o comando asncap em um prompt do sistema operacional para iniciar a captura do programa. Por exemplo.

asncap capture_server=SALES

O comando acima especifica o banco de dados SALES como o servidor Capture. Mantenha a janela de comando aberta enquanto a captura estiver em execução.

Passo 3) Agora abra um novo prompt de comando. Então comece o INSCREVA-SE programa usando o comando asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Iniciando a replicação

  • O comando especifica o banco de dados STAGEDB como o servidor de controle do Apply (o banco de dados que contém as tabelas de controle do Apply)
  • AQ00 como o qualificador Apply (o identificador para este conjunto de tabelas de controle)

Deixe a janela de comando aberta com o Apply em execução.

Passo 4) Agora abra outro prompt de comandos e emita o comando db2cc para ativar o DB2 Control Center. Aceite o Centro de Controle padrão.

Passo 5) Agora, na árvore de navegação esquerda, abra Todos os bancos de dados > STAGEDB e clique em Tabelas. Double clique no nome da tabela (Produto CCD) para abrir a tabela. Vai parecer algo assim.

Iniciando a replicação

Da mesma forma, você também pode abrir a tabela CCD para INVENTÁRIO.

Iniciando a replicação

Como criar projetos na ferramenta Datastage

Primeiramente você criará um projeto no DataStage. Para isso, você deve ser um administrador do InfoSphere DataStage.

Depois que a instalação e a replicação forem concluídas, você precisará criar um projeto. No DataStage, os projetos são um método para organizar seus dados. Inclui a definição de arquivos de dados, etapas e construção de trabalhos em um projeto específico.

Para criar um projeto no DataStage, siga as etapas abaixo:

Etapa 1) Inicie o software DataStage

Inicie o DataStage e o QualityStage Administrator. Em seguida, clique em Iniciar > Todos os programas > IBM Servidor de informações > IBM Administrador do WebSphere DataStage e QualityStage.

Etapa 2) Conecte o servidor e o cliente DataStage

Para conectar-se ao servidor DataStage a partir de seu cliente DataStage, insira detalhes como nome de domínio, ID do usuário, senha e informações do servidor.

Etapa 3) Adicionar um novo projeto

Na janela Administração do WebSphere DataStage. Clique na guia Projetos e em Adicionar.

Etapa 4) Insira os detalhes do projeto

Na janela Administração do WebSphere DataStage, insira detalhes como

  1. Nome
  2. Localização do arquivo
  3. Clique OK'

Criar projetos na ferramenta Datastage

Cada projeto contém:

  • Tarefas do DataStage
  • Componentes integrados. Estes são componentes predefinidos usados ​​em um trabalho.
  • Componentes definidos pelo usuário. Esses são componentes customizados criados usando o DataStage Manager ou o DataStage Designer.

Veremos como importar trabalhos de replicação no Datastage Infosphere.

Como importar trabalhos de replicação no Datastage e no QualityStage Designer

Você importará trabalhos no IBM Cliente InfoSphere DataStage e QualityStage Designer. E você os executa no IBM Cliente InfoSphere DataStage e QualityStage Director.

O designer-cliente é como uma tela em branco para a construção de trabalhos. Extrai, transforma, carrega e verifica a qualidade dos dados. Ele fornece ferramentas que formam os blocos básicos de construção de um trabalho. Inclui

  • estágios: ele se conecta a fontes de dados para ler ou gravar arquivos e processar dados.
  • Ligações: conecta os estágios ao longo dos quais seus dados fluem

Os estágios no cliente InfoSphere DataStage e QualityStage Designer são armazenados na paleta de ferramentas Designer.

Os estágios a seguir estão incluídos no InfoSphere QualityStage:

  • Estágio de investigação
  • Padronizar estágio
  • Estágio de Frequência de Partida
  • Estágio de partida de fonte única
  • Estágio de partida de duas fontes
  • Estágio de sobrevivência
  • Estágio de Avaliação da Qualidade da Padronização (SQA)

Você pode criar 4 tipos de trabalhos na infoesfera do DataStage.

  • Trabalho paralelo
  • Trabalho de sequência
  • Trabalho de mainframe
  • Trabalho de servidor

Vamos ver passo a passo como importar arquivos de trabalho de replicação.

Passo 1) Inicie o DataStage e o QualityStage Designer. Clique em Iniciar > Todos os programas > IBM Servidor de informações > IBM WebSphere DataStage e QualityStage Designer

Passo 2) Na janela Anexar ao projeto, insira os seguintes detalhes.

  • Domínio
  • Nome de usuário
  • Senha
  • Nome do projeto
  • OK

Importar trabalhos de replicação no Datastage e QualityStage

Passo 3) Agora, no menu Arquivo, clique em importar -> Componentes do DataStage.

Uma nova janela de importação do repositório do DataStage será aberta.

  1. Nesta janela navegue STAGEDB_AQ00_ST00_sJobs.dsx arquivo que criamos anteriormente
  2. Selecione a opção “Importar tudo”.
  3. Marque a caixa de seleção “Executar análise de impacto”.
  4. Clique OK.'

Importar trabalhos de replicação no Datastage e QualityStage

Depois que a tarefa for importada, o DataStage criará a tarefa STAGEDB_AQ00_ST00_sequence.

Passo 4) Siga os mesmos passos para importar o Arquivo STAGEDB_AQ00_ST00_pJobs.dsx. Esta importação cria os quatro trabalhos paralelos.

Passo 5) No painel Repositório do Designer -> Abra a pasta SQLREP. Dentro da pasta, você verá Sequence Job e quatro trabalhos paralelos.

Importar trabalhos de replicação no Datastage e QualityStage

Passo 6) Para ver o trabalho de sequência. Vá para a árvore do repositório, clique com o botão direito na tarefa STAGEDB_AQ00_ST00_sequence e clique em Editar. Ele mostrará o fluxo de trabalho dos quatro trabalhos paralelos controlados pela sequência de trabalhos.

Importar trabalhos de replicação no Datastage e QualityStage

Cada ícone é um palco,

  • estágio getExtractRange: Atualiza o IBMTabela SNAP_FEEDETL. Ele definirá o ponto inicial para extração de dados como o ponto em que o DataStage extraiu as linhas pela última vez e definirá o ponto final como a última transação que foi processada para o conjunto de assinaturas.
  • getExtractRangeSuccess: Este estágio alimenta os pontos iniciais para o estágio extractFromINVENTORY_CCD e o estágio extractFromPRODUCT_CCD
  • TodosExtratosSucesso: Este estágio garante que extractFromINVENTORY_CCD e extractFromPRODUCT_CCD sejam concluídos com êxito. Em seguida, passa pontos de sincronização para as últimas linhas que foram buscadas no estágio setRangeProcessed.
  • Estágio setRangeProcessed: Ele atualiza IBMTabela SNAP_FEEDETL. Assim, o DataStage sabe por onde começar a próxima rodada de extração de dados

Passo 7) Para ver os trabalhos paralelos. Clique com o botão direito em STAGEDB_ASN_INVENTORY_CCD e selecione editar no repositório. Irá abrir uma janela conforme mostrado abaixo.

Importar trabalhos de replicação no Datastage e QualityStage

Aqui na imagem acima, você pode ver que os dados da tabela CCD do Inventário e SyncOs detalhes do ponto h da tabela FEEDETL são renderizados no estágio Lookup_6.

Criando uma conexão de dados do DataStage com o banco de dados STAGEDB

Agora, a próxima etapa é construir uma conexão de dados entre o InfoSphere DataStage e o banco de dados de destino do SQL Replication. Ele contém as tabelas CCD.

No DataStage, você usa objetos de conexão de dados com estágios de conector relacionados para definir rapidamente uma conexão com uma origem de dados em um design de tarefa.

Passo 1) STAGEDB contém as tabelas de controle Apply que o DataStage usa para sincronizar sua extração de dados e as tabelas CCD das quais os dados são extraídos. Use os seguintes comandos

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Observação: Endereço IP do sistema onde o STAGEDB foi criado

Passo 2) Clique em Arquivo > Novo > Outro > Conexão de dados.

Passo 3) Você terá uma janela com duas guias, Parâmetros e Geral.

Conexão de dados do DataStage ao banco de dados STAGEDB

Passo 4) Nesta etapa,

  1. Em geral, guia, nomeie a conexão de dados como sqlreplConnect
  2. Na aba Parâmetros, conforme mostrado abaixo
  • Clique no botão de navegação ao lado do campo "Conectar usando tipo de estágio" e no
  • Janela aberta navegue na árvore do repositório até Stage Types –> Parallel– > Database —-> DB2 Connector.
  • Clique em Abrir.

Conexão de dados do DataStage ao banco de dados STAGEDB

Passo 5) Na tabela de parâmetros de conexão, insira detalhes como

  • Connectionstring: STAGEDB2
  • Nome de Utilizador: ID do usuário para conexão com o banco de dados STAGEDB
  • Senha: Senha para conexão ao banco de dados STAGEDB
  • Instância: Nome da instância do DB2 que contém o banco de dados STAGEDB

Passo 6) Na próxima janela, salve a conexão de dados. Clique no botão 'salvar'.

Importando Definições de Tabela do STAGEDB para o DataStage

Na etapa anterior, vimos que o InfoSphere DataStage e o banco de dados STAGEDB estão conectados. Agora, importe a definição de coluna e outros metadados para as tabelas PRODUCT_CCD e INVENTORY_CCD no repositório do Information Server.

Na janela do designer, siga as etapas abaixo.

Passo 1) Selecione Importar > Definições de Tabela > Iniciar Assistente de Importação de Conector

Passo 2) Na página de seleção do conector do assistente, selecione o Conector DB2 e clique em Avançar.

Importando Definições de Tabela do STAGEDB para o DataStage

Passo 3) Clique em carregar na página de detalhes da conexão. Isso preencherá os campos do assistente com informações de conexão da conexão de dados que você criou no capítulo anterior.

Importando Definições de Tabela do STAGEDB para o DataStage

Passo 4) Clique em Testar conexão na mesma página. Isso solicitará que o DataStage tente uma conexão com o banco de dados STAGEDB. Você pode ver a mensagem “conexão bem-sucedida”. Clique em Avançar.

Importando Definições de Tabela do STAGEDB para o DataStage

Passo 5) Certifique-se de que na página Local da fonte de dados os campos Nome do host e Nome do banco de dados estejam preenchidos corretamente. Em seguida, clique em próximo.

Passo 6) Na página Esquema. Insira o esquema das tabelas de controle do Apply (ASN) ou verifique se o esquema ASN está pré-preenchido no campo do esquema. Em seguida, clique em próximo. A página de seleção mostrará a lista de tabelas definidas no esquema ASN.

Importando Definições de Tabela do STAGEDB para o DataStage

Passo 7) A primeira tabela da qual precisamos importar metadados é IBMSNAP_FEEDETL, uma tabela de controle do Apply. Ele contém detalhes sobre os pontos de sincronização que permitem ao DataStage controlar quais linhas foram buscadas nas tabelas CCD. Escolher IBMSNAP_FEEDETL e clique em Avançar.

Passo 8) Para concluir a importação do IBMDefinição da tabela SNAP_FEEDETL. Clique em importar e, na janela aberta, clique em abrir.

Passo 9) Repita as etapas 1 a 8 mais duas vezes para importar as definições para a tabela PRODUCT_CCD e depois para a tabela INVENTORY_CCD.

NOTA: ao importar definições para o inventário e produto, certifique-se de alterar os esquemas de ASN para o esquema sob o qual PRODUCT_CCD e INVENTORY_CCD foram criados.

Agora o DataStage tem todos os detalhes necessários para se conectar ao banco de dados de destino da Replicação SQL.

Configurando propriedades para tarefas do DataStage

Para cada uma das quatro tarefas paralelas do DataStage que temos, ela contém um ou mais estágios que se conectam ao banco de dados STAGEDB. É necessário modificar os estágios para incluir informações de conexão e vincular aos arquivos do conjunto de dados preenchidos pelo DataStage.

Os estágios possuem propriedades predefinidas que são editáveis. Aqui alteraremos algumas dessas propriedades para a tarefa paralela STAGEDB_ASN_PRODUCT_CCD_extract.

Passo 1) Navegue pela árvore do repositório do Designer. Na pasta SQLREP, selecione a tarefa paralela STAGEDB_ASN_PRODUCT_CCD_extract. Para editar, clique com o botão direito no trabalho. A janela de design do trabalho paralelo é aberta na paleta Designer.

Passo 2) Localize o ícone verde. Este ícone significa o estágio do conector DB2. É usado para extrair dados da tabela CCD. Double-clique no ícone. Uma janela do editor de palco é aberta.

Configurando propriedades para tarefas do DataStage

Configurando propriedades para tarefas do DataStage

Passo 3) No editor, clique em Carregar para preencher os campos com informações de conexão. Para fechar o editor de palco e salvar suas alterações, clique em OK.

Passo 4) Agora retorne à janela de design da tarefa paralela STAGEDB_ASN_PRODUCT_CCD_extract. Localize o ícone para obterSyncEstágio do conector hPoints DB2. Em seguida, clique duas vezes no ícone.

Passo 5) Agora clique no botão carregar para preencher os campos com informações de conexão.

NOTA: se você estiver usando um banco de dados diferente do STAGEDB como servidor de controle do Apply. Em seguida, selecione a opção de carregar as informações de conexão para obterSyncEstágio hPoints, que interage com as tabelas de controle em vez da tabela CCD.

Passo 6) Nesta etapa,

  • Crie um arquivo de texto vazio no sistema em que o InfoSphere DataStage é executado.
  • Nomeie este arquivo como productdataset.ds e anote onde você o salvou.
  • O DataStage gravará as alterações neste arquivo depois de buscar as alterações na tabela CCD.
  • Conjuntos de dados ou arquivos usados ​​para mover dados entre trabalhos vinculados são conhecidos como conjuntos de dados persistentes. É representado por um estágio DataSet.

Passo 7) Agora abra o editor de palco na janela de design e clique duas vezes no ícone insert_into_a_dataset. Isso abrirá outra janela.

Configurando propriedades para tarefas do DataStage

Passo 8) Nesta janela,

Configurando propriedades para tarefas do DataStage

  • Na guia de propriedades, certifique-se de que Target pasta está aberta e a propriedade File = DATASETNAME está destacada.
  • À direita, você terá um campo de arquivo
  • Insira o caminho completo para o arquivo productdataset.ds
  • Clique OK'.

Agora você atualizou todas as propriedades necessárias para a tabela CCD do produto. Feche a janela de design e salve todas as alterações.

Passo 9) Agora localize e abra a tarefa paralela STAGEDB_ASN_INVENTORY_CCD_extract no painel do repositório do Designer e repita as etapas 3 a 8.

NOTA:

  • Você precisa carregar as informações de conexão do banco de dados do servidor de controle no editor de estágio para obterSyncEstágio de hpontos. Se o seu servidor de controle não for STAGEDB.
  • Para as tarefas paralelas STAGEDB_ST00_AQ00_getExtractRange e STAGEDB_ST00_AQ00_markRangeProcessed, abra todos os estágios do conector DB2. Em seguida, use a função load para adicionar informações de conexão ao banco de dados STAGEDB

Compilando e executando os trabalhos do DataStage

Quando a tarefa do DataStage está pronta para ser compilada, o Designer valida o design da tarefa observando entradas, transformações, expressões e outros detalhes.

Quando a compilação do trabalho for concluída com sucesso, ele estará pronto para ser executado. Compilaremos todos os cinco trabalhos, mas executaremos apenas a “sequência de trabalhos”. Isso ocorre porque esse trabalho controla todos os quatro trabalhos paralelos.

Passo 1) Na pasta SQLREP. Selecione cada um dos cinco trabalhos por (Cntrl+Shift). Em seguida, clique com o botão direito e escolha a opção de compilação de vários trabalhos.

Compilando e executando os trabalhos do DataStage

Passo 2) Você verá que cinco tarefas estão selecionadas no Assistente de Compilação do DataStage. Clique em Avançar.

Compilando e executando os trabalhos do DataStage

Passo 3) A compilação começa e exibe uma mensagem “Compilado com sucesso” quando concluída.

Compilando e executando os trabalhos do DataStage

Passo 4) Agora inicie o DataStage e o QualityStage Director. Selecione Iniciar > Todos os programas > IBM Servidor de informações > IBM WebSphere DataStage e QualityStage Director.

Passo 5) No painel de navegação do projeto à esquerda. Clique na pasta SQLREP. Isso traz todos os cinco cargos para a tabela de status de diretor.

Passo 6) Selecione a tarefa STAGEDB_AQ00_S00_sequence. Na barra de menus, clique em Trabalho > Executar agora.

Compilando e executando os trabalhos do DataStage

Assim que a compilação estiver concluída, você verá o status de finalizado.

Compilando e executando os trabalhos do DataStage

Agora verifique se as linhas alteradas armazenadas nas tabelas PRODUCT_CCD e INVENTORY_CCD foram extraídas pelo DataStage e inseridas nos dois arquivos do conjunto de dados.

Passo 7) Volte para o Designer e abra a tarefa STAGEDB_ASN_PRODUCT_CCD_extract. Para abrir o editor de palco Double-clique no ícone insert_into_a_dataset. Em seguida, clique em visualizar dados.

Passo 8) Aceite os padrões nas linhas a serem exibidas na janela. Em seguida, clique em OK. Uma janela do navegador de dados será aberta para mostrar o conteúdo do arquivo do conjunto de dados.

Compilando e executando os trabalhos do DataStage

Testando a integração entre replicação SQL e DataStage

Na etapa anterior, compilamos e executamos o trabalho. Nesta seção, verificaremos a integração da replicação SQL e do DataStage. Para isso, faremos alterações na tabela de origem e veremos se a mesma alteração é atualizada no DataStage.

Passo 1) Navegue até a pasta sqlrepl-datastage-scripts do seu sistema operacional.

Passo 2) Inicie a replicação SQL seguindo as etapas:

  • Execute o startSQLCapture.bat (Windows) para iniciar o programa Capture no banco de dados SALES.
  • Execute o startSQLApply.bat (Windows) para iniciar o programa Apply no banco de dados STAGEDB.

Passo 3) Agora abra o arquivo updateSourceTables.sql. Para conectar-se ao banco de dados SALES, substitua e com o ID do usuário e senha.

Passo 4) Abra uma janela de comando do DB2. Mude o diretório para sqlrepl-datastage-tutorial\scripts e execute o problema com o comando fornecido:

db2 -tvf updateSourceTables.sql

O script SQL realizará diversas operações como Atualizar, Inserir e excluir em ambas as tabelas (PRODUTO, INVENTÁRIO) do banco de dados de Vendas.

Passo 5) No sistema em que o DataStage está em execução. Abra o DataStage Director e execute a tarefa STAGEDB_AQ00_S00_sequence. Clique em Trabalho > Executar agora.

Integração entre replicação SQL e DataStage

Quando você executa o trabalho, as seguintes atividades serão realizadas.

  • O programa Capture lê as alterações de seis linhas no log do banco de dados SALES e as insere nas tabelas CD.
  • O programa Apply busca as linhas de alteração das tabelas CD em SALES e as insere nas tabelas CCD em STAGEDB.
  • As duas tarefas de extração do DataStage selecionam as alterações das tabelas CCD e as gravam nos arquivos productdataset.ds e inventário dataset.ds.

Você pode verificar se as etapas acima ocorreram observando os conjuntos de dados.

Passo 6) Siga os passos abaixo,

  • Inicie o Designer. Abra a tarefa STAGEDB_ASN_PRODUCT_CCD_extract.
  • Então Double-clique no ícone insert_into_a_dataset. No editor de palco. Clique em Exibir dados.
  • Aceite os padrões nas linhas a serem exibidas na janela e clique em OK.

O conjunto de dados contém três novas linhas. A maneira mais fácil de verificar se as alterações foram implementadas é rolar para baixo à direita do Navegador de dados. Agora olhe para as últimas três linhas (veja a imagem abaixo)

Integração entre replicação SQL e DataStage

As letras I, U e D especificam as operações INSERT, UPDATE e DELETE que resultaram em cada nova linha.

Você pode fazer a mesma verificação na tabela de inventário.

Resumo

  • DataStage é um Ferramenta ETL que extrai dados, transforma e carrega dados da origem para o destino.
  • Isso facilita análise de negócio fornecendo dados de qualidade para ajudar na obtenção de inteligência de negócios.
  • O DataStage é dividido em duas seções, Componentes compartilhados e tempo de execução Archiarquitetura.
  • DataStage tem quatro componentes principais,
  • Administrador
  • Manager
  • Designer
  • Diretor
  • A seguir estão os principais aspectos de IBM InfoSphere DataStage
  • Transformação de dados
  • Empregos
  • Processamento paralelo
  • No design do trabalho, vários estágios envolvidos são
  • Estágio de transformação
  • Estágio de filtro
  • Estágio agregador
  • Estágio de remoção de duplicatas
  • Entrar no estágio
  • Estágio de pesquisa

Resuma esta postagem com: