Tutorial do DataStage para iniciantes: IBM Treinamento DataStage (ferramenta ETL)
O que รฉ DataStage?
DataStage รฉ uma ferramenta ETL usada para extrair, transformar e carregar dados da origem ao destino alvo. A fonte desses dados pode incluir arquivos sequenciais, arquivos indexados, bancos de dados relacionais, fontes de dados externas, arquivos, aplicativos corporativos, etc. O DataStage รฉ usado para facilitar a anรกlise de negรณcios, fornecendo dados de qualidade para ajudar na obtenรงรฃo de inteligรชncia de negรณcios.
A ferramenta DataStage ETL รฉ usada em uma grande organizaรงรฃo como uma interface entre diferentes sistemas. Ele cuida da extraรงรฃo, traduรงรฃo e carregamento de dados da origem ao destino alvo. Foi lanรงado pela primeira vez pela VMark em meados dos anos 90. Com IBM adquirindo a DataStage em 2005, ela foi renomeada para IBM WebSphere DataStage e posterior para IBM Infoesfera.
As vรกrias versรตes do Datastage disponรญveis no mercado atรฉ agora foram Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft e assim por diante. A รบltima ediรงรฃo รฉ IBM InfoSphere DataStage
IBM O servidor de informaรงรตes inclui os seguintes produtos,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM Diretor de Serviรงos de Informaรงรฃo InfoSphere
- IBM Analisador de informaรงรตes do InfoSphere
- IBM FastTrack do servidor de informaรงรตes
- IBM Glossรกrio de negรณcios do InfoSphere
Visรฃo geral do DataStage
O Datastage possui os seguintes recursos.
- Ele pode integrar dados da mais ampla variedade de fontes de dados empresariais e externas
- Implementa regras de validaรงรฃo de dados
- ร รบtil no processamento e transformaรงรฃo de grandes quantidades de dados
- Ele usa abordagem de processamento paralelo escalรกvel
- Ele pode lidar com transformaรงรตes complexas e gerenciar vรกrios processos de integraรงรฃo
- Aproveite a conectividade direta com aplicativos empresariais como fontes ou destinos
- Aproveite metadados para anรกlise e manutenรงรฃo
- Operatestes em lote, em tempo real ou como um serviรงo Web
Nas seรงรตes seguintes deste tutorial do DataStage, descrevemos brevemente os seguintes aspectos do IBM InfoSphere DataStage:
- Transformaรงรฃo de dados
- Empregos
- Processamento paralelo
O InfoSphere DataStage e o QualityStage podem acessar dados em aplicativos corporativos e fontes de dados como:
- Bancos de dados relacionais
- Bancos de dados de mainframe
- Aplicativos de negรณcios e analรญticos
- Planejamento de recursos empresariais (ERP) ou bancos de dados de gerenciamento de relacionamento com o cliente (CRM)
- Processamento analรญtico online (OLAP) ou bancos de dados de gerenciamento de desempenho
Tipos de estรกgio de processamento
IBM O trabalho da infosfera consiste em estรกgios individuais interligados. Descreve o fluxo de dados de uma fonte de dados para um destino de dados. Normalmente, um estรกgio tem no mรญnimo uma entrada de dados e/ou uma saรญda de dados. No entanto, alguns estรกgios podem aceitar mais de uma entrada de dados e saรญda para mais de um estรกgio.
No design do trabalho, vรกrios estรกgios que vocรช pode usar sรฃo:
- Estรกgio de transformaรงรฃo
- Estรกgio de filtro
- Estรกgio agregador
- Estรกgio de remoรงรฃo de duplicatas
- Entrar no estรกgio
- Estรกgio de pesquisa
- Estรกgio de cรณpia
- Estรกgio de classificaรงรฃo
- Containers
Componentes do DataStage e Archiarquitetura
DataStage tem quatro componentes principais, a saber,
- administrador: ร usado para tarefas administrativas. Isso inclui configurar usuรกrios do DataStage, definir critรฉrios de eliminaรงรฃo e criar e mover projetos.
- Manager: ร a interface principal do Repositรณrio do ETL DataStage. ร usado para armazenamento e gerenciamento de metadados reutilizรกveis. Atravรฉs do gerenciador DataStage รฉ possรญvel visualizar e editar o conteรบdo do Repositรณrio.
- Designer: Uma interface de design usada para criar aplicativos OU tarefas do DataStage. Ele especifica a fonte de dados, a transformaรงรฃo necessรกria e o destino dos dados. Os trabalhos sรฃo compilados para criar um executรกvel agendado pelo Diretor e executado pelo Servidor
- Diretor: Ele รฉ usado para validar, planejar, executar e monitorar tarefas do servidor DataStage e tarefas paralelas.

A imagem acima explica como IBM O Infosphere DataStage interage com outros elementos do IBM Plataforma de servidor de informaรงรตes. O DataStage รฉ dividido em duas seรงรตes, Componentes compartilhados e tempo de execuรงรฃo Archiarquitetura.
|
Partilhado |
Interface de usuรกrio unificada |
|
|
Serviรงos Comuns |
|
|
|
Processamento Paralelo Comum |
|
|
|
Runtime Archiarquitetura |
Script de SST |
|
Prรฉ-requisito para ferramenta Datastage
Para o DataStage, vocรช precisarรก da configuraรงรฃo a seguir.
- Infosfera
- Servidor DataStage 9.1.2 ou superior
- Microsoft Visual Studio .NET 2010 Ediรงรฃo Expressa C++
- Oracle cliente (cliente completo, nรฃo um cliente instantรขneo) se estiver conectado a um Oracle banco de dados
- Cliente DB2 se estiver conectado a um banco de dados DB2
Agora nesta sรฉrie de tutoriais do DataStage para iniciantes, aprenderemos como fazer download e instalar o InfoSphere Information Server.
Download e instalaรงรฃo do InfoSphere Information Server
Para acessar o DataStage, baixe e instale a versรฃo mais recente do IBM Servidor InfoSphere. O servidor suporta AIX, Linux e Windows sistema operacional. Vocรช pode escolher conforme a necessidade.
Para migrar seus dados de uma versรฃo mais antiga do infosphere para uma nova versรฃo, use a ferramenta de intercรขmbio de ativos.
Arquivos de instalaรงรฃo
Para instalar e configurar o Infosphere Datastage, vocรช deve ter os seguintes arquivos em sua configuraรงรฃo.
Para Windows,
- Pacote de Implantaรงรฃo Etl-windows-oracle.pkg
- Pacote de Implantaรงรฃo Etl-windows-db2.pkg
Para o Linux,
- EtlDeploymentPackage-linux-db2.pkg
- Pacote de Implantaรงรฃo Etl-linux-oracle.pkg
Fluxo de processo de dados alterados em um trabalho de estรกgio de transaรงรฃo do CDC
- O serviรงo 'InfoSphere CDC' para o banco de dados monitora e captura a mudanรงa de um banco de dados de origem
- De acordo com a definiรงรฃo de replicaรงรฃo, o โInfoSphere CDCโ transfere os dados alterados para o โInfoSphere CDC para InfoSphere DataStageโ.
- O servidor โInfoSphere CDC for InfoSphere DataStageโ envia dados para o โestรกgio de transaรงรฃo do CDCโ por meio de uma sessรฃo TCP/IP. O servidor โInfoSphere CDC for InfoSphere DataStageโ tambรฉm envia uma mensagem COMMIT (juntamente com informaรงรตes de marcador) para marcar o limite da transaรงรฃo no log capturado.
- Para cada mensagem COMMIT enviada pelo servidor โInfoSphere CDC for InfoSphere DataStageโ, o โestรกgio de transaรงรฃo do CDCโ cria marcadores de fim de onda (EOW). Esses marcadores sรฃo enviados em todos os links de saรญda para o estรกgio do conector do banco de dados de destino.
- Quando o โestรกgio do conector do banco de dados de destinoโ recebe um marcador de fim de onda em todos os links de entrada, ele grava as informaรงรตes do marcador em uma tabela de marcadores e, em seguida, confirma a transaรงรฃo no banco de dados de destino.
- O servidor โInfoSphere CDC for InfoSphere DataStageโ solicita informaรงรตes de marcadores de uma tabela de marcadores no โbanco de dados de destinoโ.
- O servidor โInfoSphere CDC for InfoSphere DataStageโ recebe as informaรงรตes do Bookmark.
Esta informaรงรฃo รฉ usada para,
- Determine o ponto inicial no log de transaรงรตes onde as alteraรงรตes serรฃo lidas quando a replicaรงรฃo comeรงar.
- Para determinar se o log de transaรงรตes existente pode ser limpo
Configurando a replicaรงรฃo SQL
Antes de comeรงar com o Datastage, vocรช precisa configurar o banco de dados. Vocรช criarรก dois bancos de dados DB2.
- Um para servir como fonte de replicaรงรฃo e
- Um como alvo.
Vocรช tambรฉm criarรก duas tabelas (Produto e Estoque) e as preencherรก com dados de amostra. Entรฃo vocรช pode testar sua integraรงรฃo entre SQL Replicaรงรฃo e Datastage.
Seguindo em frente, vocรช configurarรก a replicaรงรฃo SQL criando tabelas de controle, conjuntos de assinaturas, registros e membros do conjunto de assinaturas. Aprenderemos mais sobre isso em detalhes na prรณxima seรงรฃo.
Aqui pegaremos um exemplo de item de vendas no varejo como nosso banco de dados e criaremos duas tabelas Inventรกrio e Produto. Essas tabelas carregarรฃo dados da origem ao destino por meio desses conjuntos. (tabelas de controle, conjuntos de assinaturas, registros e membros do conjunto de assinaturas.)
Passo 1) Crie um banco de dados de origem denominado VENDAS. Neste banco de dados, crie duas tabelas PRODUTOS e Estoque.
Passo 2) Execute o seguinte comando para criar o banco de dados SALES.
db2 create database SALES
Passo 3) Ative a criaรงรฃo de log de arquivamento para o banco de dados SALES. Alรฉm disso, faรงa backup do banco de dados usando os seguintes comandos
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
Passo 4) No mesmo prompt de comandos, mude para o subdiretรณrio setupDB no diretรณrio sqlrepl-datastage-tutorial que vocรช extraiu do arquivo compactado transferido por download.
Passo 5) Use o comando a seguir para criar a tabela de inventรกrio e importar dados para a tabela executando o comando a seguir.
importaรงรฃo db2 de inventรกrio.ixf de ixf criar em inventรกrio
Passo 6) Crie uma tabela de destino. Nomeie o banco de dados de destino como ESTรGIODB.
Como agora vocรช criou os bancos de dados de origem e de destino, na prรณxima etapa deste tutorial do DataStage, veremos como replicรก-los.
As informaรงรตes a seguir podem ser รบteis para configurando fonte de dados ODBC.
Criando os objetos de replicaรงรฃo SQL
A imagem abaixo mostra como o fluxo de dados alterados รฉ entregue do banco de dados de origem ao destino. Vocรช cria um mapeamento de origem para destino entre tabelas conhecido como membros do conjunto de assinaturas e agrupar os membros em um tudo incluso.
A unidade de replicaรงรฃo no InfoSphere CDC (Change Data Capture) รฉ chamada de assinatura.
- As alteraรงรตes feitas na fonte sรฃo capturadas na โtabela de controle de capturaโ que รฉ enviada para a tabela CD e depois para a tabela de destino. Enquanto o programa apply terรก os detalhes sobre a linha de onde as alteraรงรตes precisam ser feitas. Ele tambรฉm se juntarรก ร tabela de CDs no conjunto de assinaturas.
- Uma assinatura contรฉm detalhes de mapeamento que especificam como os dados em um armazenamento de dados de origem sรฃo aplicados a um armazenamento de dados de destino. Observe que o CDC agora รฉ referido como Replicaรงรฃo de dados da Infosfera.
- Quando uma assinatura รฉ executada, o InfoSphere CDC captura alteraรงรตes no banco de dados de origem. O InfoSphere CDC entrega os dados alterados ao destino e armazena informaรงรตes do ponto de sincronizaรงรฃo em uma tabela de marcadores no banco de dados de destino.
- O InfoSphere CDC usa as informaรงรตes do marcador para monitorar o progresso da tarefa do InfoSphere DataStage.
- Em caso de falha, as informaรงรตes do marcador sรฃo utilizadas como ponto de reinicializaรงรฃo. Em nosso exemplo, o ASN.IBMA tabela SNAP_FEEDETL armazena informaรงรตes de ponto de sincronizaรงรฃo relacionadas ao DataStage que sรฃo usadas para rastrear o progresso do DataStage.
Nesta seรงรฃo de IBM Tutorial de treinamento do DataStage, vocรช precisa fazer o seguinte,
- Crie tabelas CAPTURE CONTROL e tabelas APPLY CONTROL para armazenar opรงรตes de replicaรงรฃo
- Registre as tabelas PRODUCT e INVENTORY como fontes de replicaรงรฃo
- Crie um conjunto de assinaturas com dois membros
- Criar membros do conjunto de assinaturas e tabelas CCD de destino
Use o programa de linha de comando ASNCLP para configurar a replicaรงรฃo SQL
Passo 1) Localize o arquivo de script crtCtlTablesCaptureServer.asnclp no diretรณrio sqlrepl-datastage-tutorial/setupSQLRep.
Passo 2) No arquivo substitua e " โ com seu ID de usuรกrio e senha para se conectar ao banco de dados SALES.
Passo 3) Mude os diretรณrios para o diretรณrio sqlrepl-datastage-tutorial/setupSQLRep e execute o script. Use o seguinte comando. O comando irรก se conectar ao banco de dados SALES, gerar um script SQL para criaรงรฃo das tabelas de controle do Capture.
asnclp โf crtCtlTablesCaptureServer.asnclp
Passo 4) Localize o arquivo de script crtCtlTablesApplyCtlServer.asnclp no mesmo diretรณrio. Agora substitua duas instรขncias de e " โ com o ID do usuรกrio e senha para conexรฃo com o banco de dados STAGEDB.
Passo 5) Agora, no mesmo prompt de comando, use o seguinte comando para criar tabelas de controle de aplicaรงรฃo.
asnclp โf crtCtlTablesApplyCtlServer.asnclp
Passo 6) Localize os arquivos de script crtRegistration.asnclp e substitua todas as instรขncias de com o ID do usuรกrio para conexรฃo com o banco de dados SALES. Alรฉm disso, altere โ โPara a senha de conexรฃo.
Passo 7) Para registrar as tabelas de origem, use o seguinte script. Como parte da criaรงรฃo do cadastro, o programa ASNCLP criarรก duas tabelas CD. CDPRODUTO E CDINVENTรRIO.
asnclp โf crtRegistration.asnclp
O comando CREATE REGISTRATION usa as seguintes opรงรตes:
- Atualizaรงรฃo Diferencial: solicita ao programa Apply que atualize a tabela de destino somente quando as linhas na tabela de origem forem alteradas
- Imagem de ambos: Esta opรงรฃo รฉ usada para registrar o valor na coluna de origem antes da alteraรงรฃo ocorrer e uma para o valor apรณs a alteraรงรฃo ocorrer.
Passo 8) Para conectar-se ao banco de dados de destino (STAGEDB), siga as etapas a seguir.
- Encontre o arquivo crtTableSpaceApply.bat e abra-o em um editor de texto
- Substituir e com o ID de usuรกrio e senha
- Na janela de comando do DB2, insira crtTableSpaceApply.bat e execute o arquivo.
- Este arquivo em lote cria um novo espaรงo de tabela no banco de dados de destino (STAGEDB)
Passo 9) Localize os arquivos de script crtSubscriptionSetAndAddMembers.asnclp e faรงa as alteraรงรตes a seguir.
- Substitua todas as instรขncias de e com o ID do usuรกrio e senha para conexรฃo com o banco de dados SALES (fonte).
- Substitua todas as instรขncias de e com o ID do usuรกrio para conexรฃo com o banco de dados STAGEDB (destino).
Apรณs as alteraรงรตes, execute o script para criar o conjunto de assinaturas (ST00) que agrupa as tabelas de origem e de destino. O script tambรฉm cria dois membros do conjunto de assinaturas e CCD (dados de alteraรงรฃo consistente) no banco de dados de destino que armazenarรก os dados modificados. Esses dados serรฃo consumidos pelo Infosphere DataStage.
Passo 10) Execute o script para criar o conjunto de assinaturas, os membros do conjunto de assinaturas e as tabelas CCD.
asnclp โf crtSubscriptionSetAndAddMembers.asnclp
Vรกrias opรงรตes usadas para criar um conjunto de assinaturas e dois membros incluem
- Concluir na condensaรงรฃo
- Externo
- Exportaรงรฃo de importaรงรฃo de tipo de carga
- Tempo contรญnuo
Passo 11) Devido ao defeito nas ferramentas de administraรงรฃo de replicaรงรฃo. Vocรช precisa executar outro arquivo em lote para definir a coluna TARGET_CAPTURE_SCHEMA no IBMTabela de controle SNAP_SUBS_SET como nula.
- Localize o arquivo updateTgtCapSchema.bat. Abra-o em um editor de texto. Substituir e com o ID do usuรกrio para conexรฃo com o banco de dados STAGEDB.
- Na janela de comando do DB2, insira o comando updateTgtCapSchema.bat e execute o arquivo.
Criando os arquivos de definiรงรฃo para mapear tabelas CCD para o DataStage
Antes de fazermos a replicaรงรฃo na prรณxima etapa, precisamos conectar a tabela CCD ao DataStage. Nesta seรงรฃo, veremos como conectar o SQL ao DataStage.
Para conectar a tabela CCD ao DataStage, รฉ necessรกrio criar arquivos de definiรงรฃo do Datastage (.dxs). O formato de arquivo .dsx รฉ usado pelo DataStage para importar e exportar definiรงรตes de tarefa. Vocรช usarรก o script ASNCLP para criar dois arquivos .dsx. Por exemplo, aqui criamos dois arquivos .dsx.
- stagedb_AQ00_SET00_sJobs.dsx: cria uma sequรชncia de tarefas que direciona o fluxo de trabalho dos quatro trabalhos paralelos.
- stagedb_AQ00_SET00_pJobs.dsx : Cria os quatro trabalhos paralelos
O programa ASNCLP mapeia automaticamente a coluna CCD para o formato Datastage Column. Sรณ รฉ suportado quando o ASNCLP รฉ executado em Windows, Linux ou Procedimento Unix.
Os jobs do Datastage extraem linhas da tabela CCD.
- Uma tarefa define um ponto de sincronizaรงรฃo onde o DataStage parou na extraรงรฃo de dados das duas tabelas. A tarefa obtรฉm essas informaรงรตes selecionando o valor SYNCHPOINT para o conjunto de assinaturas ST00 na lista IBMtabela SNAP_SUBS_SET e inserindo-a na coluna MAX_SYNCHPOINT do IBMTabela SNAP_FEEDETL.
- Duas tarefas que extraem dados das tabelas PRODUCT_CCD e INVENTORY_CCD. Os trabalhos sabem quais linhas comeรงar a extrair selecionando os valores MIN_SYNCHPOINT e MAX_SYNCHPOINT na lista IBMTabela SNAP_FEEDETL para o conjunto de assinaturas.
Iniciando a replicaรงรฃo
Para iniciar a replicaรงรฃo, vocรช usarรก as etapas abaixo. Quando as tabelas CCD sรฃo preenchidas com dados, isso indica que a configuraรงรฃo de replicaรงรฃo foi validada. Para visualizar os dados replicados nas tabelas CCD de destino, utilize a interface grรกfica com o usuรกrio do DB2 Control Center.
Passo 1) Certifique-se de que o DB2 esteja em execuรงรฃo, caso contrรกrio, use inรญcio do DB2 comando.
Passo 2) Em seguida, use o comando asncap em um prompt do sistema operacional para iniciar a captura do programa. Por exemplo.
asncap capture_server=SALES
O comando acima especifica o banco de dados SALES como o servidor Capture. Mantenha a janela de comando aberta enquanto a captura estiver em execuรงรฃo.
Passo 3) Agora abra um novo prompt de comando. Entรฃo comece o INSCREVA-SE programa usando o comando asnapply.
asnapply control_server=STAGEDB apply_qual=AQ00
- O comando especifica o banco de dados STAGEDB como o servidor de controle do Apply (o banco de dados que contรฉm as tabelas de controle do Apply)
- AQ00 como o qualificador Apply (o identificador para este conjunto de tabelas de controle)
Deixe a janela de comando aberta com o Apply em execuรงรฃo.
Passo 4) Agora abra outro prompt de comandos e emita o comando db2cc para ativar o DB2 Control Center. Aceite o Centro de Controle padrรฃo.
Passo 5) Agora, na รกrvore de navegaรงรฃo esquerda, abra Todos os bancos de dados > STAGEDB e clique em Tabelas. Double clique no nome da tabela (Produto CCD) para abrir a tabela. Vai parecer algo assim.
Da mesma forma, vocรช tambรฉm pode abrir a tabela CCD para INVENTรRIO.
Como criar projetos na ferramenta Datastage
Primeiramente vocรช criarรก um projeto no DataStage. Para isso, vocรช deve ser um administrador do InfoSphere DataStage.
Depois que a instalaรงรฃo e a replicaรงรฃo forem concluรญdas, vocรช precisarรก criar um projeto. No DataStage, os projetos sรฃo um mรฉtodo para organizar seus dados. Inclui a definiรงรฃo de arquivos de dados, etapas e construรงรฃo de trabalhos em um projeto especรญfico.
Para criar um projeto no DataStage, siga as etapas abaixo:
Etapa 1) Inicie o software DataStage
Inicie o DataStage e o QualityStage Administrator. Em seguida, clique em Iniciar > Todos os programas > IBM Servidor de informaรงรตes > IBM Administrador do WebSphere DataStage e QualityStage.
Etapa 2) Conecte o servidor e o cliente DataStage
Para conectar-se ao servidor DataStage a partir de seu cliente DataStage, insira detalhes como nome de domรญnio, ID do usuรกrio, senha e informaรงรตes do servidor.
Etapa 3) Adicionar um novo projeto
Na janela Administraรงรฃo do WebSphere DataStage. Clique na guia Projetos e em Adicionar.
Etapa 4) Insira os detalhes do projeto
Na janela Administraรงรฃo do WebSphere DataStage, insira detalhes como
- Nome
- Localizaรงรฃo do arquivo
- Clique OK'
Cada projeto contรฉm:
- Tarefas do DataStage
- Componentes integrados. Estes sรฃo componentes predefinidos usados โโem um trabalho.
- Componentes definidos pelo usuรกrio. Esses sรฃo componentes customizados criados usando o DataStage Manager ou o DataStage Designer.
Veremos como importar trabalhos de replicaรงรฃo no Datastage Infosphere.
Como importar trabalhos de replicaรงรฃo no Datastage e no QualityStage Designer
Vocรช importarรก trabalhos no IBM Cliente InfoSphere DataStage e QualityStage Designer. E vocรช os executa no IBM Cliente InfoSphere DataStage e QualityStage Director.
O designer-cliente รฉ como uma tela em branco para a construรงรฃo de trabalhos. Extrai, transforma, carrega e verifica a qualidade dos dados. Ele fornece ferramentas que formam os blocos bรกsicos de construรงรฃo de um trabalho. Inclui
- estรกgios: ele se conecta a fontes de dados para ler ou gravar arquivos e processar dados.
- Ligaรงรตes: conecta os estรกgios ao longo dos quais seus dados fluem
Os estรกgios no cliente InfoSphere DataStage e QualityStage Designer sรฃo armazenados na paleta de ferramentas Designer.
Os estรกgios a seguir estรฃo incluรญdos no InfoSphere QualityStage:
- Estรกgio de investigaรงรฃo
- Padronizar estรกgio
- Estรกgio de Frequรชncia de Partida
- Estรกgio de partida de fonte รบnica
- Estรกgio de partida de duas fontes
- Estรกgio de sobrevivรชncia
- Estรกgio de Avaliaรงรฃo da Qualidade da Padronizaรงรฃo (SQA)
Vocรช pode criar 4 tipos de trabalhos na infoesfera do DataStage.
- Trabalho paralelo
- Trabalho de sequรชncia
- Trabalho de mainframe
- Trabalho de servidor
Vamos ver passo a passo como importar arquivos de trabalho de replicaรงรฃo.
Passo 1) Inicie o DataStage e o QualityStage Designer. Clique em Iniciar > Todos os programas > IBM Servidor de informaรงรตes > IBM WebSphere DataStage e QualityStage Designer
Passo 2) Na janela Anexar ao projeto, insira os seguintes detalhes.
- Domรญnio
- Nome de usuรกrio
- Senha
- Nome do projeto
- OK
Passo 3) Agora, no menu Arquivo, clique em importar -> Componentes do DataStage.
Uma nova janela de importaรงรฃo do repositรณrio do DataStage serรก aberta.
- Nesta janela navegue STAGEDB_AQ00_ST00_sJobs.dsx arquivo que criamos anteriormente
- Selecione a opรงรฃo โImportar tudoโ.
- Marque a caixa de seleรงรฃo โExecutar anรกlise de impactoโ.
- Clique OK.'
Depois que a tarefa for importada, o DataStage criarรก a tarefa STAGEDB_AQ00_ST00_sequence.
Passo 4) Siga os mesmos passos para importar o Arquivo STAGEDB_AQ00_ST00_pJobs.dsx. Esta importaรงรฃo cria os quatro trabalhos paralelos.
Passo 5) No painel Repositรณrio do Designer -> Abra a pasta SQLREP. Dentro da pasta, vocรช verรก Sequence Job e quatro trabalhos paralelos.
Passo 6) Para ver o trabalho de sequรชncia. Vรก para a รกrvore do repositรณrio, clique com o botรฃo direito na tarefa STAGEDB_AQ00_ST00_sequence e clique em Editar. Ele mostrarรก o fluxo de trabalho dos quatro trabalhos paralelos controlados pela sequรชncia de trabalhos.
Cada รญcone รฉ um palco,
- estรกgio getExtractRange: Atualiza o IBMTabela SNAP_FEEDETL. Ele definirรก o ponto inicial para extraรงรฃo de dados como o ponto em que o DataStage extraiu as linhas pela รบltima vez e definirรก o ponto final como a รบltima transaรงรฃo que foi processada para o conjunto de assinaturas.
- getExtractRangeSuccess: Este estรกgio alimenta os pontos iniciais para o estรกgio extractFromINVENTORY_CCD e o estรกgio extractFromPRODUCT_CCD
- TodosExtratosSucesso: Este estรกgio garante que extractFromINVENTORY_CCD e extractFromPRODUCT_CCD sejam concluรญdos com รชxito. Em seguida, passa pontos de sincronizaรงรฃo para as รบltimas linhas que foram buscadas no estรกgio setRangeProcessed.
- Estรกgio setRangeProcessed: Ele atualiza IBMTabela SNAP_FEEDETL. Assim, o DataStage sabe por onde comeรงar a prรณxima rodada de extraรงรฃo de dados
Passo 7) Para ver os trabalhos paralelos. Clique com o botรฃo direito em STAGEDB_ASN_INVENTORY_CCD e selecione editar no repositรณrio. Irรก abrir uma janela conforme mostrado abaixo.
Aqui na imagem acima, vocรช pode ver que os dados da tabela CCD do Inventรกrio e SyncOs detalhes do ponto h da tabela FEEDETL sรฃo renderizados no estรกgio Lookup_6.
Criando uma conexรฃo de dados do DataStage com o banco de dados STAGEDB
Agora, a prรณxima etapa รฉ construir uma conexรฃo de dados entre o InfoSphere DataStage e o banco de dados de destino do SQL Replication. Ele contรฉm as tabelas CCD.
No DataStage, vocรช usa objetos de conexรฃo de dados com estรกgios de conector relacionados para definir rapidamente uma conexรฃo com uma origem de dados em um design de tarefa.
Passo 1) STAGEDB contรฉm as tabelas de controle Apply que o DataStage usa para sincronizar sua extraรงรฃo de dados e as tabelas CCD das quais os dados sรฃo extraรญdos. Use os seguintes comandos
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
Observaรงรฃo: Endereรงo IP do sistema onde o STAGEDB foi criado
Passo 2) Clique em Arquivo > Novo > Outro > Conexรฃo de dados.
Passo 3) Vocรช terรก uma janela com duas guias, Parรขmetros e Geral.
Passo 4) Nesta etapa,
- Em geral, guia, nomeie a conexรฃo de dados como sqlreplConnect
- Na aba Parรขmetros, conforme mostrado abaixo
- Clique no botรฃo de navegaรงรฃo ao lado do campo "Conectar usando tipo de estรกgio" e no
- Janela aberta navegue na รกrvore do repositรณrio atรฉ Stage Types โ> Parallelโ > Database โ-> DB2 Connector.
- Clique em Abrir.
Passo 5) Na tabela de parรขmetros de conexรฃo, insira detalhes como
- Connectionstring: STAGEDB2
- Nome de Utilizador: ID do usuรกrio para conexรฃo com o banco de dados STAGEDB
- Senha: Senha para conexรฃo ao banco de dados STAGEDB
- Instรขncia: Nome da instรขncia do DB2 que contรฉm o banco de dados STAGEDB
Passo 6) Na prรณxima janela, salve a conexรฃo de dados. Clique no botรฃo 'salvar'.
Importando Definiรงรตes de Tabela do STAGEDB para o DataStage
Na etapa anterior, vimos que o InfoSphere DataStage e o banco de dados STAGEDB estรฃo conectados. Agora, importe a definiรงรฃo de coluna e outros metadados para as tabelas PRODUCT_CCD e INVENTORY_CCD no repositรณrio do Information Server.
Na janela do designer, siga as etapas abaixo.
Passo 1) Selecione Importar > Definiรงรตes de Tabela > Iniciar Assistente de Importaรงรฃo de Conector
Passo 2) Na pรกgina de seleรงรฃo do conector do assistente, selecione o Conector DB2 e clique em Avanรงar.
Passo 3) Clique em carregar na pรกgina de detalhes da conexรฃo. Isso preencherรก os campos do assistente com informaรงรตes de conexรฃo da conexรฃo de dados que vocรช criou no capรญtulo anterior.
Passo 4) Clique em Testar conexรฃo na mesma pรกgina. Isso solicitarรก que o DataStage tente uma conexรฃo com o banco de dados STAGEDB. Vocรช pode ver a mensagem โconexรฃo bem-sucedidaโ. Clique em Avanรงar.
Passo 5) Certifique-se de que na pรกgina Local da fonte de dados os campos Nome do host e Nome do banco de dados estejam preenchidos corretamente. Em seguida, clique em prรณximo.
Passo 6) Na pรกgina Esquema. Insira o esquema das tabelas de controle do Apply (ASN) ou verifique se o esquema ASN estรก prรฉ-preenchido no campo do esquema. Em seguida, clique em prรณximo. A pรกgina de seleรงรฃo mostrarรก a lista de tabelas definidas no esquema ASN.
Passo 7) A primeira tabela da qual precisamos importar metadados รฉ IBMSNAP_FEEDETL, uma tabela de controle do Apply. Ele contรฉm detalhes sobre os pontos de sincronizaรงรฃo que permitem ao DataStage controlar quais linhas foram buscadas nas tabelas CCD. Escolher IBMSNAP_FEEDETL e clique em Avanรงar.
Passo 8) Para concluir a importaรงรฃo do IBMDefiniรงรฃo da tabela SNAP_FEEDETL. Clique em importar e, na janela aberta, clique em abrir.
Passo 9) Repita as etapas 1 a 8 mais duas vezes para importar as definiรงรตes para a tabela PRODUCT_CCD e depois para a tabela INVENTORY_CCD.
NOTA: ao importar definiรงรตes para o inventรกrio e produto, certifique-se de alterar os esquemas de ASN para o esquema sob o qual PRODUCT_CCD e INVENTORY_CCD foram criados.
Agora o DataStage tem todos os detalhes necessรกrios para se conectar ao banco de dados de destino da Replicaรงรฃo SQL.
Configurando propriedades para tarefas do DataStage
Para cada uma das quatro tarefas paralelas do DataStage que temos, ela contรฉm um ou mais estรกgios que se conectam ao banco de dados STAGEDB. ร necessรกrio modificar os estรกgios para incluir informaรงรตes de conexรฃo e vincular aos arquivos do conjunto de dados preenchidos pelo DataStage.
Os estรกgios possuem propriedades predefinidas que sรฃo editรกveis. Aqui alteraremos algumas dessas propriedades para a tarefa paralela STAGEDB_ASN_PRODUCT_CCD_extract.
Passo 1) Navegue pela รกrvore do repositรณrio do Designer. Na pasta SQLREP, selecione a tarefa paralela STAGEDB_ASN_PRODUCT_CCD_extract. Para editar, clique com o botรฃo direito no trabalho. A janela de design do trabalho paralelo รฉ aberta na paleta Designer.
Passo 2) Localize o รญcone verde. Este รญcone significa o estรกgio do conector DB2. ร usado para extrair dados da tabela CCD. Double-clique no รญcone. Uma janela do editor de palco รฉ aberta.
Passo 3) No editor, clique em Carregar para preencher os campos com informaรงรตes de conexรฃo. Para fechar o editor de palco e salvar suas alteraรงรตes, clique em OK.
Passo 4) Agora retorne ร janela de design da tarefa paralela STAGEDB_ASN_PRODUCT_CCD_extract. Localize o รญcone para obterSyncEstรกgio do conector hPoints DB2. Em seguida, clique duas vezes no รญcone.
Passo 5) Agora clique no botรฃo carregar para preencher os campos com informaรงรตes de conexรฃo.
NOTA: se vocรช estiver usando um banco de dados diferente do STAGEDB como servidor de controle do Apply. Em seguida, selecione a opรงรฃo de carregar as informaรงรตes de conexรฃo para obterSyncEstรกgio hPoints, que interage com as tabelas de controle em vez da tabela CCD.
Passo 6) Nesta etapa,
- Crie um arquivo de texto vazio no sistema em que o InfoSphere DataStage รฉ executado.
- Nomeie este arquivo como productdataset.ds e anote onde vocรช o salvou.
- O DataStage gravarรก as alteraรงรตes neste arquivo depois de buscar as alteraรงรตes na tabela CCD.
- Conjuntos de dados ou arquivos usados โโpara mover dados entre trabalhos vinculados sรฃo conhecidos como conjuntos de dados persistentes. ร representado por um estรกgio DataSet.
Passo 7) Agora abra o editor de palco na janela de design e clique duas vezes no รญcone insert_into_a_dataset. Isso abrirรก outra janela.
Passo 8) Nesta janela,
- Na guia de propriedades, certifique-se de que Target pasta estรก aberta e a propriedade File = DATASETNAME estรก destacada.
- ร direita, vocรช terรก um campo de arquivo
- Insira o caminho completo para o arquivo productdataset.ds
- Clique OK'.
Agora vocรช atualizou todas as propriedades necessรกrias para a tabela CCD do produto. Feche a janela de design e salve todas as alteraรงรตes.
Passo 9) Agora localize e abra a tarefa paralela STAGEDB_ASN_INVENTORY_CCD_extract no painel do repositรณrio do Designer e repita as etapas 3 a 8.
NOTA:
- Vocรช precisa carregar as informaรงรตes de conexรฃo do banco de dados do servidor de controle no editor de estรกgio para obterSyncEstรกgio de hpontos. Se o seu servidor de controle nรฃo for STAGEDB.
- Para as tarefas paralelas STAGEDB_ST00_AQ00_getExtractRange e STAGEDB_ST00_AQ00_markRangeProcessed, abra todos os estรกgios do conector DB2. Em seguida, use a funรงรฃo load para adicionar informaรงรตes de conexรฃo ao banco de dados STAGEDB
Compilando e executando os trabalhos do DataStage
Quando a tarefa do DataStage estรก pronta para ser compilada, o Designer valida o design da tarefa observando entradas, transformaรงรตes, expressรตes e outros detalhes.
Quando a compilaรงรฃo do trabalho for concluรญda com sucesso, ele estarรก pronto para ser executado. Compilaremos todos os cinco trabalhos, mas executaremos apenas a โsequรชncia de trabalhosโ. Isso ocorre porque esse trabalho controla todos os quatro trabalhos paralelos.
Passo 1) Na pasta SQLREP. Selecione cada um dos cinco trabalhos por (Cntrl+Shift). Em seguida, clique com o botรฃo direito e escolha a opรงรฃo de compilaรงรฃo de vรกrios trabalhos.
Passo 2) Vocรช verรก que cinco tarefas estรฃo selecionadas no Assistente de Compilaรงรฃo do DataStage. Clique em Avanรงar.
Passo 3) A compilaรงรฃo comeรงa e exibe uma mensagem โCompilado com sucessoโ quando concluรญda.
Passo 4) Agora inicie o DataStage e o QualityStage Director. Selecione Iniciar > Todos os programas > IBM Servidor de informaรงรตes > IBM WebSphere DataStage e QualityStage Director.
Passo 5) No painel de navegaรงรฃo do projeto ร esquerda. Clique na pasta SQLREP. Isso traz todos os cinco cargos para a tabela de status de diretor.
Passo 6) Selecione a tarefa STAGEDB_AQ00_S00_sequence. Na barra de menus, clique em Trabalho > Executar agora.
Assim que a compilaรงรฃo estiver concluรญda, vocรช verรก o status de finalizado.
Agora verifique se as linhas alteradas armazenadas nas tabelas PRODUCT_CCD e INVENTORY_CCD foram extraรญdas pelo DataStage e inseridas nos dois arquivos do conjunto de dados.
Passo 7) Volte para o Designer e abra a tarefa STAGEDB_ASN_PRODUCT_CCD_extract. Para abrir o editor de palco Double-clique no รญcone insert_into_a_dataset. Em seguida, clique em visualizar dados.
Passo 8) Aceite os padrรตes nas linhas a serem exibidas na janela. Em seguida, clique em OK. Uma janela do navegador de dados serรก aberta para mostrar o conteรบdo do arquivo do conjunto de dados.
Testando a integraรงรฃo entre replicaรงรฃo SQL e DataStage
Na etapa anterior, compilamos e executamos o trabalho. Nesta seรงรฃo, verificaremos a integraรงรฃo da replicaรงรฃo SQL e do DataStage. Para isso, faremos alteraรงรตes na tabela de origem e veremos se a mesma alteraรงรฃo รฉ atualizada no DataStage.
Passo 1) Navegue atรฉ a pasta sqlrepl-datastage-scripts do seu sistema operacional.
Passo 2) Inicie a replicaรงรฃo SQL seguindo as etapas:
- Execute o startSQLCapture.bat (Windows) para iniciar o programa Capture no banco de dados SALES.
- Execute o startSQLApply.bat (Windows) para iniciar o programa Apply no banco de dados STAGEDB.
Passo 3) Agora abra o arquivo updateSourceTables.sql. Para conectar-se ao banco de dados SALES, substitua e com o ID do usuรกrio e senha.
Passo 4) Abra uma janela de comando do DB2. Mude o diretรณrio para sqlrepl-datastage-tutorial\scripts e execute o problema com o comando fornecido:
db2 -tvf updateSourceTables.sql
O script SQL realizarรก diversas operaรงรตes como Atualizar, Inserir e excluir em ambas as tabelas (PRODUTO, INVENTรRIO) do banco de dados de Vendas.
Passo 5) No sistema em que o DataStage estรก em execuรงรฃo. Abra o DataStage Director e execute a tarefa STAGEDB_AQ00_S00_sequence. Clique em Trabalho > Executar agora.
Quando vocรช executa o trabalho, as seguintes atividades serรฃo realizadas.
- O programa Capture lรช as alteraรงรตes de seis linhas no log do banco de dados SALES e as insere nas tabelas CD.
- O programa Apply busca as linhas de alteraรงรฃo das tabelas CD em SALES e as insere nas tabelas CCD em STAGEDB.
- As duas tarefas de extraรงรฃo do DataStage selecionam as alteraรงรตes das tabelas CCD e as gravam nos arquivos productdataset.ds e inventรกrio dataset.ds.
Vocรช pode verificar se as etapas acima ocorreram observando os conjuntos de dados.
Passo 6) Siga os passos abaixo,
- Inicie o Designer. Abra a tarefa STAGEDB_ASN_PRODUCT_CCD_extract.
- Entรฃo Double-clique no รญcone insert_into_a_dataset. No editor de palco. Clique em Exibir dados.
- Aceite os padrรตes nas linhas a serem exibidas na janela e clique em OK.
O conjunto de dados contรฉm trรชs novas linhas. A maneira mais fรกcil de verificar se as alteraรงรตes foram implementadas รฉ rolar para baixo ร direita do Navegador de dados. Agora olhe para as รบltimas trรชs linhas (veja a imagem abaixo)
As letras I, U e D especificam as operaรงรตes INSERT, UPDATE e DELETE que resultaram em cada nova linha.
Vocรช pode fazer a mesma verificaรงรฃo na tabela de inventรกrio.
Resumo
- DataStage รฉ um Ferramenta ETL que extrai dados, transforma e carrega dados da origem para o destino.
- Isso facilita anรกlise de negรณcio fornecendo dados de qualidade para ajudar na obtenรงรฃo de inteligรชncia de negรณcios.
- O DataStage รฉ dividido em duas seรงรตes, Componentes compartilhados e tempo de execuรงรฃo Archiarquitetura.
- DataStage tem quatro componentes principais,
- Administrador
- Manager
- Designer
- Diretor
- A seguir estรฃo os principais aspectos de IBM InfoSphere DataStage
- Transformaรงรฃo de dados
- Empregos
- Processamento paralelo
- No design do trabalho, vรกrios estรกgios envolvidos sรฃo
- Estรกgio de transformaรงรฃo
- Estรกgio de filtro
- Estรกgio agregador
- Estรกgio de remoรงรฃo de duplicatas
- Entrar no estรกgio
- Estรกgio de pesquisa































