Tutoriel DataStage pour les débutants : IBM Formation DataStage (outil ETL)

Qu’est-ce que DataStage ?

Étape de données is an ETL tool used to extract, transform, and load data from the source to the target destination. The source of these data might include sequential files, indexed files, relational databases, external data sources, archives, enterprise applications, etc. DataStage is used to facilitate business analysis by providing quality data to help in gaining business intelligence.

L'outil DataStage ETL est utilisé dans une grande organisation comme interface entre différents systèmes. Il s'occupe de l'extraction, de la traduction et du chargement des données de la source vers la destination cible. Il a été lancé pour la première fois par VMark au milieu des années 90. Avec IBM en acquérant DataStage en 2005, il a été renommé IBM WebSphere DataStage and later à IBM InfoSphère.

Jusqu'à présent, les différentes versions de Datastage disponibles sur le marché étaient Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft, etc. La dernière édition est IBM InfoSphere DataStage

IBM Le serveur d'informations comprend le suiviwing produits,

  • IBM InfoSphere DataStage
  • IBM Étape de qualité InfoSphere
  • IBM Directeur des services d'information InfoSphere
  • IBM Analyseur d'informations InfoSphere
  • IBM FastTrack pour les serveurs d'informations
  • IBM Glossaire métier InfoSphere

Présentation de DataStage

Datastage a suiviwing Capacités.

  • Il peut intégrer des données provenant du plus large éventail de sources de données d'entreprise et externes.
  • Implémente des règles de validation des données
  • Il est utile pour traiter et transformer de grandes quantités de données
  • Il utilise une approche de traitement parallèle évolutive
  • Il peut gérer complex transformations et gérer plusieurs processus d’intégration
  • Tirez parti de la connectivité directe aux applications d’entreprise en tant que sources ou cibles
  • Exploitez les métadonnées pour l’analyse et la maintenance
  • Fonctionne par lots, en temps réel ou en tant que service Web

Dans la suitewing sections de ce didacticiel DataStage, nous décrivons brièvement les étapes suivanteswing aspects de IBM InfoSphere DataStage :

  • Transformation de données
  • Emplois
  • Traitement parallèle

InfoSphere DataStage et QualityStage peuvent accéder aux données des applications d'entreprise et des sources de données telles que :

Types d'étapes de traitement

IBM Le travail de l'infosphère se compose d'étapes individuelles reliées entre elles. Il décrit le flux de données d'une source de données vers une cible de données. Habituellement, une étape comporte au minimum une entrée de données et/ou une sortie de données. Cependant, certaines étapes peuvent accepter plusieurs entrées et sorties de données vers plusieurs étapes.

Dans la conception de tâches, les différentes étapes que vous pouvez utiliser sont :

  • Étape de transformation
  • Étape de filtrage
  • Étape agrégateur
  • Étape Supprimer les doublons
  • Rejoindre la scène
  • Étape de recherche
  • Étape de copie
  • Étape de tri
  • Conteneurs

DataStage Components and Architecture

DataStage comprend quatre composants principaux, à savoir :

  1. administrateur: Il est utilisé pour les tâches d'administration. Cela inclut la configuration des utilisateurs DataStage, la configuration des critères de purge et la création et le déplacement de projets.
  2. Gestionnaire: C'est l'interface principale du référentiel d'ETL DataStage. Il est utilisé pour le stockage et la gestion de métadonnées réutilisables. Grâce au gestionnaire DataStage, on peut visualiser et modifier le contenu du référentiel.
  3. Designer: Une interface de conception utilisée pour créer des applications OU des tâches DataStage. Il spécifie la source de données, la transformation requise et la destination des données. Les travaux sont compilés pour créer un exécutable planifié par le directeur et exécuté par le serveur.
  4. Réalisateur: Il est utilisé pour valider, planifier, exécuter et surveiller les tâches du serveur DataStage et les tâches parallèles.
Étape de données Archidiagramme de structure
Étape de données Archidiagramme de structure

L'image ci-dessus explique comment IBM Infosphere DataStage interagit avec d'autres éléments du IBM Plateforme de serveur d'informations. DataStage est divisé en deux sections, Shared Components, and Runtime Architecture.

   
Activités

Owned

Interface utilisateur unifiée

  • Une interface de conception graphique est utilisée pour créer des applications InfoSphere DataStage (appelées tâches).
  • Chaque tâche détermine les sources de données, les transformations requises et la destination des données.
  • Les tâches sont compilées pour créer des flux de tâches parallèles et des composants réutilisables. Ils sont planifiés et exécutés par InfoSphere DataStage et QualityStage Director.
  • Le client Designer gère les métadonnées dans le référentiel. Tandis que les données d'exécution compilées sont déployées sur le niveau Moteur du serveur d'informations.

Services communs

  • Services de métadonnées tels que l'analyse d'impact et la recherche
  • Services de conception prenant en charge le développement et la maintenance des tâches InfoSphere DataStage
  • Services d'exécution prenant en charge toutes les fonctions InfoSphere DataStage

Traitement parallèle commun

  • Le moteur exécute des tâches exécutables qui extraient, transforment et chargent des données dans une grande variété de paramètres.
  • L'approche de sélection du moteur de traitement parallèle et de pipeline pour gérer un volume de travail élevé.

Runtime Architecture

Script SST

  • Ceci décrit la génération de l'OSH (orchestrer Shell Script) et le flux d'exécution de IBM et le flux de IBM Infosphere DataStage utilisant le moteur Information Server
  • Il vous permet d'utiliser des techniques graphiques de type pointer-cliquer pour développer des flux de travaux permettant d'extraire, de nettoyer, de transformer, d'intégrer et de charger des données dans des fichiers cibles.

Pré-requis pour l'outil Datastage

Pour DataStage, vous aurez besoin des éléments suivantswing installer.

  • Infosphère
  • DataStage Server 9.1.2 ou version ultérieure
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Client Oracle (client complet, pas client instantané) si vous vous connectez à une base de données Oracle
  • Client DB2 si vous vous connectez à une base de données DB2

Désormais, dans cette série de didacticiels DataStage pour débutants, nous allons apprendre à télécharger et installer InfoSphere Information Server.

Téléchargement et installation d'InfoSphere Information Server

Pour accéder à DataStage, téléchargez et installez la dernière version de IBM InfoSphere Server. The server supports AIX, Linux, and Windows operating system. You can choose as per requirement.

Pour migrer vos données d'une ancienne version d'infosphere vers la nouvelle version, utilisez l'outil d'échange d'actifs.

Fichiers d'installation

Pour installer et configurer Infosphere Datastage, vous devez avoir suiviwing fichiers dans votre configuration.

Pour Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Pour Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Flux de processus des données modifiées dans une tâche d'étape de transaction CDC

Flux de processus des données modifiées dans un CDC

  1. Le service « InfoSphere CDC » pour la base de données surveille et capture les modifications provenant d'une base de données source.
  2. Selon la définition de réplication, « InfoSphere CDC » transfère les données modifiées vers « InfoSphere CDC for InfoSphere DataStage ».
  3. Le serveur « InfoSphere CDC for InfoSphere DataStage » envoie des données à « l'étape de transaction CDC » via une session TCP/IP. Le serveur « InfoSphere CDC for InfoSphere DataStage » envoie également un message COMMIT (accompagné d'informations de signet) pour marquer la limite de transaction dans le journal capturé.
  4. Pour chaque message COMMIT envoyé par le serveur « InfoSphere CDC for InfoSphere DataStage », l'« étape de transaction CDC » crée des marqueurs de fin de vague (EOW). Ces marqueurs sont envoyés sur tous les liens de sortie vers l'étape du connecteur de base de données cible.
  5. Lorsque « l'étape du connecteur de base de données cible » reçoit un marqueur de fin de vague sur tous les liens d'entrée, elle écrit les informations de signet dans une table de signets, puis valide la transaction dans la base de données cible.
  6. Le serveur « InfoSphere CDC for InfoSphere DataStage » demande des informations de signet à partir d'une table de signets sur la « base de données cible ».
  7. Le serveur « InfoSphere CDC for InfoSphere DataStage » reçoit les informations de signet.

Ces informations sont utilisées pour,

  • Déterminez le point de départ dans le journal des transactions où les modifications sont lues au début de la réplication.
  • Pour déterminer si le journal des transactions existant peut être nettoyé

Configuration de la réplication SQL

Avant de commencer avec Datastage, vous devez configurer la base de données. Vous allez créer deux bases de données DB2.

  • Un pour servir de source de réplication et
  • Un comme cible.

Vous créerez également deux tableaux (Produit et Inventaire) et les remplirez avec des exemples de données. Ensuite, vous pouvez tester votre intégration entre SQL Réplication et étape de données.

À l'avenir, vous configurerez la réplication SQL en créant tables de contrôle, ensembles d'abonnements, enregistrements et membres d'ensembles d'abonnements. Nous en apprendrons davantage à ce sujet dans details dans la section suivante.

Ici, nous prendrons un exemple d'article de vente au détail comme base de données et créerons deux tables Inventaire et Produit. Ces tables chargeront les données de la source à la cible via ces ensembles. (tables de contrôle, ensembles d'abonnements, enregistrements et membres d'ensembles d'abonnements.)

Étape 1) Créez une base de données source appelée VENTES. Sous cette base de données, créez deux tables Les produits et Achat.

Étape 2) Exécutez le suiviwing commande pour créer la base de données SALES.

db2 create database SALES

Étape 3) allumer archival logging for the SALES database. Also, back up the database by using the following commandes

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Étape 4) Dans la même invite de commande, accédez au sous-répertoire setupDB dans le répertoire sqlrepl-datastage-tutorial que vous avez extrait du fichier compressé téléchargé.

Configuration de la réplication SQL

Étape 5) Utilisez le suivantwing commande pour créer une table d'inventaire et importer des données dans la table en exécutant la commande suivantewing commander.

importation db2 depuis inventor.ixf de ixf créer dans l'inventaire

Étape 6) Créez une table cible. Nommez la base de données cible comme STAGEDB.

Puisque vous avez maintenant créé les bases de données source et cible, la prochaine étape de ce didacticiel DataStage, nous verrons comment la répliquer.

Le following les informations peuvent être utiles dans configuration de la source de données ODBC.

Création des objets de réplication SQL

L'image ci-dessous montre comment le flux de données modifiées est transmis de la base de données source à la base de données cible. Vous créez un mappage source-cible entre les tables appelé membres d'un ensemble d'abonnements et regroupez les membres dans un abonnement.

Création des objets de réplication SQL

L'unité de réplication au sein d'InfoSphere CDC (Change Data Capture) est appelée abonnement.

  • Les modifications effectuées dans la source sont capturées dans la « Table de contrôle de capture » qui est envoyée à la table CD puis à la table cible. Alors que le programme de candidature aura le details à propos de la ligne à partir de laquelle les modifications doivent être effectuées. Il rejoindra également la table CD dans l'ensemble d'abonnement.
  • Un abonnement contient du mappage details qui spécifient comment les données d'un magasin de données source sont appliquées à un magasin de données cible. Notez que CDC est désormais appelé Réplication des données de l'infosphère.
  • When a subscription is executed, InfoSphere CDC captures changes on the source database. InfoSphere CDC delivers the change data to the target, and stores sync point information in a bookmark table in the target database.
  • InfoSphere CDC utilise les informations de signet pour surveiller la progression du travail InfoSphere DataStage.
  • En cas d'échec, les informations du signet sont utilisées comme point de redémarrage. Dans notre exemple, l'ASN.IBMSNAP_FEEDETL table stores DataStage related synchpoint information that is used to track DataStage progress.

Dans cette section de IBM Tutoriel de formation DataStage, vous devez suivrewing des choses,

  • Créez des tables CAPTURE CONTROL et APPLY CONTROL pour stocker les options de réplication
  • Enregistrez les tables PRODUCT et INVENTORY comme sources de réplication
  • Créer un ensemble d'abonnements avec deux membres
  • Créer des membres d'un ensemble d'abonnements et cibler des tables CCD

Utilisez le programme de ligne de commande ASNCLP pour configurer la réplication SQL

Étape 1) Recherchez le fichier de script crtCtlTablesCaptureServer.asnclp dans le répertoire sqlrepl-datastage-tutorial/setupSQLRep.

Étape 2) Dans le fichier remplacer et " » avec votre identifiant et votre mot de passe de connexion à la base de données SALES.

Étape 3) Accédez au répertoire sqlrepl-datastage-tutorial/setupSQLRep et exécutez le script. Utilisez le suivantwing commande. La commande se connectera à la base de données SALES, générera un script SQL pour créer les tables de contrôle Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Étape 4) Recherchez le fichier de script crtCtlTablesApplyCtlServer.asnclp dans le même répertoire. Remplacez maintenant deux instances de et " » avec l'identifiant et le mot de passe de connexion à la base de données STAGEDB.

Étape 5) Maintenant, dans la même invite de commande, utilisez le suiviwing commande pour créer des tables de contrôle d’application.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Étape 6) Localisez les fichiers de script crtRegistration.asnclp et remplacez toutes les instances de avec l'ID utilisateur pour se connecter à la base de données SALES. Changez également " » au mot de passe de connexion.

Étape 7) Pour enregistrer les tables sources, utilisez followwing scénario. Dans le cadre de la création de l'enregistrement, le programme ASNCLP créera deux tables CD. CDPRODUCT ET CDINVENTAIRE.

asnclp –f crtRegistration.asnclp

La commande CREATE REGISTRATION utilise la procédure suivantewing options:

  • Actualisation différentielle : Il invite le programme Apply à mettre à jour la table cible uniquement lorsque les lignes de la table source changent.
  • Image les deux: Cette option est utilisée pour enregistrer la valeur dans la colonne source avant que le changement ne se produise, et une pour la valeur après le changement.

Étape 8) Pour vous connecter à la base de données cible (STAGEDB), utilisez followwing pas.

  • Recherchez le fichier crtTableSpaceApply.bat, ouvrez-le dans un éditeur de texte
  • Remplacer et avec l'identifiant et le mot de passe
  • Dans la fenêtre de commande DB2, entrez crtTableSpaceApply.bat et exécutez le fichier.
  • Ce fichier batch crée un nouveau tablespace sur la base de données cible ( STAGEDB)

Étape 9) Localisez les fichiers de script crtSubscriptionSetAndAddMembers.asnclp et procédez comme suitwing changements.

  • Remplacer toutes les instances de et avec l'identifiant et le mot de passe de connexion à la base de données SALES (source).
  • Remplacer toutes les instances de et avec l'ID utilisateur de connexion à la base de données STAGEDB (cible).

Après les modifications, exécutez le script pour créer un ensemble d'abonnements (ST00) qui regroupe les tables source et cible. Le script crée également deux membres d'ensemble d'abonnements et un CCD (consistent change data) dans la base de données cible qui stockera les données modifiées. Ces données seront consommées par Infosphere DataStage.

Étape 10) Exécutez le script pour créer l'ensemble d'abonnements, les membres de l'ensemble d'abonnements et les tables CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Diverses options utilisées pour créer un ensemble d'abonnements et deux membres incluent

  • Terminer en mode condensé
  • Externe
  • Type de charge import export
  • Chronométrage continu

Étape 11) En raison d'un défaut dans les outils d'administration de réplication. Vous devez exécuter un autre fichier batch pour définir la colonne TARGET_CAPTURE_SCHEMA dans le IBMTable de contrôle SNAP_SUBS_SET sur null.

  • Localisez le fichier updateTgtCapSchema.bat. Ouvrez-le dans un éditeur de texte. Remplacer et avec l'ID utilisateur pour se connecter à la base de données STAGEDB.
  • Dans la fenêtre de commande DB2, entrez la commande updateTgtCapSchema.bat et exécutez le fichier.

Création des fichiers de définition pour mapper les tables CCD à DataStage

Avant de procéder à la réplication à l'étape suivante, nous devons connecter la table CCD à DataStage. Dans cette section, nous verrons comment connecter SQL à DataStage.

Pour connecter la table CCD à DataStage, vous devez créer des fichiers de définition Datastage (.dxs). Le format de fichier .dsx est utilisé par DataStage pour importer et exporter des définitions de tâches. Vous utiliserez le script ASNCLP pour créer deux fichiers .dsx. Par exemple, nous avons créé ici deux fichiers .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: crée une séquence de tâches qui dirige le flux de travail des quatre tâches parallèles.
  • stagedb_AQ00_SET00_pJobs.dsx : Crée les quatre tâches parallèles

ASNCLP program automatically maps the CCD column to the Datastage Column format. It is only supported when the ASNCLP runs on Windows, Linux, or Unix Procedure.

Fichiers de définition pour mapper les tables CCD à DataStage

Les tâches Datastage extraient les lignes de la table CCD.

  1. One job sets a synchpoint where DataStage left off in extracting data from the two tables. The job gets this information by selecting the SYNCHPOINT value for the ST00 subscription set from the IBMSNAP_SUBS_SET table and inserting it into the MAX_SYNCHPOINT column of the IBMTableau SNAP_FEEDETL.
  2. Two jobs that extract data from the PRODUCT_CCD and INVENTORY_CCD tables. The jobs know which rows to start extracting by selecting the MIN_SYNCHPOINT and MAX_SYNCHPOINT values from the IBMTable SNAP_FEEDETL pour l'ensemble d'abonnements.

Démarrage de la réplication

Pour démarrer la réplication, vous suivrez les étapes ci-dessous. Lorsque les tables CCD sont remplies de données, cela indique que la configuration de la réplication est validée. Pour afficher les données répliquées dans les tables CCD cible, utilisez l'interface utilisateur graphique de DB2 Control Center.

Étape 1) Assurez-vous que DB2 est en cours d'exécution, sinon utilisez démarrage de DB2 commander.

Étape 2) Utilisez ensuite la commande asncap à partir d’une invite du système d’exploitation pour démarrer le programme de capture. Par exemple.

asncap capture_server=SALES

La commande ci-dessus spécifie la base de données SALES comme serveur de capture. Gardez la fenêtre de commande ouverte pendant l'exécution de la capture.

Étape 3) Ouvrez maintenant une nouvelle invite de commande. Puis démarrez le APPLIQUER programme en utilisant la commande asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Démarrage de la réplication

  • La commande spécifie la base de données STAGEDB comme serveur de contrôle Apply (la base de données qui contient les tables de contrôle Apply)
  • AQ00 comme qualificatif Apply (l'identifiant de cet ensemble de tables de contrôle)

Laissez la fenêtre de commande ouverte pendant qu'Apply est en cours d'exécution.

Étape 4) Ouvrez maintenant une autre invite de commande et exécutez la commande db2cc pour lancer le centre de contrôle DB2. Acceptez le centre de contrôle par défaut.

Étape 5) Now in the left navigation tree, open All Databases > STAGEDB and then click Tables. Double click on table name ( Product CCD) to open the table. It will look something like this.

Démarrage de la réplication

Commewise, you can also open CCD table for INVENTORY.

Démarrage de la réplication

Comment créer des projets dans l'outil Datastage

Tout d’abord, vous allez créer un projet dans DataStage. Pour cela, vous devez être un administrateur InfoSphere DataStage.

Une fois l'installation et la réplication terminées, vous devez créer un projet. Dans DataStage, les projets sont une méthode d'organisation de vos données. Cela comprend la définition des fichiers de données, des étapes et des tâches de construction dans un projet spécifique.

Pour créer un projet dans DataStage, suivez les étapes ci-dessous :

Étape 1) Lancez le logiciel DataStage

Lancez l'administrateur DataStage et QualityStage. Cliquez ensuite sur Démarrer > Tous les programmes > IBM Serveur d'informations > IBM Administrateur WebSphere DataStage et QualityStage.

Étape 2) Connectez le serveur et le client DataStage

Pour vous connecter au serveur DataStage à partir de votre client DataStage, saisissez details comme le nom de domaine, l’ID utilisateur, le mot de passe et les informations sur le serveur.

Étape 3) Ajouter un nouveau projet

Dans la fenêtre Administration WebSphere DataStage. Cliquez sur l'onglet Projets, puis cliquez sur Ajouter.

Étape 4) Entrez le projet details

Dans la fenêtre Administration WebSphere DataStage, entrez details comme

  1. Nom, Prénom
  2. Emplacement du fichier
  3. Cliquez sur OK'

Créer des projets dans l'outil Datastage

Chaque projet contient :

  • Emplois DataStage
  • Composants intégrés. Ce sont des composants prédéfinis utilisés dans un travail.
  • Composants définis par l'utilisateur. Il s'agit de composants personnalisés créés à l'aide de DataStage Manager ou DataStage Designer.

Nous verrons comment importer des tâches de réplication dans Datastage Infosphere.

Comment importer des tâches de réplication dans Datastage et QualityStage Designer

Vous importerez des travaux dans le IBM Client InfoSphere DataStage et QualityStage Designer. Et vous les exécutez dans le IBM Client InfoSphere DataStage et QualityStage Director.

Le client-concepteur est comme un blanc canvas pour la construction d'emplois. Il extrait, transforme, charge et vérifie la qualité des données. Il fournit des outils qui constituent les éléments de base d'un Job. Il comprend

  • Étapes: Il se connecte aux sources de données pour lire ou écrire des fichiers et traiter les données.
  • Liens: Il relie les étapes le long desquelles circulent vos données

Les étapes du client InfoSphere DataStage et QualityStage Designer sont stockées dans la palette d'outils Designer.

Le following les étapes sont incluses dans InfoSphere QualityStage :

  • Étape d'enquête
  • Étape de standardisation
  • Étape de fréquence de correspondance
  • Étape de jumelage à source unique
  • Étape de correspondance à deux sources
  • Survivre à l'étape
  • Étape d’évaluation de la qualité de la normalisation (SQA)

Vous pouvez créer 4 types de Jobs dans l'infosphère DataStage.

  • Tâche parallèle
  • Travail de séquence
  • Travail sur ordinateur central
  • Travail de serveur

Voyons étape par étape comment importer des fichiers de tâches de réplication.

Étape 1) Démarrez DataStage et QualityStage Designer. Cliquez sur Démarrer > Tous les programmes > IBM Serveur d'informations > IBM WebSphere DataStage et QualityStage Designer

Étape 2) Dans la fenêtre Attacher au projet, saisissez followwing details.

  • Domaine
  • Nom d'utilisateur
  • Mot de Passe
  • Nom Du Projet
  • OK

Importer des tâches de réplication dans Datastage et QualityStage

Étape 3) Maintenant, dans le menu Fichier, cliquez sur importer -> Composants DataStage.

Une nouvelle fenêtre d'importation du référentiel DataStage s'ouvrira.

  1. Dans cette fenêtre, parcourez STAGEDB_AQ00_ST00_sJobs.dsx fichier que nous avions créé plus tôt
  2. Sélectionnez l'option "Tout importer".
  3. Marquer le chèquebox « Effectuer une analyse d'impact. »
  4. Cliquez sur OK.'

Importer des tâches de réplication dans Datastage et QualityStage

Une fois la tâche importée, DataStage créera la tâche STAGEDB_AQ00_ST00_sequence.

Étape 4) Suivez les mêmes étapes pour importer le Fichier STAGEDB_AQ00_ST00_pJobs.dsx. Cette importation crée les quatre tâches parallèles.

Étape 5) Sous le volet Référentiel du concepteur -> Ouvrez le dossier SQLREP. À l’intérieur du dossier, vous verrez Sequence Job et quatre tâches parallèles.

Importer des tâches de réplication dans Datastage et QualityStage

Étape 6) Pour voir le travail de séquence. Accédez à l'arborescence du référentiel, cliquez avec le bouton droit sur la tâche STAGEDB_AQ00_ST00_sequence et cliquez sur Modifier. Il affichera le flux de travail des quatre tâches parallèles contrôlées par la séquence de tâches.

Importer des tâches de réplication dans Datastage et QualityStage

Chaque icône est une étape,

  • Étape getExtractRange: Il met à jour le IBMTableau SNAP_FEEDETL. Il définira le point de départ de l'extraction des données au point où DataStage a extrait pour la dernière fois les lignes et définira le point de fin sur la dernière transaction traitée pour l'ensemble d'abonnements.
  • getExtractRangeSuccess: Cette étape alimente les points de départ des étapes extractFromINVENTORY_CCD et extractFromPRODUCT_CCD.
  • Tous les extraits de succès : This stage ensures that both extractFromINVENTORY_CCD and extractFromPRODUCT_CCD completed successfully. Then passes sync points for the last rows that were fetched to the setRangeProcessed stage.
  • Étape setRangeProcessed: Il met à jour IBMTableau SNAP_FEEDETL. Ainsi, le DataStage sait par où commencer le prochain cycle d'extraction de données.

Étape 7) Pour voir les travaux parallèles. Cliquez avec le bouton droit sur STAGEDB_ASN_INVENTORY_CCD et sélectionnez modifier sous le référentiel. Cela ouvrira la fenêtre comme indiqué ci-dessous.

Importer des tâches de réplication dans Datastage et QualityStage

Here in above image, you can see that the data from Inventory CCD table and Synch point details de la table FEEDETL est rendu à l'étape Lookup_6.

Création d'une connexion de données de DataStage à la base de données STAGEDB

L'étape suivante consiste désormais à établir une connexion de données entre InfoSphere DataStage et la base de données cible de réplication SQL. Il contient les tables CCD.

Dans DataStage, vous utilisez des objets de connexion de données avec des étapes de connecteur associées pour définir rapidement une connexion à une source de données dans une conception de tâche.

Étape 1) STAGEDB contains both the Apply control tables that DataStage uses to synchronize its data extraction and the CCD tables from which the data is extracted. Use following commandes

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Notes: Adresse IP du système sur lequel STAGEDB a été créé

Étape 2) Cliquez sur Fichier > Nouveau > Autre > Connexion de données.

Étape 3) Vous aurez une fenêtre avec deux onglets, Paramètres et Général.

Connexion de données de DataStage à la base de données STAGEDB

Étape 4) Dans cette étape,

  1. En général, onglet, nommez la connexion de données sqlreplConnect
  2. Dans l'onglet Paramètres, comme indiqué ci-dessous
  • Cliquez sur le bouton Parcourir à côté du champ « Connecter à l'aide du type d'étape » et dans le champ
  • Ouvrez la fenêtre, accédez à l'arborescence du référentiel jusqu'à Types d'étape -> Parallèle -> Base de données -> Connecteur DB2.
  • Cliquez sur Ouvrir.

Connexion de données de DataStage à la base de données STAGEDB

Étape 5) Dans le tableau Paramètres de connexion, saisissez details comme

  • Chaîne de connexion: STAGEDB2
  • Nom d'utilisateur: ID utilisateur pour la connexion à la base de données STAGEDB
  • Mot de Passe: Mot de passe de connexion à la base de données STAGEDB
  • Instance : Nom de l'instance DB2 qui contient la base de données STAGEDB

Étape 6) Dans la fenêtre suivante, enregistrez la connexion de données. Cliquez sur le bouton « Enregistrer ».

Importation de définitions de table de STAGEDB dans DataStage

À l'étape précédente, nous avons vu qu'InfoSphere DataStage et la base de données STAGEDB sont connectés. Maintenant, importez la définition de colonne et d'autres métadonnées pour les tables PRODUCT_CCD et INVENTORY_CCD dans le référentiel Information Server.

Dans la fenêtre du concepteur, suivez les étapes ci-dessous.

Étape 1) Sélectionnez Importer > Définitions de table > Démarrer l'assistant d'importation de connecteur.

Étape 2) Dans la page de sélection du connecteur de l'assistant, sélectionnez le connecteur DB2 et cliquez sur Suivant.

Importation de définitions de table de STAGEDB dans DataStage

Étape 3) Cliquez sur charger sur la page de détails de la connexion. Cela remplira les champs de l'assistant avec les informations de connexion de la connexion de données que vous avez créée dans le chapitre précédent.

Importation de définitions de table de STAGEDB dans DataStage

Étape 4) Cliquez sur Tester la connexion sur la même page. Cela invitera DataStage à tenter une connexion à la base de données STAGEDB. Vous pouvez voir le message « la connexion est réussie ». Cliquez sur Suivant.

Importation de définitions de table de STAGEDB dans DataStage

Étape 5) Assurez-vous que sur la page Emplacement de la source de données, les champs Nom d'hôte et Nom de la base de données sont correctement renseignés. Cliquez ensuite sur suivant.

Étape 6) Sur la page Schéma. Saisissez le schéma des tables de contrôle Apply (ASN) ou vérifiez que le schéma ASN est pré-rempli dans le champ Schéma. Cliquez ensuite sur suivant. La page de sélection affichera la liste des tables définies dans le schéma ASN.

Importation de définitions de table de STAGEDB dans DataStage

Étape 7) La première table à partir de laquelle nous devons importer des métadonnées est IBMSNAP_FEEDETL, an Apply control table. It has the detail about the synchronization points that allows DataStage to keep track of which rows it has fetched from the CCD tables. Choose IBMSNAP_FEEDETL et cliquez sur Suivant.

Étape 8) Pour terminer l'importation du IBMDéfinition de la table SNAP_FEEDETL. Cliquez sur importer puis dans la fenêtre ouverte, cliquez sur ouvrir.

Étape 9) Répétez les étapes 1 à 8 deux fois de plus pour importer les définitions de la table PRODUCT_CCD, puis de la table INVENTORY_CCD.

REMARQUE: lors de l'importation des définitions pour l'inventaire et le produit, assurez-vous de modifier les schémas ASN par le schéma sous lequel PRODUCT_CCD et INVENTORY_CCD ont été créés.

DataStage possède désormais tous les atoutstails dont il a besoin pour se connecter à la base de données cible de réplication SQL.

Définition des propriétés pour les tâches DataStage

Pour chacune des quatre tâches parallèles DataStage dont nous disposons, il contient une ou plusieurs étapes qui se connectent à la base de données STAGEDB. Vous devez modifier les étapes pour ajouter des informations de connexion et créer un lien vers les fichiers d'ensemble de données que DataStage remplit.

Les étapes ont des propriétés prédéfinies modifiables. Ici, nous allons modifier certaines de ces propriétés pour la tâche parallèle STAGEDB_ASN_PRODUCT_CCD_extract.

Étape 1) Parcourez l'arborescence du référentiel Designer. Sous le dossier SQLREP, sélectionnez la tâche parallèle STAGEDB_ASN_PRODUCT_CCD_extract. Pour modifier, cliquez avec le bouton droit sur le travail. La fenêtre de conception du travail parallèle s'ouvre dans la palette Designer.

Étape 2) Locate the green icon. This icon signifies the DB2 connector stage. It is used for extracting data from the CCD table. Double-click the icon. A stage editor window opens.

Définition des propriétés pour les tâches DataStage

Définition des propriétés pour les tâches DataStage

Étape 3) Dans l'éditeur, cliquez sur Charger pour remplir les champs avec les informations de connexion. Pour fermer l'éditeur d'étape et enregistrer vos modifications, cliquez sur OK.

Étape 4) Now return to the design window for the STAGEDB_ASN_PRODUCT_CCD_extract parallel job. Locate the icon for the getSynchPoints DB2 connector stage. Then double-click the icon.

Étape 5) Cliquez maintenant sur le bouton Charger pour remplir les champs avec les informations de connexion.

REMARQUE: If you are using a database other than STAGEDB as your Apply control server. Then select the option to load the connection information for the getSynchPoints stage, which interacts with the control tables rather than the CCD table.

Étape 6) Dans cette étape,

  • Créez un fichier texte vide sur le système sur lequel InfoSphere DataStage s'exécute.
  • Nommez ce fichier productdataset.ds et notez l’endroit où vous l’avez enregistré.
  • DataStage écrira les modifications dans ce fichier après avoir récupéré les modifications de la table CCD.
  • Les ensembles de données ou les fichiers utilisés pour déplacer des données entre des tâches liées sont appelés ensembles de données persistants. Il est représenté par une étape DataSet.

Étape 7) Now open the stage editor in the design window, and double click on icon insert_into_a_dataset. It will open another window.

Définition des propriétés pour les tâches DataStage

Étape 8) Dans cette fenêtre,

Définition des propriétés pour les tâches DataStage

  • Sous l'onglet Propriétés, assurez-vous que le dossier Target est ouvert et que la propriété File = DATASETNAME est mise en surbrillance.
  • A droite, vous aurez un champ fichier
  • Entrez le chemin complet du fichier productdataset.ds
  • Cliquez sur OK'.

Vous avez maintenant mis à jour toutes les propriétés nécessaires pour la table CCD du produit. Fermez la fenêtre de conception et enregistrez toutes les modifications.

Étape 9) Recherchez et ouvrez maintenant la tâche parallèle STAGEDB_ASN_INVENTORY_CCD_extract à partir du volet du référentiel du concepteur et répétez les étapes 3 à 8.

REMARQUE:

  • You have to load the connection information for the control server database into the stage editor for the getSynchPoints stage. If your control server is not STAGEDB.
  • Pour les travaux parallèles STAGEDB_ST00_AQ00_getExtractRange et STAGEDB_ST00_AQ00_markRangeProcessed, ouvrez toutes les étapes du connecteur DB2. Utilisez ensuite la fonction de chargement pour ajouter des informations de connexion pour la base de données STAGEDB

Compilation et exécution des tâches DataStage

Lorsque le travail DataStage est prêt à être compilé, le concepteur valide la conception du travail en examinant les entrées, les transformations, les expressions et autres éléments.tails.

Lorsque la compilation du travail est terminée avec succès, il est prêt à être exécuté. Nous compilerons les cinq tâches, mais exécuterons uniquement la « séquence de tâches ». En effet, cette tâche contrôle les quatre tâches parallèles.

Étape 1) Sous le dossier SQLREP. Sélectionnez chacune des cinq tâches par (Cntrl+Shift). Ensuite, faites un clic droit et choisissez l’option de compilation de tâches multiples.

Compilation et exécution des tâches DataStage

Étape 2) Vous verrez cinq tâches sélectionnées dans l'assistant de compilation DataStage. Cliquez sur Suivant.

Compilation et exécution des tâches DataStage

Étape 3) La compilation commence et affiche un message « Compilé avec succès » une fois terminé.

Compilation et exécution des tâches DataStage

Étape 4) Démarrez maintenant DataStage et QualityStage Director. Sélectionnez Démarrer > Tous les programmes > IBM Serveur d'informations > IBM Directeur WebSphere DataStage et QualityStage.

Étape 5) Dans le volet de navigation du projet sur la gauche. Cliquez sur le dossier SQLREP. Cela amène les cinq emplois dans la table des statuts de directeur.

Étape 6) Sélectionnez le travail STAGEDB_AQ00_S00_sequence. Dans la barre de menu, cliquez sur Travail > Exécuter maintenant.

Compilation et exécution des tâches DataStage

Une fois la compilation terminée, vous verrez l'état terminé.

Compilation et exécution des tâches DataStage

Vérifiez maintenant si les lignes modifiées stockées dans les tables PRODUCT_CCD et INVENTORY_CCD ont été extraites par DataStage et insérées dans les deux fichiers d'ensemble de données.

Étape 7) Go back to the Designer and open the STAGEDB_ASN_PRODUCT_CCD_extract job. To open the stage editor Double-click the insert_into_a_dataset icon. Then click view data.

Étape 8) Acceptez les valeurs par défaut dans la fenêtre des lignes à afficher. Cliquez ensuite sur OK. Une fenêtre de navigateur de données s'ouvrira pour afficher le contenu du fichier d'ensemble de données.

Compilation et exécution des tâches DataStage

Test de l'intégration entre la réplication SQL et DataStage

À l'étape précédente, nous avons compilé et exécuté le travail. Dans cette section, nous vérifierons l'intégration de la réplication SQL et de DataStage. Pour cela, nous apporterons des modifications à la table source et verrons si la même modification est mise à jour dans le DataStage.

Étape 1) Accédez au dossier sqlrepl-datastage-scripts correspondant à votre système d'exploitation.

Étape 2) Démarrer la réplication SQL en suivantwing étapes:

  • Run the startSQLCapture.bat (Windows) file to start the Capture program at the SALES database.
  • Run the startSQLApply.bat (Windows) file to start the Apply program at the STAGEDB database.

Étape 3) Ouvrez maintenant le fichier updateSourceTables.sql. Pour vous connecter à la base de données SALES, remplacez et avec l'identifiant et le mot de passe de l'utilisateur.

Étape 4) Ouvrez une fenêtre de commande DB2. Changez le répertoire en sqlrepl-datastage-tutorial\scripts et exécutez issue à l'aide de la commande donnée :

db2 -tvf updateSourceTables.sql

Le script SQL effectuera diverses opérations comme Mettre à jour, Insérer et supprimer sur les deux tables (PRODUCT, INVENTORY) de la base de données Sales.

Étape 5) Sur le système sur lequel DataStage est exécuté. Ouvrez DataStage Director et exécutez la tâche STAGEDB_AQ00_S00_sequence. Cliquez sur Travail > Exécuter maintenant.

Intégration entre la réplication SQL et DataStage

Lorsque vous exécutez le travail, suivezwing des activités seront réalisées.

  • Le programme Capture lit les modifications sur six lignes dans le journal de la base de données SALES et les insère dans les tables CD.
  • Le programme Apply récupère les lignes de modifications des tables CD de SALES et les insère dans les tables CCD de STAGEDB.
  • Les deux tâches d'extraction DataStage récupèrent les modifications des tables CCD et les écrivent dans les fichiers productdataset.ds et inventor dataset.ds.

Vous pouvez vérifier que les étapes ci-dessus ont eu lieu en examinant les ensembles de données.

Étape 6) Suivez les étapes ci-dessous,

  • Démarrez Designer.Ouvrez le travail STAGEDB_ASN_PRODUCT_CCD_extract.
  • Ensuite Double-click the insert_into_a_dataset icon. In the stage editor. Click View Data.
  • Acceptez les valeurs par défaut dans la fenêtre des lignes à afficher et cliquez sur OK.

L'ensemble de données contient trois nouvelles lignes. Le moyen le plus simple de vérifier que les modifications sont mises en œuvre est de faire défiler l'écran à l'extrême droite du navigateur de données. Regardez maintenant les trois dernières lignes (voir l'image ci-dessous)

Intégration entre la réplication SQL et DataStage

Les lettres I, U et D spécifient les opérations INSERT, UPDATE et DELETE qui ont abouti à chaque nouvelle ligne.

Vous pouvez faire la même vérification pour la table Inventaire.

Résumé

  • La phase de données est un Outil ETL qui extrait les données, transforme et charge les données de la source vers la cible.
  • Il facilite analyse commerciale en fournissant des données de qualité pour aider à acquérir de la business intelligence.
  • DataStage est divisé en deux sections, Shared Components, and Runtime Architecture.
  • DataStage comporte quatre composants principaux,
  • Administrateur
  • Gérant
  • Designer
  • Directeur
  • Following sont les aspects clés de IBM InfoSphere DataStage
  • Transformation de données
  • Emplois
  • Traitement parallèle
  • Dans la conception du travail, les différentes étapes impliquées sont
  • Étape de transformation
  • Étape de filtrage
  • Étape agrégateur
  • Étape Supprimer les doublons
  • Rejoindre la scène
  • Étape de recherche