DataStage-Tutorial für Anfänger: IBM DataStage (ETL-Tool)-Schulung

Was ist DataStage?

DataStage ist ein ETL-Tool zum Extrahieren, Transformieren und Laden von Daten von der Quelle zum Ziel. Die Quelle dieser Daten kann sequentielle Dateien, indizierte Dateien, relationale Datenbanken, externe Datenquellen, Archive, Unternehmensanwendungen usw. umfassen. DataStage wird verwendet, um Geschäftsanalysen zu erleichtern, indem es qualitativ hochwertige Daten bereitstellt, die bei der Gewinnung von Geschäftsinformationen helfen.

Das ETL-Tool DataStage wird in einer großen Organisation als Schnittstelle zwischen verschiedenen Systemen verwendet. Es kümmert sich um die Extraktion, Übersetzung und das Laden von Daten von der Quelle zum Ziel. Es wurde erstmals Mitte der 90er Jahre von VMark eingeführt. Mit IBM Nach der Übernahme von DataStage im Jahr 2005 wurde das Unternehmen in umbenannt IBM WebSphere DataStage und später auf IBM InfoSphere.

Bisher waren verschiedene Versionen von Datastage auf dem Markt erhältlich: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage für PeopleSoft und so weiter. Die neueste Ausgabe ist IBM InfoSphere DataStage

IBM Der Informationsserver umfasst folgende Produkte:

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Direktor von InfoSphere Information Services
  • IBM InfoSphere Information Analyzer
  • IBM Informationsserver FastTrack
  • IBM InfoSphere Business Glossar

DataStage-Übersicht

Datastage verfügt über folgende Funktionen.

  • Es kann Daten aus den unterschiedlichsten Unternehmens- und externen Datenquellen integrieren
  • Implementiert Datenvalidierungsregeln
  • Es ist nützlich bei der Verarbeitung und Transformation großer Datenmengen
  • Es verwendet einen skalierbaren Parallelverarbeitungsansatz
  • Es kann komplexe Transformationen verarbeiten und mehrere Integrationsprozesse verwalten
  • Nutzen Sie die direkte Konnektivität zu Unternehmensanwendungen als Quellen oder Ziele
  • Nutzen Sie Metadaten für Analyse und Wartung
  • OperaTests im Batch, in Echtzeit oder als Webservice

In den folgenden Abschnitten dieses DataStage-Tutorials beschreiben wir kurz die folgenden Aspekte von IBM InfoSphere DataStage:

  • Datentransformation
  • Jobs
  • Parallelverarbeitung

InfoSphere DataStage und QualityStage können auf Daten in Unternehmensanwendungen und Datenquellen zugreifen, wie zum Beispiel:

Verarbeitungsstufentypen

IBM infosphere job besteht aus einzelnen Phasen, die miteinander verknüpft sind. Es beschreibt den Datenfluss von einer Datenquelle zu einem Datenziel. Normalerweise verfügt eine Stufe über mindestens einen Dateneingang und/oder einen Datenausgang. Einige Stufen können jedoch mehr als eine Dateneingabe und -ausgabe an mehr als eine Stufe akzeptieren.

In der Jobgestaltung können Sie folgende Phasen nutzen:

  • Transformationsphase
  • Filterstufe
  • Aggregator-Stufe
  • Phase „Duplikate entfernen“.
  • Treten Sie der Bühne bei
  • Suchphase
  • Bühne kopieren
  • Sortierstufe
  • Behälter

DataStage-Komponenten und Architektur

DataStage besteht aus vier Hauptkomponenten, nämlich:

  1. Administrator: Es wird für Verwaltungsaufgaben verwendet. Dazu gehören das Einrichten von DataStage-Benutzern, das Einrichten von Bereinigungskriterien sowie das Erstellen und Verschieben von Projekten.
  2. Manager: Es ist die Hauptschnittstelle des Repositorys von ETL DataStage. Es dient der Speicherung und Verwaltung wiederverwendbarer Metadaten. Über den DataStage-Manager kann man den Inhalt des Repositorys anzeigen und bearbeiten.
  3. Designer: Eine Designschnittstelle, die zum Erstellen von DataStage-Anwendungen ODER -Jobs verwendet wird. Es gibt die Datenquelle, die erforderliche Transformation und das Ziel der Daten an. Jobs werden kompiliert, um eine ausführbare Datei zu erstellen, die vom Director geplant und vom Server ausgeführt wird
  4. Regie: Es wird zum Validieren, Planen, Ausführen und Überwachen von DataStage-Serverjobs und parallelen Jobs verwendet.
Datenphase ArchiStrukturdiagramm
Datenphase ArchiStrukturdiagramm

Das obige Bild erklärt, wie IBM Infosphere DataStage interagiert mit anderen Elementen des IBM Informationsserverplattform. DataStage ist in zwei Abschnitte unterteilt: Gemeinsame Komponenten und Laufzeit Architektur.

   
Aktivitäten

Gemeinsam genutzt

Einheitliche Benutzeroberfläche

  • Zum Erstellen von InfoSphere DataStage-Anwendungen (sogenannte Jobs) wird eine grafische Designoberfläche verwendet.
  • Jeder Job bestimmt die Datenquellen, die erforderlichen Transformationen und das Ziel der Daten.
  • Jobs werden kompiliert, um parallele Jobabläufe und wiederverwendbare Komponenten zu erstellen. Sie werden vom InfoSphere DataStage- und QualityStage-Direktor geplant und ausgeführt.
  • Der Designer-Client verwaltet Metadaten im Repository. Während der kompilierten Ausführung werden Daten auf der Ebene der Information Server Engine bereitgestellt.

Gemeinsame Dienste

  • Metadatendienste wie Wirkungsanalyse und Suche
  • Designdienste, die die Entwicklung und Wartung von InfoSphere DataStage-Aufgaben unterstützen
  • Ausführungsdienste, die alle InfoSphere DataStage-Funktionen unterstützen

Gemeinsame Parallelverarbeitung

  • Die Engine führt ausführbare Jobs aus, die Daten in einer Vielzahl von Einstellungen extrahieren, transformieren und laden.
  • Die Engine wählt den Ansatz der Parallelverarbeitung und des Pipelineings, um ein hohes Arbeitsvolumen zu bewältigen.

Laufzeit Architektur

Arbeitsschutzskript

  • Dies beschreibt die Generierung des OSH (Orchestrierung des Shell-Skripts) und den Ausführungsfluss davon IBM und der Fluss von IBM Infosphere DataStage unter Verwendung der Information Server-Engine
  • Es ermöglicht Ihnen, mithilfe grafischer Point-and-Click-Techniken Arbeitsabläufe zum Extrahieren, Bereinigen, Transformieren, Integrieren und Laden von Daten in Zieldateien zu entwickeln.

Voraussetzung für das Datastage Tool

Für DataStage benötigen Sie die folgende Einrichtung.

  • Infosphäre
  • DataStage Server 9.1.2 oder höher
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle Client (vollständiger Client, kein Instant-Client), wenn eine Verbindung zu einem hergestellt wird Oracle Datenbank
  • DB2-Client, wenn eine Verbindung zu einer DB2-Datenbank hergestellt wird

In dieser Reihe „DataStage-Tutorials für Anfänger“ lernen wir nun, wie man den InfoSphere-Informationsserver herunterlädt und installiert.

Laden Sie den InfoSphere Information Server herunter und installieren Sie ihn

Um auf DataStage zuzugreifen, laden Sie die neueste Version herunter und installieren Sie sie IBM InfoSphere-Server. Der Server unterstützt AIX, Linux und Windows Betriebssystem. Sie können je nach Bedarf wählen.

Um Ihre Daten von einer älteren Version von Infosphere auf eine neue Version zu migrieren, verwenden Sie das Asset-Austausch-Tool.

Installationsdateien

Für die Installation und Konfiguration von Infosphere Datastage müssen in Ihrem Setup die folgenden Dateien vorhanden sein.

Für Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Für Linux

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Prozessablauf von Änderungsdaten in einem CDC-Transaktionsphasenjob

Prozessablauf von Änderungsdaten in einem CDC

  1. Der „InfoSphere CDC“-Dienst für die Datenbank überwacht und erfasst die Änderung aus einer Quelldatenbank
  2. Gemäß der Replikationsdefinition überträgt „InfoSphere CDC“ die Änderungsdaten an „InfoSphere CDC für InfoSphere DataStage“.
  3. Der „InfoSphere CDC für InfoSphere DataStage“-Server sendet Daten über eine TCP/IP-Sitzung an die „CDC Transaction Stage“. Der „InfoSphere CDC für InfoSphere DataStage“-Server sendet außerdem eine COMMIT-Nachricht (zusammen mit Lesezeicheninformationen), um die Transaktionsgrenze im erfassten Protokoll zu markieren.
  4. Für jede vom „InfoSphere CDC for InfoSphere DataStage“-Server gesendete COMMIT-Nachricht erstellt die „CDC Transaction Stage“ End-of-Wave-Marker (EOW). Diese Markierungen werden über alle Ausgabelinks an die Zieldatenbank-Connector-Stufe gesendet.
  5. Wenn die „Zieldatenbank-Connector-Stufe“ eine End-of-Wave-Markierung auf allen Eingabelinks empfängt, schreibt sie Lesezeicheninformationen in eine Lesezeichentabelle und übergibt die Transaktion dann an die Zieldatenbank.
  6. Der Server „InfoSphere CDC für InfoSphere DataStage“ fordert Lesezeicheninformationen aus einer Lesezeichentabelle in der „Zieldatenbank“ an.
  7. Der Server „InfoSphere CDC für InfoSphere DataStage“ empfängt die Lesezeicheninformationen.

Diese Informationen werden verwendet, um

  • Bestimmen Sie den Startpunkt im Transaktionsprotokoll, an dem Änderungen gelesen werden, wenn die Replikation beginnt.
  • Um festzustellen, ob das vorhandene Transaktionsprotokoll bereinigt werden kann

Einrichten der SQL-Replikation

Bevor Sie mit Datastage beginnen, müssen Sie die Datenbank einrichten. Sie erstellen zwei DB2-Datenbanken.

  • Eine, die als Replikationsquelle dient und
  • Einer als Ziel.

Sie erstellen außerdem zwei Tabellen (Produkt und Inventar) und füllen diese mit Beispieldaten. Dann können Sie Ihre Integration zwischen testen SQL Replikation und Datenphase.

Im weiteren Verlauf richten Sie die SQL-Replikation durch Erstellen ein Steuertabellen, Subskriptionsgruppen, Registrierungen und Subskriptionsgruppenmitglieder. Im nächsten Abschnitt erfahren wir mehr Einzelheiten darüber.

Hier nehmen wir ein Beispiel eines Einzelhandelsverkaufsartikels als unsere Datenbank und erstellen zwei Tabellen „Inventar“ und „Produkt“. Diese Tabellen laden Daten über diese Sätze von der Quelle zum Ziel. (Steuertabellen, Subskriptionsgruppen, Registrierungen und Subskriptionsgruppenmitglieder.)

Schritt 1) Erstellen Sie eine Quelldatenbank namens Angebote. Erstellen Sie unter dieser Datenbank zwei Tabellen PRODUKTE und Lagerbestand.

Schritt 2) Führen Sie den folgenden Befehl aus, um die SALES-Datenbank zu erstellen.

db2 create database SALES

Schritt 3) Aktivieren Sie die Archivierungsprotokollierung für die SALES-Datenbank. Sichern Sie die Datenbank außerdem mit den folgenden Befehlen

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Schritt 4) Wechseln Sie in derselben Eingabeaufforderung in das Unterverzeichnis setupDB im Verzeichnis sqlrepl-datastage-tutorial, das Sie aus der heruntergeladenen komprimierten Datei extrahiert haben.

Einrichten der SQL-Replikation

Schritt 5) Verwenden Sie den folgenden Befehl, um eine Inventartabelle zu erstellen und Daten in die Tabelle zu importieren, indem Sie den folgenden Befehl ausführen.

DB2-Import aus inventory.ixf von ixf create ins Inventar

Schritt 6) Erstellen Sie eine Zieltabelle. Benennen Sie die Zieldatenbank als STAGEDB.

Da Sie nun sowohl die Quelle als auch das Ziel der Datenbank erstellt haben, werden wir im nächsten Schritt in diesem DataStage-Tutorial sehen, wie Sie es replizieren.

Die folgenden Informationen können hilfreich sein bei Einrichten einer ODBC-Datenquelle.

Erstellen der SQL-Replikationsobjekte

Das Bild unten zeigt, wie der Fluss der Änderungsdaten von der Quell- zur Zieldatenbank übermittelt wird. Sie erstellen eine Quelle-Ziel-Zuordnung zwischen Tabellen, die als bekannt ist Mitglieder des Abonnementsatzes und gruppieren Sie die Mitglieder in a Abonnement.

Erstellen der SQL-Replikationsobjekte

Die Replikationseinheit innerhalb von InfoSphere CDC (Change Data Capture) wird als Abonnement bezeichnet.

  • Die in der Quelle vorgenommenen Änderungen werden in der „Capture Control Table“ erfasst, die an die CD-Tabelle und dann an die Zieltabelle gesendet wird. Das Apply-Programm verfügt über die Details zu der Zeile, in der Änderungen vorgenommen werden müssen. Es wird auch die CD-Tabelle in den Abonnementsatz aufnehmen.
  • Ein Abonnement enthält Zuordnungsdetails, die angeben, wie Daten in einem Quelldatenspeicher auf einen Zieldatenspeicher angewendet werden. Beachten Sie, dass CDC jetzt als bezeichnet wird Infosphere-Datenreplikation.
  • Wenn ein Abonnement ausgeführt wird, erfasst InfoSphere CDC Änderungen in der Quelldatenbank. InfoSphere CDC übermittelt die Änderungsdaten an das Ziel und speichert Synchronisierungspunktinformationen in einer Lesezeichentabelle in der Zieldatenbank.
  • InfoSphere CDC verwendet die Lesezeicheninformationen, um den Fortschritt des InfoSphere DataStage-Jobs zu überwachen.
  • Im Fehlerfall werden die Lesezeicheninformationen als Neustartpunkt verwendet. In unserem Beispiel die ASN.IBMIn der Tabelle SNAP_FEEDETL werden mit DataStage verbundene Synchronisationspunktinformationen gespeichert, die zum Verfolgen des DataStage-Fortschritts verwendet werden.

In diesem Abschnitt von IBM DataStage-Trainings-Tutorial, Sie müssen folgende Dinge tun,

  • Erstellen Sie CAPTURE CONTROL-Tabellen und APPLY CONTROL-Tabellen, um Replikationsoptionen zu speichern
  • Registrieren Sie die Tabellen PRODUCT und INVENTORY als Replikationsquellen
  • Erstellen Sie ein Abonnementset mit zwei Mitgliedern
  • Erstellen Sie Subskriptionssatzmitglieder und Ziel-CCD-Tabellen

Verwenden Sie das Befehlszeilenprogramm ASNCLP, um die SQL-Replikation einzurichten

Schritt 1) Suchen Sie die Skriptdatei crtCtlTablesCaptureServer.asnclp im Verzeichnis sqlrepl-datastage-tutorial/setupSQLRep.

Schritt 2) In der Datei ersetzen Und " ” mit Ihrer Benutzer-ID und Ihrem Passwort für die Verbindung zur SALES-Datenbank.

Schritt 3) Wechseln Sie in das Verzeichnis sqlrepl-datastage-tutorial/setupSQLRep und führen Sie das Skript aus. Verwenden Sie den folgenden Befehl. Der Befehl stellt eine Verbindung zur SALES-Datenbank her und generiert ein SQL-Skript zum Erstellen der Capture-Steuertabellen.

asnclp –f crtCtlTablesCaptureServer.asnclp

Schritt 4) Suchen Sie die Skriptdatei crtCtlTablesApplyCtlServer.asnclp im selben Verzeichnis. Ersetzen Sie nun zwei Instanzen von Und " ” mit der Benutzer-ID und dem Passwort für die Verbindung zur STAGEDB-Datenbank.

Schritt 5) Verwenden Sie nun in derselben Eingabeaufforderung den folgenden Befehl, um Anwendungssteuertabellen zu erstellen.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Schritt 6) Suchen Sie die Skriptdateien crtRegistration.asnclp und ersetzen Sie alle Instanzen von mit der Benutzerkennung für die Verbindung zur SALES-Datenbank. Ändern Sie außerdem „ ” zum Verbindungspasswort.

Schritt 7) Um die Quelltabellen zu registrieren, verwenden Sie das folgende Skript. Im Rahmen der Registrierung erstellt das ASNCLP-Programm zwei CD-Tabellen: CDPRODUCT UND CDINVENTORY.

asnclp –f crtRegistration.asnclp

Der Befehl CREATE REGISTRATION verwendet die folgenden Optionen:

  • Differenzielle Aktualisierung: Das Apply-Programm wird nur dann aufgefordert, die Zieltabelle zu aktualisieren, wenn sich Zeilen in der Quelltabelle ändern
  • Bild beides: Diese Option wird verwendet, um den Wert in der Quellspalte vor der Änderung und einen Wert für den Wert nach der Änderung zu registrieren.

Schritt 8) Führen Sie die folgenden Schritte aus, um eine Verbindung mit der Zieldatenbank (STAGEDB) herzustellen.

  • Suchen Sie die Datei crtTableSpaceApply.bat und öffnen Sie sie in einem Texteditor
  • Ersetzen Und mit Benutzerkennung und Passwort
  • Geben Sie im DB2-Befehlsfenster crtTableSpaceApply.bat ein und führen Sie die Datei aus.
  • Diese Batchdatei erstellt einen neuen Tablespace in der Zieldatenbank (STAGEDB).

Schritt 9) Suchen Sie die Skriptdateien crtSubscriptionSetAndAddMembers.asnclp und nehmen Sie die folgenden Änderungen vor.

  • Ersetzen Sie alle Instanzen von Und mit der Benutzer-ID und dem Passwort für die Verbindung zur SALES-Datenbank (Quelle).
  • Ersetzen Sie alle Instanzen von Und mit der Benutzer-ID für die Verbindung zur STAGEDB-Datenbank (Ziel).

Führen Sie nach den Änderungen das Skript aus, um einen Abonnementsatz (ST00) zu erstellen, der die Quell- und Zieltabellen gruppiert. Das Skript erstellt außerdem zwei Abonnementsatzmitglieder und CCD (konsistente Änderungsdaten) in der Zieldatenbank, in der die geänderten Daten gespeichert werden. Diese Daten werden von Infosphere DataStage genutzt.

Schritt 10) Führen Sie das Skript aus, um den Abonnementsatz, die Abonnementsatzmitglieder und die CCD-Tabellen zu erstellen.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Zu den verschiedenen Optionen zum Erstellen eines Abonnementsatzes und zweier Mitglieder gehören:

  • Vollständig kondensiert aus
  • Extern
  • Ladetyp Import Export
  • Timing kontinuierlich

Schritt 11) Aufgrund des Defekts in den Replikationsverwaltungstools. Sie müssen eine weitere Batchdatei ausführen, um die Spalte TARGET_CAPTURE_SCHEMA in festzulegen IBMSNAP_SUBS_SET-Steuertabelle auf Null setzen.

  • Suchen Sie die Datei updateTgtCapSchema.bat. Öffnen Sie es in einem Texteditor. Ersetzen Und mit der Benutzer-ID für die Verbindung zur STAGEDB-Datenbank.
  • Geben Sie im DB2-Befehlsfenster den Befehl updateTgtCapSchema.bat ein und führen Sie die Datei aus.

Erstellen der Definitionsdateien zum Zuordnen von CCD-Tabellen zu DataStage

Bevor wir im nächsten Schritt die Replikation durchführen, müssen wir die CCD-Tabelle mit DataStage verbinden. In diesem Abschnitt erfahren Sie, wie Sie SQL mit DataStage verbinden.

Um die CCD-Tabelle mit DataStage zu verbinden, müssen Sie Datastage-Definitionsdateien (.dxs) erstellen. Das .dsx-Dateiformat wird von DataStage zum Importieren und Exportieren von Jobdefinitionen verwendet. Sie verwenden das ASNCLP-Skript, um zwei .dsx-Dateien zu erstellen. Hier haben wir beispielsweise zwei .dsx-Dateien erstellt.

  • stagedb_AQ00_SET00_sJobs.dsx: Erstellt eine Jobsequenz, die den Arbeitsablauf der vier parallelen Jobs steuert.
  • stagedb_AQ00_SET00_pJobs.dsx : Erstellt die vier parallelen Jobs

Das ASNCLP-Programm ordnet die CCD-Spalte automatisch dem Datastage-Spaltenformat zu. Es wird nur unterstützt, wenn ASNCLP ausgeführt wird Windows, Linux- oder Unix-Prozedur.

Definitionsdateien zum Zuordnen von CCD-Tabellen zu DataStage

Datastage-Jobs rufen Zeilen aus der CCD-Tabelle ab.

  1. Ein Job setzt einen Synchronisationspunkt, an dem DataStage mit dem Extrahieren der Daten aus den beiden Tabellen aufgehört hat. Der Job erhält diese Informationen, indem er den SYNCHPOINT-Wert für den Subskriptionssatz ST00 aus dem IBMTabelle SNAP_SUBS_SET und fügt sie in die Spalte MAX_SYNCHPOINT des IBMSNAP_FEEDETL-Tabelle.
  2. Zwei Jobs, die Daten aus den Tabellen PRODUCT_CCD und INVENTORY_CCD extrahieren. Die Jobs wissen, welche Zeilen zu extrahieren sind, indem sie die Werte MIN_SYNCHPOINT und MAX_SYNCHPOINT aus den IBMSNAP_FEEDETL-Tabelle für den Abonnementsatz.

Replikation starten

Um die Replikation zu starten, führen Sie die folgenden Schritte aus. Wenn CCD-Tabellen mit Daten gefüllt werden, bedeutet dies, dass die Replikationseinrichtung validiert wurde. Um die replizierten Daten in den Ziel-CCD-Tabellen anzuzeigen, verwenden Sie die grafische Benutzeroberfläche von DB2 Control Center.

Schritt 1) Stellen Sie sicher, dass DB2 ausgeführt wird. Wenn nicht, verwenden Sie es db2 starten Befehl.

Schritt 2) Verwenden Sie dann den Befehl asncap in einer Eingabeaufforderung des Betriebssystems, um das Erfassungsprogramm zu starten. Beispiel:

asncap capture_server=SALES

Der obige Befehl gibt die SALES-Datenbank als Capture-Server an. Lassen Sie das Befehlsfenster geöffnet, während die Aufnahme ausgeführt wird.

Schritt 3) Öffnen Sie nun eine neue Eingabeaufforderung. Dann starten Sie die APPLY Programm mithilfe des Befehls asnaply.

asnapply control_server=STAGEDB apply_qual=AQ00

Replikation starten

  • Der Befehl gibt die STAGEDB-Datenbank als Apply-Steuerungsserver an (die Datenbank, die die Apply-Steuerungstabellen enthält).
  • AQ00 als Apply-Qualifizierer (die Kennung für diesen Satz von Steuertabellen)

Lassen Sie das Befehlsfenster geöffnet, während Apply ausgeführt wird.

Schritt 4) Öffnen Sie nun eine weitere Eingabeaufforderung und geben Sie den Befehl db2cc ein, um das DB2-Kontrollzentrum zu starten. Akzeptieren Sie das Standard-Kontrollzentrum.

Schritt 5) Öffnen Sie nun im linken Navigationsbaum Alle Datenbanken > STAGEDB und klicken Sie dann auf Tabellen. Double Klicken Sie auf den Tabellennamen (Produkt-CCD), um die Tabelle zu öffnen. Es wird ungefähr so ​​aussehen.

Replikation starten

Ebenso können Sie die CCD-Tabelle für das LAGER öffnen.

Replikation starten

So erstellen Sie Projekte im Datastage Tool

Zunächst erstellen Sie ein Projekt in DataStage. Dazu müssen Sie ein InfoSphere DataStage-Administrator sein.

Sobald die Installation und Replikation abgeschlossen sind, müssen Sie ein Projekt erstellen. In DataStage sind Projekte eine Methode zum Organisieren Ihrer Daten. Dazu gehört das Definieren von Datendateien, Phasen und Build-Jobs in einem bestimmten Projekt.

Um ein Projekt in DataStage zu erstellen, führen Sie die folgenden Schritte aus:

Schritt 1) ​​Starten Sie die DataStage-Software

Starten Sie den DataStage- und QualityStage-Administrator. Klicken Sie dann auf Start > Alle Programme > IBM Informationsserver > IBM WebSphere DataStage- und QualityStage-Administrator.

Schritt 2) Verbinden Sie DataStage-Server und -Client

Um von Ihrem DataStage-Client aus eine Verbindung zum DataStage-Server herzustellen, geben Sie Details wie Domänennamen, Benutzer-ID, Kennwort und Serverinformationen ein.

Schritt 3) Fügen Sie ein neues Projekt hinzu

Im WebSphere DataStage-Verwaltungsfenster. Klicken Sie auf die Registerkarte Projekte und dann auf Hinzufügen.

Schritt 4) Geben Sie die Projektdetails ein

Geben Sie im Fenster „WebSphere DataStage Administration“ Details ein wie

  1. Name
  2. Speicherort der Datei
  3. OK klicken'

Erstellen Sie Projekte im Datastage Tool

Jedes Projekt enthält:

  • DataStage-Jobs
  • Eingebaute Komponenten. Dabei handelt es sich um vordefinierte Komponenten, die in einem Job verwendet werden.
  • Benutzerdefinierte Komponenten. Hierbei handelt es sich um benutzerdefinierte Komponenten, die mit dem DataStage Manager oder DataStage Designer erstellt wurden.

Wir werden sehen, wie man Replikationsjobs in Datastage Infosphere importiert.

So importieren Sie Replikationsjobs in Datastage und QualityStage Designer

Sie importieren Jobs in die IBM InfoSphere DataStage- und QualityStage Designer-Client. Und du führst sie in der aus IBM InfoSphere DataStage- und QualityStage Director-Client.

Der Designer-Client ist wie eine leere Leinwand zum Erstellen von Jobs. Er extrahiert, transformiert, lädt und überprüft die Qualität von Daten. Er bietet Tools, die die grundlegenden Bausteine ​​eines Jobs bilden. Er umfasst

  • Praktika: Es stellt eine Verbindung zu Datenquellen her, um Dateien zu lesen oder zu schreiben und Daten zu verarbeiten.
  • Links: Es verbindet die Phasen, entlang derer Ihre Daten fließen

Die Phasen im InfoSphere DataStage- und QualityStage Designer-Client werden in der Designer-Toolpalette gespeichert.

InfoSphere QualityStage umfasst die folgenden Phasen:

  • Untersuchungsphase
  • Bühne standardisieren
  • Übereinstimmungsfrequenzstufe
  • Match-Phase aus einer Hand
  • Zwei-Quellen-Match-Phase
  • Überlebensphase
  • Stufe der Standardisierungs-Qualitätsbewertung (SQA).

Sie können in der DataStage-Infosphäre vier Arten von Jobs erstellen.

  • Paralleljob
  • Sequenzauftrag
  • Mainframe-Job
  • Serverjob

Sehen wir uns Schritt für Schritt an, wie Sie Replikationsauftragsdateien importieren.

Schritt 1) Starten Sie den DataStage- und QualityStage-Designer. Klicken Sie auf Start > Alle Programme > IBM Informationsserver > IBM WebSphere DataStage und QualityStage Designer

Schritt 2) Geben Sie im Fenster „An Projekt anhängen“ die folgenden Details ein.

  • Domain
  • Benutzername
  • Passwort
  • Projektname
  • OK

Importieren Sie Replikationsjobs in Datastage und QualityStage

Schritt 3) Klicken Sie nun im Menü „Datei“ auf „Importieren“. -> DataStage-Komponenten.

Ein neues DataStage-Repository-Importfenster wird geöffnet.

  1. In diesem Fenster durchsuchen STAGEDB_AQ00_ST00_sJobs.dsx Datei, die wir zuvor erstellt hatten
  2. Wählen Sie die Option „Alle importieren“.
  3. Aktivieren Sie das Kontrollkästchen „Auswirkungsanalyse durchführen“.
  4. OK klicken.'

Importieren Sie Replikationsjobs in Datastage und QualityStage

Sobald der Job importiert ist, erstellt DataStage den Job STAGEDB_AQ00_ST00_sequence.

Schritt 4) Befolgen Sie die gleichen Schritte, um die zu importieren STAGEDB_AQ00_ST00_pJobs.dsx-Datei. Durch diesen Import werden die vier parallelen Jobs erstellt.

Schritt 5) Im Bereich „Designer-Repository“. -> Öffnen Sie den SQLREP-Ordner. Im Ordner sehen Sie einen Sequenzjob und vier parallele Jobs.

Importieren Sie Replikationsjobs in Datastage und QualityStage

Schritt 6) Um den Sequenzjob zu sehen. Gehen Sie zur Repository-Struktur, klicken Sie mit der rechten Maustaste auf den Job STAGEDB_AQ00_ST00_sequence und klicken Sie auf Bearbeiten. Es zeigt den Arbeitsablauf der vier parallelen Jobs, die die Jobsequenz steuert.

Importieren Sie Replikationsjobs in Datastage und QualityStage

Jedes Symbol ist eine Bühne,

  • getExtractRange-Stufe: Es aktualisiert die IBMSNAP_FEEDETL-Tabelle. Der Startpunkt für die Datenextraktion wird auf den Punkt gesetzt, an dem DataStage zuletzt Zeilen extrahiert hat, und der Endpunkt auf die letzte Transaktion, die für den Abonnementsatz verarbeitet wurde.
  • getExtractRangeSuccess: Diese Stufe speist die Startpunkte in die Stufen „extractFromINVENTORY_CCD“ und „extractFromPRODUCT_CCD“ ein
  • AllExtractsSuccess: Diese Phase stellt sicher, dass sowohl extractFromINVENTORY_CCD als auch extractFromPRODUCT_CCD erfolgreich abgeschlossen wurden. Anschließend werden Synchronisierungspunkte für die letzten abgerufenen Zeilen an die Phase setRangeProcessed übergeben.
  • setRangeProcessed-Stufe: Es wird aktualisiert IBMSNAP_FEEDETL-Tabelle. So weiß DataStage, wo mit der nächsten Runde der Datenextraktion begonnen werden muss

Schritt 7) Um die parallelen Jobs anzuzeigen. Klicken Sie mit der rechten Maustaste auf STAGEDB_ASN_INVENTORY_CCD und wählen Sie „Unter Repository bearbeiten“ aus. Es öffnet sich das Fenster wie unten gezeigt.

Importieren Sie Replikationsjobs in Datastage und QualityStage

Hier im Bild oben können Sie sehen, dass die Daten aus der Inventar-CCD-Tabelle und Synch-Punktdetails aus der FEEDETL-Tabelle werden in der Phase Lookup_6 gerendert.

Erstellen einer Datenverbindung von DataStage zur STAGEDB-Datenbank

Der nächste Schritt besteht nun darin, eine Datenverbindung zwischen InfoSphere DataStage und der SQL Replication-Zieldatenbank aufzubauen. Es enthält die CCD-Tabellen.

In DataStage verwenden Sie Datenverbindungsobjekte mit zugehörigen Connector-Stufen, um in einem Jobdesign schnell eine Verbindung zu einer Datenquelle zu definieren.

Schritt 1) STAGEDB enthält sowohl die Apply-Steuertabellen, die DataStage zur Synchronisierung der Datenextraktion verwendet, als auch die CCD-Tabellen, aus denen die Daten extrahiert werden. Verwenden Sie die folgenden Befehle

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Note: IP-Adresse des Systems, auf dem STAGEDB erstellt wurde

Schritt 2) Klicken Sie auf Datei > Neu > Andere > Datenverbindung.

Schritt 3) Sie erhalten ein Fenster mit zwei Registerkarten: Parameter und Allgemein.

Datenverbindung von DataStage zur STAGEDB-Datenbank

Schritt 4) In diesem Schritt

  1. Im Allgemeinen benennen Sie die Datenverbindung auf der Registerkarte sqlreplConnect
  2. Auf der Registerkarte „Parameter“, wie unten gezeigt
  • Klicken Sie auf die Schaltfläche „Durchsuchen“ neben dem Feld „Mit Phasentyp verbinden“ und im
  • Navigieren Sie im geöffneten Fenster in der Repository-Struktur zu „Stufentypen“ –> „Parallel“ – > „Datenbank“ –-> „DB2 Connector“.
  • Klicken Sie auf Öffnen.

Datenverbindung von DataStage zur STAGEDB-Datenbank

Schritt 5) Geben Sie in der Tabelle „Verbindungsparameter“ Details ein wie

  • Verbindungsstring: STAGEDB2
  • Benutzername: Benutzer-ID für die Verbindung zur STAGEDB-Datenbank
  • Passwort: Passwort für die Verbindung zur STAGEDB-Datenbank
  • Beispiel: Name der DB2-Instanz, die die STAGEDB-Datenbank enthält

Schritt 6) Im nächsten Fenster Datenverbindung speichern. Klicken Sie auf die Schaltfläche „Speichern“.

Importieren von Tabellendefinitionen aus STAGEDB in DataStage

Im vorherigen Schritt haben wir gesehen, dass InfoSphere DataStage und die STAGEDB-Datenbank verbunden sind. Importieren Sie nun die Spaltendefinition und andere Metadaten für die Tabellen PRODUCT_CCD und INVENTORY_CCD in das Information Server-Repository.

Führen Sie im Designerfenster die folgenden Schritte aus.

Schritt 1) Wählen Sie Importieren > Tabellendefinitionen > Connector-Importassistenten starten

Schritt 2) Wählen Sie auf der Connector-Auswahlseite des Assistenten den DB2-Connector aus und klicken Sie auf Weiter.

Importieren von Tabellendefinitionen aus STAGEDB in DataStage

Schritt 3) Klicken Sie auf der Verbindungsdetailseite auf „Laden“. Dadurch werden die Felder des Assistenten mit Verbindungsinformationen aus der Datenverbindung gefüllt, die Sie im vorherigen Kapitel erstellt haben.

Importieren von Tabellendefinitionen aus STAGEDB in DataStage

Schritt 4) Klicken Sie auf derselben Seite auf Verbindung testen. Dadurch wird DataStage aufgefordert, eine Verbindung zur STAGEDB-Datenbank herzustellen. Sie sehen die Meldung „Verbindung erfolgreich hergestellt“. Weiter klicken.

Importieren von Tabellendefinitionen aus STAGEDB in DataStage

Schritt 5) Stellen Sie sicher, dass auf der Seite „Speicherort der Datenquelle“ die Felder „Hostname“ und „Datenbankname“ korrekt ausgefüllt sind. Klicken Sie dann auf Weiter.

Schritt 6) Auf der Schema-Seite. Geben Sie das Schema der Apply-Steuertabellen (ASN) ein oder überprüfen Sie, ob das ASN-Schema im Schemafeld vorab ausgefüllt ist. Klicken Sie dann auf Weiter. Auf der Auswahlseite wird die Liste der Tabellen angezeigt, die im ASN-Schema definiert sind.

Importieren von Tabellendefinitionen aus STAGEDB in DataStage

Schritt 7) Die erste Tabelle, aus der wir Metadaten importieren müssen, ist IBMSNAP_FEEDETL, eine Apply-Steuertabelle. Sie enthält die Details zu den Synchronisierungspunkten, die es DataStage ermöglichen, zu verfolgen, welche Zeilen es aus den CCD-Tabellen abgerufen hat. Wählen Sie IBMSNAP_FEEDETL und klicken Sie auf Weiter.

Schritt 8) Um den Import abzuschließen IBMSNAP_FEEDETL-Tabellendefinition. Klicken Sie auf „Importieren“ und dann im geöffneten Fenster auf „Öffnen“.

Schritt 9) Wiederholen Sie die Schritte 1–8 noch zweimal, um die Definitionen für die Tabelle PRODUCT_CCD und dann für die Tabelle INVENTORY_CCD zu importieren.

HINWEIS: Stellen Sie beim Importieren von Definitionen für das Inventar und das Produkt sicher, dass Sie die Schemata von ASN in das Schema ändern, unter dem PRODUCT_CCD und INVENTORY_CCD erstellt wurden.

DataStage verfügt nun über alle Details, die für die Verbindung mit der SQL Replication-Zieldatenbank erforderlich sind.

Festlegen von Eigenschaften für die DataStage-Jobs

Für jeden der vier DataStage-Paralleljobs, die wir haben, enthält er eine oder mehrere Stufen, die mit der STAGEDB-Datenbank verbunden sind. Sie müssen die Stufen ändern, um Verbindungsinformationen und Verknüpfungen zu Datensatzdateien hinzuzufügen, die von DataStage gefüllt werden.

Phasen verfügen über vordefinierte Eigenschaften, die bearbeitet werden können. Hier werden wir einige dieser Eigenschaften für den Paralleljob STAGEDB_ASN_PRODUCT_CCD_extract ändern.

Schritt 1) Durchsuchen Sie die Designer-Repository-Struktur. Wählen Sie im Ordner „SQLREP“ den parallelen Job STAGEDB_ASN_PRODUCT_CCD_extract aus. Klicken Sie zum Bearbeiten mit der rechten Maustaste auf den Job. Das Designfenster des Paralleljobs wird in der Designer-Palette geöffnet.

Schritt 2) Suchen Sie das grüne Symbol. Dieses Symbol kennzeichnet die DB2-Connector-Stufe. Es wird zum Extrahieren von Daten aus der CCD-Tabelle verwendet. Double-Klicken Sie auf das Symbol. Ein Bühneneditorfenster wird geöffnet.

Festlegen von Eigenschaften für die DataStage-Jobs

Festlegen von Eigenschaften für die DataStage-Jobs

Schritt 3) Klicken Sie im Editor auf „Laden“, um die Felder mit Verbindungsinformationen zu füllen. Um den Bühneneditor zu schließen und Ihre Änderungen zu speichern, klicken Sie auf „OK“.

Schritt 4) Kehren Sie nun zum Entwurfsfenster für den Paralleljob STAGEDB_ASN_PRODUCT_CCD_extract zurück. Suchen Sie das Symbol für den AbrufSynchPoints DB2-Connector-Phase. Doppelklicken Sie dann auf das Symbol.

Schritt 5) Klicken Sie nun auf die Schaltfläche „Laden“, um die Felder mit Verbindungsinformationen zu füllen.

HINWEIS: Wenn Sie eine andere Datenbank als STAGEDB als Apply-Steuerungsserver verwenden. Wählen Sie dann die Option zum Laden der Verbindungsinformationen für den GetSynchPoints-Stufe, die mit den Steuertabellen und nicht mit der CCD-Tabelle interagiert.

Schritt 6) In diesem Schritt

  • Erstellen Sie eine leere Textdatei auf dem System, auf dem InfoSphere DataStage ausgeführt wird.
  • Benennen Sie diese Datei als „productdataset.ds“ und notieren Sie sich, wo Sie sie gespeichert haben.
  • DataStage schreibt Änderungen in diese Datei, nachdem es Änderungen aus der CCD-Tabelle abgerufen hat.
  • Datensätze oder Dateien, die zum Verschieben von Daten zwischen verknüpften Jobs verwendet werden, werden als persistente Datensätze bezeichnet. Es wird durch eine DataSet-Stufe dargestellt.

Schritt 7) Öffnen Sie nun den Stage-Editor im Design-Fenster und doppelklicken Sie auf das Symbol insert_into_a_dataset. Es öffnet sich ein weiteres Fenster.

Festlegen von Eigenschaften für die DataStage-Jobs

Schritt 8) In diesem Fenster,

Festlegen von Eigenschaften für die DataStage-Jobs

  • Stellen Sie unter der Registerkarte „Eigenschaften“ sicher, dass Target Der Ordner ist geöffnet und die Eigenschaft Datei = DATASETNAME ist hervorgehoben.
  • Auf der rechten Seite befindet sich ein Dateifeld
  • Geben Sie den vollständigen Pfad zur Datei „productdataset.ds“ ein
  • OK klicken'.

Sie haben nun alle erforderlichen Eigenschaften für die Produkt-CCD-Tabelle aktualisiert. Schließen Sie das Designfenster und speichern Sie alle Änderungen.

Schritt 9) Suchen und öffnen Sie nun den parallelen Job STAGEDB_ASN_INVENTORY_CCD_extract im Repository-Bereich des Designers und wiederholen Sie die Schritte 3–8.

HINWEIS:

  • Sie müssen die Verbindungsinformationen für die Steuerungsserver-Datenbank für den Get in den Stage-Editor ladenSynchPoints-Bühne. Wenn Ihr Steuerungsserver nicht STAGEDB ist.
  • Öffnen Sie für die parallelen Jobs STAGEDB_ST00_AQ00_getExtractRange und STAGEDB_ST00_AQ00_markRangeProcessed alle DB2-Connector-Stufen. Verwenden Sie dann die Ladefunktion, um Verbindungsinformationen für die STAGEDB-Datenbank hinzuzufügen

Kompilieren und Ausführen der DataStage-Jobs

Wenn der DataStage-Job zur Kompilierung bereit ist, validiert der Designer den Entwurf des Jobs, indem er Eingaben, Transformationen, Ausdrücke und andere Details prüft.

Wenn die Jobkompilierung erfolgreich abgeschlossen wurde, kann sie ausgeführt werden. Wir werden alle fünf Jobs kompilieren, aber nur die „Jobsequenz“ ausführen. Dies liegt daran, dass dieser Job alle vier parallelen Jobs steuert.

Schritt 1) Im SQLREP-Ordner. Wählen Sie jeden der fünf Jobs mit (Strg+Shift). Klicken Sie dann mit der rechten Maustaste und wählen Sie die Option „Mehrere Jobs kompilieren“.

Kompilieren und Ausführen der DataStage-Jobs

Schritt 2) Sie werden sehen, dass im DataStage-Kompilierungsassistenten fünf Jobs ausgewählt sind. Weiter klicken.

Kompilieren und Ausführen der DataStage-Jobs

Schritt 3) Die Kompilierung beginnt und sobald die Kompilierung abgeschlossen ist, wird die Meldung „Erfolgreich kompiliert“ angezeigt.

Kompilieren und Ausführen der DataStage-Jobs

Schritt 4) Starten Sie nun den DataStage und QualityStage Director. Wählen Sie Start > Alle Programme > IBM Informationsserver > IBM WebSphere DataStage und QualityStage Director.

Schritt 5) Im Projektnavigationsbereich auf der linken Seite. Klicken Sie auf den Ordner SQLREP. Dadurch werden alle fünf Jobs in die Director-Statustabelle aufgenommen.

Schritt 6) Wählen Sie den Job STAGEDB_AQ00_S00_sequence aus. Klicken Sie in der Menüleiste auf Job > Jetzt ausführen.

Kompilieren und Ausführen der DataStage-Jobs

Sobald die Kompilierung abgeschlossen ist, wird der Status „Fertig“ angezeigt.

Kompilieren und Ausführen der DataStage-Jobs

Überprüfen Sie nun, ob geänderte Zeilen, die in den Tabellen PRODUCT_CCD und INVENTORY_CCD gespeichert sind, von DataStage extrahiert und in die beiden Datensatzdateien eingefügt wurden.

Schritt 7) Gehen Sie zurück zum Designer und öffnen Sie den Job STAGEDB_ASN_PRODUCT_CCD_extract. Zum Öffnen des Bühneneditors Double-Klicken Sie auf das Symbol „insert_into_a_dataset“. Klicken Sie dann auf Daten anzeigen.

Schritt 8) Akzeptieren Sie die Standardeinstellungen im Fenster „Anzuzeigende Zeilen“. Klicken Sie dann auf „OK“. Ein Datenbrowserfenster wird geöffnet, um den Inhalt der Datensatzdatei anzuzeigen.

Kompilieren und Ausführen der DataStage-Jobs

Testen der Integration zwischen SQL Replication und DataStage

Im vorherigen Schritt haben wir den Job kompiliert und ausgeführt. In diesem Abschnitt prüfen wir die Integration von SQL-Replikation und DataStage. Dazu nehmen wir Änderungen an der Quelltabelle vor und prüfen, ob dieselbe Änderung in DataStage aktualisiert wird.

Schritt 1) Navigieren Sie zum Ordner sqlrepl-datastage-scripts für Ihr Betriebssystem.

Schritt 2) Starten Sie die SQL Replication mit den folgenden Schritten:

  • Führen Sie startSQLCapture.bat aus (Windows)-Datei, um das Capture-Programm in der SALES-Datenbank zu starten.
  • Führen Sie startSQLApply.bat aus (Windows)-Datei, um das Apply-Programm in der STAGEDB-Datenbank zu starten.

Schritt 3) Öffnen Sie nun die Datei updateSourceTables.sql. Für die Verbindung zur SALES-Datenbank ersetzen Und mit Benutzerkennung und Passwort.

Schritt 4) Öffnen Sie ein DB2-Befehlsfenster. Wechseln Sie in das Verzeichnis „sqlrepl-datastage-tutorial\scripts“ und führen Sie „issues“ mit dem angegebenen Befehl aus:

db2 -tvf updateSourceTables.sql

Das SQL-Skript führt verschiedene Vorgänge wie Aktualisieren, Einfügen und Löschen in beiden Tabellen (PRODUKT, LAGERBESTAND) in der Verkaufsdatenbank aus.

Schritt 5) Auf dem System, auf dem DataStage ausgeführt wird. Öffnen Sie den DataStage Director und führen Sie den Job STAGEDB_AQ00_S00_sequence aus. Klicken Sie auf Job > Jetzt ausführen.

Integration zwischen SQL Replication und DataStage

Wenn Sie den Job ausführen, werden die folgenden Aktivitäten durchgeführt.

  • Das Capture-Programm liest die sechszeiligen Änderungen im SALES-Datenbankprotokoll und fügt sie in die CD-Tabellen ein.
  • Das Apply-Programm ruft die Änderungszeilen aus den CD-Tabellen bei SALES ab und fügt sie in die CCD-Tabellen bei STAGEDB ein.
  • Die beiden DataStage-Extraktionsjobs übernehmen die Änderungen aus den CCD-Tabellen und schreiben sie in die Dateien „productdataset.ds“ und „inventory dataset.ds“.

Sie können überprüfen, ob die oben genannten Schritte durchgeführt wurden, indem Sie sich die Datensätze ansehen.

Schritt 6) Befolgen Sie die folgenden Schritte,

  • Starten Sie den Designer. Öffnen Sie den Job STAGEDB_ASN_PRODUCT_CCD_extract.
  • Dann Double-Klicken Sie auf das Symbol „insert_into_a_dataset“. Im Bühneneditor. Klicken Sie auf Daten anzeigen.
  • Akzeptieren Sie die Standardeinstellungen im Fenster „Anzuzeigende Zeilen“ und klicken Sie auf „OK“.

Der Datensatz enthält drei neue Zeilen. Am einfachsten können Sie überprüfen, ob die Änderungen umgesetzt wurden, indem Sie ganz rechts im Datenbrowser nach unten scrollen. Schauen Sie sich nun die letzten drei Zeilen an (siehe Bild unten).

Integration zwischen SQL Replication und DataStage

Die Buchstaben I, U und D geben die INSERT-, UPDATE- und DELETE-Operationen an, die jeweils eine neue Zeile ergeben.

Sie können die gleiche Prüfung auch für die Inventartabelle durchführen.

Zusammenfassung

  • Datastage ist ein ETL-Tool die Daten extrahiert, transformiert und Daten von der Quelle in das Ziel lädt.
  • Es erleichtert Wirtschaftsanalyse durch die Bereitstellung hochwertiger Daten zur Gewinnung von Business Intelligence.
  • DataStage ist in zwei Abschnitte unterteilt: Gemeinsame Komponenten und Laufzeit Architektur.
  • DataStage besteht aus vier Hauptkomponenten:
  • Administrator
  • Geschäftsführer
  • Designerin
  • Direktor
  • Im Folgenden sind die wichtigsten Aspekte von IBM InfoSphere DataStage
  • Datentransformation
  • Jobs
  • Parallelverarbeitung
  • Bei der Jobgestaltung sind verschiedene Phasen beteiligt
  • Transformationsphase
  • Filterstufe
  • Aggregator-Stufe
  • Phase „Duplikate entfernen“.
  • Treten Sie der Bühne bei
  • Suchphase