DataStage-zelfstudie voor beginners: IBM DataStage-training (ETL-tool).

Wat is DataStage?

DataStage is een ETL-tool die wordt gebruikt om gegevens van de bron naar de doelbestemming te extraheren, transformeren en laden. De bron van deze gegevens kan sequentiële bestanden, geïndexeerde bestanden, relationele databases, externe gegevensbronnen, archieven, bedrijfsapplicaties, enz. omvatten. DataStage wordt gebruikt om bedrijfsanalyses te vergemakkelijken door kwaliteitsgegevens te leveren om te helpen bij het verkrijgen van business intelligence.

DataStage ETL-tool wordt in een grote organisatie gebruikt als interface tussen verschillende systemen. Het zorgt voor de extractie, vertaling en het laden van gegevens van de bron naar de doelbestemming. Het werd voor het eerst gelanceerd door VMark halverwege de jaren 90. Met IBM Na de overname van DataStage in 2005 werd het omgedoopt tot IBM WebSphere DataStage en later naar IBM InfoSphere.

De verschillende versies van Datastage die tot nu toe op de markt beschikbaar waren, waren Enterprise Edition (PX), Server Edition, MVS Edition, DataStage voor PeopleSoft enzovoort. De nieuwste editie is IBM InfoSphere DataStage

IBM De informatie server bevat de volgende producten,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Directeur InfoSphere-informatiediensten
  • IBM InfoSphere-informatieanalysator
  • IBM Informatieserver FastTrack
  • IBM InfoSphere zakelijke woordenlijst

DataStage-overzicht

Datastage heeft de volgende mogelijkheden.

  • Het kan gegevens uit het breedste scala aan bedrijfs- en externe gegevensbronnen integreren
  • Implementeert gegevensvalidatieregels
  • Het is nuttig bij het verwerken en transformeren van grote hoeveelheden gegevens
  • Het maakt gebruik van een schaalbare parallelle verwerkingsaanpak
  • Het kan complexe transformaties aan en meerdere integratieprocessen beheren
  • Maak gebruik van directe connectiviteit met bedrijfsapplicaties als bron of doel
  • Maak gebruik van metadata voor analyse en onderhoud
  • Operabestanden in batch, realtime of als webservice

In de volgende secties van deze DataStage-zelfstudie beschrijven we kort de volgende aspecten van IBM InfoSphere DataStage:

  • Datatransformatie
  • Jobs
  • Parallelle verwerking

InfoSphere DataStage en QualityStage hebben toegang tot gegevens in bedrijfsapplicaties en gegevensbronnen zoals:

Typen verwerkingsfasen

IBM infosphere job bestaat uit individuele fasen die met elkaar verbonden zijn. Het beschrijft de gegevensstroom van een gegevensbron naar een gegevensdoel. Normaal gesproken heeft een trap minimaal één data-invoer en/of één data-uitvoer. Sommige trappen kunnen echter meer dan één gegevensinvoer en -uitvoer naar meer dan één trap accepteren.

Bij Jobontwerp kun je verschillende fasen gebruiken:

  • Transformeer podium
  • Filter fase
  • Aggregatorfase
  • Verwijder de duplicatenfase
  • Sluit je aan bij het podium
  • Opzoekfase
  • Fase kopiëren
  • Sorteer fase
  • containers

DataStage-componenten en Architectuur

DataStage heeft vier hoofdcomponenten, namelijk:

  1. Beheerder: Het wordt gebruikt voor administratieve taken. Dit omvat het instellen van DataStage-gebruikers, het instellen van opschooncriteria en het maken en verplaatsen van projecten.
  2. Manager: Het is de hoofdinterface van de repository van ETL DataStage. Het wordt gebruikt voor de opslag en het beheer van herbruikbare metadata. Via DataStage Manager kan men de inhoud van de Repository bekijken en bewerken.
  3. Ontwerper: Een ontwerpinterface die wordt gebruikt om DataStage-applicaties OF -taken te maken. Het specificeert de gegevensbron, de vereiste transformatie en de bestemming van gegevens. Taken worden gecompileerd om een ​​uitvoerbaar bestand te maken dat wordt gepland door de directeur en wordt uitgevoerd door de server
  4. Regisseur: Het wordt gebruikt voor het valideren, plannen, uitvoeren en monitoren van DataStage-servertaken en parallelle taken.
Gegevensstadium Archistructuurdiagram
Gegevensstadium Archistructuurdiagram

In de bovenstaande afbeelding wordt uitgelegd hoe IBM Infosphere DataStage werkt samen met andere elementen van de IBM Informatieserverplatform. DataStage is verdeeld in twee secties, Gedeelde componenten en runtime Architectuur.

   
Activiteiten

Gedeelde

Uniforme gebruikersinterface

  • Er wordt een grafische ontwerpinterface gebruikt om InfoSphere DataStage-applicaties (ook wel banen genoemd) te maken.
  • Elke taak bepaalt de gegevensbronnen, de vereiste transformaties en de bestemming van de gegevens.
  • Jobs worden samengesteld om parallelle jobstromen en herbruikbare componenten te creëren. Ze worden gepland en geleid door de InfoSphere DataStage en QualityStage Director.
  • De Designer-client beheert metadata in de repository. Terwijl gecompileerde uitvoeringsdata wordt geïmplementeerd op de Information Server Engine-laag.

Gemeenschappelijke services

  • Metadatadiensten zoals impactanalyse en zoeken
  • Ontwerpservices die de ontwikkeling en het onderhoud van InfoSphere DataStage-taken ondersteunen
  • Uitvoeringsservices die alle InfoSphere DataStage-functies ondersteunen

Gemeenschappelijke parallelle verwerking

  • De engine voert uitvoerbare taken uit die gegevens extraheren, transformeren en laden in een grote verscheidenheid aan instellingen.
  • De motorselectieve benadering van parallelle verwerking en pijpleiding om een ​​groot werkvolume aan te kunnen.

Runtime Architectuur

OSH-script

  • Dit beschrijft het genereren van het OSH (orkestreren van Shell Script) en de uitvoeringsstroom ervan IBM en de stroom van IBM Infosphere DataStage met behulp van de Information Server-engine
  • Hiermee kunt u grafische point-and-click-technieken gebruiken om taakstromen te ontwikkelen voor het extraheren, opschonen, transformeren, integreren en laden van gegevens in doelbestanden.

Vereiste voor Datastage Tool

Voor DataStage hebt u de volgende configuratie nodig.

  • Infosfeer
  • DataStage Server 9.1.2 of hoger
  • Microsoft Visual Studio .NET 2010 Express-editie C++
  • Oracle client (volledige client, geen instant client) als u verbinding maakt met een Oracle databank
  • DB2-client bij verbinding met een DB2-database

In deze DataStage-tutorials voor beginners-serie leren we nu hoe u de InfoSphere-informatieserver kunt downloaden en installeren.

InfoSphere Information Server downloaden en installeren

Om toegang te krijgen tot DataStage downloadt en installeert u de nieuwste versie van IBM InfoSphere-server. De server ondersteunt AIX, Linux en Windows besturingssysteem. U kunt kiezen op basis van uw vereisten.

Om uw gegevens van een oudere versie van Infosphere naar een nieuwe versie te migreren, gebruikt u de tool voor het uitwisselen van activa.

Installatiebestanden

Om Infosphere Datastage te installeren en configureren, moet u de volgende bestanden in uw installatie hebben.

Voor Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Voor Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Processtroom van wijzigingsgegevens in een CDC-transactiefasetaak

Processtroom van wijzigingsgegevens in een CDC

  1. De 'InfoSphere CDC'-service voor de database bewaakt en legt de wijziging vanuit een brondatabase vast
  2. Volgens de replicatiedefinitie draagt ​​“InfoSphere CDC” de wijzigingsgegevens over naar “InfoSphere CDC voor InfoSphere DataStage.”
  3. De “InfoSphere CDC for InfoSphere DataStage”-server verzendt gegevens naar de “CDC Transaction stage” via een TCP/IP-sessie. De “InfoSphere CDC for InfoSphere DataStage”-server verzendt ook een COMMIT-bericht (samen met bladwijzerinformatie) om de transactiegrens in het vastgelegde logboek te markeren.
  4. Voor elk COMMIT-bericht dat wordt verzonden door de “InfoSphere CDC for InfoSphere DataStage”-server, creëert de “CDC Transaction stage” end-of-wave (EOW)-markeringen. Deze markeringen worden op alle uitvoerkoppelingen naar de doeldatabaseconnectorfase verzonden.
  5. Wanneer de “doeldatabaseconnectorfase” een einde-golfmarkering ontvangt op alle invoerkoppelingen, schrijft deze bladwijzerinformatie naar een bladwijzertabel en voert de transactie vervolgens door naar de doeldatabase.
  6. De “InfoSphere CDC for InfoSphere DataStage”-server vraagt ​​bladwijzerinformatie op uit een bladwijzertabel in de “doeldatabase”.
  7. De “InfoSphere CDC for InfoSphere DataStage”-server ontvangt de bladwijzerinformatie.

Deze informatie wordt gebruikt om,

  • Bepaal het startpunt in het transactielogboek waar wijzigingen worden gelezen wanneer de replicatie begint.
  • Om te bepalen of het bestaande transactielogboek kan worden opgeschoond

SQL-replicatie instellen

Voordat u met Datastage begint, moet u de database instellen. U gaat twee DB2-databases maken.

  • Eén die als replicatiebron dient en
  • Eén als doelwit.

U maakt ook twee tabellen (Product en Voorraad) en vult deze met voorbeeldgegevens. Vervolgens kunt u uw integratie tussen SQL Replicatie en Datastage.

In de toekomst gaat u SQL-replicatie instellen door te maken controletabellen, abonnementssets, registraties en abonnementssetledenIn het volgende gedeelte gaan we hier uitgebreider op in.

Hier nemen we een voorbeeld van detailhandelsartikelen als database en maken we twee tabellen Voorraad en Product. Deze tabellen laden gegevens van bron naar doel via deze sets. (controletabellen, abonnementssets, registraties en leden van abonnementssets.)

Stap 1) Maak een brondatabase aan, genaamd VERKOOP. Maak onder deze database twee tabellen artikel en Inventaris.

Stap 2) Voer de volgende opdracht uit om een ​​SALES-database te maken.

db2 create database SALES

Stap 3) Schakel archiefregistratie in voor de SALES-database. Maak ook een back-up van de database met behulp van de volgende opdrachten

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Stap 4) Ga via dezelfde opdrachtprompt naar de submap setupDB in de map sqlrepl-datastage-tutorial die u uit het gedownloade gecomprimeerde bestand hebt uitgepakt.

SQL-replicatie instellen

Stap 5) Gebruik de volgende opdracht om een ​​inventaristabel te maken en importeer gegevens in de tabel door de volgende opdracht uit te voeren.

db2 import uit inventory.ixf of ixf create in inventory

Stap 6) Maak een doeltabel. Noem de doeldatabase als STAGEDB.

Omdat u nu zowel de databasebron als het doel hebt gemaakt, zullen we in de volgende stap in deze DataStage-tutorial zien hoe u deze kunt repliceren.

De volgende informatie kan nuttig zijn bij: ODBC-gegevensbron instellen.

De SQL-replicatieobjecten maken

De onderstaande afbeelding laat zien hoe de stroom van wijzigingsgegevens van de bron- naar de doeldatabase wordt geleverd. U maakt een bron-naar-doel-toewijzing tussen tabellen, ook wel bekend als leden van abonnementssets en groepeer de leden in een abonnement.

De SQL-replicatieobjecten maken

De replicatie-eenheid binnen InfoSphere CDC (Change Data Capture) wordt een abonnement genoemd.

  • De wijzigingen die in de bron worden aangebracht, worden vastgelegd in de "Capture control table" die naar de CD-tabel en vervolgens naar de target-tabel wordt gestuurd. Terwijl het toepassingsprogramma de details over de rij heeft van waaruit wijzigingen moeten worden aangebracht. Het zal ook de CD-tabel in de abonnementsset samenvoegen.
  • Een abonnement bevat toewijzingsdetails die specificeren hoe gegevens in een brongegevensopslag worden toegepast op een doelgegevensopslag. Let op, CDC wordt nu aangeduid als Infosphere-gegevensreplicatie.
  • Wanneer een abonnement wordt uitgevoerd, legt InfoSphere CDC wijzigingen vast in de brondatabase. InfoSphere CDC levert de wijzigingsgegevens aan het doel en slaat synchronisatiepuntinformatie op in een bladwijzertabel in de doeldatabase.
  • InfoSphere CDC gebruikt de bladwijzerinformatie om de voortgang van de InfoSphere DataStage-taak te controleren.
  • In geval van een storing wordt de bladwijzerinformatie gebruikt als herstartpunt. In ons voorbeeld is de ASN.IBMIn de tabel SNAP_FEEDETL worden DataStage-gerelateerde synchronisatiepuntgegevens opgeslagen die worden gebruikt om de voortgang van DataStage bij te houden.

In deze sectie van IBM DataStage-trainingshandleiding, u moet de volgende dingen doen,

  • Maak CAPTURE CONTROL-tabellen en APPLY CONTROL-tabellen om replicatieopties op te slaan
  • Registreer de tabellen PRODUCT en INVENTORY als replicatiebronnen
  • Maak een abonnementsset met twee leden
  • Maak abonnementssetleden en target CCD-tabellen

Gebruik het ASNCLP-opdrachtregelprogramma om SQL-replicatie in te stellen

Stap 1) Zoek het scriptbestand crtCtlTablesCaptureServer.asnclp in de map sqlrepl-datastage-tutorial/setupSQLRep.

Stap 2) In het bestand vervangen En " ” met uw gebruikers-ID en wachtwoord om verbinding te maken met de SALES-database.

Stap 3) Wijzig de directory's naar de sqlrepl-datastage-tutorial/setupSQLRep directory en voer het script uit. Gebruik de volgende opdracht. De opdracht maakt verbinding met de SALES database en genereert een SQL script voor het maken van de Capture control tabellen.

asnclp –f crtCtlTablesCaptureServer.asnclp

Stap 4) Zoek het scriptbestand crtCtlTablesApplyCtlServer.asnclp in dezelfde map. Vervang nu twee exemplaren van En " ” met de gebruikers-ID en het wachtwoord voor verbinding met de STAGEDB-database.

Stap 5) Gebruik nu in dezelfde opdrachtprompt de volgende opdracht om toepassingsbesturingstabellen te maken.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Stap 6) Zoek de scriptbestanden crtRegistration.asnclp en vervang alle exemplaren van met de gebruikers-ID voor verbinding met de SALES-database. Verander ook “ ” toe aan het verbindingswachtwoord.

Stap 7) Om de brontabellen te registreren, gebruikt u het volgende script. Als onderdeel van het maken van de registratie, zal het ASNCLP-programma twee CD-tabellen maken. CDPRODUCT EN CDINVENTORY.

asnclp –f crtRegistration.asnclp

De opdracht CREATE REGISTRATION gebruikt de volgende opties:

  • Differentiële vernieuwing: Het vraagt ​​Apply-programma om de doeltabel alleen bij te werken wanneer rijen in de brontabel veranderen
  • Stel je beide voor: Deze optie wordt gebruikt om de waarde in de bronkolom te registreren voordat de wijziging plaatsvond, en één voor de waarde nadat de wijziging plaatsvond.

Stap 8) Volg de onderstaande stappen om verbinding te maken met de doeldatabase (STAGEDB).

  • Zoek het bestand crtTableSpaceApply.bat en open het in een teksteditor
  • Vervangen En met de gebruikers-ID en het wachtwoord
  • Voer in het DB2-opdrachtvenster crtTableSpaceApply.bat in en voer het bestand uit.
  • Dit batchbestand maakt een nieuwe tabelruimte in de doeldatabase (STAGEDB)

Stap 9) Zoek de scriptbestanden crtSubscriptionSetAndAddMembers.asnclp en voer de volgende wijzigingen door.

  • Vervang alle exemplaren van En met de gebruikers-ID en het wachtwoord voor verbinding met de SALES-database (bron).
  • Vervang alle exemplaren van En met de gebruikers-ID voor verbinding met de STAGEDB-database (doel).

Voer na de wijzigingen het script uit om een ​​abonnementsset (ST00) te maken waarin de bron- en doeltabellen zijn gegroepeerd. Het script maakt ook twee abonnementssetleden en CCD (consistente wijzigingsgegevens) in de doeldatabase waarin de gewijzigde gegevens worden opgeslagen. Deze gegevens worden gebruikt door Infosphere DataStage.

Stap 10) Voer het script uit om de abonnementsset, leden van de abonnementsset en CCD-tabellen te maken.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Er zijn verschillende opties gebruikt voor het maken van een abonnementsset en twee leden

  • Compleet aan gecondenseerd uit
  • Extern
  • Laadtype import export
  • Timing continu

Stap 11) Vanwege het defect in de replicatiebeheertools. U moet nog een batchbestand uitvoeren om de kolom TARGET_CAPTURE_SCHEMA in te stellen in het IBMSNAP_SUBS_SET-controletabel op nul.

  • Zoek het bestand updateTgtCapSchema.bat. Open het in een teksteditor. Vervangen En met de gebruikers-ID voor verbinding met de STAGEDB-database.
  • Voer in het DB2-opdrachtvenster de opdracht updateTgtCapSchema.bat in en voer het bestand uit.

De definitiebestanden maken om CCD-tabellen aan DataStage toe te wijzen

Voordat we in de volgende stap replicatie uitvoeren, moeten we de CCD-tabel verbinden met DataStage. In deze sectie zullen we zien hoe u SQL met DataStage kunt verbinden.

Om de CCD-tabel met DataStage te verbinden, moet u Datastage-definitiebestanden (.dxs) maken. Het .dsx-bestandsformaat wordt door DataStage gebruikt om taakdefinities te importeren en exporteren. U gebruikt het ASNCLP-script om twee .dsx-bestanden te maken. Hier hebben we bijvoorbeeld twee .dsx-bestanden gemaakt.

  • stagedb_AQ00_SET00_sJobs.dsx: Creëert een takenreeks die de workflow van de vier parallelle taken stuurt.
  • stagedb_AQ00_SET00_pJobs.dsx : Creëert de vier parallelle taken

Het ASNCLP-programma wijst de CCD-kolom automatisch toe aan het Datastage Column-formaat. Het wordt alleen ondersteund als de ASNCLP actief is Windows, Linux of Unix-procedure.

Definitiebestanden om CCD-tabellen aan DataStage toe te wijzen

Datastage-taken halen rijen uit de CCD-tabel.

  1. Eén taak stelt een synchpoint in waar DataStage was gestopt met het extraheren van gegevens uit de twee tabellen. De taak krijgt deze informatie door de SYNCHPOINT-waarde voor de ST00-abonnementsset te selecteren uit de IBMSNAP_SUBS_SET-tabel en deze invoegen in de MAX_SYNCHPOINT-kolom van de IBMSNAP_FEEDETL-tabel.
  2. Twee taken die gegevens uit de tabellen PRODUCT_CCD en INVENTORY_CCD halen. De taken weten welke rijen moeten worden geëxtraheerd door de waarden MIN_SYNCHPOINT en MAX_SYNCHPOINT te selecteren uit de IBMSNAP_FEEDETL-tabel voor de abonnementsset.

Replicatie starten

Om de replicatie te starten, gebruikt u de onderstaande stappen. Wanneer CCD-tabellen worden gevuld met gegevens, geeft dit aan dat de replicatie-instellingen zijn gevalideerd. Om de gerepliceerde gegevens in de doel-CCD-tabellen te bekijken, gebruikt u de grafische gebruikersinterface van DB2 Control Center.

Stap 1) Zorg ervoor dat DB2 actief is, zo niet, gebruik dan db2 starten opdracht.

Stap 2) Gebruik vervolgens de asncap-opdracht vanaf een besturingssysteemprompt om het vastleggen van het programma te starten. Bijvoorbeeld.

asncap capture_server=SALES

Met de bovenstaande opdracht wordt de SALES-database opgegeven als de Capture-server. Houd het opdrachtvenster open terwijl de opname wordt uitgevoerd.

Stap 3) Open nu een nieuwe opdrachtprompt. Begin dan met de Aanmelden programma met behulp van de opdracht asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Replicatie starten

  • De opdracht specificeert de STAGEDB-database als de Apply control-server (de database die de Apply control-tabellen bevat)
  • AQ00 als de kwalificatie Toepassen (de identificatie voor deze set controletabellen)

Laat het opdrachtvenster open terwijl Toepassen actief is.

Stap 4) Open nu een andere opdrachtprompt en voer de opdracht db2cc uit om het DB2 Controlecentrum te starten. Accepteer het standaard Controlecentrum.

Stap 5) Open nu in de linkernavigatiestructuur Alle databases > STAGEDB en klik vervolgens op Tabellen. Double klik op de tabelnaam (Product CCD) om de tabel te openen. Het zal er ongeveer zo uitzien.

Replicatie starten

Op dezelfde manier kunt u ook een CCD-tabel openen voor INVENTARIS.

Replicatie starten

Projecten maken in Datastage Tool

Allereerst maakt u een project aan in DataStage. Daarvoor moet u een InfoSphere DataStage-beheerder zijn.

Zodra de installatie en replicatie zijn voltooid, moet u een project maken. In DataStage zijn projecten een methode om uw gegevens te organiseren. Het omvat het definiëren van gegevensbestanden, fasen en bouwtaken in een specifiek project.

Om een ​​project in DataStage aan te maken, volgt u de onderstaande stappen:

Stap 1) Start de DataStage-software

Start DataStage en QualityStage Administrator. Klik vervolgens op Start > Alle programma's > IBM Informatieserver > IBM WebSphere DataStage- en QualityStage-beheerder.

Stap 2) Verbind de DataStage-server en -client

Om verbinding te maken met de DataStage-server vanaf uw DataStage-client, voert u gegevens in zoals domeinnaam, gebruikers-ID, wachtwoord en serverinformatie.

Stap 3) Voeg een nieuw project toe

In het WebSphere DataStage-beheervenster. Klik op het tabblad Projecten en klik vervolgens op Toevoegen.

Stap 4) Voer de projectgegevens in

Voer in het WebSphere DataStage-beheervenster details in zoals

  1. Naam
  2. Locatie van bestand
  3. Klik OK'

Maak projecten in Datastage Tool

Elk project bevat:

  • DataStage-taken
  • Ingebouwde componenten. Dit zijn vooraf gedefinieerde componenten die in een taak worden gebruikt.
  • Door de gebruiker gedefinieerde componenten. Dit zijn aangepaste componenten die zijn gemaakt met behulp van DataStage Manager of DataStage Designer.

We zullen zien hoe u replicatietaken kunt importeren in Datastage Infosphere.

Replicatietaken importeren in Datastage en QualityStage Designer

U importeert taken in de IBM InfoSphere DataStage- en QualityStage Designer-client. En je voert ze uit in de IBM InfoSphere DataStage en QualityStage Director-client.

De ontwerper-klant is als een leeg canvas voor het bouwen van jobs. Het extraheert, transformeert, laadt en controleert de kwaliteit van data. Het biedt tools die de basisbouwstenen van een Job vormen. Het omvat

  • stages: Het maakt verbinding met gegevensbronnen om bestanden te lezen of te schrijven en gegevens te verwerken.
  • Links: Het verbindt de fasen waarlangs uw gegevens stromen

De fasen in de InfoSphere DataStage- en QualityStage Designer-client worden opgeslagen in het Designer-toolpalet.

De volgende fasen zijn opgenomen in InfoSphere QualityStage:

  • Onderzoek stadium
  • Standaardiseer fase
  • Matchfrequentiefase
  • Matchfase uit één bron
  • Matchfase met twee bronnen
  • Overleef fase
  • Fase Standaardisatie Kwaliteitsbeoordeling (SQA).

U kunt 4 soorten banen aanmaken in de DataStage-infosfeer.

  • Parallelle baan
  • Volgorde taak
  • Mainframe-taak
  • Servertaak

Laten we stap voor stap bekijken hoe u replicatietaakbestanden importeert.

Stap 1) Start de DataStage- en QualityStage Designer. Klik op Start > Alle programma's > IBM Informatieserver > IBM WebSphere DataStage en QualityStage Designer

Stap 2) Voer de volgende gegevens in het venster Aan project koppelen in.

  • Domein
  • Gebruikersnaam
  • Wachtwoord
  • Naam van het project
  • OK

Importeer replicatietaken in Datastage en QualityStage

Stap 3) Klik nu vanuit het menu Bestand op importeren -> DataStage-componenten.

Er wordt een nieuw DataStage Repository Import-venster geopend.

  1. Blader in dit venster STAGEDB_AQ00_ST00_sJobs.dsx bestand dat we eerder hadden gemaakt
  2. Selecteer de optie “Alles importeren.”
  3. Vink het vakje “Impactanalyse uitvoeren” aan.
  4. Klik OK.'

Importeer replicatietaken in Datastage en QualityStage

Zodra de taak is geïmporteerd, maakt DataStage een STAGEDB_AQ00_ST00_sequence-taak.

Stap 4) Volg dezelfde stappen om het STAGEDB_AQ00_ST00_pJobs.dsx-bestand. Door deze import worden de vier parallelle banen gemaakt.

Stap 5) Onder het deelvenster Designer Repository -> Open de SQLREP-map. In de map ziet u Sequence Job en vier parallelle taken.

Importeer replicatietaken in Datastage en QualityStage

Stap 6) Om de reekstaak te zien. Ga naar de repositorystructuur, klik met de rechtermuisknop op de STAGEDB_AQ00_ST00_sequence-taak en klik op Bewerken. Het toont de workflow van de vier parallelle taken die door de takenreeks worden beheerd.

Importeer replicatietaken in Datastage en QualityStage

Elk icoon is een podium,

  • getExtractRange-fase: Het werkt de IBMSNAP_FEEDETL-tabel. Het startpunt voor gegevensextractie wordt ingesteld op het punt waar DataStage voor het laatst rijen heeft geëxtraheerd en het eindpunt wordt ingesteld op de laatste transactie die is verwerkt voor de abonnementsset.
  • getExtractRangeSucces: Deze fase voedt de startpunten voor de fase extractFromINVENTORY_CCD en de fase extractFromPRODUCT_CCD
  • AlleExtractenSucces: Deze fase zorgt ervoor dat zowel extractFromINVENTORY_CCD als extractFromPRODUCT_CCD succesvol zijn voltooid. Vervolgens worden synchronisatiepunten voor de laatste rijen die zijn opgehaald, doorgegeven aan de setRangeProcessed-fase.
  • setRangeVerwerkte fase: Het wordt bijgewerkt IBMSNAP_FEEDETL-tabel. De DataStage weet dus waar de volgende ronde van gegevensextractie moet beginnen

Stap 7) Om de parallelle banen te zien. Klik met de rechtermuisknop op de STAGEDB_ASN_INVENTORY_CCD en selecteer Bewerken onder repository. Er wordt een venster geopend zoals hieronder weergegeven.

Importeer replicatietaken in Datastage en QualityStage

Hier in de bovenstaande afbeelding kunt u zien dat de gegevens uit de Inventaris CCD-tabel en Synch-puntdetails uit de FEEDETL-tabel worden weergegeven in de Lookup_6-fase.

Het creëren van een dataverbinding van DataStage naar de STAGEDB-database

De volgende stap is nu het bouwen van een gegevensverbinding tussen InfoSphere DataStage en de SQL-replicatiedoeldatabase. Het bevat de CCD-tabellen.

In DataStage gebruikt u gegevensverbindingsobjecten met gerelateerde connectorfasen om snel een verbinding met een gegevensbron in een taakontwerp te definiëren.

Stap 1) STAGEDB bevat zowel de Apply control-tabellen die DataStage gebruikt om de gegevensextractie te synchroniseren als de CCD-tabellen waaruit de gegevens worden geëxtraheerd. Gebruik de volgende opdrachten

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Note: IP-adres van het systeem waarop STAGEDB is gemaakt

Stap 2) Klik op Bestand > Nieuw > Overige > Gegevensverbinding.

Stap 3) U krijgt een venster met twee tabbladen: Parameters en Algemeen.

Gegevensverbinding van DataStage naar STAGEDB-database

Stap 4) In deze stap,

  1. In het algemeen geeft u op het tabblad de gegevensverbinding sqlreplConnect een naam
  2. Op het tabblad Parameters, zoals hieronder weergegeven
  • Klik op de bladerknop naast het veld 'Verbinden via fasetype' en in het
  • In het geopende venster navigeert u door de repositorystructuur naar Stage Types –> Parallel– > Database —-> DB2 Connector.
  • Klik op Openen.

Gegevensverbinding van DataStage naar STAGEDB-database

Stap 5) Voer in de tabel Verbindingsparameters details in zoals

  • Verbindingsdraad: STAGEDB2
  • Gebruikersnaam: Gebruikers-ID voor verbinding met STAGEDB-database
  • Wachtwoord: Wachtwoord voor verbinding met STAGEDB-database
  • Aanleg: Naam van het DB2-subsysteem dat de STAGEDB-database bevat

Stap 6) In het volgende venster slaat u de gegevensverbinding op. Klik op de knop ‘opslaan’.

Tabeldefinities importeren uit STAGEDB in DataStage

In de vorige stap zagen we dat InfoSphere DataStage en de STAGEDB-database met elkaar verbonden zijn. Importeer nu de kolomdefinitie en andere metagegevens voor de tabellen PRODUCT_CCD en INVENTORY_CCD in de Information Server-repository.

Volg de onderstaande stappen in het ontwerpervenster.

Stap 1) Selecteer Importeren > Tabeldefinities > Wizard Connector importeren starten

Stap 2) Selecteer op de connectorselectiepagina van de wizard de DB2 Connector en klik op Volgende.

Tabeldefinities importeren uit STAGEDB in DataStage

Stap 3) Klik op laden op de verbindingsdetailpagina. Hierdoor worden de wizardvelden gevuld met verbindingsinformatie van de gegevensverbinding die u in het vorige hoofdstuk hebt gemaakt.

Tabeldefinities importeren uit STAGEDB in DataStage

Stap 4) Klik op Verbinding testen op dezelfde pagina. Hierdoor wordt DataStage gevraagd een verbinding met de STAGEDB-database tot stand te brengen. U ziet het bericht “verbinding is succesvol”. Klik volgende.

Tabeldefinities importeren uit STAGEDB in DataStage

Stap 5) Zorg ervoor dat op de pagina Gegevensbronlocatie de velden Hostnaam en Databasenaam correct zijn ingevuld. Klik vervolgens op volgende.

Stap 6) Op Schemapagina. Voer het schema van de Controletabellen (ASN) toepassen in of controleer of het ASN-schema vooraf is ingevuld in het schemaveld. Klik vervolgens op volgende. De selectiepagina toont de lijst met tabellen die zijn gedefinieerd in het ASN-schema.

Tabeldefinities importeren uit STAGEDB in DataStage

Stap 7) De eerste tabel waaruit we metadata moeten importeren is IBMSNAP_FEEDETL, een Apply-controltabel. Deze bevat details over de synchronisatiepunten waarmee DataStage kan bijhouden welke rijen het uit de CCD-tabellen heeft opgehaald. Kies IBMSNAP_FEEDETL en klik op Volgende.

Stap 8) Om het importeren van de IBMSNAP_FEEDETL tabeldefinitie. Klik op importeren en klik vervolgens in het geopende venster op openen.

Stap 9) Herhaal stap 1-8 nog twee keer om de definities voor de PRODUCT_CCD-tabel en vervolgens de INVENTORY_CCD-tabel te importeren.

NOTITIE: Zorg ervoor dat u tijdens het importeren van definities voor de inventaris en het product de schema's wijzigt van ASN naar het schema waaronder PRODUCT_CCD en INVENTORY_CCD zijn gemaakt.

DataStage beschikt nu over alle gegevens die nodig zijn om verbinding te maken met de SQL Replication-doeldatabase.

Eigenschappen instellen voor de DataStage-taken

Voor elk van de vier parallelle DataStage-taken die we hebben, bevat deze een of meer fasen die verbinding maken met de STAGEDB-database. U moet de fasen wijzigen om verbindingsgegevens toe te voegen en te koppelen aan gegevenssetbestanden die DataStage vult.

Fasen hebben vooraf gedefinieerde eigenschappen die bewerkbaar zijn. Hier zullen we enkele van deze eigenschappen wijzigen voor de parallelle taak STAGEDB_ASN_PRODUCT_CCD_extract.

Stap 1) Blader door de Designer-repositorystructuur. Selecteer onder de map SQLREP de parallelle taak STAGEDB_ASN_PRODUCT_CCD_extract. Om te bewerken klikt u met de rechtermuisknop op de taak. Het ontwerpvenster van de parallelle job wordt geopend in het Designerpalet.

Stap 2) Zoek het groene pictogram. Dit pictogram geeft de DB2-connectorfase aan. Het wordt gebruikt voor het extraheren van gegevens uit de CCD-tabel. Double-klik op het pictogram. Er wordt een fase-editorvenster geopend.

Eigenschappen instellen voor de DataStage-taken

Eigenschappen instellen voor de DataStage-taken

Stap 3) Klik in de editor op Laden om de velden in te vullen met verbindingsinformatie. Om de fase-editor te sluiten en uw wijzigingen op te slaan, klikt u op OK.

Stap 4) Keer nu terug naar het ontwerpvenster voor de parallelle taak STAGEDB_ASN_PRODUCT_CCD_extract. Zoek het pictogram voor de getSynchPoints DB2 connector-fase. Dubbelklik vervolgens op het pictogram.

Stap 5) Klik nu op de laadknop om de velden in te vullen met verbindingsinformatie.

NOTITIE: Als u een andere database dan STAGEDB gebruikt als uw Apply-controleserver. Selecteer vervolgens de optie om de verbindingsinformatie voor de getSynchPoints-fase, die samenwerkt met de controletabellen in plaats van met de CCD-tabel.

Stap 6) In deze stap,

  • Maak een leeg tekstbestand op het systeem waarop InfoSphere DataStage wordt uitgevoerd.
  • Noem dit bestand productdataset.ds en noteer waar u het hebt opgeslagen.
  • DataStage schrijft wijzigingen in dit bestand nadat de wijzigingen uit de CCD-tabel zijn opgehaald.
  • Gegevenssets of bestanden die worden gebruikt om gegevens tussen gekoppelde taken te verplaatsen, worden persistente gegevenssets genoemd. Het wordt weergegeven door een DataSet-fase.

Stap 7) Open nu de stage editor in het design window en dubbelklik op het icoon insert_into_a_dataset. Er opent zich een ander window.

Eigenschappen instellen voor de DataStage-taken

Stap 8) In dit venster,

Eigenschappen instellen voor de DataStage-taken

  • Zorg ervoor dat op het tabblad Eigenschappen de Target map is geopend en de eigenschap File = DATASETNAME is gemarkeerd.
  • Aan de rechterkant vindt u een bestandsveld
  • Voer het volledige pad naar het bestand productdataset.ds in
  • Klik OK'.

U hebt nu alle benodigde eigenschappen voor de product-CCD-tabel bijgewerkt. Sluit het ontwerpvenster en sla alle wijzigingen op.

Stap 9) Zoek en open nu de parallelle taak STAGEDB_ASN_INVENTORY_CCD_extract vanuit het repositoryvenster van Designer en herhaal stap 3-8.

NOTITIE:

  • U moet de verbindingsinformatie voor de besturingsserverdatabase in de stage-editor laden voor getSynchPunten podium. Als uw controleserver niet STAGEDB is.
  • Voor de parallelle taken STAGEDB_ST00_AQ00_getExtractRange en STAGEDB_ST00_AQ00_markRangeProcessed opent u alle DB2-connectorfasen. Gebruik vervolgens de laadfunctie om verbindingsinformatie voor de STAGEDB-database toe te voegen

De DataStage-taken compileren en uitvoeren

Wanneer de DataStage-taak gereed is om te compileren, valideert de Designer het ontwerp van de taak door te kijken naar invoer, transformaties, expressies en andere details.

Wanneer de taakcompilatie met succes is voltooid, is deze gereed voor uitvoering. We zullen alle vijf de taken compileren, maar zullen alleen de “takenreeks” uitvoeren. Dit komt omdat deze taak alle vier parallelle taken bestuurt.

Stap 1) Onder de map SQLREP. Selecteer elk van de vijf taken met (Cntrl+Shift). Klik vervolgens met de rechtermuisknop en kies de optie voor het compileren van meerdere taken.

De DataStage-taken compileren en uitvoeren

Stap 2) U zult zien dat er vijf taken zijn geselecteerd in de DataStage Compilation Wizard. Klik volgende.

De DataStage-taken compileren en uitvoeren

Stap 3) Het compileren begint en zodra het klaar is, wordt het bericht “Compiled Successful” weergegeven.

De DataStage-taken compileren en uitvoeren

Stap 4) Start nu de DataStage en QualityStage Director. Selecteer Start > Alle programma's > IBM Informatieserver > IBM WebSphere DataStage en QualityStage-directeur.

Stap 5) In het projectnavigatievenster aan de linkerkant. Klik op de SQLREP-map. Hierdoor worden alle vijf de functies in de statustabel van de directeur geplaatst.

Stap 6) Selecteer de taak STAGEDB_AQ00_S00_sequence. Klik in de menubalk op Taak > Nu uitvoeren.

De DataStage-taken compileren en uitvoeren

Zodra de compilatie is voltooid, ziet u de voltooide status.

De DataStage-taken compileren en uitvoeren

Controleer nu of de gewijzigde rijen die zijn opgeslagen in de tabellen PRODUCT_CCD en INVENTORY_CCD door DataStage zijn geëxtraheerd en in de twee datasetbestanden zijn ingevoegd.

Stap 7) Ga terug naar de Designer en open de STAGEDB_ASN_PRODUCT_CCD_extract taak. Om de toneeleditor te openen Double-klik op het pictogram insert_into_a_dataset. Klik vervolgens op gegevens bekijken.

Stap 8) Accepteer de standaardwaarden in het venster voor de weer te geven rijen. Klik vervolgens op OK. Er wordt een gegevensbrowservenster geopend om de inhoud van het gegevenssetbestand weer te geven.

De DataStage-taken compileren en uitvoeren

Integratie testen tussen SQL-replicatie en DataStage

In de vorige stap hebben we de taak samengesteld en uitgevoerd. In deze sectie zullen we de integratie van SQL-replicatie en DataStage controleren. Daarvoor zullen we wijzigingen aanbrengen in de brontabel en kijken of dezelfde wijziging wordt bijgewerkt in de DataStage.

Stap 1) Navigeer naar de map sqlrepl-datastage-scripts voor uw besturingssysteem.

Stap 2) Start SQL-replicatie door de volgende stappen te volgen:

  • Voer startSQLCapture.bat (Windows) bestand om het Capture-programma in de SALES-database te starten.
  • Voer startSQLApply.bat (Windows) bestand om het Apply-programma in de STAGEDB-database te starten.

Stap 3) Open nu het bestand updateSourceTables.sql. Om verbinding te maken met de SALES-database vervangt u En met de gebruikers-ID en het wachtwoord.

Stap 4) Open een DB2-opdrachtvenster. Wijzig de map naar sqlrepl-datastage-tutorial\scripts en voer het probleem uit met de gegeven opdracht:

db2 -tvf updateSourceTables.sql

Het SQL-script voert verschillende bewerkingen uit, zoals bijwerken, invoegen en verwijderen in beide tabellen (PRODUCT, INVENTORY) in de Sales-database.

Stap 5) Op het systeem waarop DataStage draait. Open de DataStage Director en voer de STAGEDB_AQ00_S00_sequence taak uit. Klik op Taak > Nu uitvoeren.

Integratie tussen SQL-replicatie en DataStage

Wanneer u de opdracht uitvoert, worden de volgende activiteiten uitgevoerd.

  • Het Capture-programma leest de wijzigingen in zes rijen in het SALES-databaselogboek en voegt deze in de cd-tabellen in.
  • Het Apply-programma haalt de wijzigingsrijen op uit de CD-tabellen bij SALES en voegt ze in de CCD-tabellen bij STAGEDB in.
  • De twee DataStage-extractietaken halen de wijzigingen uit de CCD-tabellen op en schrijven deze naar de bestanden productdataset.ds en inventory dataset.ds.

U kunt controleren of bovenstaande stappen hebben plaatsgevonden door naar de datasets te kijken.

Stap 6) Volg de onderstaande stappen,

  • Start de Designer.Open de STAGEDB_ASN_PRODUCT_CCD_extract taak.
  • Dan Double-klik op het pictogram insert_into_a_dataset. In de toneeleditor. Klik op Gegevens bekijken.
  • Accepteer de standaardwaarden in de rijen die in het venster moeten worden weergegeven en klik op OK.

De dataset bevat drie nieuwe rijen. De eenvoudigste manier om te controleren of de wijzigingen zijn doorgevoerd, is door uiterst rechts in de gegevensbrowser naar beneden te scrollen. Kijk nu naar de laatste drie rijen (zie afbeelding hieronder)

Integratie tussen SQL-replicatie en DataStage

De letters I, U en D geven de INSERT-, UPDATE- en DELETE-bewerkingen aan die tot een nieuwe rij hebben geleid.

U kunt dezelfde controle uitvoeren voor de inventaristabel.

Samenvatting

  • Datastage is een ETL-tool die gegevens extraheert, gegevens transformeert en laadt van de bron naar het doel.
  • Het faciliteert bedrijfsanalyse door kwaliteitsgegevens te verstrekken om te helpen bij het verkrijgen van bedrijfsinformatie.
  • DataStage is verdeeld in twee secties, Gedeelde componenten en runtime Architectuur.
  • DataStage heeft vier hoofdcomponenten,
  • Beheerder
  • Manager
  • Designer
  • Director
  • Hieronder volgen de belangrijkste aspecten van IBM InfoSphere DataStage
  • Datatransformatie
  • Jobs
  • Parallelle verwerking
  • Bij het ontwerpen van banen zijn er verschillende fasen betrokken
  • Transformeer podium
  • Filter fase
  • Aggregatorfase
  • Verwijder de duplicatenfase
  • Sluit je aan bij het podium
  • Opzoekfase