DataStage Tutorial for begyndere: IBM DataStage (ETL Tool) træning

Hvad er DataStage?

DataStage er et ETL-værktøj, der bruges til at udtrække, transformere og indlæse data fra kilden til måldestinationen. Kilden til disse data kan omfatte sekventielle filer, indekserede filer, relationelle databaser, eksterne datakilder, arkiver, virksomhedsapplikationer osv. DataStage bruges til at lette forretningsanalyse ved at levere kvalitetsdata til at hjælpe med at opnå business intelligence.

DataStage ETL værktøj bruges i en stor organisation som en grænseflade mellem forskellige systemer. Det tager sig af udtræk, oversættelse og indlæsning af data fra kilden til måldestinationen. Det blev først lanceret af VMark i midten af ​​90'erne. Med IBM erhvervede DataStage i 2005 og blev omdøbt til IBM WebSphere DataStage og senere til IBM InfoSphere.

Forskellige versioner af Datastage, der er tilgængelige på markedet indtil videre, var Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft og så videre. Den seneste udgave er IBM InfoSphere DataStage

IBM Informationsserveren inkluderer følgende produkter,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM InfoSphere Information Services Director
  • IBM InfoSphere Information Analyzer
  • IBM Informationsserver FastTrack
  • IBM InfoSphere Business ordliste

DataStage Oversigt

Datastage har følgende egenskaber.

  • Det kan integrere data fra det bredeste udvalg af virksomhedsdata og eksterne datakilder
  • Implementerer datavalideringsregler
  • Det er nyttigt til at behandle og transformere store mængder data
  • Den bruger skalerbar parallel behandlingstilgang
  • Det kan håndtere komplekse transformationer og administrere flere integrationsprocesser
  • Udnyt direkte forbindelse til virksomhedsapplikationer som kilder eller mål
  • Udnyt metadata til analyse og vedligeholdelse
  • Operates i batch, realtid eller som en webservice

I de følgende afsnit af denne DataStage-vejledning beskriver vi kort de følgende aspekter af IBM InfoSphere DataStage:

  • Datatransformation
  • Karriere
  • Parallel behandling

InfoSphere DataStage og QualityStage kan få adgang til data i virksomhedsapplikationer og datakilder såsom:

Behandlingsfasetyper

IBM infosfærejob består af individuelle faser, der er knyttet sammen. Den beskriver strømmen af ​​data fra en datakilde til et datamål. Normalt har et trin minimum én datainput og/eller én dataoutput. Nogle trin kan dog acceptere mere end ét datainput og output til mere end ét trin.

I jobdesign kan du bruge forskellige faser:

  • Forvandle scenen
  • Filterstadie
  • Aggregator fase
  • Fjern dubletter
  • Kom med på scenen
  • Opslagsfase
  • Kopier scenen
  • Sorteringsstadie
  • Beholdere

DataStage-komponenter og Architecture

DataStage har fire hovedkomponenter, nemlig

  1. administrator: Det bruges til administrationsopgaver. Dette inkluderer opsætning af DataStage-brugere, opsætning af rensekriterier og oprettelse og flytning af projekter.
  2. Manager: Det er hovedgrænsefladen til Repository of ETL DataStage. Det bruges til lagring og styring af genanvendelige metadata. Gennem DataStage manager kan man se og redigere indholdet af Repository.
  3. Designer: En designgrænseflade, der bruges til at skabe DataStage-applikationer ELLER job. Det specificerer datakilden, påkrævet transformation og destination for data. Jobs kompileres for at skabe en eksekverbar, som er planlagt af direktøren og køres af serveren
  4. Instruktør: Det bruges til at validere, planlægge, udføre og overvåge DataStage-serverjob og parallelle job.
Datastage Architecture diagram
Datastage Architecture diagram

Ovenstående billede forklarer hvordan IBM Infosphere DataStage interagerer med andre elementer i IBM Information Server platform. DataStage er opdelt i to sektioner, Delte komponenter og Runtime Architecture.

   
Aktiviteter

delt

Samlet brugergrænseflade

  • En grafisk designgrænseflade bruges til at skabe InfoSphere DataStage-applikationer (kendt som jobs).
  • Hvert job bestemmer datakilderne, de nødvendige transformationer og destinationen for dataene.
  • Jobs kompileres for at skabe parallelle jobflows og genanvendelige komponenter. De er planlagt og afviklet af InfoSphere DataStage og QualityStage Director.
  • Designer-klienten administrerer metadata i lageret. Mens kompilerede udførelsesdata er implementeret på Information Server Engine-niveauet.

Fælles tjenester

  • Metadatatjenester såsom konsekvensanalyse og søgning
  • Designtjenester, der understøtter udvikling og vedligeholdelse af InfoSphere DataStage-opgaver
  • Eksekveringstjenester, der understøtter alle InfoSphere DataStage-funktioner

Fælles parallel behandling

  • Motoren kører eksekverbare job, der uddrager, transformerer og indlæser data i en lang række indstillinger.
  • Motorvalgstilgangen til parallel bearbejdning og pipelining til at håndtere en stor mængde arbejde.

Runtime Architecture

OSH script

  • Dette beskriver genereringen af ​​OSH (orchestrate Shell Script) og eksekveringsflowet af IBM og strømmen af IBM Infosphere DataStage ved hjælp af informationsservermotoren
  • Det giver dig mulighed for at bruge grafiske peg-og-klik-teknikker til at udvikle jobflows til at udtrække, rense, transformere, integrere og indlæse data i målfiler.

Forudsætning for Datastage Tool

Til DataStage skal du bruge følgende opsætning.

  • InfoSphere
  • DataStage Server 9.1.2 eller nyere
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle klient (fuld klient, ikke en øjeblikkelig klient), hvis der oprettes forbindelse til en Oracle database
  • DB2-klient, hvis der oprettes forbindelse til en DB2-database

Nu i denne DataStage tutorials for begyndere-serien lærer vi, hvordan du downloader og installerer InfoSphere informationsserver.

Download og installation af InfoSphere Information Server

For at få adgang til DataStage skal du downloade og installere den seneste version af IBM InfoSphere Server. Serveren understøtter AIX, Linux og Windows operativsystem. Du kan vælge efter behov.

For at migrere dine data fra en ældre version af infosphere til en ny version bruger du aktivudvekslingsværktøjet.

Installationsfiler

For at installere og konfigurere Infosphere Datastage skal du have følgende filer i din opsætning.

Til Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Til Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Procesflow af ændringsdata i et CDC-transaktionsfasejob

Behandle flow af ændringsdata i en CDC

  1. 'InfoSphere CDC'-tjenesten til databasen overvåger og fanger ændringen fra en kildedatabase
  2. Ifølge replikeringsdefinitionen overfører "InfoSphere CDC" ændringsdataene til "InfoSphere CDC for InfoSphere DataStage."
  3. "InfoSphere CDC for InfoSphere DataStage"-serveren sender data til "CDC-transaktionsstadiet" gennem en TCP/IP-session. "InfoSphere CDC for InfoSphere DataStage"-serveren sender også en COMMIT-meddelelse (sammen med bogmærkeoplysninger) for at markere transaktionsgrænsen i den registrerede log.
  4. For hver COMMIT-meddelelse, der sendes af "InfoSphere CDC for InfoSphere DataStage"-serveren, opretter "CDC-transaktionsstadiet" end-of-wave (EOW)-markører. Disse markører sendes på alle outputlinks til måldatabaseforbindelsestrinnet.
  5. Når "target database connector stage" modtager en end-of-wave-markør på alle inputlinks, skriver den bogmærkeinformation til en bogmærketabel og forpligter derefter transaktionen til måldatabasen.
  6. "InfoSphere CDC for InfoSphere DataStage"-serveren anmoder om bogmærkeoplysninger fra en bogmærketabel på "måldatabasen".
  7. "InfoSphere CDC for InfoSphere DataStage"-serveren modtager bogmærkeoplysningerne.

Disse oplysninger bruges til,

  • Bestem startpunktet i transaktionsloggen, hvor ændringer læses, når replikering begynder.
  • For at afgøre, om den eksisterende transaktionslog kan ryddes op

Opsætning af SQL-replikering

Før du begynder med Datastage, skal du opsætte databasen. Du skal oprette to DB2-databaser.

  • En til at tjene som replikeringskilde og
  • En som mål.

Du vil også oprette to tabeller (produkt og lager) og udfylde dem med eksempeldata. Så kan du teste din integration imellem SQL Replikering og Datastage.

Fremover vil du opsætte SQL-replikering ved at oprette kontroltabeller, abonnementssæt, registreringer og abonnementssætmedlemmer. Vi vil lære mere om dette i detaljer i næste afsnit.

Her vil vi tage et eksempel på detailsalgsvare som vores database og oprette to tabeller Lager og Produkt. Disse tabeller vil indlæse data fra kilde til mål gennem disse sæt. (kontroltabeller, abonnementssæt, registreringer og abonnementssætmedlemmer.)

Trin 1) Opret en kildedatabase kaldet SALES. Under denne database skal du oprette to tabeller produkt og Inventory.

Trin 2) Kør følgende kommando for at oprette SALES-database.

db2 create database SALES

Trin 3) Slå arkivlogning til for SALES-databasen. Sikkerhedskopier også databasen ved at bruge følgende kommandoer

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Trin 4) I den samme kommandoprompt skal du skifte til setupDB-undermappen i sqlrepl-datastage-tutorial-mappen, som du udpakkede fra den downloadede komprimerede fil.

Opsætning af SQL-replikering

Trin 5) Brug følgende kommando til at oprette inventartabel og importere data til tabellen ved at køre følgende kommando.

db2 import fra inventory.ixf af ixf create til inventory

Trin 6) Opret en måltabel. Navngiv måldatabasen som STAGEDB.

Da du nu har oprettet både databasers kilde og mål, det næste trin i denne DataStage-tutorial, vil vi se, hvordan du replikerer det.

Følgende oplysninger kan være nyttige opsætning af ODBC-datakilde.

Oprettelse af SQL-replikeringsobjekter

Billedet nedenfor viser, hvordan flowet af ændringsdata leveres fra kilde til måldatabase. Du opretter en kilde-til-mål-mapping mellem tabeller kendt som medlemmer af abonnementssæt og grupper medlemmerne i en abonnement.

Oprettelse af SQL-replikeringsobjekter

Replikationsenheden i InfoSphere CDC (Change Data Capture) omtales som et abonnement.

  • Ændringerne i kilden er fanget i "Capture control table", som sendes til CD-tabellen og derefter til måltabellen. Mens ansøgningsprogrammet vil have detaljerne om rækken, hvorfra der skal foretages ændringer. Det vil også slutte sig til CD-bordet i abonnementssæt.
  • Et abonnement indeholder kortoplysninger, der specificerer, hvordan data i et kildedatalager anvendes på et måldatalager. Bemærk, CDC kaldes nu Infosfære data replikering.
  • Når et abonnement udføres, fanger InfoSphere CDC ændringer i kildedatabasen. InfoSphere CDC leverer ændringsdataene til målet og gemmer oplysninger om synkroniseringspunkt i en bogmærketabel i måldatabasen.
  • InfoSphere CDC bruger bogmærkeoplysningerne til at overvåge forløbet af InfoSphere DataStage-jobbet.
  • I tilfælde af fejl, bruges bogmærkeoplysningerne som genstartpunkt. I vores eksempel, ASN.IBMSNAP_FEEDETL-tabel gemmer DataStage-relaterede synkroniseringspunkter, der bruges til at spore DataStage-fremskridt.

I dette afsnit af IBM DataStage træningsvejledning, du skal gøre følgende ting,

  • Opret CAPTURE CONTROL-tabeller og APPLY CONTROL-tabeller for at gemme replikeringsmuligheder
  • Registrer PRODUCT- og INVENTORY-tabellerne som replikeringskilder
  • Opret et abonnementssæt med to medlemmer
  • Opret medlemmer af abonnementssæt og mål CCD-tabeller

Brug ASNCLP kommandolinjeprogram til at konfigurere SQL-replikering

Trin 1) Find scriptfilen crtCtlTablesCaptureServer.asnclp i mappen sqlrepl-datastage-tutorial/setupSQLRep.

Trin 2) Erstat i filen og " ” med dit bruger-id og adgangskode for at oprette forbindelse til SALES-databasen.

Trin 3) Skift mapper til biblioteket sqlrepl-datastage-tutorial/setupSQLRep og kør scriptet. Brug følgende kommando. Kommandoen vil oprette forbindelse til SALES-databasen, generere et SQL-script til oprettelse af Capture-kontroltabellerne.

asnclp –f crtCtlTablesCaptureServer.asnclp

Trin 4) Find scriptfilen crtCtlTablesApplyCtlServer.asnclp i samme mappe. Erstat nu to forekomster af og " ” med bruger-id og adgangskode for at oprette forbindelse til STAGEDB-databasen.

Trin 5) Brug nu følgende kommando i den samme kommandoprompt til at oprette anvendelseskontroltabeller.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Trin 6) Find crtRegistration.asnclp-scriptfilerne og erstat alle forekomster af med bruger-id'et for at oprette forbindelse til SALES-databasen. Skift også " ” til adgangskoden til forbindelsen.

Trin 7) For at registrere kildetabellerne skal du bruge følgende script. Som en del af oprettelsen af ​​registreringen vil ASNCLP-programmet oprette to cd-tabeller. CDPRODUKT OG CDINVENTOR.

asnclp –f crtRegistration.asnclp

Kommandoen CREATE REGISTRATION bruger følgende muligheder:

  • Differentiel opdatering: Den beder Anvend programmet om kun at opdatere måltabellen, når rækker i kildetabellen ændres
  • Billede begge: Denne indstilling bruges til at registrere værdien i kildekolonnen, før ændringen fandt sted, og én for værdien efter ændringen fandt sted.

Trin 8) Brug følgende trin for at oprette forbindelse til måldatabasen (STAGEDB).

  • Find filen crtTableSpaceApply.bat, åbn den i en teksteditor
  • Erstatte og med bruger-id og adgangskode
  • Indtast crtTableSpaceApply.bat i DB2-kommandovinduet og kør filen.
  • Denne batchfil opretter et nyt tablespace på måldatabasen ( STAGEDB)

Trin 9) Find crtSubscriptionSetAndAddMembers.asnclp-scriptfilerne, og foretag følgende ændringer.

  • Erstat alle forekomster af og med bruger-id og adgangskode til at oprette forbindelse til SALES-databasen (kilde).
  • Erstat alle forekomster af og med bruger-id'et for at oprette forbindelse til STAGEDB-databasen (mål).

Efter ændringer skal du køre scriptet for at oprette abonnementssæt (ST00), der grupperer kilde- og måltabellerne. Scriptet opretter også to abonnementssætmedlemmer og CCD (konsistente ændringsdata) i måldatabasen, der gemmer de ændrede data. Disse data vil blive forbrugt af Infosphere DataStage.

Trin 10) Kør scriptet for at oprette abonnementssættet, abonnementssætmedlemmer og CCD-tabeller.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Forskellige muligheder brugt til at oprette abonnementssæt og to medlemmer inkluderer

  • Komplet på kondenseret af
  • Ekstern
  • Indlæs type import eksport
  • Timing kontinuerlig

Trin 11) På grund af defekten i replikeringsadministrationsværktøjerne. Du skal udføre en anden batch-fil for at indstille TARGET_CAPTURE_SCHEMA-kolonnen i IBMSNAP_SUBS_SET kontroltabel til null.

  • Find filen updateTgtCapSchema.bat. Åbn det i en teksteditor. Erstatte og med bruger-id'et for at oprette forbindelse til STAGEDB-databasen.
  • Indtast kommandoen updateTgtCapSchema.bat i DB2-kommandovinduet, og kør filen.

Oprettelse af definitionsfiler for at knytte CCD-tabeller til DataStage

Før vi replikerer i næste trin, skal vi forbinde CCD-tabellen med DataStage. I dette afsnit vil vi se, hvordan du forbinder SQL med DataStage.

For at forbinde CCD-tabel med DataStage skal du oprette Datastage-definitionsfiler (.dxs). .dsx-filformatet bruges af DataStage til at importere og eksportere jobdefinitioner. Du skal bruge ASNCLP-script til at oprette to .dsx-filer. For eksempel har vi her lavet to .dsx-filer.

  • stagedb_AQ00_SET00_sJobs.dsx: Opretter en jobsekvens, der styrer arbejdsgangen for de fire parallelle job.
  • stagedb_AQ00_SET00_pJobs.dsx : Opretter de fire parallelle job

ASNCLP-programmet knytter automatisk CCD-kolonnen til Datastage Column-formatet. Det understøttes kun, når ASNCLP kører på Windows, Linux eller Unix-procedure.

Definitionsfiler til at knytte CCD-tabeller til DataStage

Datastage-job trækker rækker fra CCD-tabellen.

  1. Et job sætter et synkroniseringspunkt, hvor DataStage slap med at udtrække data fra de to tabeller. Jobbet får disse oplysninger ved at vælge SYNCHPOINT-værdien for ST00-abonnementssættet fra IBMSNAP_SUBS_SET-tabellen og indsætte den i kolonnen MAX_SYNCHPOINT i IBMSNAP_FEEDETL tabel.
  2. To job, der udtrækker data fra PRODUCT_CCD- og INVENTORY_CCD-tabellerne. Jobbene ved, hvilke rækker der skal begynde at udtrække ved at vælge MIN_SYNCHPOINT- og MAX_SYNCHPOINT-værdierne fra IBMSNAP_FEEDETL-tabel for abonnementssættet.

Starter replikering

For at starte replikering skal du bruge nedenstående trin. Når CCD-tabeller er udfyldt med data, angiver det, at replikeringsopsætningen er valideret. Brug den grafiske brugergrænseflade i DB2 Control Center til at se de replikerede data i CCD-måltabellerne.

Trin 1) Sørg for, at DB2 kører, hvis ikke, brug så db2 start kommando.

Trin 2) Brug derefter asncap-kommandoen fra en styresystemprompt for at starte optagelse af program. F.eks.

asncap capture_server=SALES

Ovenstående kommando angiver SALES-databasen som Capture-serveren. Hold kommandovinduet åbent, mens optagelsen kører.

Trin 3) Åbn nu en ny kommandoprompt. Start derefter ANSØGE program ved at bruge kommandoen asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Starter replikering

  • Kommandoen angiver STAGEDB-databasen som Apply-kontrolserveren (databasen, der indeholder Apply-kontroltabellerne)
  • AQ00 som Apply-kvalifikationen (identifikationen for dette sæt kontroltabeller)

Lad kommandovinduet være åbent, mens Anvend kører.

Trin 4) Åbn nu en anden kommandoprompt, og afgiv kommandoen db2cc for at starte DB2 Kontrolcenter. Accepter standardkontrolcenteret.

Trin 5) Åbn nu Alle databaser > STAGEDB i venstre navigationstræ, og klik derefter på Tabeller. Double klik på tabelnavn ( Produkt CCD) for at åbne tabellen. Det vil se sådan ud.

Starter replikering

Ligeledes kan du også åbne CCD-tabellen for INVENTORY.

Starter replikering

Sådan opretter du projekter i Datastage Tool

Først og fremmest skal du oprette et projekt i DataStage. Til det skal du være InfoSphere DataStage-administrator.

Når installationen og replikeringen er færdig, skal du oprette et projekt. I DataStage er projekter en metode til at organisere dine data. Det inkluderer at definere datafiler, stadier og byggejobs i et specifikt projekt.

Følg nedenstående trin for at oprette et projekt i DataStage:

Trin 1) Start DataStage-softwaren

Start DataStage og QualityStage Administrator. Klik derefter på Start > Alle programmer > IBM Informationsserver > IBM WebSphere DataStage og QualityStage administrator.

Trin 2) Forbind DataStage-server og klient

For at oprette forbindelse til DataStage-serveren fra din DataStage-klient skal du indtaste detaljer som domænenavn, bruger-id, adgangskode og serveroplysninger.

Trin 3) Tilføj et nyt projekt

I vinduet WebSphere DataStage Administration. Klik på fanen Projekter, og klik derefter på Tilføj.

Trin 4) Indtast projektdetaljerne

I vinduet WebSphere DataStage Administration skal du indtaste detaljer som f.eks

  1. Navn
  2. Placering af fil
  3. Klik på 'OK'

Opret projekter i Datastage Tool

Hvert projekt indeholder:

  • DataStage jobs
  • Indbyggede komponenter. Disse er foruddefinerede komponenter, der bruges i et job.
  • Brugerdefinerede komponenter. Disse er tilpassede komponenter, der er oprettet ved hjælp af DataStage Manager eller DataStage Designer.

Vi vil se, hvordan du importerer replikeringsjob i Datastage Infosphere.

Sådan importeres replikeringsjob i Datastage og QualityStage Designer

Du vil importere job i IBM InfoSphere DataStage og QualityStage Designer-klient. Og du udfører dem i IBM InfoSphere DataStage og QualityStage Director klient.

Designer-klienten er som et tomt lærred til byggeopgaver. Det udtrækker, transformerer, indlæser og kontrollerer kvaliteten af ​​data. Det giver værktøjer, der udgør de grundlæggende byggesten i et job. Det omfatter

  • Praktikophold: Den forbinder til datakilder for at læse eller skrive filer og behandle data.
  • Links: Det forbinder de stadier, som dine data flyder langs

Faserne i InfoSphere DataStage- og QualityStage Designer-klienten gemmes i Designer-værktøjspaletten.

Følgende trin er inkluderet i InfoSphere QualityStage:

  • Undersøg scenen
  • Standardiser scenen
  • Match Frequency fase
  • One-source Match fase
  • Matchfase med to kilder
  • Overlev scenen
  • Standardiseringskvalitetsvurdering (SQA) fase

Du kan oprette 4 typer job i DataStage infosphere.

  • Parallel job
  • Sekvensjob
  • Mainframe job
  • Server job

Lad os se trin for trin, hvordan du importerer replikeringsjobfiler.

Trin 1) Start DataStage og QualityStage Designer. Klik på Start > Alle programmer > IBM Informationsserver > IBM WebSphere DataStage og QualityStage Designer

Trin 2) Indtast følgende detaljer i vinduet Vedhæft til projekt.

  • Domæne
  • brugernavn
  • Adgangskode
  • Projektnavn
  • OK

Importer replikeringsjob i Datastage og QualityStage

Trin 3) Klik nu på Importer i menuen Filer -> DataStage-komponenter.

Et nyt DataStage Repository Import-vindue åbnes.

  1. Gennemse i dette vindue STAGEDB_AQ00_ST00_sJobs.dsx fil, som vi havde oprettet tidligere
  2. Vælg muligheden "Importer alle."
  3. Markér afkrydsningsfeltet "Udfør effektanalyse".
  4. Klik på 'OK'.

Importer replikeringsjob i Datastage og QualityStage

Når jobbet er importeret, vil DataStage oprette STAGEDB_AQ00_ST00_sequence-job.

Trin 4) Følg de samme trin for at importere STAGEDB_AQ00_ST00_pJobs.dsx fil. Denne import skaber de fire parallelle job.

Trin 5) Under Designer Repository-ruden -> Åbn mappen SQLREP. Inde i mappen vil du se Sequence Job og fire parallelle job.

Importer replikeringsjob i Datastage og QualityStage

Trin 6) For at se sekvensjobbet. Gå til lagertræet, højreklik på STAGEDB_AQ00_ST00_sequence-jobbet, og klik på Rediger. Det vil vise arbejdsgangen for de fire parallelle job, som jobsekvensen styrer.

Importer replikeringsjob i Datastage og QualityStage

Hvert ikon er en scene,

  • getExtractRange-stadiet: Den opdaterer IBMSNAP_FEEDETL tabel. Det vil sætte startpunktet for dataudtræk til det punkt, hvor DataStage sidst udpakkede rækker og indstille slutpunktet til den sidste transaktion, der blev behandlet for abonnementssættet.
  • getExtractRangeSuccess: Denne fase fører startpunkterne til ekstraktFromINVENTORY_CCD-stadiet og ekstraktFromPRODUCT_CCD-stadiet
  • Alle uddrag Succes: Dette trin sikrer, at både extractFromINVENTORY_CCD og extractFromPRODUCT_CCD er gennemført med succes. Sender derefter synkroniseringspunkter for de sidste rækker, der blev hentet til setRangeProcessed-stadiet.
  • setRangeProcessed stage: Den opdateres IBMSNAP_FEEDETL tabel. Så DataStage ved, hvorfra den næste runde af dataudtræk skal begynde

Trin 7) For at se de parallelle job. Højreklik på STAGEDB_ASN_INVENTORY_CCD og vælg rediger under repository. Det åbner vinduet som vist nedenfor.

Importer replikeringsjob i Datastage og QualityStage

Her i ovenstående billede kan du se, at dataene fra Inventory CCD tabel og Synch-punktdetaljer fra FEEDETL-tabellen gengives til Lookup_6-stadiet.

Oprettelse af en dataforbindelse fra DataStage til STAGEDB-databasen

Nu er næste trin at bygge en dataforbindelse mellem InfoSphere DataStage og SQL Replication-måldatabasen. Den indeholder CCD-tabellerne.

I DataStage bruger du dataforbindelsesobjekter med relaterede forbindelsestrin til hurtigt at definere en forbindelse til en datakilde i et jobdesign.

Trin 1) STAGEDB indeholder både Apply-kontroltabellerne, som DataStage bruger til at synkronisere sin dataudtrækning, og CCD-tabellerne, som dataene er udtrukket fra. Brug følgende kommandoer

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Bemærk: IP-adressen på systemet, hvor STAGEDB blev oprettet

Trin 2) Klik på Filer > Ny > Andet > Dataforbindelse.

Trin 3) Du vil have et vindue med to faner, Parameters og General.

Dataforbindelse fra DataStage til STAGEDB-database

Trin 4) I dette trin,

  1. Generelt, faneblad, navngiv dataforbindelsen sqlreplConnect
  2. På fanen Parametre, som vist nedenfor
  • Klik på knappen Gennemse ved siden af ​​feltet 'Forbind ved hjælp af Stage Type' og i
  • Åbn vinduet naviger i lagertræet til Stage Types –> Parallel–> Database —-> DB2 Connector.
  • Klik på Åbn.

Dataforbindelse fra DataStage til STAGEDB-database

Trin 5) Indtast detaljer som f.eks. i tabellen Forbindelsesparametre

  • Forbindelsesstreng: STAGEDB2
  • Brugernavn: Bruger-id til at oprette forbindelse til STAGEDB-databasen
  • Adgangskode: Adgangskode til at oprette forbindelse til STAGEDB-databasen
  • Instans: Navn på DB2-subsystem, der indeholder STAGEDB-databasen

Trin 6) Gem dataforbindelse i det næste vindue. Klik på knappen 'Gem'.

Import af tabeldefinitioner fra STAGEDB til DataStage

I det forrige trin så vi, at InfoSphere DataStage og STAGEDB-databasen er forbundet. Importer nu kolonnedefinition og andre metadata for PRODUCT_CCD- og INVENTORY_CCD-tabellerne til Information Server-lageret.

Følg nedenstående trin i designervinduet.

Trin 1) Vælg Importer > Tabeldefinitioner > Start guiden Connector Import

Trin 2) Vælg DB2 Connector på siden til valg af forbindelse i guiden, og klik på Næste.

Import af tabeldefinitioner fra STAGEDB til DataStage

Trin 3) Klik på indlæs på forbindelsesdetaljesiden. Dette vil udfylde guidens felter med forbindelsesoplysninger fra den dataforbindelse, du oprettede i forrige kapitel.

Import af tabeldefinitioner fra STAGEDB til DataStage

Trin 4) Klik på Test forbindelse på samme side. Dette vil bede DataStage om at forsøge at oprette forbindelse til STAGEDB-databasen. Du kan se meddelelsen "forbindelsen er vellykket". Klik på Næste.

Import af tabeldefinitioner fra STAGEDB til DataStage

Trin 5) Sørg for, at felterne Værtsnavn og Databasenavn er korrekt udfyldt på siden Datakildeplacering. Klik derefter på næste.

Trin 6) På Skema-siden. Indtast skemaet for Anvend kontroltabellerne (ASN), eller kontroller, at ASN-skemaet er forududfyldt i skemafeltet. Klik derefter på næste. Udvælgelsessiden viser listen over tabeller, der er defineret i ASN-skemaet.

Import af tabeldefinitioner fra STAGEDB til DataStage

Trin 7) Den første tabel, hvorfra vi skal importere metadata, er IBMSNAP_FEEDETL, en Anvend kontroltabel. Den har detaljerne om synkroniseringspunkterne, der gør det muligt for DataStage at holde styr på, hvilke rækker den har hentet fra CCD-tabellerne. Vælge IBMSNAP_FEEDETL og klik på Næste.

Trin 8) For at fuldføre importen af IBMSNAP_FEEDETL tabeldefinition. Klik på import, og klik derefter på åben i det åbne vindue.

Trin 9) Gentag trin 1-8 to gange mere for at importere definitionerne for PRODUCT_CCD-tabellen og derefter INVENTORY_CCD-tabellen.

BEMÆRK: Mens du importerer definitioner for beholdningen og produktet, skal du sørge for at ændre skemaerne fra ASN til det skema, som PRODUCT_CCD og INVENTORY_CCD blev oprettet under.

Nu har DataStage alle de detaljer, som det kræver at oprette forbindelse til SQL Replication-måldatabasen.

Indstilling af egenskaber for DataStage-jobbene

For hver af de fire DataStage parallelle job, som vi har, indeholder den en eller flere stadier, der forbinder med STAGEDB-databasen. Du skal ændre stadierne for at tilføje forbindelsesoplysninger og linke til datasætfiler, som DataStage udfylder.

Stadier har foruddefinerede egenskaber, der kan redigeres. Her vil vi ændre nogle af disse egenskaber for STAGEDB_ASN_PRODUCT_CCD_extract paralleljobbet.

Trin 1) Gennemse Designer-lagertræet. Under SQLREP-mappen skal du vælge STAGEDB_ASN_PRODUCT_CCD_extract paralleljobbet. Højreklik på jobbet for at redigere. Designvinduet for det parallelle job åbnes i Designer-paletten.

Trin 2) Find det grønne ikon. Dette ikon angiver DB2-forbindelsestrinnet. Det bruges til at udtrække data fra CCD-tabellen. Double-klik på ikonet. Et sceneredigeringsvindue åbnes.

Indstilling af egenskaber for DataStage-jobbene

Indstilling af egenskaber for DataStage-jobbene

Trin 3) Klik på Indlæs i editoren for at udfylde felterne med forbindelsesoplysninger. Klik på OK for at lukke sceneeditoren og gemme dine ændringer.

Trin 4) Vend nu tilbage til designvinduet for STAGEDB_ASN_PRODUCT_CCD_extract paralleljobbet. Find ikonet for getSynchPoints DB2-konnektortrin. Dobbeltklik derefter på ikonet.

Trin 5) Klik nu på indlæs knappen for at udfylde felterne med forbindelsesoplysninger.

BEMÆRK: Hvis du bruger en anden database end STAGEDB som din Apply-kontrolserver. Vælg derefter muligheden for at indlæse forbindelsesoplysningerne for getSynchPoints-stadiet, som interagerer med kontroltabellerne i stedet for CCD-tabellen.

Trin 6) I dette trin,

  • Lav en tom tekstfil på systemet, hvor InfoSphere DataStage kører.
  • Navngiv denne fil som productdataset.ds og noter, hvor du har gemt den.
  • DataStage vil skrive ændringer til denne fil, efter den har hentet ændringer fra CCD-tabellen.
  • Datasæt eller filer, der bruges til at flytte data mellem sammenkædede job, er kendt som vedvarende datasæt. Det er repræsenteret af et DataSet-stadium.

Trin 7) Åbn nu sceneeditoren i designvinduet, og dobbeltklik på ikonet insert_into_a_dataset. Det åbner et andet vindue.

Indstilling af egenskaber for DataStage-jobbene

Trin 8) I dette vindue

Indstilling af egenskaber for DataStage-jobbene

  • Under fanen Egenskaber sørger du for, at Target mappen er åben, og egenskaben File = DATASETNAME er fremhævet.
  • Til højre vil du have et filfelt
  • Indtast den fulde sti til filen productdataset.ds
  • Klik på 'OK'.

Du har nu opdateret alle nødvendige egenskaber for produkt-CCD-tabellen. Luk designvinduet og gem alle ændringer.

Trin 9) Find og åbn det parallelle job STAGEDB_ASN_INVENTORY_CCD_extract fra lagerruden i Designeren og gentag trin 3-8.

BEMÆRK:

  • Du skal indlæse forbindelsesoplysningerne for kontrolserverdatabasen i sceneeditoren for at fåSynchPoints fase. Hvis din kontrolserver ikke er STAGEDB.
  • For STAGEDB_ST00_AQ00_getExtractRange og STAGEDB_ST00_AQ00_markRangeProcessed paralleljob skal du åbne alle DB2-konnektortrinene. Brug derefter load-funktionen til at tilføje forbindelsesoplysninger til STAGEDB-databasen

Kompilering og kørsel af DataStage-job

Når DataStage-jobbet er klar til at kompilere, validerer Designeren designet af jobbet ved at se på input, transformationer, udtryk og andre detaljer.

Når jobkompileringen er gennemført, er den klar til at køre. Vi kompilerer alle fem job, men kører kun "jobsekvensen". Dette skyldes, at dette job styrer alle de fire parallelle job.

Trin 1) Under SQLREP-mappen. Vælg hvert af de fem job ved at (Ctrl+Shift). Højreklik derefter og vælg Mulighed for kompilering af flere job.

Kompilering og kørsel af DataStage-job

Trin 2) Du vil se, at fem job er valgt i DataStage Compilation Wizard. Klik på Næste.

Kompilering og kørsel af DataStage-job

Trin 3) Kompileringen begynder, og meddelelsen "Kompileret med succes" vises, når den er færdig.

Kompilering og kørsel af DataStage-job

Trin 4) Start nu DataStage og QualityStage Director. Vælg Start > Alle programmer > IBM Informationsserver > IBM WebSphere DataStage og QualityStage Director.

Trin 5) I projektnavigationsruden til venstre. Klik på mappen SQLREP. Dette bringer alle fem job ind i direktørstatustabellen.

Trin 6) Vælg jobbet STAGEDB_AQ00_S00_sequence. Klik på Job > Kør nu fra menulinjen.

Kompilering og kørsel af DataStage-job

Når kompileringen er færdig, vil du se den færdige status.

Kompilering og kørsel af DataStage-job

Kontroller nu, om ændrede rækker, der er gemt i PRODUCT_CCD- og INVENTORY_CCD-tabellerne, blev udtrukket af DataStage og indsat i de to datasætfiler.

Trin 7) Gå tilbage til Designeren og åbn STAGEDB_ASN_PRODUCT_CCD_extract-jobbet. For at åbne sceneeditoren Double-klik på ikonet insert_into_a_dataset. Klik derefter på vis data.

Trin 8) Accepter standardindstillingerne i vinduet med rækker, der skal vises. Klik derefter på OK. Et databrowservindue åbnes for at vise indholdet af datasætfilen.

Kompilering og kørsel af DataStage-job

Test af integration mellem SQL-replikering og DataStage

I det foregående trin kompilerede og udførte vi jobbet. I dette afsnit vil vi kontrollere integrationen af ​​SQL-replikering og DataStage. Til det vil vi foretage ændringer i kildetabellen og se, om den samme ændring er opdateret i DataStage.

Trin 1) Naviger til mappen sqlrepl-datastage-scripts til dit operativsystem.

Trin 2) Start SQL-replikering ved at følge trin:

  • Kør startSQLCapture.bat (Windows) fil for at starte Capture-programmet i SALES-databasen.
  • Kør startSQLAply.bat (Windows) fil for at starte Apply-programmet i STAGEDB-databasen.

Trin 3) Åbn nu filen updateSourceTables.sql. For tilslutning til SALES-databasen udskift og med bruger-id og adgangskode.

Trin 4) Åbn et DB2-kommandovindue. Skift mappe til sqlrepl-datastage-tutorial\scripts, og kør problemet med den givne kommando:

db2 -tvf updateSourceTables.sql

SQL-scriptet vil udføre forskellige operationer som Opdater, Indsæt og slet på begge tabeller (PRODUCT, INVENTORY) i salgsdatabasen.

Trin 5) På systemet hvor DataStage kører. Åbn DataStage Director og udfør STAGEDB_AQ00_S00_sequence-jobbet. Klik på Job > Kør nu.

Integration mellem SQL-replikering og DataStage

Når du kører jobbet, udføres følgende aktiviteter.

  • Capture-programmet læser ændringerne med seks rækker i SALES-databaseloggen og indsætter dem i cd-tabellerne.
  • Apply-programmet henter ændringsrækkerne fra CD-tabellerne hos SALES og indsætter dem i CCD-tabellerne på STAGEDB.
  • De to DataStage-udtræksjob opfanger ændringerne fra CCD-tabellerne og skriver dem til filerne productdataset.ds og inventory dataset.ds.

Du kan kontrollere, at ovenstående trin fandt sted ved at se på datasættene.

Trin 6) Følg nedenstående trin,

  • Start Designeren. Åbn STAGEDB_ASN_PRODUCT_CCD_extract-jobbet.
  • Derefter Double-klik på ikonet insert_into_a_dataset. I sceneredaktøren. Klik på Vis data.
  • Accepter standardindstillingerne i vinduet med rækker, der skal vises, og klik på OK.

Datasættet indeholder tre nye rækker. Den nemmeste måde at kontrollere ændringerne er implementeret ved at scrolle ned til højre i databrowseren. Se nu på de sidste tre rækker (se billedet nedenfor)

Integration mellem SQL-replikering og DataStage

Bogstavet I, U og D angiver INSERT, UPDATE og DELETE operationer, der resulterede i hver ny række.

Du kan foretage den samme kontrol for inventartabellen.

Resumé

  • Datastage er en ETL værktøj som udtrækker data, transformerer og indlæser data fra kilden til målet.
  • Det letter forretningsanalyse ved at levere kvalitetsdata for at hjælpe med at opnå business intelligence.
  • DataStage er opdelt i to sektioner, Delte komponenter og Runtime Architecture.
  • DataStage har fire hovedkomponenter,
  • Administrator
  • Manager
  • Designer
  • Direktør
  • Følgende er de vigtigste aspekter af IBM InfoSphere DataStage
  • Datatransformation
  • Karriere
  • Parallel behandling
  • I jobdesign er forskellige stadier involveret
  • Forvandle scenen
  • Filterstadie
  • Aggregator fase
  • Fjern dubletter
  • Kom med på scenen
  • Opslagsfase