DataStage Tutorial for begyndere: IBM ETL værktøj

⚡ Smart opsummering

DataStage fra IBM InfoSphere extracts, transformerer og indlæser virksomhedsdata i stor skala. Denne side forklarer arkitektur, komponenter, parallel processering, opsætning af SQL-replikering, projektoprettelse, jobkompilering og integrationstest ved hjælp af et praktisk DB2-detaileksempel.

🧩 Kernedefinition: DataStage flytter data fra sekventielle filer, relationsdatabaser, mainframes, ERP- og CRM-systemer til en styret destination.
🏗️ ArchiTeksturlag: Administrator-, leder-, designer- og direktørklienter sidder oven på delte tjenester og en skalerbar parallel runtime-motor.
⚡ Parallel udførelse: Pipeline-parallelisme streamer poster mellem faser, mens partitionsparallelisme opdeler volumen på tværs af noder for næsten lineær skalerbarhed.
🔁 Opsætning af replikering: ASNCLP-scripts bygger Capture- og Apply-kontroltabeller, registreringer, abonnementssæt og CCD-tabeller i DB2.
🛠️ Joblivscyklus: Designeren samler faser og links, hvorefter direktøren validerer, planlægger, udfører og overvåger kompilerede parallelle og sekvensjob.
✅ Valideringstrin: Opdatering af kilderækker og genkørsel af sekvensjobbet bekræfter, at I-, U- og D-flag når ex-adressentracted-datasæt.

Læs mere

Hvad er DataStage?

DataStage er et ETL-værktøj, der bruges til attract, transformere og indlæse data fra kilden til måldestinationen. Kilden til disse data kan omfatte sekventielle filer, indekserede filer, relationelle databaser, eksterne datakilder, arkiver, virksomhedsapplikationer osv. DataStage bruges til at lette forretningsanalyse ved at levere kvalitetsdata, der hjælper med at opnå business intelligence.

DataStage ETL-værktøjet bruges i store organisationer som en grænseflade mellem forskellige systemer. Det tager sig af f.eks.traction, oversættelse og indlæsning af data fra kilde til måldestination. Det blev først lanceret af VMark i midten af 90'erne. Med IBM erhvervede DataStage i 2005 og blev omdøbt til IBM WebSphere DataStage og senere til IBM InfoSphere.

Forskellige versioner af Datastage, der er tilgængelige på markedet indtil videre, var Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft og så videre. Den seneste udgave er IBM InfoSphere DataStage.

IBM Informationsserveren inkluderer følgende produkter,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM InfoSphere Information Services Director
IBM InfoSphere Information Analyzer
IBM Informationsserver HurtigTrack
IBM InfoSphere Business ordliste

Når definitionen er fastlagt, ser næste afsnit på, hvad produktet rent faktisk kan gøre inden for en datalager miljø.

DataStage Oversigt

Datastage har følgende egenskaber.

Det kan integrere data fra det bredeste udvalg af virksomhedsdata og eksterne datakilder
Implementerer datavalideringsregler
Det er nyttigt til at behandle og transformere store mængder data
Den bruger skalerbar parallel behandlingstilgang
Det kan håndtere komplekse transformationer og administrere flere integrationsprocesser
Udnyt direkte forbindelse til virksomhedsapplikationer som kilder eller mål
Udnyt metadata til analyse og vedligeholdelse
Operates i batch, realtid eller som en webservice

I de følgende afsnit af denne DataStage-vejledning beskriver vi kort de følgende aspekter af IBM InfoSphere DataStage:

Datatransformation
Karriere
Parallel behandling

InfoSphere DataStage og QualityStage kan få adgang til data i virksomhedsapplikationer og datakilder såsom:

Relationsdatabaser
Mainframe databaser
Forretnings- og analytiske applikationer
Enterprise Resource Planning (ERP) eller CRM-databaser (customer relationship management).
Online analytisk behandling (OLAP) eller performance management databaser

Behandlingsfasetyper

IBM infosfærejob består af individuelle faser, der er knyttet sammen. Den beskriver strømmen af data fra en datakilde til et datamål. Normalt har et trin minimum én datainput og/eller én dataoutput. Nogle trin kan dog acceptere mere end ét datainput og output til mere end ét trin.

I jobdesign kan du bruge forskellige faser:

Forvandle scenen
Filterstadie
Aggregator fase
Fjern dubletter
Kom med på scenen
Opslagsfase
Kopier scenen
Sorteringsstadie
Beholdere

Hvorfor bruge DataStage til dataintegration?

At kende funktionslisten er én ting; at vide, hvornår værktøjet tjener sin licenspris, er noget andet. DataStage vælges til arbejdsbelastninger, hvor volumen, styring og heterogene kilder gør håndskrevne scripts uhåndterlige.

Den klareste årsag er gennemløbshastighed. Fordi motoren partitionerer data på tværs af noder og streamer poster mellem faser på samme tid, øger tilføjelse af hardware gennemløbshastigheden næsten lineært. Et job designet på en udviklingsboks med to noder kører uændret på en produktionsklynge med otte noder.

De andre årsager er organisatoriske snarere end tekniske:

Delte metadata: Tabeldefinitioner, forbindelser og forretningstermer gemmes én gang i arkivet og genbruges af hvert job, hvilket fjerner den afvigelse, der opstår, når hver udvikler definerer en kilde uafhængigt.
Indbygget datakvalitet: QualityStage udfører undersøgelse, standardisering, matchning og overlevelse ved siden af ETL-flowet, så rensning ikke kræver et ekstra produkt.
Bred tilslutningsmulighed: Native connectors når DB2, OracleTeradata, mainframe VSAM, SAP, Salesforce og cloud-objektlagring uden brugerdefineret kode.
Operationel kontrol: Direktøren angiver kørselshistorik, rækkeantal, advarsler og genstartspunkter, som revisorer accepterer som bevis for en kontrolleret datapipeline.
Genanvendelighed: Delte containere og parametersæt lader én testet transformation udføre mange job i stedet for at blive kopieret til hvert af dem.

Disse fordele afhænger direkte af, hvordan produktet samles, hvilket forklares i næste afsnit.

DataStage-komponenter og Architecture

DataStage har fire hovedkomponenter, nemlig

administrator: Det bruges til administrationsopgaver. Dette inkluderer opsætning af DataStage-brugere, opsætning af rensekriterier og oprettelse og flytning af projekter.
Manager: Det er hovedgrænsefladen til Repository of ETL DataStage. Det bruges til lagring og styring af genanvendelige metadata. Gennem DataStage manager kan man se og redigere indholdet af Repository.
Designer: En designgrænseflade, der bruges til at skabe DataStage-applikationer ELLER job. Det specificerer datakilden, påkrævet transformation og destination for data. Jobs kompileres for at skabe en eksekverbar, som er planlagt af direktøren og køres af serveren
Instruktør: Det bruges til at validere, planlægge, udføre og overvåge DataStage-serverjob og parallelle job.

Ovenstående billede forklarer hvordan IBM Infosphere DataStage interagerer med andre elementer i IBM Information Server platform. DataStage er opdelt i to sektioner, Delte komponenter og Runtime ArchitectureTabellen nedenfor uddyber, hvad hver af disse to afsnit bidrager med.

		Aktiviteter
delt	Samlet brugergrænseflade	En grafisk designgrænseflade bruges til at skabe InfoSphere DataStage-applikationer (kendt som jobs). Hvert job bestemmer datakilderne, de nødvendige transformationer og destinationen for dataene. Jobs kompileres for at skabe parallelle jobflows og genanvendelige komponenter. De er planlagt og afviklet af InfoSphere DataStage og QualityStage Director. Designer-klienten administrerer metadata i lageret. Mens kompilerede udførelsesdata er implementeret på Information Server Engine-niveauet.
	Fælles tjenester	Metadatatjenester såsom konsekvensanalyse og søgning Designtjenester, der understøtter udvikling og vedligeholdelse af InfoSphere DataStage-opgaver Eksekveringstjenester, der understøtter alle InfoSphere DataStage-funktioner
	Fælles parallel behandling	Motoren kører eksekverbare job, der f.eks.tract, transformere og indlæse data i en bred vifte af indstillinger. Motorvalgstilgangen til parallel bearbejdning og pipelining til at håndtere en stor mængde arbejde.
Runtime Architecture	OSH script	Dette beskriver genereringen af OSH (orchestrate Shell Script) og eksekveringsflowet af IBM og strømmen af IBM Infosphere DataStage ved hjælp af informationsservermotoren Det giver dig mulighed for at bruge grafiske peg-og-klik-teknikker til at udvikle jobflows, f.eks.tracrensning, transformering, integration og indlæsning af data i målfiler.

Sådan fungerer parallelbehandling i DataStage

Arkitekturtabellen ovenfor betegner fælles parallelbehandling som en delt tjeneste. Dette afsnit forklarer, hvordan denne tjeneste rent faktisk udfører et job, fordi konceptet blev lovet i oversigten, og det bestemmer, hvor hurtigt et job afsluttes.

Et parallelt job bruger to mekanismer på samme tid, og begge anvendes automatisk under kørsel i stedet for at blive kodet manuelt.

1. Rørledningsparallelisme. Hvert trin i et job starter på én gang i stedet for at vente på, at det forrige trin afsluttes. Kildetrinnet begynder at læse rækker og sender dem til en pipeline i hukommelsen. Transformeren starter, så snart de første rækker ankommer, og sender sit output til en anden pipeline. Målforbindelsen begynder at skrive umiddelbart efter det. Der skrives ingen mellemliggende landingsfil, så et job med tre trin overlapper læsning, transformation og skrivning i stedet for at køre dem i rækkefølge.

2. Partitionsparallelisme. Rækkerne er opdelt i separate partitioner, og en fuld kopi af faselogikken kører mod hver partition på dens egen node. Otte partitioner betyder otte samtidige Transformer-instanser. Ved slutningen af flowet samles partitionerne tilbage i en enkelt strøm til målet.

Valg af den rigtige partitioneringsmetode er den vigtigste beslutning, en udvikler træffer om at justere:

Bil: Standardindstillingen. Systemet vælger en metode baseret på, hvad scenen har brug for.
Hash: Sender rækker med samme nøgleværdi til samme node. Kræves før Join, Aggregator og Remove Duplicates, så matchende nøgler mødes.
Runde Robin: Fordeler rækker jævnt en efter en. Bedste til indlæsning af en flad fil, hvor nøglegrupperping betyder ikke noget.
Hel: Kopierer hele datasættet til hver node. Bruges til små referencetabeller i en opslagsfase.
Samme: Holder den eksisterende partitionering uændret, hvilket undgår unødvendig ompartitionering mellem to faser.
Rækkevidde og modul: Fordel rækker efter et værdibånd eller efter en numerisk nøglerest, når en jævn fordeling er nødvendig.

En konfigurationsfil (APT_CONFIG_FILE) angiver, hvor mange noder der findes. Da antallet af noder ligger uden for jobbet, skaleres det samme kompilerede job fra en bærbar computer til et produktionsgitter uden en designændring.

Før noget af dette kan afprøves, skal miljøet være på plads.

Forudsætning for Datastage Tool

Til DataStage skal du bruge følgende opsætning.

InfoSphere
DataStage Server 9.1.2 eller nyere
Microsoft Visual Studio .NET 2010 Express Edition C++
Oracle klient (fuld klient, ikke en øjeblikkelig klient), hvis der oprettes forbindelse til en Oracle database
DB2-klient, hvis der oprettes forbindelse til en DB2-database

Nu i denne DataStage tutorials for begyndere-serien lærer vi, hvordan du downloader og installerer InfoSphere informationsserver.

Download og installation af InfoSphere Information Server

For at få adgang til DataStage skal du downloade og installere den seneste version af IBM InfoSphere Server. Serveren understøtter AIX, Linux og Windows operativsystem. Du kan vælge efter behov.

For at migrere dine data fra en ældre version af infosphere til en ny version bruger du aktivudvekslingsværktøjet.

Installationsfiler

For at installere og konfigurere Infosphere Datastage skal du have følgende filer i din opsætning.

Til Windows,

EtlDeploymentPackage-windows-oracle.pkg
EtlDeploymentPackage-windows-db2.pkg

Til Linux,

EtlDeploymentPackage-linux-db2.pkg
EtlDeploymentPackage-linux-oracle.pkg

Når serveren er installeret, bruger det udtænkte eksempel på resten af denne side registrering af ændringsdata, så det er nyttigt at se, hvordan ændringsdata bevæger sig, før de bygges.

Procesflow af ændringsdata i et CDC-transaktionsfasejob

Diagrammet ovenfor tracforetager en enkelt ændring fra kildedatabasen til målet i den rækkefølge, der er angivet nedenfor.

'InfoSphere CDC'-tjenesten til databasen overvåger og fanger ændringen fra en kildedatabase
Ifølge replikeringsdefinitionen overfører "InfoSphere CDC" ændringsdataene til "InfoSphere CDC for InfoSphere DataStage."
"InfoSphere CDC for InfoSphere DataStage"-serveren sender data til "CDC-transaktionsstadiet" gennem en TCP/IP-session. "InfoSphere CDC for InfoSphere DataStage"-serveren sender også en COMMIT-meddelelse (sammen med bogmærkeoplysninger) for at markere transaktionsgrænsen i den registrerede log.
For hver COMMIT-meddelelse, der sendes af "InfoSphere CDC for InfoSphere DataStage"-serveren, opretter "CDC-transaktionsstadiet" end-of-wave (EOW)-markører. Disse markører sendes på alle outputlinks til måldatabaseforbindelsestrinnet.
Når "target database connector stage" modtager en end-of-wave-markør på alle inputlinks, skriver den bogmærkeinformation til en bogmærketabel og forpligter derefter transaktionen til måldatabasen.
"InfoSphere CDC for InfoSphere DataStage"-serveren anmoder om bogmærkeoplysninger fra en bogmærketabel på "måldatabasen".
"InfoSphere CDC for InfoSphere DataStage"-serveren modtager bogmærkeoplysningerne.

Disse oplysninger bruges til,

Bestem startpunktet i transaktionsloggen, hvor ændringer læses, når replikering begynder.
For at afgøre, om den eksisterende transaktionslog kan ryddes op

Opsætning af SQL-replikering

Før du begynder med Datastage, skal du opsætte databasen. Du skal oprette to DB2-databaser.

En til at tjene som replikeringskilde og
En som mål.

Du vil også oprette to tabeller (produkt og lager) og udfylde dem med eksempeldata. Så kan du teste din integration imellem SQL Replikering og Datastage.

Fremover vil du opsætte SQL-replikering ved at oprette kontroltabeller, abonnementssæt, registreringer og abonnementssætmedlemmer. Vi vil lære mere om dette i detaljer i næste afsnit.

Her vil vi tage et eksempel på detailsalgsvare som vores database og oprette to tabeller Lager og Produkt. Disse tabeller vil indlæse data fra kilde til mål gennem disse sæt. (kontroltabeller, abonnementssæt, registreringer og abonnementssætmedlemmer.)

Trin 1) Opret en kildedatabase kaldet SALG. Under denne database skal du oprette to tabeller produkt og Inventory.

Trin 2) Kør følgende kommando for at oprette SALES-database.

db2 create database SALES

Trin 3) Slå arkivlogning til for SALES-databasen. Sikkerhedskopier også databasen ved at bruge følgende kommandoer

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Trin 4) I den samme kommandoprompt skal du skifte til undermappen setupDB i mappen sqlrepl-datastage-tutorial, som du har oprettet.tracfra den downloadede komprimerede fil.

Trin 5) Brug følgende kommando til at oprette inventartabel og importere data til tabellen ved at køre følgende kommando.

db2 import from inventory.ixf of ixf create into inventory

Trin 6) Opret en måltabel. Navngiv måldatabasen som STAGEDB.

Da du nu har oprettet både databasers kilde og mål, det næste trin i denne DataStage-tutorial, vil vi se, hvordan du replikerer det.

Følgende oplysninger kan være nyttige opsætning af en ODBC-datakilde i IBM Dokumentation til InfoSphere Information Server.

Oprettelse af SQL-replikeringsobjekter

Billedet nedenfor viser, hvordan flowet af ændringsdata leveres fra kilde- til måldatabasen. Du opretter et kilde-til-mål-kort.ping mellem borde kendt som medlemmer af abonnementssæt og grupper medlemmerne i en abonnement.

Replikationsenheden i InfoSphere CDC (Change Data Capture) omtales som et abonnement.

Ændringerne i kilden er fanget i "Capture control table", som sendes til CD-tabellen og derefter til måltabellen. Mens ansøgningsprogrammet vil have detaljerne om rækken, hvorfra der skal foretages ændringer. Det vil også slutte sig til CD-bordet i abonnementssæt.
Et abonnement indeholder kortping detaljer, der angiver, hvordan data i et kildedatalager anvendes på et måldatalager. Bemærk, at CDC nu kaldes Infosfære data replikering.
Når et abonnement udføres, fanger InfoSphere CDC ændringer i kildedatabasen. InfoSphere CDC leverer ændringsdataene til målet og gemmer oplysninger om synkroniseringspunkt i en bogmærketabel i måldatabasen.
InfoSphere CDC bruger bogmærkeoplysningerne til at overvåge forløbet af InfoSphere DataStage-jobbet.
I tilfælde af fejl, bruges bogmærkeoplysningerne som genstartpunkt. I vores eksempel, ASN.IBMSNAP_FEEDETL-tabellen gemmer DataStage-relateret synkroniseringspunktinformation, der bruges til at track DataStage-fremgang.

I dette afsnit af IBM DataStage træningsvejledning, du skal gøre følgende ting,

Opret CAPTURE CONTROL-tabeller og APPLY CONTROL-tabeller for at gemme replikeringsmuligheder
Registrer PRODUCT- og INVENTORY-tabellerne som replikeringskilder
Opret et abonnementssæt med to medlemmer
Opret medlemmer af abonnementssæt og mål CCD-tabeller

Brug ASNCLP kommandolinjeprogram til at konfigurere SQL-replikering

Trin 1) Find scriptfilen crtCtlTablesCaptureServer.asnclp i mappen sqlrepl-datastage-tutorial/setupSQLRep.

Trin 2) Erstat i filen og " ” med dit bruger-id og adgangskode for at oprette forbindelse til SALES-databasen.

Trin 3) Skift mapper til biblioteket sqlrepl-datastage-tutorial/setupSQLRep og kør scriptet. Brug følgende kommando. Kommandoen vil oprette forbindelse til SALES-databasen, generere et SQL-script til oprettelse af Capture-kontroltabellerne.

asnclp –f crtCtlTablesCaptureServer.asnclp

Trin 4) Find scriptfilen crtCtlTablesApplyCtlServer.asnclp i samme mappe. Erstat nu to forekomster af og " ” med bruger-id og adgangskode for at oprette forbindelse til STAGEDB-databasen.

Trin 5) Brug nu følgende kommando i den samme kommandoprompt til at oprette anvendelseskontroltabeller.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Trin 6) Find crtRegistration.asnclp-scriptfilerne og erstat alle forekomster af med bruger-id'et for at oprette forbindelse til SALES-databasen. Skift også " ” til adgangskoden til forbindelsen.

Trin 7) For at registrere kildetabellerne skal du bruge følgende script. Som en del af oprettelsen af registreringen vil ASNCLP-programmet oprette to cd-tabeller. CDPRODUKT OG CDINVENTOR.

asnclp –f crtRegistration.asnclp

Kommandoen CREATE REGISTRATION bruger følgende muligheder:

Differentiel opdatering: Den beder Anvend programmet om kun at opdatere måltabellen, når rækker i kildetabellen ændres
Billede begge: Denne indstilling bruges til at registrere værdien i kildekolonnen, før ændringen fandt sted, og én for værdien efter ændringen fandt sted.

Trin 8) Brug følgende trin for at oprette forbindelse til måldatabasen (STAGEDB).

Find filen crtTableSpaceApply.bat, åbn den i en teksteditor
Erstatte og med bruger-id og adgangskode
Indtast crtTableSpaceApply.bat i DB2-kommandovinduet og kør filen.
Denne batchfil opretter et nyt tablespace på måldatabasen ( STAGEDB)

Trin 9) Find crtSubscriptionSetAndAddMembers.asnclp-scriptfilerne, og foretag følgende ændringer.

Erstat alle forekomster af og med bruger-id og adgangskode til at oprette forbindelse til SALES-databasen (kilde).
Erstat alle forekomster af og med bruger-id'et for at oprette forbindelse til STAGEDB-databasen (mål).

Efter ændringer skal du køre scriptet for at oprette abonnementssæt (ST00), der grupperer kilde- og måltabellerne. Scriptet opretter også to abonnementssætmedlemmer og CCD (konsistente ændringsdata) i måldatabasen, der gemmer de ændrede data. Disse data vil blive forbrugt af Infosphere DataStage.

Trin 10) Kør scriptet for at oprette abonnementssættet, abonnementssætmedlemmer og CCD-tabeller.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Forskellige muligheder brugt til at oprette abonnementssæt og to medlemmer inkluderer

Komplet på kondenseret af
Ekstern
Indlæs type import eksport
Timing kontinuerlig

Trin 11) På grund af defekten i replikeringsadministrationsværktøjerne. Du skal udføre en anden batch-fil for at indstille TARGET_CAPTURE_SCHEMA-kolonnen i IBMSNAP_SUBS_SET kontroltabel til null.

Find filen updateTgtCapSchema.bat. Åbn det i en teksteditor. Erstatte og med bruger-id'et for at oprette forbindelse til STAGEDB-databasen.
Indtast kommandoen updateTgtCapSchema.bat i DB2-kommandovinduet, og kør filen.

Oprettelse af definitionsfiler for at knytte CCD-tabeller til DataStage

Før vi replikerer i næste trin, skal vi forbinde CCD-tabellen med DataStage. I dette afsnit vil vi se, hvordan du forbinder SQL med DataStage.

For at forbinde CCD-tabellen med DataStage skal du oprette Datastage-definitionsfiler (.dsx). .dsx-filformatet bruges af DataStage til at importere og eksportere jobdefinitioner. Du skal bruge ASNCLP-scriptet til at oprette to .dsx-filer. For eksempel har vi her oprettet to .dsx-filer.

stagedb_AQ00_SET00_sJobs.dsx: Opretter en jobsekvens, der styrer arbejdsgangen for de fire parallelle job.
stagedb_AQ00_SET00_pJobs.dsx : Opretter de fire parallelle job

ASNCLP-programmet knytter automatisk CCD-kolonnen til Datastage Column-formatet. Det understøttes kun, når ASNCLP kører på Windows, Linux eller Unix-procedure.

Datastage-job trækker rækker fra CCD-tabellen.

Et job sætter et synkroniseringspunkt, hvor DataStage slap i f.eks.tracdata fra de to tabeller. Jobbet henter disse oplysninger ved at vælge SYNCHPOINT-værdien for ST00-abonnementssættet fra IBMSNAP_SUBS_SET-tabellen og indsætte den i kolonnen MAX_SYNCHPOINT i IBMSNAP_FEEDETL tabel.
To job, der eks.tracdata fra tabellerne PRODUCT_CCD og INVENTORY_CCD. Jobbene ved, hvilke rækker de skal starte, f.eks.tracved at vælge værdierne MIN_SYNCHPOINT og MAX_SYNCHPOINT fra IBMSNAP_FEEDETL-tabel for abonnementssættet.

Når definitionerne er kortlagt, kan replikeringen nu startes, så CCD-tabellerne begynder at blive fyldt.

Starter replikering

For at starte replikering skal du bruge nedenstående trin. Når CCD-tabeller er udfyldt med data, angiver det, at replikeringsopsætningen er valideret. Brug den grafiske brugergrænseflade i DB2 Control Center til at se de replikerede data i CCD-måltabellerne.

Trin 1) Sørg for, at DB2 kører, hvis ikke, brug så db2 start kommando.

Trin 2) Brug derefter asncap-kommandoen fra en styresystemprompt for at starte optagelse af program. F.eks.

asncap capture_server=SALES

Ovenstående kommando angiver SALES-databasen som Capture-serveren. Hold kommandovinduet åbent, mens optagelsen kører.

Trin 3) Åbn nu en ny kommandoprompt. Start derefter ANSØGE program ved at bruge kommandoen asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Kommandoen angiver STAGEDB-databasen som Apply-kontrolserveren (databasen, der indeholder Apply-kontroltabellerne)
AQ00 som Apply-kvalifikationen (identifikationen for dette sæt kontroltabeller)

Lad kommandovinduet være åbent, mens Anvend kører.

Trin 4) Åbn nu en anden kommandoprompt, og afgiv kommandoen db2cc for at starte DB2 Kontrolcenter. Accepter standardkontrolcenteret.

Trin 5) Åbn nu Alle databaser > STAGEDB i venstre navigationstræ, og klik derefter på Tabeller. Double klik på tabelnavn ( Produkt CCD) for at åbne tabellen. Det vil se sådan ud.

Ligeledes kan du også åbne CCD-tabellen for INVENTORY.

Replikering føder nu CCD-tabellerne, så opmærksomheden flyttes fra databasesiden til DataStage-klienterne.

Sådan opretter du projekter i Datastage Tool

Først og fremmest skal du oprette et projekt i DataStage. Til det skal du være InfoSphere DataStage-administrator.

Når installationen og replikeringen er færdig, skal du oprette et projekt. I DataStage er projekter en metode til at organisere dine data. Det inkluderer at definere datafiler, stadier og byggejobs i et specifikt projekt.

Følg nedenstående trin for at oprette et projekt i DataStage:

Trin 1) Start DataStage-softwaren

Start DataStage og QualityStage Administrator. Klik derefter på Start > Alle programmer > IBM Informationsserver > IBM WebSphere DataStage og QualityStage administrator.

Trin 2) Forbind DataStage-server og klient

For at oprette forbindelse til DataStage-serveren fra din DataStage-klient skal du indtaste detaljer som domænenavn, bruger-id, adgangskode og serveroplysninger.

Trin 3) Tilføj et nyt projekt

I vinduet WebSphere DataStage Administration. Klik på fanen Projekter, og klik derefter på Tilføj.

Trin 4) Indtast projektdetaljerne

I vinduet WebSphere DataStage Administration skal du indtaste detaljer som f.eks

Navn
Placering af fil
Klik på 'OK'

Hvert projekt indeholder:

DataStage jobs
Indbyggede komponenter. Disse er foruddefinerede komponenter, der bruges i et job.
Brugerdefinerede komponenter. Disse er tilpassede komponenter, der er oprettet ved hjælp af DataStage Manager eller DataStage Designer.

Vi vil se, hvordan du importerer replikeringsjob i Datastage Infosphere.

Sådan importeres replikeringsjob i Datastage og QualityStage Designer

Du vil importere job i IBM InfoSphere DataStage og QualityStage Designer-klient. Og du udfører dem i IBM InfoSphere DataStage og QualityStage Director klient.

Designeren-klienten er som et blankt lærred til byggeprojekter. Det eks.tracts, transformere, indlæse og kontrollere datakvaliteten. Det leverer værktøjer, der danner de grundlæggende byggesten i et job. Det inkluderer

Praktikophold: Den forbinder til datakilder for at læse eller skrive filer og behandle data.
Links: Det forbinder de stadier, som dine data flyder langs

Faserne i InfoSphere DataStage- og QualityStage Designer-klienten gemmes i Designer-værktøjspaletten.

Følgende trin er inkluderet i InfoSphere QualityStage:

Undersøg scenen
Standardiser scenen
Match Frequency fase
One-source Match fase
Matchfase med to kilder
Overlev scenen
Standardiseringskvalitetsvurdering (SQA) fase

Du kan oprette 4 typer job i DataStage infosphere.

Parallel job
Sekvensjob
Mainframe job
Server job

Lad os se trin for trin, hvordan du importerer replikeringsjobfiler.

Trin 1) Start DataStage og QualityStage Designer. Klik på Start > Alle programmer > IBM Informationsserver > IBM WebSphere DataStage og QualityStage Designer

Trin 2) Indtast følgende detaljer i vinduet Vedhæft til projekt.

Domæne
brugernavn
Adgangskode
Projektnavn
OK

Trin 3) Klik nu på Importer i menuen Filer -> DataStage-komponenter.

Et nyt DataStage Repository Import-vindue åbnes.

Gennemse i dette vindue STAGEDB_AQ00_ST00_sJobs.dsx fil, som vi havde oprettet tidligere
Vælg muligheden "Importer alle."
Markér afkrydsningsfeltet "Udfør effektanalyse".
Klik på 'OK'.

Når jobbet er importeret, vil DataStage oprette STAGEDB_AQ00_ST00_sequence-job.

Trin 4) Følg de samme trin for at importere STAGEDB_AQ00_ST00_pJobs.dsx fil. Denne import skaber de fire parallelle job.

Trin 5) Under Designer Repository-ruden -> Åbn mappen SQLREP. Inde i mappen vil du se Sequence Job og fire parallelle job.

Trin 6) For at se sekvensjobbet. Gå til lagertræet, højreklik på STAGEDB_AQ00_ST00_sequence-jobbet, og klik på Rediger. Det vil vise arbejdsgangen for de fire parallelle job, som jobsekvensen styrer.

Hvert ikon er en scene,

getExtractRange-trin: Den opdaterer IBMSNAP_FEEDETL-tabellen. Den vil sætte startpunktet for data f.eks.traction til det punkt, hvor DataStage sidste gangtractede rækker og indstil slutpunktet til den sidste transaktion, der blev behandlet for abonnementssættet.
getExtractRangeSuccesDenne fase giver udgangspunkterne til eks.tractFromINVENTORY_CCD-scene og extractFraPRODUCT_CCD-scenen
AllExtractsSucces: Denne fase sikrer, at både extractFromINVENTORY_CCD og extractFromPRODUCT_CCD blev gennemført. Derefter sendes synkroniseringspunkter for de sidste rækker, der blev hentet, til setRangeProcessed-fasen.
setRangeProcessed stage: Den opdateres IBMSNAP_FEEDETL-tabellen. Så DataStage ved, hvor den næste datarunde skal begynde fra, f.eks.traction

Trin 7) For at se de parallelle job. Højreklik på STAGEDB_ASN_INVENTORY_CCD og vælg rediger under repository. Det åbner vinduet som vist nedenfor.

Her i ovenstående billede kan du se, at dataene fra Inventory CCD tabel og Synch-punktdetaljer fra FEEDETL-tabellen gengives til Lookup_6-stadiet.

De importerede job peger stadig på ingenting, så der skal defineres et dataforbindelsesobjekt.

Oprettelse af en dataforbindelse fra DataStage til STAGEDB-databasen

Nu er næste trin at bygge en dataforbindelse mellem InfoSphere DataStage og SQL Replication-måldatabasen. Den indeholder CCD-tabellerne.

I DataStage bruger du dataforbindelsesobjekter med relaterede forbindelsestrin til hurtigt at definere en forbindelse til en datakilde i et jobdesign.

Trin 1) STAGEDB indeholder begge de Apply-kontroltabeller, som DataStage bruger til at synkronisere sine dataeksempler.tracog CCD-tabellerne, hvorfra dataene er hentettracBrug følgende kommandoer

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Bemærk: IP-adressen på systemet, hvor STAGEDB blev oprettet

Trin 2) Klik på Filer > Ny > Andet > Dataforbindelse.

Trin 3) Du vil have et vindue med to faner, Parameters og General.

Trin 4) I dette trin,

Generelt, faneblad, navngiv dataforbindelsen sqlreplConnect
På fanen Parametre, som vist nedenfor

Klik på knappen Gennemse ved siden af feltet 'Forbind ved hjælp af Stage Type' og i
Åbn vinduet naviger i lagertræet til Stage Types –> Parallel–> Database —-> DB2 Connector.
Klik på Åbn.

Trin 5) Indtast detaljer som f.eks. i tabellen Forbindelsesparametre

Forbindelsesstreng: STAGEDB2
Brugernavn: Bruger-id til at oprette forbindelse til STAGEDB-databasen
Adgangskode: Adgangskode til at oprette forbindelse til STAGEDB-databasen
Instans: Navn på DB2-subsystem, der indeholder STAGEDB-databasen

Trin 6) Gem dataforbindelse i det næste vindue. Klik på knappen 'Gem'.

Import af tabeldefinitioner fra STAGEDB til DataStage

I det forrige trin så vi, at InfoSphere DataStage og STAGEDB-databasen er forbundet. Importer nu kolonnedefinition og andre metadata for PRODUCT_CCD- og INVENTORY_CCD-tabellerne til Information Server-lageret.

Følg nedenstående trin i designervinduet.

Trin 1) Vælg Importer > Tabeldefinitioner > Start guiden Connector Import

Trin 2) Vælg DB2 Connector på siden til valg af forbindelse i guiden, og klik på Næste.

Trin 3) Klik på indlæs på forbindelsesdetaljesiden. Dette vil udfylde guidens felter med forbindelsesoplysninger fra den dataforbindelse, du oprettede i forrige kapitel.

Trin 4) Klik på Test forbindelse på samme side. Dette vil bede DataStage om at forsøge at oprette forbindelse til STAGEDB-databasen. Du kan se meddelelsen "forbindelsen er vellykket". Klik på Næste.

Trin 5) Sørg for, at felterne Værtsnavn og Databasenavn er korrekt udfyldt på siden Datakildeplacering. Klik derefter på næste.

Trin 6) På Skema-siden. Indtast skemaet for Anvend kontroltabellerne (ASN), eller kontroller, at ASN-skemaet er forududfyldt i skemafeltet. Klik derefter på næste. Udvælgelsessiden viser listen over tabeller, der er defineret i ASN-skemaet.

Trin 7) Den første tabel, hvorfra vi skal importere metadata, er IBMSNAP_FEEDETL, en Apply-kontroltabel. Den indeholder detaljer om synkroniseringspunkterne, der gør det muligt for DataStage at holde track af hvilke rækker den har hentet fra CCD-tabellerne. Vælg IBMSNAP_FEEDETL og klik på Næste.

Trin 8) For at fuldføre importen af IBMSNAP_FEEDETL tabeldefinition. Klik på import, og klik derefter på åben i det åbne vindue.

Trin 9) Gentag trin 1-8 to gange mere for at importere definitionerne for PRODUCT_CCD-tabellen og derefter INVENTORY_CCD-tabellen.

BEMÆRK: Mens du importerer definitioner for beholdningen og produktet, skal du sørge for at ændre skemaerne fra ASN til det skema, som PRODUCT_CCD og INVENTORY_CCD blev oprettet under.

Nu har DataStage alle de detaljer, som det kræver at oprette forbindelse til SQL Replication-måldatabasen.

Indstilling af egenskaber for DataStage-jobbene

For hver af de fire DataStage parallelle job, som vi har, indeholder den en eller flere stadier, der forbinder med STAGEDB-databasen. Du skal ændre stadierne for at tilføje forbindelsesoplysninger og linke til datasætfiler, som DataStage udfylder.

Faser har foruddefinerede egenskaber, der kan redigeres. Her vil vi ændre nogle af disse egenskaber for STAGEDB_ASN_PRODUCT_CCD_ex.tracet parallelt job.

Trin 1) Gennemse Designer-arkivets træstruktur. Vælg STAGEDB_ASN_PRODUCT_CCD_ex under SQLREP-mappen.tracparallelt job. Højreklik på jobbet for at redigere. Designvinduet for det parallelle job åbnes i Designer-paletten.

Trin 2) Find det grønne ikon. Dette ikon angiver DB2-forbindelsesfasen. Det bruges f.eks.tracHenter data fra CCD-tabellen. Double-klik på ikonet. Et sceneredigeringsvindue åbnes.

Trin 3) Klik på Indlæs i editoren for at udfylde felterne med forbindelsesoplysninger. Klik på OK for at lukke sceneeditoren og gemme dine ændringer.

Trin 4) Gå nu tilbage til designvinduet for STAGEDB_ASN_PRODUCT_CCD_extract parallelt job. Find ikonet for getSynchPoints DB2-konnektortrin. Dobbeltklik derefter på ikonet.

Trin 5) Klik nu på indlæs knappen for at udfylde felterne med forbindelsesoplysninger.

BEMÆRK: Hvis du bruger en anden database end STAGEDB som din Apply-kontrolserver. Vælg derefter muligheden for at indlæse forbindelsesoplysningerne for getSynchPoints-stadiet, som interagerer med kontroltabellerne i stedet for CCD-tabellen.

Trin 6) I dette trin,

Lav en tom tekstfil på systemet, hvor InfoSphere DataStage kører.
Navngiv denne fil som productdataset.ds og noter, hvor du har gemt den.
DataStage vil skrive ændringer til denne fil, efter den har hentet ændringer fra CCD-tabellen.
Datasæt eller filer, der bruges til at flytte data mellem sammenkædede job, er kendt som vedvarende datasæt. Det er repræsenteret af et DataSet-stadium.

Trin 7) Åbn nu sceneeditoren i designvinduet, og dobbeltklik på ikonet insert_into_a_dataset. Det åbner et andet vindue.

Trin 8) I dette vindue

Under fanen Egenskaber sørger du for, at Target mappen er åben, og egenskaben File = DATASETNAME er fremhævet.
Til højre vil du have et filfelt
Indtast den fulde sti til filen productdataset.ds
Klik på 'OK'.

Du har nu opdateret alle nødvendige egenskaber for produkt-CCD-tabellen. Luk designvinduet og gem alle ændringer.

Trin 9) Find og åbn nu STAGEDB_ASN_INVENTORY_CCD_extracHent et parallelt job fra lagerpanelet i Designeren, og gentag trin 3-8.

BEMÆRK:

Du skal indlæse forbindelsesoplysningerne for kontrolserverdatabasen i sceneeditoren for at fåSynchPoints fase. Hvis din kontrolserver ikke er STAGEDB.
For STAGEDB_ST00_AQ00_getExtracParallelle jobs tRange og STAGEDB_ST00_AQ00_markRangeProcessed, åbn alle DB2-forbindelsestrin. Brug derefter indlæsningsfunktionen til at tilføje forbindelsesoplysninger til STAGEDB-databasen.

Alle egenskaber er nu angivet, så jobbene kan kompileres og udføres.

Kompilering og kørsel af DataStage-job

Når DataStage-jobbet er klar til at kompilere, validerer Designeren designet af jobbet ved at se på input, transformationer, udtryk og andre detaljer.

Når jobkompileringen er gennemført, er den klar til at køre. Vi kompilerer alle fem job, men kører kun "jobsekvensen". Dette skyldes, at dette job styrer alle de fire parallelle job.

Trin 1) Under SQLREP-mappen. Vælg hvert af de fem job ved at (Ctrl+Shift). Højreklik derefter og vælg Mulighed for kompilering af flere job.

Trin 2) Du vil se, at fem job er valgt i DataStage Compilation Wizard. Klik på Næste.

Trin 3) Kompileringen begynder, og meddelelsen "Kompileret med succes" vises, når den er færdig.

Trin 4) Start nu DataStage og QualityStage Director. Vælg Start > Alle programmer > IBM Informationsserver > IBM WebSphere DataStage og QualityStage Director.

Trin 5) I projektnavigationsruden til venstre. Klik på mappen SQLREP. Dette bringer alle fem job ind i direktørstatustabellen.

Trin 6) Vælg jobbet STAGEDB_AQ00_S00_sequence. Klik på Job > Kør nu fra menulinjen.

Når kompileringen er færdig, vil du se den færdige status.

Kontroller nu, om de ændrede rækker, der er gemt i tabellerne PRODUCT_CCD og INVENTORY_CCD, var eks.tracted af DataStage og indsat i de to datasætfiler.

Trin 7) Gå tilbage til Designeren, og åbn STAGEDB_ASN_PRODUCT_CCD_extract job. For at åbne sceneeditoren Double-klik på ikonet insert_into_a_dataset. Klik derefter på vis data.

Trin 8) Accepter standardindstillingerne i vinduet med rækker, der skal vises. Klik derefter på OK. Et databrowservindue åbnes for at vise indholdet af datasætfilen.

Test af integration mellem SQL-replikering og DataStage

I det foregående trin kompilerede og udførte vi jobbet. I dette afsnit vil vi kontrollere integrationen af SQL-replikering og DataStage. Til det vil vi foretage ændringer i kildetabellen og se, om den samme ændring er opdateret i DataStage.

Trin 1) Naviger til mappen sqlrepl-datastage-scripts til dit operativsystem.

Trin 2) Start SQL-replikering ved at følge trin:

Kør startSQLCapture.bat (Windows) fil for at starte Capture-programmet i SALES-databasen.
Kør startSQLAply.bat (Windows) fil for at starte Apply-programmet i STAGEDB-databasen.

Trin 3) Åbn nu filen updateSourceTables.sql. For tilslutning til SALES-databasen udskift og med bruger-id og adgangskode.

Trin 4) Åbn et DB2-kommandovindue. Skift mappe til sqlrepl-datastage-tutorial\scripts, og kør problemet med den givne kommando:

db2 -tvf updateSourceTables.sql

SQL-scriptet vil udføre forskellige operationer som Opdater, Indsæt og slet på begge tabeller (PRODUCT, INVENTORY) i salgsdatabasen.

Trin 5) På systemet hvor DataStage kører. Åbn DataStage Director og udfør STAGEDB_AQ00_S00_sequence-jobbet. Klik på Job > Kør nu.

Når du kører jobbet, udføres følgende aktiviteter.

Capture-programmet læser ændringerne med seks rækker i SALES-databaseloggen og indsætter dem i cd-tabellerne.
Apply-programmet henter ændringsrækkerne fra CD-tabellerne hos SALES og indsætter dem i CCD-tabellerne på STAGEDB.
De to DataStage-eksemplertract-jobs opsamler ændringerne fra CCD-tabellerne og skriver dem til productdataset.ds- og inventory dataset.ds-filerne.

Du kan kontrollere, at ovenstående trin fandt sted ved at se på datasættene.

Trin 6) Følg nedenstående trin,

Start designeren. Åbn STAGEDB_ASN_PRODUCT_CCD_extracikke jobbet.
Derefter Double-klik på ikonet insert_into_a_dataset. I sceneredaktøren. Klik på Vis data.
Accepter standardindstillingerne i vinduet med rækker, der skal vises, og klik på OK.

Datasættet indeholder tre nye rækker. Den nemmeste måde at kontrollere ændringerne er implementeret ved at scrolle ned til højre i databrowseren. Se nu på de sidste tre rækker (se billedet nedenfor)

Bogstavet I, U og D angiver INSERT, UPDATE og DELETE operationer, der resulterede i hver ny række.

Du kan foretage den samme kontrol for inventartabellen.

DataStage vs. andre populære ETL-værktøjer

Når end-to-end-flowet fungerer, er det sædvanlige næste spørgsmål, hvor DataStage ligger i forhold til de alternativer, som et team måske allerede ejer. Tabellen nedenfor sammenligner det med tre udbredte platforme på de kriterier, der oftest afgør et køb.

Kriterier	IBM DataStage	computer PowerCenter	Talent	SSIS
Behandlingsmodel	Pipeline plus partition parallelisme	Metadatadrevet partitionering	genereret Java or Spark kode	Dataflow i hukommelsen
Bedste pasform	Meget store virksomhedsbatch- og CDC-arbejdsbelastninger	Komplekse ældre arkitekturer med tung styring	Cloud-native og omkostningsfølsomme teams	Microsoft SQL Server godser
Licenser	Kommerciel, premium-niveau	Kommerciel	Open source-udgave plus kommercielle niveauer	Leveres med SQL Server
Indlæringskurve	Stejle ETL-specialister søges	Stejl	Moderat, kodningsfærdigheder hjælper	Moderat
Datakvalitet	QualityStage inkluderet i pakken	Separat produkt til datakvalitet	Talentdatakvalitet inkluderet	Tilføjelseskomponenter

Kort sagt, DataStage vælges, når rå gennemløb, mainframe-rækkevidde og revisionsklar afstamning betyder mere end licensomkostninger. Teams, der primært arbejder i en cloud. data sø arkitektur eller sammenligne f.eks.tracat bestille først kan muligvis finde afvejningerne i ETL vs ELT mere relevant, og en bredere shortliste vises i opsummeringen af ETL værktøjer og dataintegrationsværktøjer.

Ofte Stillede Spørgsmål

Et serverjob kører på en enkelt node ved hjælp af et begrænset sæt af scener. Et parallelt job kører på den parallelle motor, understøtter partitionering på tværs af noder og bruger en mere omfattende scenepalette, så det skalerer til langt større volumener.

Ja. Sammen med den lokale informationsserver, IBM tilbyder DataStage som en administreret tjeneste på IBM Cloud Pak til data og inden for watsonx.data-integration, så de samme flowdesigns kan køre uden lokal serveradministration.

Det meste arbejde er grafisk. Nyttige tilføjelser er SQL til kildeforespørgsler, shell-scripting til jobkontrol og DataStage BASIC-udtrykssproget, der bruges i Transformer-stadieafledninger og -rutiner.

AI-assistenter i IBM Cloud Pak for Data foreslår kilde-til-mål-kortpings, generere transformationsudtryk fra almindeligt sprog, registrere skemadrift og anbefale partitioneringsændringer, når et job kører langsommere end dets baseline.

Nej. AI accelererer kortetping, dokumentation og forslag til justering, men udviklerne ejer stadig datamodellering, forretningsregler, håndtering af undtagelser og produktionsansvar. Rollen skifter i stedet for at forsvinde i retning af gennemgang og design.

DataStage Tutorial for begyndere: IBM ETL værktøj

Hvad er DataStage?

DataStage Oversigt

Behandlingsfasetyper

Hvorfor bruge DataStage til dataintegration?

DataStage-komponenter og Architecture

Sådan fungerer parallelbehandling i DataStage

Forudsætning for Datastage Tool

Download og installation af InfoSphere Information Server

Procesflow af ændringsdata i et CDC-transaktionsfasejob

Opsætning af SQL-replikering

Oprettelse af SQL-replikeringsobjekter

Oprettelse af definitionsfiler for at knytte CCD-tabeller til DataStage

Starter replikering

Sådan opretter du projekter i Datastage Tool

Sådan importeres replikeringsjob i Datastage og QualityStage Designer

Oprettelse af en dataforbindelse fra DataStage til STAGEDB-databasen

Import af tabeldefinitioner fra STAGEDB til DataStage

Indstilling af egenskaber for DataStage-jobbene

Kompilering og kørsel af DataStage-job

Test af integration mellem SQL-replikering og DataStage

DataStage vs. andre populære ETL-værktøjer

Ofte Stillede Spørgsmål

Opsummer dette indlæg med:

Tilmeld dig nyhedsbrevet

Hvad er DataStage?

DataStage Oversigt

Behandlingsfasetyper

RELATEREDE ARTIKLER

Hvorfor bruge DataStage til dataintegration?

DataStage-komponenter og Architecture

Sådan fungerer parallelbehandling i DataStage

Forudsætning for Datastage Tool

Download og installation af InfoSphere Information Server

Procesflow af ændringsdata i et CDC-transaktionsfasejob

Opsætning af SQL-replikering

Oprettelse af SQL-replikeringsobjekter

Oprettelse af definitionsfiler for at knytte CCD-tabeller til DataStage

Starter replikering

Sådan opretter du projekter i Datastage Tool

Sådan importeres replikeringsjob i Datastage og QualityStage Designer

Oprettelse af en dataforbindelse fra DataStage til STAGEDB-databasen

Import af tabeldefinitioner fra STAGEDB til DataStage

Indstilling af egenskaber for DataStage-jobbene

Kompilering og kørsel af DataStage-job

Test af integration mellem SQL-replikering og DataStage

DataStage vs. andre populære ETL-værktøjer

Ofte Stillede Spørgsmål

Opsummer dette indlæg med:

Tilmeld dig nyhedsbrevet