DataStage Handledning för nybörjare: IBM DataStage (ETL Tool) utbildning

Vad är DataStage?

DataStage är ett ETL-verktyg som används för att extrahera, transformera och ladda data från källan till måldestinationen. Källan till dessa data kan inkludera sekventiella filer, indexerade filer, relationsdatabaser, externa datakällor, arkiv, företagsapplikationer, etc. DataStage används för att underlätta affärsanalys genom att tillhandahålla kvalitetsdata för att hjälpa till att få affärsintelligens.

DataStage ETL-verktyg används i en stor organisation som ett gränssnitt mellan olika system. Den tar hand om extrahering, översättning och laddning av data från källan till måldestinationen. Den lanserades först av VMark i mitten av 90-talet. Med IBM förvärvade DataStage 2005 och döptes om till IBM WebSphere DataStage och senare till IBM InfoSphere.

Olika versioner av Datastage tillgängliga på marknaden hittills var Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft och så vidare. Senaste upplagan är IBM InfoSphere DataStage

IBM Informationsserver inkluderar följande produkter,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM InfoSphere Information Services Director
  • IBM InfoSphere Information Analyzer
  • IBM Information Server FastTrack
  • IBM InfoSphere Business Ordlista

DataStage Översikt

Datastage har följande funktioner.

  • Den kan integrera data från det bredaste utbudet av företagsdata och externa datakällor
  • Implementerar regler för datavalidering
  • Det är användbart vid bearbetning och omvandling av stora mängder data
  • Den använder skalbar parallell bearbetningsmetod
  • Den kan hantera komplexa transformationer och hantera flera integrationsprocesser
  • Utnyttja direkt anslutning till företagsapplikationer som källor eller mål
  • Utnyttja metadata för analys och underhåll
  • Operatester i batch, realtid eller som en webbtjänst

I följande avsnitt av denna DataStage-handledning beskriver vi kortfattat följande aspekter av IBM InfoSphere DataStage:

  • Datatransformation
  • Lediga jobb
  • Parallell behandling

InfoSphere DataStage och QualityStage kan komma åt data i företagsapplikationer och datakällor som:

Typer av bearbetningssteg

IBM infosphere job består av individuella steg som är sammanlänkade. Den beskriver flödet av data från en datakälla till ett datamål. Vanligtvis har ett steg minst en dataingång och/eller en datautgång. Vissa steg kan dock acceptera mer än en datainmatning och utmatning till mer än ett steg.

I jobbdesign olika steg du kan använda är:

  • Förvandla scenen
  • Filtersteg
  • Aggregator scenen
  • Ta bort dubbletter
  • Gå med på scenen
  • Uppslagsstadiet
  • Kopiera scenen
  • Sorteringsstadiet
  • Behållare

DataStage-komponenter och Architecture

DataStage har fyra huvudkomponenter, nämligen,

  1. Administratör: Den används för administrativa uppgifter. Detta inkluderar att konfigurera DataStage-användare, ställa in rensningskriterier och skapa och flytta projekt.
  2. Manager: Det är huvudgränssnittet för ETL DataStages repository. Den används för lagring och hantering av återanvändbar metadata. Genom DataStage-hanteraren kan man se och redigera innehållet i förvaret.
  3. Formgivare: Ett designgränssnitt som används för att skapa DataStage-applikationer ELLER jobb. Den anger datakällan, nödvändig transformation och destination för data. Jobb kompileras för att skapa en körbar fil som schemaläggs av direktören och körs av servern
  4. Regissör: Den används för att validera, schemalägga, köra och övervaka DataStage-serverjobb och parallella jobb.
Datastage ArchiTecture Diagram
Datastage ArchiTecture Diagram

Bilden ovan förklarar hur IBM Infosphere DataStage interagerar med andra delar av IBM Information Server-plattform. DataStage är uppdelad i två sektioner, Delade komponenter och Runtime Architecture.

   
Stationer & aktiviteter

Delade

Enhetligt användargränssnitt

  • Ett grafiskt designgränssnitt används för att skapa InfoSphere DataStage-applikationer (så kallade jobb).
  • Varje jobb bestämmer datakällorna, nödvändiga transformationer och destinationen för data.
  • Jobb sammanställs för att skapa parallella jobbflöden och återanvändbara komponenter. De schemaläggs och drivs av InfoSphere DataStage och QualityStage Director.
  • Designer-klienten hanterar metadata i arkivet. Medan kompilerad exekveringsdata distribueras på Information Server Engine-nivån.

Gemensamma tjänster

  • Metadatatjänster som konsekvensanalys och sökning
  • Designtjänster som stödjer utveckling och underhåll av InfoSphere DataStage-uppgifter
  • Exekveringstjänster som stöder alla InfoSphere DataStage-funktioner

Vanlig parallell bearbetning

  • Motorn kör körbara jobb som extraherar, transformerar och laddar data i en mängd olika inställningar.
  • Motorvalsmetoden för parallell bearbetning och pipelining för att hantera en stor mängd arbete.

Runtime Architecture

OSH-skript

  • Detta beskriver genereringen av OSH (orchestrate Shell Script) och exekveringsflödet av IBM och flödet av IBM Infosphere DataStage med hjälp av informationsservermotorn
  • Det låter dig använda grafiska peka-och-klicka-tekniker för att utveckla jobbflöden för att extrahera, rensa, transformera, integrera och ladda data till målfiler.

Förutsättning för Datastage Tool

För DataStage behöver du följande inställningar.

  • Infosfär
  • DataStage Server 9.1.2 eller senare
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle klient (fullständig klient, inte en direktklient) om du ansluter till en Oracle databas
  • DB2-klient om du ansluter till en DB2-databas

Nu i denna DataStage-handledning för nybörjare-serien kommer vi att lära oss hur man laddar ner och installerar InfoSphere informationsserver.

Ladda ner och installera InfoSphere Information Server

För att komma åt DataStage, ladda ner och installera den senaste versionen av IBM InfoSphere Server. Servern stöder AIX, Linux och Windows operativsystem. Du kan välja efter behov.

För att migrera dina data från en äldre version av infosphere till en ny version använder du verktyget för tillgångsutbyte.

Installationsfiler

För att installera och konfigurera Infosphere Datastage måste du ha följande filer i din installation.

För Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

För Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Processflöde av ändringsdata i ett CDC-transaktionsjobb

Processflöde av ändringsdata i en CDC

  1. Tjänsten 'InfoSphere CDC' för databasen övervakar och fångar ändringen från en källdatabas
  2. Enligt replikeringsdefinitionen överför "InfoSphere CDC" ändringsdata till "InfoSphere CDC for InfoSphere DataStage."
  3. "InfoSphere CDC for InfoSphere DataStage"-servern skickar data till "CDC-transaktionsstadiet" genom en TCP/IP-session. "InfoSphere CDC for InfoSphere DataStage"-servern skickar också ett COMMIT-meddelande (tillsammans med bokmärkesinformation) för att markera transaktionsgränsen i den infångade loggen.
  4. För varje COMMIT-meddelande som skickas av "InfoSphere CDC for InfoSphere DataStage"-servern, skapar "CDC Transaction stage" markörer för slutet av vågen (EOW). Dessa markörer skickas på alla utgångslänkar till måldatabasanslutningssteget.
  5. När "måldatabasanslutningssteget" tar emot en vågslutsmarkör på alla ingångslänkar, skriver den bokmärkesinformation till en bokmärkestabell och överför sedan transaktionen till måldatabasen.
  6. "InfoSphere CDC for InfoSphere DataStage"-servern begär bokmärkesinformation från en bokmärkestabell i "måldatabasen".
  7. "InfoSphere CDC for InfoSphere DataStage"-servern tar emot bokmärkesinformationen.

Denna information används för att

  • Bestäm startpunkten i transaktionsloggen där ändringar läses när replikeringen börjar.
  • För att avgöra om den befintliga transaktionsloggen kan rensas upp

Konfigurera SQL-replikering

Innan du börjar med Datastage måste du ställa in databasen. Du kommer att skapa två DB2-databaser.

  • En för att fungera som replikeringskälla och
  • En som mål.

Du kommer också att skapa två tabeller (produkt och lager) och fylla i dem med exempeldata. Sedan kan du testa din integration mellan SQL Replikering och Datastage.

Framåt kommer du att ställa in SQL-replikering genom att skapa kontrolltabeller, prenumerationsuppsättningar, registreringar och prenumerationsuppsättningsmedlemmar. Vi kommer att lära oss mer om detta i detalj i nästa avsnitt.

Här tar vi ett exempel på detaljhandelsartikel som vår databas och skapar två tabeller Lager och Produkt. Dessa tabeller kommer att ladda data från källa till mål genom dessa uppsättningar. (kontrolltabeller, prenumerationsuppsättningar, registreringar och prenumerationsuppsättningsmedlemmar.)

Steg 1) Skapa en källdatabas som kallas OMSÄTTNING. Skapa två tabeller under denna databas produkt och Lager.

Steg 2) Kör följande kommando för att skapa SALES-databas.

db2 create database SALES

Steg 3) Aktivera arkivloggning för SALES-databasen. Säkerhetskopiera även databasen genom att använda följande kommandon

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Steg 4) I samma kommandotolk ändrar du till underkatalogen setupDB i katalogen sqlrepl-datastage-tutorial som du extraherade från den nedladdade komprimerade filen.

Konfigurera SQL-replikering

Steg 5) Använd följande kommando för att skapa inventeringstabell och importera data till tabellen genom att köra följande kommando.

db2 import från inventory.ixf från ixf skapa till inventering

Steg 6) Skapa en måltabell. Namnge måldatabasen som STAGEDB.

Eftersom du nu har skapat både källa och mål för databaser, nästa steg i denna DataStage-handledning, kommer vi att se hur man replikerar det.

Följande information kan vara till hjälp ställa in ODBC-datakälla.

Skapa SQL-replikeringsobjekt

Bilden nedan visar hur flödet av ändringsdata levereras från källa till måldatabas. Du skapar en källa-till-mål-mappning mellan tabeller som kallas abonnemangsset medlemmar och gruppera medlemmarna i en prenumeration.

Skapa SQL-replikeringsobjekt

Replikeringsenheten inom InfoSphere CDC (Change Data Capture) hänvisas till som en prenumeration.

  • Ändringarna som görs i källan fångas i "Capture control table" som skickas till CD-tabellen och sedan till måltabellen. Medan appliceringsprogrammet kommer att ha information om raden där ändringar måste göras. Den kommer också att ansluta sig till CD-bordet i prenumerationsset.
  • En prenumeration innehåller mappningsdetaljer som anger hur data i ett källdatalager tillämpas på ett måldatalager. Observera att CDC nu kallas Replikering av infosfärens data.
  • När en prenumeration exekveras, fångar InfoSphere CDC ändringar i källdatabasen. InfoSphere CDC levererar ändringsdata till målet och lagrar synkpunktsinformation i en bokmärkestabell i måldatabasen.
  • InfoSphere CDC använder bokmärkesinformationen för att övervaka förloppet för InfoSphere DataStage-jobbet.
  • I händelse av fel används bokmärkesinformationen som omstartpunkt. I vårt exempel, ASN.IBMSNAP_FEEDETL-tabellen lagrar DataStage-relaterad synkroniseringspunktinformation som används för att spåra DataStage-förlopp.

I detta avsnitt av IBM DataStage utbildningshandledning, du måste göra följande saker,

  • Skapa CAPTURE CONTROL-tabeller och APPLY CONTROL-tabeller för att lagra replikeringsalternativ
  • Registrera tabellerna PRODUCT och INVENTORY som replikeringskällor
  • Skapa en prenumerationsuppsättning med två medlemmar
  • Skapa prenumerationsuppsättningsmedlemmar och mål CCD-tabeller

Använd kommandoradsprogrammet ASNCLP för att ställa in SQL-replikering

Steg 1) Leta reda på skriptfilen crtCtlTablesCaptureServer.asnclp i katalogen sqlrepl-datastage-tutorial/setupSQLRep.

Steg 2) I filen ersätt och " ” med ditt användar-ID och lösenord för att ansluta till SALES-databasen.

Steg 3) Ändra kataloger till katalogen sqlrepl-datastage-tutorial/setupSQLRep och kör skriptet. Använd följande kommando. Kommandot kommer att ansluta till SALES-databasen, generera ett SQL-skript för att skapa Capture-kontrolltabellerna.

asnclp –f crtCtlTablesCaptureServer.asnclp

Steg 4) Leta reda på skriptfilen crtCtlTablesApplyCtlServer.asnclp i samma katalog. Ersätt nu två instanser av och " ” med användar-ID och lösenord för att ansluta till STAGEDB-databasen.

Steg 5) Använd nu följande kommando i samma kommandotolk för att skapa tillämpningskontrolltabeller.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Steg 6) Leta upp skriptfilerna crtRegistration.asnclp och ersätt alla instanser av med användar-ID för att ansluta till SALES-databasen. Ändra också " ” till anslutningslösenordet.

Steg 7) För att registrera källtabellerna, använd följande skript. Som en del av att skapa registreringen kommer ASNCLP-programmet att skapa två CD-tabeller. CD-PRODUKT OCH CD-INVENTER.

asnclp –f crtRegistration.asnclp

Kommandot CREATE REGISTRATION använder följande alternativ:

  • Differential Refresh: Den uppmanar Apply-programmet att uppdatera måltabellen endast när rader i källtabellen ändras
  • Bild båda: Det här alternativet används för att registrera värdet i källkolumnen innan ändringen inträffade, och ett för värdet efter att ändringen inträffade.

Steg 8) Använd följande steg för att ansluta till måldatabasen (STAGEDB).

  • Hitta filen crtTableSpaceApply.bat, öppna den i en textredigerare
  • Byta ut och med användar-ID och lösenord
  • I DB2-kommandofönstret anger du crtTableSpaceApply.bat och kör filen.
  • Denna batchfil skapar ett nytt tabellutrymme i måldatabasen ( STAGEDB)

Steg 9) Leta upp skriptfilerna crtSubscriptionSetAndAddMembers.asnclp och gör följande ändringar.

  • Byt ut alla instanser av och med användar-ID och lösenord för att ansluta till SALES-databasen (källa).
  • Byt ut alla instanser av och med användar-ID för anslutning till STAGEDB-databasen (mål).

Efter ändringar kör skriptet för att skapa prenumerationsuppsättning (ST00) som grupperar käll- och måltabellerna. Skriptet skapar också två prenumerationsuppsättningsmedlemmar och CCD (konsistent ändringsdata) i måldatabasen som kommer att lagra modifierad data. Denna data kommer att konsumeras av Infosphere DataStage.

Steg 10) Kör skriptet för att skapa prenumerationsuppsättningen, prenumerationsuppsättningsmedlemmar och CCD-tabeller.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Olika alternativ som används för att skapa prenumerationsuppsättning och två medlemmar inkluderar

  • Komplett på kondenserad av
  • Yttre
  • Lasttyp import export
  • Timing kontinuerlig

Steg 11) På grund av defekten i replikeringsadministrationsverktygen. Du måste köra en annan batchfil för att ställa in kolumnen TARGET_CAPTURE_SCHEMA i IBMSNAP_SUBS_SET kontrolltabell till noll.

  • Leta upp filen updateTgtCapSchema.bat. Öppna den i en textredigerare. Byta ut och med användar-ID för anslutning till STAGEDB-databasen.
  • I DB2-kommandofönstret anger du kommandot updateTgtCapSchema.bat och kör filen.

Skapa definitionsfiler för att mappa CCD-tabeller till DataStage

Innan vi replikerar i nästa steg måste vi koppla CCD-tabellen med DataStage. I det här avsnittet kommer vi att se hur du ansluter SQL med DataStage.

För att ansluta CCD-tabellen med DataStage måste du skapa Datastage-definitionsfiler (.dxs). .dsx-filformatet används av DataStage för att importera och exportera jobbdefinitioner. Du kommer att använda ASNCLP-skript för att skapa två .dsx-filer. Här har vi till exempel skapat två .dsx-filer.

  • stagedb_AQ00_SET00_sJobs.dsx: Skapar en jobbsekvens som styr arbetsflödet för de fyra parallella jobben.
  • stagedb_AQ00_SET00_pJobs.dsx : Skapar de fyra parallella jobben

ASNCLP-programmet mappar automatiskt CCD-kolumnen till Datastage Column-formatet. Det stöds bara när ASNCLP körs på Windows, Linux eller Unix-procedur.

Definitionsfiler för att mappa CCD-tabeller till DataStage

Datastage-jobb drar rader från CCD-tabellen.

  1. Ett jobb sätter en synkroniseringspunkt där DataStage slutade med att extrahera data från de två tabellerna. Jobbet får denna information genom att välja SYNCHPOINT-värdet för ST00-prenumerationsuppsättningen från IBMSNAP_SUBS_SET-tabellen och infogar den i kolumnen MAX_SYNCHPOINT i IBMSNAP_FEEDETL-tabell.
  2. Två jobb som extraherar data från tabellerna PRODUCT_CCD och INVENTORY_CCD. Jobben vet vilka rader som ska börja extraheras genom att välja värdena MIN_SYNCHPOINT och MAX_SYNCHPOINT från IBMSNAP_FEEDETL-tabell för prenumerationsuppsättningen.

Startar replikering

För att starta replikering använder du stegen nedan. När CCD-tabeller är fyllda med data indikerar det att replikeringsinställningarna är validerade. Använd DB2 Control Centers grafiska användargränssnitt för att visa de replikerade data i mål-CCD-tabellerna.

Steg 1) Se till att DB2 körs om inte, använd då db2 startar kommando.

Steg 2) Använd sedan asncap-kommandot från en prompt i operativsystemet för att börja fånga programmet. Till exempel.

asncap capture_server=SALES

Ovanstående kommando anger SALES-databasen som Capture-server. Håll kommandofönstret öppet medan inspelningen körs.

Steg 3) Öppna nu en ny kommandotolk. Starta sedan TILLÄMPA program genom att använda kommandot asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Startar replikering

  • Kommandot anger STAGEDB-databasen som Apply-kontrollservern (databasen som innehåller Apply-kontrolltabellerna)
  • AQ00 som apply-kvalificeraren (identifieraren för denna uppsättning kontrolltabeller)

Lämna kommandofönstret öppet med Apply körs.

Steg 4) Öppna nu en annan kommandotolk och utfärda kommandot db2cc för att starta DB2 Control Center. Acceptera standardkontrollcenter.

Steg 5) Öppna nu Alla databaser > STAGEDB i det vänstra navigeringsträdet och klicka sedan på Tabeller. Double klicka på tabellnamn ( Product CCD) för att öppna tabellen. Det kommer att se ut ungefär så här.

Startar replikering

På samma sätt kan du också öppna CCD-tabellen för INVENTORY.

Startar replikering

Hur man skapar projekt i Datastage Tool

Först och främst kommer du att skapa ett projekt i DataStage. För det måste du vara InfoSphere DataStage-administratör.

När installationen och replikeringen är klar måste du skapa ett projekt. I DataStage är projekt en metod för att organisera din data. Det inkluderar att definiera datafiler, stadier och bygga jobb i ett specifikt projekt.

För att skapa ett projekt i DataStage, följ stegen nedan:

Steg 1) Starta programvaran DataStage

Starta DataStage och QualityStage Administrator. Klicka sedan på Start > Alla program > IBM Information Server > IBM WebSphere DataStage och QualityStage-administratör.

Steg 2) Anslut DataStage-server och klient

För att ansluta till DataStage-servern från din DataStage-klient, ange detaljer som domännamn, användar-ID, lösenord och serverinformation.

Steg 3) Lägg till ett nytt projekt

I fönstret WebSphere DataStage Administration. Klicka på fliken Projekt och klicka sedan på Lägg till.

Steg 4) Ange projektinformationen

I fönstret WebSphere DataStage Administration anger du detaljer som

  1. Namn
  2. Plats för filen
  3. Klicka på "OK"

Skapa projekt i Datastage Tool

Varje projekt innehåller:

  • DataStage jobb
  • Inbyggda komponenter. Dessa är fördefinierade komponenter som används i ett jobb.
  • Användardefinierade komponenter. Dessa är anpassade komponenter skapade med DataStage Manager eller DataStage Designer.

Vi kommer att se hur du importerar replikeringsjobb i Datastage Infosphere.

Hur man importerar replikeringsjobb i Datastage och QualityStage Designer

Du kommer att importera jobb i IBM InfoSphere DataStage och QualityStage Designer-klient. Och du avrättar dem i IBM InfoSphere DataStage och QualityStage Director-klient.

Designer-klienten är som en tom duk för att bygga jobb. Det extraherar, transformerar, laddar och kontrollerar kvaliteten på data. Den tillhandahåller verktyg som utgör de grundläggande byggstenarna i ett jobb. Det inkluderar

  • praktik: Den ansluter till datakällor för att läsa eller skriva filer och för att bearbeta data.
  • vänster: Den kopplar samman de stadier längs vilka dina data flödar

Stadierna i InfoSphere DataStage- och QualityStage Designer-klienten lagras i verktygspaletten för Designer.

Följande steg ingår i InfoSphere QualityStage:

  • Undersök scenen
  • Standardisera scenen
  • Match Frequency stage
  • Matchstadiet med en källa
  • Matchstadium med två källor
  • Överleva scenen
  • Standardisering kvalitetsbedömning (SQA) skede

Du kan skapa 4 typer av jobb i DataStage infosphere.

  • Parallellt jobb
  • Sekvensjobb
  • Stordatorjobb
  • Serverjobb

Låt oss se steg för steg hur man importerar replikeringsjobbfiler.

Steg 1) Starta DataStage och QualityStage Designer. Klicka på Start > Alla program > IBM Information Server > IBM WebSphere DataStage och QualityStage Designer

Steg 2) I fönstret Bifoga till projekt anger du följande detaljer.

  • Domän
  • Användarnamn
  • Lösenord
  • Projektnamn
  • OK

Importera replikeringsjobb i Datastage och QualityStage

Steg 3) Klicka nu på importera från Arkiv-menyn -> DataStage-komponenter.

Ett nytt DataStage Repository Import-fönster öppnas.

  1. Bläddra i det här fönstret STAGEDB_AQ00_ST00_sJobs.dsx fil som vi hade skapat tidigare
  2. Välj alternativet "Importera alla."
  3. Markera kryssrutan "Utför effektanalys".
  4. Klicka på "OK".

Importera replikeringsjobb i Datastage och QualityStage

När jobbet har importerats kommer DataStage att skapa STAGEDB_AQ00_ST00_sequence-jobb.

Steg 4) Följ samma steg för att importera STAGEDB_AQ00_ST00_pJobs.dsx fil. Denna import skapar de fyra parallella jobben.

Steg 5) Under panelen Designer Repository -> Öppna SQLREP-mappen. Inuti mappen kommer du att se Sequence Job och fyra parallella jobb.

Importera replikeringsjobb i Datastage och QualityStage

Steg 6) För att se sekvensjobbet. Gå till arkivträdet, högerklicka på STAGEDB_AQ00_ST00_sequence-jobbet och klicka på Redigera. Det kommer att visa arbetsflödet för de fyra parallella jobb som jobbsekvensen styr.

Importera replikeringsjobb i Datastage och QualityStage

Varje ikon är en scen,

  • getExtractRange-stadiet: Den uppdaterar IBMSNAP_FEEDETL-tabell. Den kommer att ställa in startpunkten för dataextraktion till den punkt där DataStage senast extraherade rader och ställa in slutpunkten till den senaste transaktionen som behandlades för prenumerationsuppsättningen.
  • getExtractRangeSuccess: Det här steget matar startpunkterna till steget extraktFrånINVENTORY_CCD och steget extraktFrånPRODUCT_CCD
  • AllExtracts Success: Det här steget säkerställer att både extraktFromINVENTORY_CCD och extraktFrånPRODUCT_CCD slutförs framgångsrikt. Skickar sedan synkpunkter för de sista raderna som hämtades till setRangeProcessed-stadiet.
  • setRange Processed stage: Den uppdateras IBMSNAP_FEEDETL-tabell. Så, DataStage vet varifrån nästa omgång av datautvinning ska börja

Steg 7) För att se de parallella jobben. Högerklicka på STAGEDB_ASN_INVENTORY_CCD och välj redigera under arkivet. Det kommer att öppna ett fönster som visas nedan.

Importera replikeringsjobb i Datastage och QualityStage

Här i bilden ovan kan du se att data från Inventory CCD-tabellen och Synch-punktsdetaljer från FEEDETL-tabellen renderas till Lookup_6-stadiet.

Skapa en dataanslutning från DataStage till STAGEDB-databasen

Nu är nästa steg att bygga en dataanslutning mellan InfoSphere DataStage och SQL Replication-måldatabasen. Den innehåller CCD-tabellerna.

I DataStage använder du dataanslutningsobjekt med relaterade kopplingssteg för att snabbt definiera en anslutning till en datakälla i en jobbdesign.

Steg 1) STAGEDB innehåller både Apply-kontrolltabellerna som DataStage använder för att synkronisera sin dataextraktion och CCD-tabellerna som data extraheras från. Använd följande kommandon

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Anmärkningar: IP-adressen till systemet där STAGEDB skapades

Steg 2) Klicka på Arkiv > Ny > Annat > Dataanslutning.

Steg 3) Du kommer att ha ett fönster med två flikar, Parametrar och Allmänt.

Dataanslutning från DataStage till STAGEDB Database

Steg 4) I detta steg

  1. I allmänhet, tab, namnge dataanslutningen sqlreplConnect
  2. På fliken Parametrar, som visas nedan
  • Klicka på bläddringsknappen bredvid fältet 'Anslut med Stage Type' och i
  • Öppna fönstret, navigera i förvarsträdet till Stage Types –> Parallel-> Database —-> DB2 Connector.
  • Klicka på Öppna.

Dataanslutning från DataStage till STAGEDB Database

Steg 5) I tabellen Anslutningsparametrar anger du detaljer som

  • ConnectionString: STAGEDB2
  • Användarnamn: Användar-ID för anslutning till STAGEDB-databasen
  • Lösenord: Lösenord för att ansluta till STAGEDB-databasen
  • Exempel: Namn på DB2-instans som innehåller STAGEDB-databas

Steg 6) Spara dataanslutningen i nästa fönster. Klicka på knappen "spara".

Importera tabelldefinitioner från STAGEDB till DataStage

I föregående steg såg vi att InfoSphere DataStage och STAGEDB-databasen är anslutna. Importera nu kolumndefinition och annan metadata för PRODUCT_CCD- och INVENTORY_CCD-tabellerna till informationsserverförrådet.

Följ stegen nedan i designfönstret.

Steg 1) Välj Importera > Tabelldefinitioner > Starta Connector Import Wizard

Steg 2) Välj DB2 Connector på sidan för val av anslutning i guiden och klicka på Nästa.

Importera tabelldefinitioner från STAGEDB till DataStage

Steg 3) Klicka på ladda på anslutningsdetaljsidan. Detta kommer att fylla i guidefälten med anslutningsinformation från dataanslutningen som du skapade i föregående kapitel.

Importera tabelldefinitioner från STAGEDB till DataStage

Steg 4) Klicka på Testa anslutning på samma sida. Detta kommer att uppmana DataStage att försöka ansluta till STAGEDB-databasen. Du kan se meddelandet "anslutningen lyckades". Klicka på Nästa.

Importera tabelldefinitioner från STAGEDB till DataStage

Steg 5) Se till att fälten Värdnamn och Databasnamn är korrekt ifyllda på sidan Datakällans plats. Klicka sedan på nästa.

Steg 6) På sidan Schema. Ange schemat för Apply control tables (ASN) eller kontrollera att ASN-schemat är förifyllt i schemafältet. Klicka sedan på nästa. Urvalssidan visar listan över tabeller som är definierade i ASN-schemat.

Importera tabelldefinitioner från STAGEDB till DataStage

Steg 7) Den första tabellen som vi behöver importera metadata från är IBMSNAP_FEEDETL, en Apply-kontrolltabell. Den har detaljerna om synkroniseringspunkterna som gör att DataStage kan hålla reda på vilka rader den har hämtat från CCD-tabellerna. Välja IBMSNAP_FEEDETL och klicka på Nästa.

Steg 8) För att slutföra importen av IBMSNAP_FEEDETL-tabelldefinition. Klicka på importera och klicka sedan på öppna i det öppna fönstret.

Steg 9) Upprepa steg 1-8 ytterligare två gånger för att importera definitionerna för tabellen PRODUCT_CCD och sedan tabellen INVENTORY_CCD.

ANMÄRKNINGAR: När du importerar definitioner för inventeringen och produkten, se till att du ändrar scheman från ASN till schemat under vilket PRODUCT_CCD och INVENTORY_CCD skapades.

Nu har DataStage alla detaljer som krävs för att ansluta till SQL Replication-måldatabasen.

Ställa in egenskaper för DataStage-jobben

För vart och ett av de fyra parallella DataStage-jobben som vi har, innehåller den en eller flera steg som ansluter till STAGEDB-databasen. Du måste ändra stegen för att lägga till anslutningsinformation och länka till datauppsättningsfiler som DataStage fyller i.

Stadier har fördefinierade egenskaper som är redigerbara. Här kommer vi att ändra några av dessa egenskaper för parallelljobbet STAGEDB_ASN_PRODUCT_CCD_extract.

Steg 1) Bläddra i Designerförrådsträdet. Under SQLREP-mappen väljer du STAGEDB_ASN_PRODUCT_CCD_extract parallelljobbet. För att redigera, högerklicka på jobbet. Designfönstret för det parallella jobbet öppnas i Designer Palette.

Steg 2) Leta upp den gröna ikonen. Den här ikonen anger DB2-anslutningssteget. Den används för att extrahera data från CCD-tabellen. Double-klicka på ikonen. Ett scenredigeringsfönster öppnas.

Ställa in egenskaper för DataStage-jobben

Ställa in egenskaper för DataStage-jobben

Steg 3) Klicka på Ladda i redigeraren för att fylla i fälten med anslutningsinformation. Klicka på OK för att stänga scenredigeraren och spara dina ändringar.

Steg 4) Återgå nu till designfönstret för parallelljobbet STAGEDB_ASN_PRODUCT_CCD_extract. Leta upp ikonen för getSynchPoints DB2-anslutningssteg. Dubbelklicka sedan på ikonen.

Steg 5) Klicka nu på knappen Ladda för att fylla i fälten med anslutningsinformation.

ANMÄRKNINGAR: Om du använder en annan databas än STAGEDB som din Apply-kontrollserver. Välj sedan alternativet för att ladda anslutningsinformationen för getSynchPoints stage, som interagerar med kontrolltabellerna snarare än CCD-tabellen.

Steg 6) I detta steg

  • Skapa en tom textfil på systemet där InfoSphere DataStage körs.
  • Namnge denna fil som productdataset.ds och notera var du sparade den.
  • DataStage kommer att skriva ändringar i den här filen efter att den hämtat ändringar från CCD-tabellen.
  • Datauppsättningar eller filer som används för att flytta data mellan länkade jobb kallas beständiga datauppsättningar. Det representeras av ett DataSet-steg.

Steg 7) Öppna nu scenredigeraren i designfönstret och dubbelklicka på ikonen insert_into_a_dataset. Det kommer att öppna ett annat fönster.

Ställa in egenskaper för DataStage-jobben

Steg 8) I det här fönstret,

Ställa in egenskaper för DataStage-jobben

  • Se till att under fliken egenskaper Target mappen är öppen och egenskapen File = DATASETNAME är markerad.
  • Till höger kommer du att ha ett filfält
  • Ange den fullständiga sökvägen till filen productdataset.ds
  • Klicka på "OK".

Du har nu uppdaterat alla nödvändiga egenskaper för produktens CCD-tabell. Stäng designfönstret och spara alla ändringar.

Steg 9) Leta upp och öppna det parallella jobbet STAGEDB_ASN_INVENTORY_CCD_extract från arkivfönstret i Designern och upprepa steg 3-8.

ANMÄRKNINGAR:

  • Du måste ladda anslutningsinformationen för kontrollserverdatabasen till scenredigeraren för att fåSynchPoints stadium. Om din kontrollserver inte är STAGEDB.
  • För parallelljobben STAGEDB_ST00_AQ00_getExtractRange och STAGEDB_ST00_AQ00_markRangeProcessed, öppna alla DB2-anslutningssteg. Använd sedan laddningsfunktionen för att lägga till anslutningsinformation för STAGEDB-databasen

Kompilera och köra DataStage-jobben

När DataStage-jobbet är redo att kompileras validerar designern jobbets design genom att titta på indata, transformationer, uttryck och andra detaljer.

När jobbkompileringen är klar är den redo att köras. Vi kommer att kompilera alla fem jobb, men kör bara "jobbsekvensen". Detta beror på att detta jobb styr alla fyra parallella jobb.

Steg 1) Under SQLREP-mappen. Välj vart och ett av de fem jobben med (Cntrl+Shift). Högerklicka sedan och välj kompileringsalternativ för flera jobb.

Kompilera och köra DataStage-jobben

Steg 2) Du kommer att se fem jobb är valda i DataStage Compilation Wizard. Klicka på Nästa.

Kompilera och köra DataStage-jobben

Steg 3) Kompileringen börjar och visar meddelandet "Kompilerad framgångsrikt" när den är klar.

Kompilera och köra DataStage-jobben

Steg 4) Starta nu DataStage och QualityStage Director. Välj Start > Alla program > IBM Information Server > IBM WebSphere DataStage och QualityStage Director.

Steg 5) I projektnavigeringsfönstret till vänster. Klicka på mappen SQLREP. Detta tar upp alla fem jobben i direktörsstatustabellen.

Steg 6) Välj jobbet STAGEDB_AQ00_S00_sequence. Från menyraden klickar du på Jobb > Kör nu.

Kompilera och köra DataStage-jobben

När kompileringen är klar kommer du att se den färdiga statusen.

Kompilera och köra DataStage-jobben

Kontrollera nu om ändrade rader som är lagrade i PRODUCT_CCD- och INVENTORY_CCD-tabellerna extraherades av DataStage och infogades i de två datamängdsfilerna.

Steg 7) Gå tillbaka till designern och öppna STAGEDB_ASN_PRODUCT_CCD_extract-jobbet. För att öppna scenredigeraren Double-klicka på ikonen infoga_i_en_dataset. Klicka sedan på visa data.

Steg 8) Acceptera standardinställningarna i fönstret för rader som ska visas. Klicka sedan på OK. Ett datawebbläsarfönster öppnas för att visa innehållet i datamängdsfilen.

Kompilera och köra DataStage-jobben

Testa integration mellan SQL-replikering och DataStage

I föregående steg sammanställde och utförde vi jobbet. I det här avsnittet kommer vi att kontrollera integrationen av SQL-replikering och DataStage. För det kommer vi att göra ändringar i källtabellen och se om samma ändring uppdateras i DataStage.

Steg 1) Navigera till mappen sqlrepl-datastage-scripts för ditt operativsystem.

Steg 2) Starta SQL-replikering genom att följa stegen:

  • Kör startSQLCapture.bat (Windows) för att starta Capture-programmet i SALES-databasen.
  • Kör startSQLAply.bat (Windows) för att starta Apply-programmet i STAGEDB-databasen.

Steg 3) Öppna nu filen updateSourceTables.sql. För att ansluta till SALES-databasen ersätt och med användar-ID och lösenord.

Steg 4) Öppna ett DB2-kommandofönster. Byt katalog till sqlrepl-datastage-tutorial\scripts och kör problemet med det givna kommandot:

db2 -tvf updateSourceTables.sql

SQL-skriptet kommer att utföra olika operationer som Uppdatera, Infoga och ta bort på båda tabellerna (PRODUCT, INVENTORY) i försäljningsdatabasen.

Steg 5) På systemet där DataStage körs. Öppna DataStage Director och kör STAGEDB_AQ00_S00_sequence-jobbet. Klicka på Jobb > Kör nu.

Integration mellan SQL-replikering och DataStage

När du kör jobbet kommer följande aktiviteter att utföras.

  • Capture-programmet läser ändringarna på sex rader i SALES-databasloggen och infogar dem i CD-tabellerna.
  • Apply-programmet hämtar ändringsraderna från CD-tabellerna på SALES och infogar dem i CCD-tabellerna på STAGEDB.
  • De två DataStage-extraheringsjobben hämtar ändringarna från CCD-tabellerna och skriver dem till filerna productdataset.ds och inventory dataset.ds.

Du kan kontrollera att ovanstående steg ägde rum genom att titta på datamängderna.

Steg 6) Följ stegen nedan,

  • Starta designern. Öppna STAGEDB_ASN_PRODUCT_CCD_extract-jobbet.
  • Sedan Double-klicka på ikonen infoga_i_en_dataset. I scenredaktören. Klicka på Visa data.
  • Acceptera standardinställningarna i fönstret för rader som ska visas och klicka på OK.

Datauppsättningen innehåller tre nya rader. Det enklaste sättet att kontrollera att ändringarna har genomförts är att scrolla ner längst till höger i databläddraren. Titta nu på de tre sista raderna (se bilden nedan)

Integration mellan SQL-replikering och DataStage

Bokstaven I, U och D anger INSERT, UPDATE och DELETE operation som resulterade i varje ny rad.

Du kan göra samma kontroll för Inventory table.

Sammanfattning

  • Datastage är en ETL-verktyg som extraherar data, transformerar och laddar data från källan till målet.
  • Det underlättar affärsanalys genom att tillhandahålla kvalitetsdata för att hjälpa till att få affärsintelligens.
  • DataStage är uppdelad i två sektioner, Delade komponenter och Runtime Architecture.
  • DataStage har fyra huvudkomponenter,
  • Administratör
  • chef
  • designer
  • Direktör
  • Följande är de viktigaste aspekterna av IBM InfoSphere DataStage
  • Datatransformation
  • Lediga jobb
  • Parallell behandling
  • I jobbdesign är olika stadier involverade
  • Förvandla scenen
  • Filtersteg
  • Aggregator scenen
  • Ta bort dubbletter
  • Gå med på scenen
  • Uppslagsstadiet