DataStage'i õpetus algajatele: IBM DataStage (ETL Tool) koolitus
Mis on DataStage?
DataStage on ETL-i tööriist, mida kasutatakse andmete eraldamiseks, teisendamiseks ja laadimiseks allikast sihtpunkti. Nende andmete allikaks võivad olla järjestikused failid, indekseeritud failid, relatsiooniandmebaasid, välised andmeallikad, arhiivid, ettevõtterakendused jne. DataStage'i kasutatakse ärianalüüsi hõlbustamiseks, pakkudes kvaliteetseid andmeid, mis aitavad äriteavet koguda.
DataStage ETL tööriista kasutatakse suures organisatsioonis liidesena erinevate süsteemide vahel. See hoolitseb andmete ekstraheerimise, tõlkimise ja laadimise eest allikast sihtpunkti. Selle käivitas esmakordselt VMark 90ndate keskel. Koos IBM omandades DataStage'i 2005. aastal, nimetati see ümber IBM WebSphere DataStage ja hiljem IBM Infosfäär.
Seni turul saadaval olnud Datastage'i erinevad versioonid olid Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft ja nii edasi. Viimane väljaanne on IBM InfoSphere DataStage
IBM Infoserver sisaldab järgmisi tooteid,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM InfoSphere'i teabeteenuste direktor
- IBM InfoSphere'i teabeanalüsaator
- IBM Infoserver FastTrack
- IBM InfoSphere'i ärisõnastik
DataStage'i ülevaade
Datastage'il on järgmised võimalused.
- See suudab integreerida andmeid kõige laiemast hulgast ettevõtte ja välistest andmeallikatest
- Rakendab andmete valideerimise reegleid
- See on kasulik suurte andmemahtude töötlemisel ja muutmisel
- See kasutab skaleeritavat paralleeltöötlusmeetodit
- See saab hakkama keerukate teisendustega ja hallata mitut integreerimisprotsessi
- Kasutage otsest ühendust ettevõtte rakendustega allikate või sihtmärkidena
- Kasutage analüüsiks ja hoolduseks metaandmeid
- Operates partii, reaalajas või veebiteenusena
Selle DataStage'i õpetuse järgmistes osades kirjeldame lühidalt järgmisi aspekte IBM InfoSphere DataStage:
- Andmete teisendamine
- Tööturg
- Paralleelne töötlemine
InfoSphere DataStage ja QualityStage pääsevad juurde andmetele ettevõtte rakendustes ja andmeallikates, näiteks:
- Relatsioonandmebaasid
- Suurarvuti andmebaasid
- Äri- ja analüütilised rakendused
- Ettevõtte ressursside planeerimine (ERP) või kliendisuhete halduse (CRM) andmebaasid
- Interneti-analüütiline töötlemine (OLAP) või jõudlusjuhtimise andmebaasid
Töötlemise etapi tüübid
IBM infosfääri töö koosneb üksikutest etappidest, mis on omavahel seotud. See kirjeldab andmevoogu andmeallikast andmesihtmärgini. Tavaliselt on etapil vähemalt üks andmesisend ja/või üks andmesisend. Kuid mõned etapid võivad aktsepteerida rohkem kui ühte andmesisendit ja väljundit rohkem kui ühte etappi.
Tööde kujundamisel saate kasutada järgmisi etappe:
- Transformatsiooni etapp
- Filtri etapp
- Agregaatori etapp
- Duplikaatide etapi eemaldamine
- Liitu lavaga
- Otsimise etapp
- Kopeerimise etapp
- Sorteerimise etapp
- Konteinerid
DataStage komponendid ja Architektuur
DataStage'il on neli põhikomponenti, nimelt
- Administraator: Seda kasutatakse haldusülesannete täitmiseks. See hõlmab DataStage'i kasutajate seadistamist, puhastuskriteeriumide seadistamist ning projektide loomist ja teisaldamist.
- Juht: See on ETL DataStage'i hoidla peamine liides. Seda kasutatakse korduvkasutatavate metaandmete salvestamiseks ja haldamiseks. DataStage manageri kaudu saab hoidla sisu vaadata ja redigeerida.
- Disainer: Kujundusliides, mida kasutatakse DataStage'i rakenduste VÕI tööde loomiseks. See määrab andmeallika, nõutava teisenduse ja andmete sihtkoha. Tööd kompileeritakse täitmisfaili loomiseks, mille ajastab direktor ja mida haldab server
- Direktor: Seda kasutatakse DataStage'i serveritööde ja paralleelsete tööde valideerimiseks, ajastamiseks, täitmiseks ja jälgimiseks.
Ülaltoodud pilt selgitab, kuidas IBM Infosphere DataStage suhtleb teiste elementidega IBM Infoserveri platvorm. DataStage on jagatud kaheks osaks, Jagatud komponendid ja käitusaeg Architektuur.
Jagatud |
Ühtne kasutajaliides |
|
Ühisteenused |
|
|
Ühine paralleelne töötlemine |
|
|
Runtime Architektuur |
OSH skript |
|
Datastage Tooli eeltingimus
DataStage'i jaoks vajate järgmist seadistust.
- Infosfäär
- DataStage Server 9.1.2 või uuem
- Microsoft Visual Studio .NET 2010 Express Edition C++
- Oracle klient (täisklient, mitte kiirklient), kui loote ühenduse Oracle andmebaas
- DB2 klient DB2 andmebaasiga ühenduse loomisel
Nüüd selles DataStage'i õpetuste seerias algajatele õpime, kuidas InfoSphere'i teabeserverit alla laadida ja installida.
InfoSphere'i teabeserveri allalaadimine ja installimine
DataStage'ile juurdepääsuks laadige alla ja installige rakenduse uusim versioon IBM InfoSphere'i server. Server toetab AIX, Linux ja Windows operatsioonisüsteem. Saate valida vastavalt soovile.
Andmete migreerimiseks infosfääri vanemast versioonist uude versiooni kasutage varade vahetamise tööriista.
Installifailid
Infosphere Datastage'i installimiseks ja konfigureerimiseks peavad teie seadistuses olema järgmised failid.
eest Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Linuxi jaoks
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Muudatuste andmete töötlemine CDC tehinguetapi töös
- Andmebaasi teenus 'InfoSphere CDC' jälgib ja salvestab muudatusi lähteandmebaasist
- Replikatsioonimääratluse kohaselt edastab „InfoSphere CDC” muudatuste andmed rakendusse „InfoSphere CDC for InfoSphere DataStage”.
- „InfoSphere CDC for InfoSphere DataStage” server saadab andmed CDC tehinguetapile TCP/IP-seansi kaudu. Server "InfoSphere CDC for InfoSphere DataStage" saadab ka COMMIT-teate (koos järjehoidjate teabega), et märkida jäädvustatud logisse tehingupiir.
- Iga serveri “InfoSphere CDC for InfoSphere DataStage” saadetud COMMIT-teate jaoks loob “CDC tehinguetapp” laine lõpu (EOW) markerid. Need markerid saadetakse kõikidel sihtandmebaasi konnektori etapi väljundlinkidel.
- Kui "sihtandmebaasi konnektori etapp" saab kõikidel sisendlinkidel lainelõpu markeri, kirjutab see järjehoidjateabe järjehoidjate tabelisse ja seob tehingu sihtandmebaasi.
- „InfoSphere CDC for InfoSphere DataStage” server küsib järjehoidjate teavet „sihtandmebaasi” järjehoidjate tabelist.
- „InfoSphere CDC for InfoSphere DataStage” server võtab vastu järjehoidjateabe.
Seda teavet kasutatakse selleks,
- Määrake tehingulogis alguspunkt, kust replikatsiooni alustamisel muudatusi loetakse.
- Et teha kindlaks, kas olemasolevat tehingulogi saab puhastada
SQL-i replikatsiooni seadistamine
Enne Datastage'iga alustamist peate seadistama andmebaasi. Loote kaks DB2 andmebaasi.
- Üks, mis toimib replikatsiooniallikana ja
- Üks sihtmärgiks.
Samuti loote kaks tabelit (toode ja laoseisu) ning täidate need näidisandmetega. Seejärel saate oma integratsiooni testida SQL Replikatsioon ja andmestaadium.
Edaspidi seadistate SQL-i replikatsiooni loomisega juhttabelid, liitumiskomplektid, registreeringud ja liitumiskomplekti liikmed. Lisateavet selle kohta leiate järgmisest jaotisest.
Siin võtame oma andmebaasina näite jaemüügikaubast ja loome kaks tabelit Laoseisu ja Toode. Need tabelid laadivad nende komplektide kaudu andmeid allikast sihtmärgini. (juhttabelid, tellimuste komplektid, registreerimised ja tellimuste komplekti liikmed.)
Step 1) Looge lähteandmebaas, millele viidatakse kui SALES. Looge selle andmebaasi all kaks tabelit toode ja Inventar.
Step 2) Käivitage SALES andmebaasi loomiseks järgmine käsk.
db2 create database SALES
Step 3) Lülitage sisse SALES andmebaasi arhiivi logimine. Samuti varundage andmebaas järgmiste käskude abil
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
Step 4) Minge samas käsuviibas setupDB alamkataloogi kataloogis sqlrepl-datastage-tutorial, mille ekstraheerisite allalaaditud tihendatud failist.
Step 5) Kasutage järgmist käsku varustabeli loomiseks ja andmete importimiseks tabelisse, käivitades järgmise käsu.
db2 import inventuurist.ixf ja ixf-i loomine laoseisu
Step 6) Looge sihttabel. Nimetage sihtandmebaas kui STAGEDB.
Kuna nüüd olete loonud nii lähte- kui ka sihtandmebaasid, siis selle DataStage'i õpetuse järgmise sammuna näeme, kuidas seda kopeerida.
Järgmisest teabest võib abi olla ODBC andmeallika seadistamine.
SQL-i replikatsiooniobjektide loomine
Allolev pilt näitab, kuidas muudatuste andmete voog edastatakse allikast sihtandmebaasi. Loote allika ja sihtmärgi vastendamise tabelite vahel, mida nimetatakse liitumiskomplekti liikmed ja rühmitage liikmed a tellimine.
InfoSphere CDC (Change Data Capture) replikatsiooniühikut nimetatakse tellimuseks.
- Allikas tehtud muudatused jäädvustatakse salvestuse juhtimistabelisse, mis saadetakse CD-tabelisse ja seejärel sihttabelisse. Kuigi rakendusprogrammis on üksikasjad selle rea kohta, kust tuleb muudatusi teha. Samuti liitub see tellimiskomplektis oleva CD-tabeliga.
- Tellimus sisaldab vastendamise üksikasju, mis määravad, kuidas lähteandmesalves olevaid andmeid sihtandmesalve rakendatakse. Pange tähele, et CDC-d nimetatakse nüüd kui Infosfääri andmete replikatsioon.
- Tellimuse täitmisel jäädvustab InfoSphere CDC muudatused lähteandmebaasis. InfoSphere CDC edastab muudatuste andmed sihtmärgile ja salvestab sünkroonimispunkti teabe sihtandmebaasi järjehoidjate tabelisse.
- InfoSphere CDC kasutab InfoSphere DataStage töö edenemise jälgimiseks järjehoidjateavet.
- Ebaõnnestumise korral kasutatakse taaskäivituspunktina järjehoidja teavet. Meie näites on ASN.IBMTabel SNAP_FEEDETL salvestab DataStage'iga seotud sünkroonimispunkti teabe, mida kasutatakse DataStage'i edenemise jälgimiseks.
Selles jaotises IBM DataStage koolituse õpetus, peate tegema järgmisi asju,
- Looge replikatsioonisuvandite salvestamiseks tabeleid CAPTURE CONTROL ja APPLY CONTROL
- Registreerige tabelid PRODUCT ja INVENTORY replikatsiooniallikatena
- Looge kaheliikmeline tellimuste komplekt
- Looge tellimuste komplekti liikmeid ja sihtige CCD tabeleid
Kasutage SQL-i replikatsiooni seadistamiseks ASNCLP käsureaprogrammi
Step 1) Otsige üles skriptifail crtCtlTablesCaptureServer.asnclp kataloogist sqlrepl-datastage-tutorial/setupSQLRep.
Step 2) Failis asenda ja " ” oma kasutajatunnuse ja parooliga MÜÜGI andmebaasiga ühenduse loomiseks.
Step 3) Muutke kataloogid kataloogiks sqlrepl-datastage-tutorial/setupSQLRep ja käivitage skript. Kasutage järgmist käsku. Käsk loob ühenduse SALES-i andmebaasiga, genereerib SQL-skripti Capture'i juhttabelite loomiseks.
asnclp –f crtCtlTablesCaptureServer.asnclp
Step 4) Otsige samast kataloogist üles skriptifail crtCtlTablesApplyCtlServer.asnclp. Nüüd asendage kaks juhtumit ja " ” kasutajatunnuse ja parooliga STAGEDB andmebaasiga ühenduse loomiseks.
Step 5) Nüüd kasutage rakendusjuhttabelite loomiseks samas käsuviibas järgmist käsku.
asnclp –f crtCtlTablesApplyCtlServer.asnclp
Step 6) Otsige üles skriptifailid crtRegistration.asnclp ja asendage kõik faili eksemplarid kasutajatunnusega MÜÜGI andmebaasiga ühenduse loomiseks. Samuti muutke " ” ühenduse paroolile.
Step 7) Lähtetabelite registreerimiseks kasutage järgmist skripti. Registreerimise loomise osana loob ASNCLP programm kaks CD-tabelit. CDTOOTED JA CDINVENTORY.
asnclp –f crtRegistration.asnclp
Käsk CREATE REGISTRATION kasutab järgmisi valikuid:
- Diferentsiaali värskendamine: see palub rakendusprogrammil sihttabelit värskendada ainult siis, kui lähtetabeli read muutuvad
- Pilt mõlemad: seda suvandit kasutatakse väärtuse registreerimiseks lähteveerus enne muudatuse toimumist ja ühe väärtuse registreerimiseks pärast muudatuse toimumist.
Step 8) Sihtandmebaasiga (STAGEDB) ühenduse loomiseks järgige järgmisi samme.
- Otsige üles fail crtTableSpaceApply.bat, avage see tekstiredaktoris
- Asenda ja kasutajatunnuse ja parooliga
- Sisestage DB2 käsuaknasse crtTableSpaceApply.bat ja käivitage fail.
- See pakkfail loob sihtandmebaasi ( STAGEDB) uue tabeliruumi
Step 9) Otsige üles skriptifailid crtSubscriptionSetAndAddMembers.asnclp ja tehke järgmised muudatused.
- Asenda kõik eksemplarid ja kasutajatunnuse ja parooliga MÜÜGI andmebaasiga (allikas) ühendamiseks.
- Asenda kõik eksemplarid ja kasutajatunnusega STAGEDB andmebaasiga ühenduse loomiseks (sihtmärk).
Pärast muudatusi käivitage skript, et luua tellimuste komplekt (ST00), mis rühmitab lähte- ja sihttabelid. Skript loob sihtandmebaasis ka kaks tellimuste komplekti liiget ja CCD (järjekindlad muudatusandmed), mis salvestab muudetud andmed. Neid andmeid kasutab Infosphere DataStage.
Step 10) Tellimuskomplekti, tellimuste komplekti liikmete ja CCD-tabelite loomiseks käivitage skript.
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
Abonemendikomplekti ja kahe liikme loomiseks kasutatakse erinevaid valikuid
- Täielik kondenseeritud maha
- Väline
- Koorma tüüp impordi eksport
- Ajastus pidev
Step 11) Replikatsiooni haldustööriistade defekti tõttu. Veeru TARGET_CAPTURE_SCHEMA määramiseks peate käivitama teise pakkfaili IBMSNAP_SUBS_SET juhttabel nulliks.
- Otsige üles fail updateTgtCapSchema.bat. Avage see tekstiredaktoris. Asenda ja kasutajatunnusega STAGEDB andmebaasiga ühenduse loomiseks.
- Sisestage DB2 käsuaknasse käsk updateTgtCapSchema.bat ja käivitage fail.
Definitsioonifailide loomine CCD-tabelite vastendamiseks DataStage'iga
Enne järgmises etapis replikatsiooni tegemist peame ühendama CCD tabeli DataStage'iga. Selles jaotises näeme, kuidas ühendada SQL DataStage'iga.
CCD tabeli ühendamiseks DataStage'iga peate looma Datastage'i definitsiooni (.dxs) failid. DataStage kasutab dsx-failivormingut töömääratluste importimiseks ja eksportimiseks. Kahe .dsx-faili loomiseks kasutate ASNCLP-skripti. Näiteks siin oleme loonud kaks .dsx-faili.
- stagedb_AQ00_SET00_sJobs.dsx: loob tööjada, mis suunab nelja paralleelse töö töövoogu.
- stagedb_AQ00_SET00_pJobs.dsx : loob neli paralleelset tööd
ASNCLP programm kaardistab CCD veeru automaatselt Datastage Column vormingusse. Seda toetatakse ainult siis, kui ASNCLP töötab Windows, Linuxi või Unixi protseduur.
Andmeetapi tööd tõmbavad CCD tabelist ridu.
- Üks töö määrab sünkroonimispunkti, kus DataStage kahest tabelist andmete eraldamise pooleli jäi. Töö saab selle teabe, valides ST00 tellimuste komplekti väärtuse SYNCHPOINT. IBMSNAP_SUBS_SET tabeli ja lisades selle veergu MAX_SYNCHPOINT IBMSNAP_FEEDETL tabel.
- Kaks tööd, mis eraldavad andmeid tabelitest PRODUCT_CCD ja INVENTORY_CCD. Tööd teavad, milliste ridade ekstraktimist alustada, valides parameetritest MIN_SYNCHPOINT ja MAX_SYNCHPOINT väärtused. IBMSNAP_FEEDETL tabel tellimuste komplekti jaoks.
Replikatsiooni käivitamine
Replikatsiooni alustamiseks kasutage alltoodud samme. Kui CCD tabelid on täidetud andmetega, näitab see, et replikatsiooni seadistus on kinnitatud. Kopeeritud andmete vaatamiseks siht-CCD tabelites kasutage DB2 juhtimiskeskuse graafilist kasutajaliidest.
Step 1) Veenduge, et DB2 töötab, kui mitte, siis kasutage db2 algus käsk
Step 2) Seejärel kasutage programmi hõivamise alustamiseks operatsioonisüsteemi viipa käsku asncap. Näiteks.
asncap capture_server=SALES
Ülaltoodud käsk määrab Capture serveriks SALES andmebaasi. Hoidke käsuaken pildistamise ajal avatuna.
Step 3) Nüüd avage uus käsuviip. Seejärel alustage KEHTIVAD programm, kasutades käsku asnapply.
asnapply control_server=STAGEDB apply_qual=AQ00
- Käsk määrab rakenduse juhtserverina STAGEDB andmebaasi (andmebaas, mis sisaldab rakenduse juhttabeleid).
- AQ00 rakendamiskvalifikaatorina (selle juhttabelite komplekti identifikaator)
Jätke käsuaken avatuks, kui rakendus töötab.
Step 4) Nüüd avage teine käsuviip ja andke DB2 juhtimiskeskuse käivitamiseks käsk db2cc. Nõustuge vaikejuhtimiskeskusega.
Step 5) Nüüd avage vasakpoolses navigeerimispuus Kõik andmebaasid > STAGEDB ja seejärel klõpsake nuppu Tabelid. Double tabeli avamiseks klõpsake tabeli nimel (Toote CCD). See näeb välja umbes selline.
Samamoodi saate INVENTORY jaoks avada ka CCD tabeli.
Kuidas Datastage Toolis projekte luua
Kõigepealt loote DataStage'is projekti. Selleks peate olema InfoSphere DataStage'i administraator.
Kui installimine ja replikatsioon on tehtud, peate looma projekti. DataStage'is on projektid teie andmete korraldamise meetod. See hõlmab andmefailide, etappide ja ehitustööde määratlemist konkreetses projektis.
Projekti loomiseks DataStage'is järgige alltoodud samme.
Samm 1) Käivitage DataStage tarkvara
Käivitage DataStage ja QualityStage Administrator. Seejärel klõpsake nuppu Start > Kõik programmid > IBM Teabeserver > IBM WebSphere DataStage ja QualityStage administraator.
Samm 2) Ühendage DataStage'i server ja klient
DataStage'i kliendist DataStage'i serveriga ühenduse loomiseks sisestage sellised üksikasjad nagu domeeninimi, kasutajatunnus, parool ja serveriteave.
Samm 3) Lisage uus projekt
WebSphere DataStage'i haldusaknas. Klõpsake vahekaarti Projektid ja seejärel nuppu Lisa.
Samm 4) Sisestage projekti üksikasjad
Sisestage WebSphere DataStage'i haldusaknas sellised üksikasjad nagu
- Nimi
- Faili asukoht
- Klõpsake "OK"
Iga projekt sisaldab:
- DataStage töökohad
- Sisseehitatud komponendid. Need on töös kasutatavad etteantud komponendid.
- Kasutaja määratletud komponendid. Need on kohandatud komponendid, mis on loodud DataStage Manageri või DataStage Designeri abil.
Näeme, kuidas importida Datastage Infosphere'i replikatsioonitöid.
Kuidas importida replikatsioonitöid Datastage'is ja QualityStage Designeris
Te impordite töökohti IBM InfoSphere DataStage ja QualityStage Designer klient. Ja sa hukatad need IBM InfoSphere DataStage ja QualityStage Director klient.
Disainer-klient on nagu tühi lõuend ehitustööde jaoks. See ekstraheerib, teisendab, laadib andmeid ja kontrollib nende kvaliteeti. See pakub tööriistu, mis moodustavad töö põhilised ehitusplokid. See sisaldab
- Praktika: ühendub andmeallikatega, et lugeda või kirjutada faile ja töödelda andmeid.
- Lingid: see ühendab etapid, mida mööda teie andmed liiguvad
InfoSphere DataStage'i ja QualityStage Designeri kliendi etapid salvestatakse Designeri tööriistapaletti.
InfoSphere QualityStage sisaldab järgmisi etappe.
- Uurige etappi
- Standardiseeri etapp
- Match Frequency etapp
- Ühe allika Matchi etapp
- Kahe allika Matchi etapp
- Ellujäämise etapp
- Standardiseerimise kvaliteedihindamise (SQA) etapp
DataStage'i infosfääris saate luua nelja tüüpi töid.
- Paralleelne töö
- Jada töö
- Suurarvuti töö
- Serveri töö
Vaatame samm-sammult, kuidas replikatsioonitöö faile importida.
Step 1) Käivitage DataStage ja QualityStage Designer. Klõpsake nuppu Start > Kõik programmid > IBM Teabeserver > IBM WebSphere DataStage ja QualityStage Designer
Step 2) Aknas Attach to Project sisestage järgmised üksikasjad.
- Domeen
- kasutajanimi
- Parool
- Projekti nimi
- OK
Step 3) Nüüd klõpsake menüüs Fail nuppu Import -> DataStage'i komponendid.
Avaneb uus DataStage Repository Import aken.
- Selles aknas sirvige STAGEDB_AQ00_ST00_sJobs.dsx faili, mille olime varem loonud
- Valige suvand "Impordi kõik".
- Märkige ruut "Teosta mõju analüüs".
- Klõpsake nuppu OK.
Kui töö on imporditud, loob DataStage töö STAGEDB_AQ00_ST00_sequence.
Step 4) Järgige samu samme, et importida STAGEDB_AQ00_ST00_pJobs.dsx faili. See import loob neli paralleelset tööd.
Step 5) Paani Kujundaja hoidla all -> Avage kaust SQLREP. Kausta sees näete Sequence Job ja nelja paralleelset tööd.
Step 6) Järjestustöö vaatamiseks. Minge hoidlapuusse, paremklõpsake tööl STAGEDB_AQ00_ST00_sequence ja klõpsake nuppu Redigeeri. See näitab nelja paralleelse töö töövoogu, mida tööjada juhib.
Iga ikoon on lava,
- getExtractRange etapp: see värskendab IBMSNAP_FEEDETL tabel. See seab andmete ekstraheerimise alguspunktiks punkti, kus DataStage viimati read ekstraheeris, ja lõpp-punktiks viimane tehing, mida tellimiskomplekti jaoks töödeldi.
- getExtractRangeSuccess: see etapp toidab lähtepunktid etapile extractFromINVENTORY_CCD ja extractFromPRODUCT_CCD etapile
- Kõik väljavõtted Edu: See etapp tagab, et nii ekstraktFromINVENTORY_CCD kui ka ekstraktFromPRODUCT_CCD on edukalt lõpule viidud. Seejärel edastab sünkroonimispunktid viimaste ridade jaoks, mis toodi etappi setRangeProcessed.
- setRangeProcessed etapp: see värskendab IBMSNAP_FEEDETL tabel. Seega teab DataStage, kust alustada andmete ekstraheerimise järgmist vooru
Step 7) Et näha paralleelseid töid. Paremklõpsake STAGEDB_ASN_INVENTORY_CCD-d ja valige hoidlast redigeeri. See avab akna, nagu allpool näidatud.
Siin ülaloleval pildil näete, et andmed laoseisu CCD tabelist ja Synch punkti üksikasjad tabelist FEEDETL renderdatakse etappi Lookup_6.
Andmeühenduse loomine DataStage'ist STAGEDB andmebaasi
Järgmine samm on luua andmeühendus InfoSphere DataStage'i ja SQL-i replikatsiooni sihtandmebaasi vahel. See sisaldab CCD tabeleid.
Rakenduses DataStage kasutate andmeühenduse objekte koos seotud konnektori etappidega, et määrata kiiresti ühendus töö kujunduses andmeallikaga.
Step 1) STAGEDB sisaldab nii rakendusjuhttabeleid, mida DataStage kasutab andmete eraldamise sünkroonimiseks, kui ka CCD tabeleid, millest andmed ekstraheeritakse. Kasutage järgmisi käske
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
märkused: süsteemi IP-aadress, kus STAGEDB loodi
Step 2) Klõpsake Fail > Uus > Muu > Andmeühendus.
Step 3) Teil on aken kahe vahekaardiga, Parameetrid ja Üldine.
Step 4) Selles sammus
- Üldiselt pange vahekaardil andmeühendusele nimi sqlreplConnect
- Vahekaardil Parameetrid, nagu allpool näidatud
- Klõpsake sirvimisnuppu välja „Ühenda kasutades etapitüüpi” kõrval ja
- Avatud aken navigeerige hoidlapuus jaotisesse Etapitüübid -> Paralleel -> Andmebaas -> DB2 konnektor.
- Klõpsake nuppu Ava.
Step 5) Ühenduse parameetrite tabelisse sisestage sellised üksikasjad nagu
- ÜhendusString: STAGEDB2
- kasutajanimi: kasutaja ID andmebaasiga STAGEDB ühenduse loomiseks
- Parool: parool STAGEDB andmebaasiga ühenduse loomiseks
- Juhtum: STAGEDB andmebaasi sisaldava DB2 eksemplari nimi
Step 6) Järgmises aknas salvestage andmesideühendus. Klõpsake nuppu "Salvesta".
Tabeli definitsioonide importimine STAGEDB-st DataStage'i
Eelmises etapis nägime, et InfoSphere DataStage ja STAGEDB andmebaas on ühendatud. Nüüd importige teabeserveri hoidlasse veeru määratlus ja muud tabelite PRODUCT_CCD ja INVENTORY_CCD metaandmed.
Järgige disaineri aknas alltoodud samme.
Step 1) Valige Import > Tabelidefinitsioonid > Käivita konnektori importimise viisard
Step 2) Valige viisardi konnektori valimise lehelt DB2 konnektor ja klõpsake nuppu Edasi.
Step 3) Ühenduse üksikasjade lehel klõpsake laadimist. See täidab viisardi väljad ühenduse teabega eelmises peatükis loodud andmeühendusest.
Step 4) Klõpsake samal lehel nuppu Testi ühendust. See palub DataStage'il proovida ühendust luua STAGEDB andmebaasiga. Näete teadet "Ühendus õnnestus". Klõpsake nuppu Edasi.
Step 5) Veenduge, et lehel Andmeallika asukoht on väljad Hostinimi ja Andmebaasi nimi õigesti täidetud. Seejärel klõpsake nuppu Edasi.
Step 6) Skeemi lehel. Sisestage rakendusjuhttabelite (ASN) skeem või kontrollige, kas ASN-skeem on skeemiväljale eeltäidetud. Seejärel klõpsake nuppu Edasi. Valikulehel kuvatakse ASN-skeemis määratletud tabelite loend.
Step 7) Esimene tabel, millest peame metaandmeid importima, on IBMSNAP_FEEDETL, rakendamise juhttabel. Sellel on üksikasjad sünkroonimispunktide kohta, mis võimaldavad DataStage'il jälgida, milliseid ridu ta on CCD-tabelitest toonud. Vali IBMSNAP_FEEDETL ja klõpsake nuppu Edasi.
Step 8) Importimise lõpuleviimiseks IBMSNAP_FEEDETL tabeli definitsioon. Klõpsake nuppu Import ja seejärel avatud aknas nuppu Ava.
Step 9) Tabeli PRODUCT_CCD ja seejärel tabeli INVENTORY_CCD definitsioonide importimiseks korrake samme 1–8 veel kaks korda.
MÄRKUSED: Varude ja toote määratluste importimisel muutke kindlasti ASN-i skeemid skeemiks, mille alusel loodi PRODUCT_CCD ja INVENTORY_CCD.
Nüüd on DataStage'il kõik üksikasjad, mida ta vajab SQL-i replikatsiooni sihtandmebaasiga ühenduse loomiseks.
DataStage'i tööde atribuutide seadistamine
Iga nelja DataStage'i paralleeltöö jaoks sisaldab see üht või mitut etappi, mis on ühenduses STAGEDB andmebaasiga. Peate muutma etappe, et lisada ühendusteavet ja linkida DataStage'i sisestatud andmekogumifailidega.
Etappidel on eelmääratletud atribuudid, mida saab redigeerida. Siin muudame mõnda neist atribuutidest paralleeltöö STAGEDB_ASN_PRODUCT_CCD_extract jaoks.
Step 1) Sirvige Designeri hoidla puud. Valige kausta SQLREP all paralleeltöö STAGEDB_ASN_PRODUCT_CCD_extract. Muutmiseks paremklõpsake tööd. Kujundajapaletis avaneb paralleeltöö kujundusaken.
Step 2) Leidke roheline ikoon. See ikoon tähistab DB2 konnektori etappi. Seda kasutatakse andmete eraldamiseks CCD tabelist. Double-klõpsake ikooni. Avaneb etapi redigeerimise aken.
Step 3) Klõpsake redaktoris nuppu Laadi, et täita väljad ühenduse teabega. Etapi redaktori sulgemiseks ja muudatuste salvestamiseks klõpsake nuppu OK.
Step 4) Nüüd naaske paralleeltöö STAGEDB_ASN_PRODUCT_CCD_extract disainiaknasse. Leidke hankimise ikoonSynchPoints DB2 konnektori etapp. Seejärel topeltklõpsake ikooni.
Step 5) Nüüd klõpsake laadimisnupul, et täita väljad ühenduse teabega.
MÄRKUSED: kui kasutate rakenduse juhtserverina muud andmebaasi kui STAGEDB. Seejärel valige hankimise jaoks ühenduseteabe laadimise suvandSynchPoints etapp, mis suhtleb pigem juhttabelitega kui CCD tabeliga.
Step 6) Selles sammus
- Looge süsteemis, kus InfoSphere DataStage töötab, tühi tekstifail.
- Nimetage see fail nimega productdataset.ds ja märkige üles, kuhu see salvestasite.
- DataStage kirjutab sellesse faili muudatused pärast seda, kui see on CCD tabelist muudatused toonud.
- Andmekogumeid või faile, mida kasutatakse andmete teisaldamiseks lingitud tööde vahel, nimetatakse püsivateks andmekogumiteks. Seda esindab DataSeti etapp.
Step 7) Nüüd avage kujundusaknas lavaredaktor ja topeltklõpsake ikoonil insert_into_a_dataset. See avab teise akna.
Step 8) Selles aknas
- Atribuutide vahekaardi all veenduge, et Target kaust on avatud ja atribuut File = DATASETNAME on esile tõstetud.
- Paremal on failiväli
- Sisestage faili productdataset.ds täielik tee
- Klõpsake nuppu OK.
Olete nüüd värskendanud kõiki toote CCD tabeli vajalikke atribuute. Sulgege disainiaken ja salvestage kõik muudatused.
Step 9) Nüüd leidke ja avage projekteerija hoidlapaanilt paralleeltöö STAGEDB_ASN_INVENTORY_CCD_extract ja korrake samme 3–8.
MÄRKUSED:
- Hankimiseks peate laadima juhtserveri andmebaasi ühenduseteabe etapiredaktorisseSynchPoints etapp. Kui teie juhtserver ei ole STAGEDB.
- Paralleelsete tööde STAGEDB_ST00_AQ00_getExtractRange ja STAGEDB_ST00_AQ00_markRangeProcessed jaoks avage kõik DB2 konnektori etapid. Seejärel kasutage STAGEDB andmebaasi ühenduseteabe lisamiseks laadimisfunktsiooni
DataStage'i tööde koostamine ja käitamine
Kui DataStage'i töö on kompileerimiseks valmis, kinnitab kujundaja töö kujunduse, vaadates sisendeid, teisendusi, avaldisi ja muid üksikasju.
Kui töö koostamine on edukalt tehtud, on see tööks valmis. Koostame kõik viis tööd, kuid teeme ainult "tööjada". Seda seetõttu, et see töö kontrollib kõiki nelja paralleelset tööd.
Step 1) SQLREP kausta all. Valige kõik viiest tööst, kasutades (Cntrl+Shift). Seejärel paremklõpsake ja valige suvand Mitme töö kompileerimine.
Step 2) Näete, et DataStage'i kompileerimisviisardis on valitud viis tööd. Klõpsake nuppu Edasi.
Step 3) Kompileerimine algab ja kui see on lõpetatud, kuvatakse teade "Komileerimine õnnestus".
Step 4) Nüüd käivitage DataStage ja QualityStage Director. Valige Start > Kõik programmid > IBM Teabeserver > IBM WebSphere DataStage ja QualityStage direktor.
Step 5) Projekti navigeerimispaanil vasakul. Klõpsake kausta SQLREP. See toob kõik viis töökohta direktori staatuse tabelisse.
Step 6) Valige töö STAGEDB_AQ00_S00_sequence. Klõpsake menüüribal valikuid Töö > Käivita kohe.
Kui kompileerimine on tehtud, näete valmis olekut.
Nüüd kontrollige, kas DataStage ekstraheeris muudetud read, mis on salvestatud tabelitesse PRODUCT_CCD ja INVENTORY_CCD, ja sisestas need kahte andmekogumi faili.
Step 7) Minge tagasi kujundajasse ja avage STAGEDB_ASN_PRODUCT_CCD_extract töö. Lavatoimetaja avamiseks Double-klõpsake andmekomplekti_sisestamise_ikooni. Seejärel klõpsake nuppu Kuva andmed.
Step 8) Nõustuge kuvatavate ridade vaikeseadetega. Seejärel klõpsake nuppu OK. Andmekomplekti faili sisu kuvamiseks avaneb andmebrauseri aken.
SQL-i replikatsiooni ja DataStage'i vahelise integratsiooni testimine
Eelmises etapis koostasime ja teostasime töö. Selles jaotises kontrollime SQL-i replikatsiooni ja DataStage'i integreerimist. Selleks teeme lähtetabelis muudatusi ja vaatame, kas sama muudatust värskendatakse ka DataStage'i.
Step 1) Liikuge oma operatsioonisüsteemi kausta sqlrepl-datastage-scripts.
Step 2) Käivitage SQL-i replikatsioon järgmiste sammudega:
- Käivitage startSQLCapture.bat (Windows) faili, et käivitada programm Capture andmebaasis SALES.
- Käivitage startSQLApply.bat (Windows) faili, et käivitada rakendus Rakendus andmebaasis STAGEDB.
Step 3) Nüüd avage fail updateSourceTables.sql. MÜÜGI andmebaasiga ühendamiseks asenda ja kasutajatunnuse ja parooliga.
Step 4) Avage DB2 käsuaken. Muutke kataloogiks sqlrepl-datastage-tutorial\scripts ja käivitage probleem antud käsuga:
db2 -tvf updateSourceTables.sql
SQL-skript teeb müügiandmebaasi mõlemas tabelis (PRODUCT, INVENTORY) erinevaid toiminguid, nagu värskendamine, lisamine ja kustutamine.
Step 5) Süsteemis, kus DataStage töötab. Avage DataStage Director ja käivitage töö STAGEDB_AQ00_S00_sequence. Klõpsake Töö > Käivita kohe.
Töö teostamisel viiakse läbi järgmised tegevused.
- Capture programm loeb SALES andmebaasi logi kuuerealised muudatused ja lisab need CD tabelitesse.
- Rakendusprogramm tõmbab muudatuste read saidi SALES CD-tabelitest ja lisab need STAGEDB-i CCD-tabelitesse.
- Kaks DataStage'i ekstraktitööd koguvad muudatused CCD tabelitest ja kirjutavad need faili productdataset.ds ja inventory dataset.ds.
Saate kontrollida, kas ülaltoodud sammud toimusid, vaadates andmekogumeid.
Step 6) Järgige allolevaid samme,
- Käivitage kujundaja. Avage STAGEDB_ASN_PRODUCT_CCD_extract töö.
- Siis Double-klõpsake andmekomplekti_sisestamise_ikooni. Lavatoimetajas. Klõpsake nuppu Kuva andmed.
- Nõustuge kuvatavate ridade vaikeseadetega ja klõpsake nuppu OK.
Andmekogum sisaldab kolme uut rida. Lihtsaim viis muudatuste rakendamise kontrollimiseks on andmebrauseris allapoole kerida. Nüüd vaadake viimast kolme rida (vt pilti allpool)
Täht I, U ja D määrab toimingu INSERT, UPDATE ja DELETE, mille tulemuseks on iga uus rida.
Sama saate kontrollida laoseisu tabeli jaoks.
kokkuvõte
- Andmestaadium on an ETL tööriist mis eraldab andmed, teisendab ja laadib andmed allikast sihtpunkti.
- See hõlbustab ärianalüüs pakkudes kvaliteetseid andmeid, mis aitavad koguda äriteavet.
- DataStage on jagatud kaheks osaks, Jagatud komponendid ja käitusaeg Architektuur.
- DataStage'il on neli põhikomponenti,
- administraator
- Juht
- Disainer
- Juhataja
- Järgmised on peamised aspektid IBM InfoSphere DataStage
- Andmete teisendamine
- Tööturg
- Paralleelne töötlemine
- Tööde kujundamisel on kaasatud erinevad etapid
- Transformatsiooni etapp
- Filtri etapp
- Agregaatori etapp
- Duplikaatide etapi eemaldamine
- Liitu lavaga
- Otsimise etapp