DataStage oktatóanyag kezdőknek: IBM DataStage (ETL Tool) képzés

Mi az a DataStage?

DataStage egy ETL-eszköz, amely adatok kinyerésére, átalakítására és betöltésére szolgál a forrásból a célhelyre. Ezeknek az adatoknak a forrása lehetnek szekvenciális fájlok, indexelt fájlok, relációs adatbázisok, külső adatforrások, archívumok, vállalati alkalmazások stb. A DataStage az üzleti elemzés megkönnyítésére szolgál azáltal, hogy minőségi adatokat biztosít az üzleti intelligencia megszerzéséhez.

A DataStage ETL eszközt egy nagy szervezetben használják interfészként a különböző rendszerek között. Gondoskodik az adatok kinyeréséről, fordításáról és betöltéséről a forrásból a célhelyre. Először a VMark indította el a 90-es évek közepén. Val vel IBM 2005-ben felvásárolta a DataStage-et, átnevezték erre IBM WebSphere DataStage és újabb IBM InfoSphere.

A Datastage különböző verziói a piacon eddig elérhetőek voltak: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft és így tovább. A legújabb kiadás az IBM InfoSphere DataStage

IBM Az információs szerver a következő termékeket tartalmazza,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM InfoSphere információs szolgáltatások igazgatója
  • IBM InfoSphere információelemző
  • IBM Information Server FastTrack
  • IBM InfoSphere Business Glossary

DataStage áttekintése

A Datastage a következő képességekkel rendelkezik.

  • A vállalati és külső adatforrások legszélesebb köréből származó adatokat képes integrálni
  • Adatérvényesítési szabályokat valósít meg
  • Hasznos nagy mennyiségű adat feldolgozásához és átalakításához
  • Skálázható párhuzamos feldolgozási megközelítést használ
  • Képes bonyolult átalakításokat kezelni és többféle integrációs folyamatot kezelni
  • Használja ki a közvetlen kapcsolódást a vállalati alkalmazásokhoz forrásként vagy célként
  • Használja ki a metaadatokat elemzéshez és karbantartáshoz
  • Operates kötegelt, valós időben vagy webszolgáltatásként

A DataStage oktatóanyag következő szakaszaiban röviden ismertetjük a következő szempontokat IBM InfoSphere DataStage:

  • Adatátalakítás
  • Állások
  • Párhuzamos feldolgozás

Az InfoSphere DataStage és a QualityStage hozzáférhet a vállalati alkalmazások és adatforrások adataihoz, például:

Feldolgozási szakaszok típusai

IBM Az infoszféra munka egyes szakaszokból áll, amelyek össze vannak kapcsolva. Leírja az adatok áramlását egy adatforrástól egy adatcélig. Általában egy szakasznak legalább egy adatbemenete és/vagy egy adatkimenete van. Egyes fokozatok azonban egynél több adatbevitelt és kimenetet is fogadhatnak egynél több szakaszra.

A munkatervezés során a következő szakaszokat használhatja:

  • Átalakítási szakasz
  • Szűrési fokozat
  • Aggregátor szakasz
  • Az ismétlődések eltávolítása
  • Csatlakozz a színpadhoz
  • Keresési szakasz
  • Másolási szakasz
  • Rendezési szakasz
  • Konténerek

DataStage Components és Architectúra

A DataStage négy fő összetevőből áll, nevezetesen,

  1. Adminisztrátor: Adminisztrációs feladatokra használják. Ez magában foglalja a DataStage felhasználók beállítását, a tisztítási feltételek beállítását, valamint a projektek létrehozását és áthelyezését.
  2. Menedzser: Ez az ETL DataStage Repository fő interfésze. Az újrafelhasználható metaadatok tárolására és kezelésére szolgál. A DataStage manageren keresztül megtekinthető és szerkeszthető a Repository tartalma.
  3. Tervező: DataStage-alkalmazások VAGY feladatok létrehozására használt tervezői felület. Meghatározza az adatforrást, a szükséges átalakítást és az adatok rendeltetési helyét. A feladatokat a rendszer egy végrehajtható fájl létrehozására fordítja, amelyet az igazgató ütemez, és a kiszolgáló futtat
  4. Rendező: DataStage szerverjobok és párhuzamos jobok érvényesítésére, ütemezésére, végrehajtására és figyelésére szolgál.
Adatszakasz Architecture diagram
Adatszakasz Architecture diagram

A fenti kép elmagyarázza, hogyan IBM Az Infosphere DataStage kölcsönhatásba lép a program más elemeivel IBM Információs szerver platform. A DataStage két részre oszlik, Megosztott összetevők és futásidő Architectúra.

   
Tevékenységek

Közös

Egységes felhasználói felület

  • Grafikus tervezői felületet használnak az InfoSphere DataStage alkalmazások (jobok néven ismert) létrehozására.
  • Minden feladat meghatározza az adatforrásokat, a szükséges átalakításokat és az adatok rendeltetési helyét.
  • A feladatok párhuzamos munkafolyamatok és újrafelhasználható komponensek létrehozása érdekében vannak összeállítva. Ezeket az InfoSphere DataStage és a QualityStage Director ütemezi és futtatja.
  • A Designer kliens kezeli a metaadatokat a lerakatban. Miközben a lefordított végrehajtási adatok az Information Server Engine-szinten kerülnek telepítésre.

Közös szolgáltatások

  • Metaadat-szolgáltatások, például hatáselemzés és keresés
  • Tervezési szolgáltatások, amelyek támogatják az InfoSphere DataStage feladatok fejlesztését és karbantartását
  • Végrehajtási szolgáltatások, amelyek támogatják az InfoSphere DataStage összes funkcióját

Közös párhuzamos feldolgozás

  • A motor olyan végrehajtható feladatokat futtat, amelyek sokféle beállítás mellett kivonják, átalakítják és betöltik az adatokat.
  • A párhuzamos feldolgozás és csővezetékek motorválasztási megközelítése nagy mennyiségű munka kezelésére.

Runtime Architectúra

OSH Script

  • Ez leírja az OSH (hangszerelt Shell Script) létrehozását és a végrehajtási folyamatot IBM és az áramlását IBM Infosphere DataStage az Information Server motor használatával
  • Lehetővé teszi a grafikus point-and-click technikák használatát az adatok kibontására, tisztítására, átalakítására, integrálására és célfájlokba való betöltésére szolgáló munkafolyamatok fejlesztésére.

A Datastage Tool előfeltétele

A DataStage esetében a következő beállításra lesz szüksége.

  • Infoszféra
  • DataStage Server 9.1.2 vagy újabb
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle kliens (teljes kliens, nem azonnali kliens), ha csatlakozik egy Oracle adatbázis
  • DB2 ügyfél, ha DB2 adatbázishoz csatlakozik

Ebben a DataStage kezdőknek szóló oktatóanyag-sorozatban megtudjuk, hogyan kell letölteni és telepíteni az InfoSphere információs szervert.

Az InfoSphere Information Server letöltése és telepítése

A DataStage eléréséhez töltse le és telepítse a legújabb verziót IBM InfoSphere Server. A szerver támogatja az AIX, Linux és Windows operációs rendszer. Igény szerint választhat.

Az adatok áttelepítéséhez az infosphere egy régebbi verziójáról az új verzióra használja az eszközcsere eszközt.

Telepítési fájlok

Az Infosphere Datastage telepítéséhez és konfigurálásához a következő fájlokkal kell rendelkeznie a telepítésben.

Minden Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Linux esetén

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Változási adatok folyamata egy CDC-tranzakciós szakaszban

Változási adatok folyamata a CDC-ben

  1. Az adatbázis 'InfoSphere CDC' szolgáltatása figyeli és rögzíti a változást egy forrásadatbázisból
  2. A replikációs definíció szerint az „InfoSphere CDC” átviszi a változási adatokat az „InfoSphere CDC for InfoSphere DataStage”-be.
  3. Az „InfoSphere CDC for InfoSphere DataStage” szerver egy TCP/IP-munkameneten keresztül adatokat küld a „CDC Tranzakciós szakasznak”. Az „InfoSphere CDC for InfoSphere DataStage” kiszolgáló egy COMMIT üzenetet is küld (a könyvjelző információkkal együtt), hogy megjelölje a tranzakciós határt a rögzített naplóban.
  4. Az „InfoSphere CDC for InfoSphere DataStage” szerver által küldött minden COMMIT üzenethez a „CDC Tranzakciós szakasz” hullámvégi (EOW) jelölőket hoz létre. Ezeket a jelölőket a rendszer minden kimeneti hivatkozáson elküldi a céladatbázis-összekötő szakaszhoz.
  5. Amikor a „céladatbázis-csatlakozó szakasz” hullámvégi jelölőt kap az összes bemeneti hivatkozáson, a könyvjelzőinformációkat egy könyvjelzőtáblába írja, majd véglegesíti a tranzakciót a céladatbázisban.
  6. Az „InfoSphere CDC for InfoSphere DataStage” kiszolgáló könyvjelző-információkat kér a „céladatbázis” könyvjelzőtáblájából.
  7. Az „InfoSphere CDC for InfoSphere DataStage” kiszolgáló megkapja a könyvjelző információkat.

Ezt az információt arra használjuk,

  • Határozza meg a kiindulási pontot a tranzakciós naplóban, ahol a változások a replikáció megkezdésekor olvashatók.
  • Annak meghatározása, hogy a meglévő tranzakciós napló tisztítható-e

Az SQL-replikáció beállítása

Mielőtt elkezdené a Datastage használatát, be kell állítania az adatbázist. Két DB2 adatbázist fog létrehozni.

  • Az egyik replikációs forrásként szolgál, és
  • Az egyik célpont.

Létre kell hoznia két táblát is (Termék és Készlet), és kitölti azokat mintaadatokkal. Ezután tesztelheti a közötti integrációt SQL Replikáció és Datastage.

A továbbiakban az SQL-replikációt a létrehozással állítja be vezérlőtáblák, előfizetési készletek, regisztrációk és előfizetési készletek tagjai. Erről részletesebben a következő részben fogunk megtudni.

Itt egy példát veszünk a Kiskereskedelmi értékesítési cikkre adatbázisunkként, és létrehozunk két táblázatot a Készlet és a Termék. Ezek a táblák ezeken a készleteken keresztül töltik be az adatokat a forrástól a célig. (vezérlőtáblák, előfizetési készletek, regisztrációk és előfizetési készletek tagjai.)

Step 1) Hozzon létre egy forrásadatbázist, amelyet ún ÉRTÉKESÍTÉSI. Ebben az adatbázisban hozzon létre két táblát termék és a Leltár.

Step 2) Futtassa a következő parancsot az SALES adatbázis létrehozásához.

db2 create database SALES

Step 3) Kapcsolja be az SALES adatbázis archív naplózását. Ezenkívül készítsen biztonsági másolatot az adatbázisról a következő parancsokkal

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Step 4) Ugyanebben a parancssorban váltson át a setupDB alkönyvtárra az sqlrepl-datastage-tutorial könyvtárban, amelyet a letöltött tömörített fájlból bontott ki.

Az SQL-replikáció beállítása

Step 5) A következő paranccsal hozhat létre Leltártáblázatot, és importálhat adatokat a táblába a következő parancs futtatásával.

db2 importálás a inventory.ixf fájlból az ixf create készletbe

Step 6) Hozzon létre egy céltáblát. Nevezze el a céladatbázist: STAGEDB.

Mivel most már létrehozta a forrást és a célt is, a DataStage oktatóanyag következő lépéseként meglátjuk, hogyan replikálhatjuk azt.

Az alábbi információk segíthetnek ODBC adatforrás beállítása.

SQL replikációs objektumok létrehozása

Az alábbi képen látható, hogy a változási adatok hogyan jutnak el a forrástól a céladatbázisig. Létrehoz egy forrás-cél leképezést az úgynevezett táblák között előfizetési készlet tagjai és csoportosítsd a tagokat a előfizetés.

SQL replikációs objektumok létrehozása

Az InfoSphere CDC-n belüli replikációs egységre (Change Data Capture) előfizetésként hivatkozunk.

  • A forrásban végrehajtott változtatásokat a „Capture control table” rögzíti, amely a CD-táblába, majd a céltáblába kerül. Míg az alkalmazási program tartalmazza a sor részleteit, ahonnan a változtatásokat végre kell hajtani. Ez is csatlakozik a CD-táblához az előfizetési készletben.
  • Az előfizetés leképezési részleteket tartalmaz, amelyek meghatározzák, hogy a forrásadattárban lévő adatok hogyan kerülnek alkalmazásra a céladattárra. Megjegyzés: a CDC-re most úgy hivatkozunk, mint Infoszféra adatreplikáció.
  • Az előfizetés végrehajtásakor az InfoSphere CDC rögzíti a forrásadatbázis módosításait. Az InfoSphere CDC elküldi a változási adatokat a célnak, és a szinkronizálási pont információkat egy könyvjelzőtáblázatban tárolja a céladatbázisban.
  • Az InfoSphere CDC a könyvjelző-információkat használja az InfoSphere DataStage job előrehaladásának figyelésére.
  • Meghibásodás esetén a könyvjelző információit használja újraindítási pontként. Példánkban az ASN.IBMA SNAP_FEEDETL tábla a DataStage-hez kapcsolódó szinkronpont-információkat tárolja, amelyek a DataStage folyamatának nyomon követésére szolgálnak.

Ebben a részben IBM DataStage képzési útmutató, a következőket kell tennie,

  • Hozzon létre CAPTURE CONTROL táblákat és APPLY CONTROL táblákat a replikációs beállítások tárolásához
  • Regisztrálja a PRODUCT és INVENTORY táblákat replikációs forrásként
  • Hozzon létre egy előfizetési készletet két taggal
  • Hozzon létre előfizetési készlet tagjait és cél CCD-táblázatokat

Az SQL-replikáció beállításához használja az ASNCLP parancssori programot

Step 1) Keresse meg a crtCtlTablesCaptureServer.asnclp parancsfájlt az sqlrepl-datastage-tutorial/setupSQLRep könyvtárban.

Step 2) A fájlban cserélje ki és " ” felhasználói azonosítójával és jelszavával az SALES adatbázishoz való csatlakozáshoz.

Step 3) Módosítsa a könyvtárakat az sqlrepl-datastage-tutorial/setupSQLRep könyvtárra, és futtassa a parancsfájlt. Használja a következő parancsot. A parancs csatlakozik a SALES adatbázishoz, és létrehoz egy SQL parancsfájlt a Capture vezérlőtábláinak létrehozásához.

asnclp –f crtCtlTablesCaptureServer.asnclp

Step 4) Keresse meg a crtCtlTablesApplyCtlServer.asnclp parancsfájlt ugyanabban a könyvtárban. Most cserélje ki a következő két példányát és " ” a STAGEDB adatbázishoz való csatlakozáshoz szükséges felhasználói azonosítóval és jelszóval.

Step 5) Most ugyanabban a parancssorban használja a következő parancsot az alkalmazásvezérlő táblák létrehozásához.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Step 6) Keresse meg a crtRegistration.asnclp parancsfájlt, és cserélje ki az összes példányt az SALES adatbázishoz való csatlakozáshoz szükséges felhasználói azonosítóval. Ezenkívül változtassa meg a „ ” a csatlakozási jelszóhoz.

Step 7) A forrástáblázatok regisztrálásához használja a következő szkriptet. A regisztráció létrehozásának részeként az ASNCLP program két CD-táblát hoz létre. CDTERMÉK ÉS CDINVENTORY.

asnclp –f crtRegistration.asnclp

A REGISZTRÁCIÓ LÉTREHOZÁSA parancs a következő beállításokat használja:

  • Differenciálfrissítés: Csak akkor kéri az Apply programot, hogy frissítse a céltáblát, ha a forrástábla sorai megváltoznak
  • Kép mindkettőt: Ezzel a beállítással regisztrálhatja az értéket a forrás oszlopban a változás előtt, és egyet a változás bekövetkezte utáni értékhez.

Step 8) A céladatbázishoz (STAGEDB) való csatlakozáshoz kövesse az alábbi lépéseket.

  • Keresse meg a crtTableSpaceApply.bat fájlt, nyissa meg egy szövegszerkesztőben
  • Cserélje ki és felhasználói azonosítóval és jelszóval
  • A DB2 parancsablakban írja be a crtTableSpaceApply.bat parancsot, és futtassa a fájlt.
  • Ez a kötegfájl új táblaterületet hoz létre a céladatbázison ( STAGEDB)

Step 9) Keresse meg a crtSubscriptionSetAndAddMembers.asnclp parancsfájlt, és hajtsa végre a következő módosításokat.

  • Cserélje le a(z) összes példányát és az SALES adatbázishoz (forráshoz) való csatlakozáshoz szükséges felhasználói azonosítóval és jelszóval.
  • Cserélje le a(z) összes példányát és a STAGEDB adatbázishoz (cél) való csatlakozáshoz szükséges felhasználói azonosítóval.

A módosítások után futtassa a parancsfájlt a forrás- és céltáblákat csoportosító előfizetési készlet (ST00) létrehozásához. A parancsfájl két előfizetési készlettagot és CCD-t (konzisztens változási adatok) is létrehoz a céladatbázisban, amely a módosított adatokat tárolja. Ezeket az adatokat az Infosphere DataStage fogja felhasználni.

Step 10) Futtassa a parancsfájlt az előfizetési készlet, az előfizetési készlettagok és a CCD-táblázatok létrehozásához.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Az előfizetési készlet és a két tag létrehozásához használt különféle opciók közé tartozik

  • Kompletten lecsapódott
  • Külső
  • Betöltési típus import export
  • Időzítés folyamatos

Step 11) A replikációs adminisztrációs eszközök hibája miatt. Egy másik kötegfájlt kell végrehajtania a TARGET_CAPTURE_SCHEMA oszlop beállításához a IBMSNAP_SUBS_SET vezérlőtábla nullára.

  • Keresse meg az updateTgtCapSchema.bat fájlt. Nyissa meg egy szövegszerkesztőben. Cserélje ki és a STAGEDB adatbázishoz való csatlakozáshoz szükséges felhasználói azonosítóval.
  • A DB2 parancsablakban írja be az updateTgtCapSchema.bat parancsot, és futtassa a fájlt.

Definíciós fájlok létrehozása a CCD-táblák DataStage-hez való leképezéséhez

Mielőtt a következő lépésben replikációt végeznénk, csatlakoztatnunk kell a CCD táblát a DataStage-hez. Ebben a részben látni fogjuk, hogyan kapcsolhatjuk össze az SQL-t a DataStage-el.

A CCD-tábla DataStage-hez való csatlakoztatásához Datastage-definíciós (.dxs) fájlokat kell létrehoznia. A DataStage a .dsx fájlformátumot használja a feladatdefiníciók importálására és exportálására. Két .dsx fájl létrehozásához ASNCLP parancsfájlt kell használnia. Itt például két .dsx fájlt hoztunk létre.

  • stagedb_AQ00_SET00_sJobs.dsx: Feladatsorozatot hoz létre, amely irányítja a négy párhuzamos job munkafolyamatát.
  • stagedb_AQ00_SET00_pJobs.dsx : Létrehozza a négy párhuzamos feladatot

Az ASNCLP program automatikusan leképezi a CCD oszlopot a Datastage Column formátumra. Csak akkor támogatott, ha az ASNCLP fut Windows, Linux vagy Unix eljárás.

Definíciós fájlok a CCD-táblák DataStage-hez való leképezéséhez

Az adatszakasz jobok sorokat vonnak ki a CCD-táblából.

  1. Az egyik feladat beállít egy szinkronpontot, ahol a DataStage abbahagyta az adatok kinyerését a két táblából. A feladat úgy kapja meg ezeket az információkat, hogy kiválasztja a SZINCHPONT értéket az ST00 előfizetési készlethez a IBMSNAP_SUBS_SET tábla, és beilleszti a MAX_SYNCHPOINT oszlopába IBMSNAP_FEEDETL tábla.
  2. Két feladat, amely adatokat nyer ki a PRODUCT_CCD és az INVENTORY_CCD táblákból. A jobok tudják, hogy mely sorok kibontását kezdjék meg azáltal, hogy kiválasztják a MIN_SYNCHPOINT és a MAX_SYNCHPOINT értékeket a IBMSNAP_FEEDETL tábla az előfizetési készlethez.

Replikáció indítása

A replikáció elindításához kövesse az alábbi lépéseket. Ha a CCD táblák adatokkal vannak feltöltve, az azt jelzi, hogy a replikációs beállítás érvényesítve van. A cél CCD táblákban lévő replikált adatok megtekintéséhez használja a DB2 Vezérlőközpont grafikus felhasználói felületét.

Step 1) Győződjön meg arról, hogy a DB2 fut, ha nem, akkor használja db2 start parancs.

Step 2) Ezután használja az asncap parancsot az operációs rendszer parancssorából a program rögzítésének elindításához. Például.

asncap capture_server=SALES

A fenti parancs a SALES adatbázist határozza meg Capture kiszolgálóként. A rögzítés futása közben tartsa nyitva a parancsablakot.

Step 3) Most nyisson meg egy új parancssort. Ezután indítsa el a PÁLYÁZAT programot az asnapply paranccsal.

asnapply control_server=STAGEDB apply_qual=AQ00

Replikáció indítása

  • A parancs a STAGEDB adatbázist adja meg Apply vezérlőkiszolgálóként (az Apply vezérlőtábláit tartalmazó adatbázis).
  • AQ00, mint az Apply minősítő (a vezérlőtábla-készlet azonosítója)

Hagyja nyitva a parancsablakot, miközben az Apply fut.

Step 4) Most nyisson meg egy másik parancssort, és adja ki a db2cc parancsot a DB2 Vezérlőközpont elindításához. Fogadja el az alapértelmezett Vezérlőközpontot.

Step 5) Most a bal oldali navigációs fában nyissa meg az Összes adatbázis > STAGEDB elemet, majd kattintson a Táblázatok elemre. Double kattintson a táblázat nevére ( Termék CCD) a táblázat megnyitásához. Valahogy így fog kinézni.

Replikáció indítása

Hasonlóképpen megnyithatja a CCD táblát is az INVENTORY számára.

Replikáció indítása

Projektek létrehozása a Datastage eszközben

Először is létre kell hoznia egy projektet a DataStage-ben. Ehhez InfoSphere DataStage rendszergazdának kell lennie.

Miután a telepítés és a replikáció befejeződött, létre kell hoznia egy projektet. A DataStage-ben a projektek az adatok rendszerezési módszerei. Ez magában foglalja az adatfájlok, szakaszok és összeállítási feladatok meghatározását egy adott projektben.

Projekt létrehozásához a DataStage alkalmazásban kövesse az alábbi lépéseket:

1. lépés) Indítsa el a DataStage szoftvert

Indítsa el a DataStage és a QualityStage Administrator alkalmazást. Ezután kattintson a Start > Minden program > elemre IBM Információs szerver > IBM WebSphere DataStage és QualityStage Administrator.

2. lépés: Csatlakoztassa a DataStage szervert és a klienst

A DataStage kiszolgálóhoz való csatlakozáshoz a DataStage kliensről adjon meg olyan adatokat, mint a tartománynév, felhasználói azonosító, jelszó és szerverinformációk.

3. lépés) Új projekt hozzáadása

A WebSphere DataStage Administration ablakban. Kattintson a Projektek fülre, majd kattintson a Hozzáadás gombra.

4. lépés) Adja meg a projekt részleteit

A WebSphere DataStage Administration ablakban adja meg a részleteket, például

  1. Név
  2. A fájl helye
  3. Kattintson az "OK"

Hozzon létre projekteket a Datastage eszközben

Minden projekt a következőket tartalmazza:

  • DataStage munkák
  • Beépített alkatrészek. Ezek előre meghatározott összetevők, amelyeket egy jobban használnak.
  • Felhasználó által definiált összetevők. Ezek testreszabott összetevők, amelyeket a DataStage Manager vagy a DataStage Designer segítségével hoztak létre.

Meglátjuk, hogyan importálhatunk replikációs feladatokat a Datastage Infosphere-ben.

Replikációs feladatok importálása a Datastage és a QualityStage Designer alkalmazásban

A munkákat a következő helyen fogja importálni IBM InfoSphere DataStage és QualityStage Designer kliens. És kivégezed őket a IBM InfoSphere DataStage és QualityStage Director ügyfél.

A tervező-megrendelő olyan, mint egy üres vászon az építési munkákhoz. Kivonja, átalakítja, betölti és ellenőrzi az adatok minőségét. Olyan eszközöket biztosít, amelyek a Job alapvető építőköveit alkotják. Ez magában foglalja

  • Szakmai: Adatforrásokhoz csatlakozik fájlok olvasásához vagy írásához, valamint adatok feldolgozásához.
  • Linkek: Összekapcsolja azokat a szakaszokat, amelyek mentén az adatok áramlanak

Az InfoSphere DataStage és a QualityStage Designer kliens szakaszai a Designer eszközpalettán vannak tárolva.

Az InfoSphere QualityStage a következő szakaszokat tartalmazza:

  • Vizsgálja meg a szakaszt
  • A szakasz szabványosítása
  • Match Frequency szakasz
  • Egy forrású Match szakasz
  • Két forrású Match szakasz
  • Túlélni szakaszt
  • Szabványosítási minőségértékelés (SQA) szakasza

A DataStage infoszférában 4 típusú jobot hozhat létre.

  • Párhuzamos munka
  • Sequence Job
  • Nagyszámítógépes munka
  • Szerver munka

Lépésről lépésre nézzük meg a replikációs feladatfájlok importálását.

Step 1) Indítsa el a DataStage és a QualityStage Designer alkalmazást. Kattintson a Start > Minden program > elemre IBM Információs szerver > IBM WebSphere DataStage és QualityStage Designer

Step 2) A Csatolás projekthez ablakban adja meg a következő adatokat.

  • Domén
  • Felhasználónév
  • Jelszó
  • Projekt Neve
  • OK

Replikációs feladatok importálása a Datastage és a QualityStage alkalmazásban

Step 3) Most a Fájl menüben kattintson az Importálás gombra -> DataStage komponensek.

Megnyílik egy új DataStage Repository Import ablak.

  1. Ebben az ablakban tallózzon STAGEDB_AQ00_ST00_sJobs.dsx fájl, amelyet korábban hoztunk létre
  2. Válassza az „Összes importálása” lehetőséget.
  3. Jelölje be a „Hatáselemzés végrehajtása” jelölőnégyzetet.
  4. Kattintson az "OK" gombra.

Replikációs feladatok importálása a Datastage és a QualityStage alkalmazásban

A feladat importálása után a DataStage létrehozza a STAGEDB_AQ00_ST00_sequence feladatot.

Step 4) Kövesse ugyanazokat a lépéseket a STAGEDB_AQ00_ST00_pJobs.dsx fájl. Ez az importálás létrehozza a négy párhuzamos feladatot.

Step 5) A Designer Repository ablaktáblában -> Nyissa meg az SQLREP mappát. A mappán belül a Sequence Job és négy párhuzamos feladat látható.

Replikációs feladatok importálása a Datastage és a QualityStage alkalmazásban

Step 6) A sorozatfeladat megtekintéséhez. Nyissa meg a lerakatfát, kattintson jobb gombbal a STAGEDB_AQ00_ST00_sequence feladatra, majd kattintson a Szerkesztés parancsra. Megjeleníti annak a négy párhuzamos jobnak a munkafolyamatát, amelyeket a jobszekvencia vezérel.

Replikációs feladatok importálása a Datastage és a QualityStage alkalmazásban

Minden ikon egy színpad,

  • getExtractRange szakasz: Frissíti a IBMSNAP_FEEDETL tábla. Az adatkinyerés kezdőpontját arra a pontra állítja be, ahol a DataStage utoljára kibontotta a sorokat, és a végpontot az előfizetési halmazhoz tartozó utolsó tranzakcióhoz állítja be.
  • getExtractRangeSuccess: Ez a szakasz betáplálja a kiindulási pontokat a kivonatból INVENTORY_CCD szakaszba és a kivonat a PRODUCT_CCD szakaszába
  • All ExtractsSuccess: Ez a szakasz biztosítja, hogy az extractFromINVENTORY_CCD és az extractFromPRODUCT_CCD sikeresen befejeződjön. Ezután átadja az utolsó sorok szinkronizálási pontjait, amelyek a setRangeProcessed szakaszba kerültek.
  • setRangeProcessed szakasz: Frissül IBMSNAP_FEEDETL tábla. Tehát a DataStage tudja, honnan kezdje az adatkinyerés következő körét

Step 7) A párhuzamos munkák megtekintéséhez. Kattintson a jobb gombbal a STAGEDB_ASN_INVENTORY_CCD-re, és válassza a Szerkesztés lehetőséget a lerakat alatt. Megnyílik az ablak az alábbiak szerint.

Replikációs feladatok importálása a Datastage és a QualityStage alkalmazásban

Itt, a fenti képen láthatja, hogy a Készlet CCD-táblázatából származó adatok és Synch pont részletei a FEEDETL táblából a Lookup_6 szakaszba kerülnek.

Adatkapcsolat létrehozása a DataStage és a STAGEDB adatbázis között

A következő lépés az InfoSphere DataStage és az SQL Replication céladatbázisa közötti adatkapcsolat létrehozása. Ez tartalmazza a CCD táblákat.

A DataStage alkalmazásban adatkapcsolati objektumokat használ a kapcsolódó összekötő szakaszokkal, hogy gyorsan definiáljon egy adatforráshoz való kapcsolatot a jobtervben.

Step 1) A STAGEDB tartalmazza mind az Apply vezérlőtáblákat, amelyeket a DataStage az adatkinyerésének szinkronizálására használ, valamint azokat a CCD-táblákat, amelyekből az adatokat kivonja. Használja a következő parancsokat

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Megjegyzések: Annak a rendszernek az IP-címe, ahol a STAGEDB létrejött

Step 2) Kattintson a Fájl > Új > Egyéb > Adatkapcsolat elemre.

Step 3) Egy ablakban két fül található, a Paraméterek és az Általános.

Adatkapcsolat a DataStage és a STAGEDB adatbázis között

Step 4) Ebben a lépésben a

  1. Általában a lapon adja meg az adatkapcsolat nevét sqlreplConnect
  2. A Paraméterek lapon, az alábbiak szerint
  • Kattintson a "Csatlakozás a szakasz típusával" mező melletti Tallózás gombra, és a
  • A megnyitott ablakban navigáljon a lerakatfán a Stage Types -> Parallel - > Database -> DB2 Connector menüpontra.
  • Kattintson a Megnyitás gombra.

Adatkapcsolat a DataStage és a STAGEDB adatbázis között

Step 5) A Kapcsolati paraméterek táblázatban adja meg a részleteket, mint pl

  • ConnectionString: STAGEDB2
  • Felhasználónév: Felhasználói azonosító a STAGEDB adatbázishoz való csatlakozáshoz
  • Jelszó: Jelszó a STAGEDB adatbázishoz való csatlakozáshoz
  • Példa: STAGEDB adatbázist tartalmazó DB2 példány neve

Step 6) A következő ablakban mentse az adatkapcsolatot. Kattintson a 'mentés' gombra.

Tábladefiníciók importálása a STAGEDB-ből a DataStage-be

Az előző lépésben láttuk, hogy az InfoSphere DataStage és a STAGEDB adatbázis össze van kapcsolva. Most importálja a PRODUCT_CCD és az INVENTORY_CCD táblák oszlopdefinícióit és egyéb metaadatait az Information Server lerakatába.

A tervezőablakban kövesse az alábbi lépéseket.

Step 1) Válassza az Importálás > Táblázatmeghatározások > Csatlakozási szoftver importálása varázsló indítása lehetőséget

Step 2) A varázsló összekötőválasztó oldalán válassza ki a DB2 Connector elemet, majd kattintson a Tovább gombra.

Tábladefiníciók importálása a STAGEDB-ből a DataStage-be

Step 3) Kattintson a betöltés gombra a kapcsolat részleteinek oldalán. Ez feltölti a varázsló mezőit az előző fejezetben létrehozott adatkapcsolat kapcsolati adataival.

Tábladefiníciók importálása a STAGEDB-ből a DataStage-be

Step 4) Kattintson a Kapcsolat tesztelése elemre ugyanazon az oldalon. Ez arra kéri a DataStage-t, hogy próbáljon meg csatlakozni a STAGEDB adatbázishoz. Láthatja a „kapcsolat sikeres” üzenetet. Kattintson a Tovább gombra.

Tábladefiníciók importálása a STAGEDB-ből a DataStage-be

Step 5) Győződjön meg arról, hogy az Adatforrás helye oldalon a Gazdanév és az Adatbázisnév mezők megfelelően vannak kitöltve. Ezután kattintson a Tovább gombra.

Step 6) A Séma oldalon. Adja meg az Apply vezérlőtáblák (ASN) sémáját, vagy ellenőrizze, hogy az ASN-séma előre fel van-e töltve a séma mezőben. Ezután kattintson a Tovább gombra. A kiválasztási oldalon megjelenik az ASN-sémában meghatározott táblák listája.

Tábladefiníciók importálása a STAGEDB-ből a DataStage-be

Step 7) Az első tábla, amelyből a metaadatokat importálnunk kell IBMSNAP_FEEDETL, egy Apply vezérlőtábla. Részleteket tartalmaz a szinkronizálási pontokról, amelyek lehetővé teszik a DataStage számára, hogy nyomon kövesse, mely sorokat kérte le a CCD-táblázatból. Válasszon IBMSNAP_FEEDETL, majd kattintson a Tovább gombra.

Step 8) Az importálás befejezéséhez IBMSNAP_FEEDETL tábladefiníció. Kattintson az Importálás gombra, majd a megnyíló ablakban kattintson a Megnyitás gombra.

Step 9) A PRODUCT_CCD tábla, majd az INVENTORY_CCD tábla definícióinak importálásához ismételje meg még kétszer az 1–8. lépéseket.

JEGYZET: A készlet és a termék definícióinak importálásakor ügyeljen arra, hogy a sémákat ASN-ről arra a sémára változtassa, amely alapján a PRODUCT_CCD és az INVENTORY_CCD létrejött.

Mostantól a DataStage rendelkezik minden olyan részlettel, amelyre szüksége van az SQL-replikációs céladatbázishoz való csatlakozáshoz.

A DataStage Jobs tulajdonságainak beállítása

A rendelkezésünkre álló négy párhuzamos DataStage job mindegyikéhez tartalmaz egy vagy több olyan szakaszt, amely a STAGEDB adatbázishoz kapcsolódik. Módosítania kell a szakaszokat a kapcsolati információk hozzáadásához és a DataStage által feltöltött adatkészlet-fájlokhoz való hivatkozáshoz.

A szakaszoknak előre meghatározott tulajdonságai vannak, amelyek szerkeszthetők. Itt módosítunk néhány tulajdonságot a STAGEDB_ASN_PRODUCT_CCD_extract párhuzamos feladathoz.

Step 1) Böngésszen a Designer lerakatfában. Az SQLREP mappában válassza ki a STAGEDB_ASN_PRODUCT_CCD_extract párhuzamos feladatot. A szerkesztéshez kattintson a jobb gombbal a munkára. A párhuzamos munka tervezési ablaka megnyílik a Tervező palettán.

Step 2) Keresse meg a zöld ikont. Ez az ikon a DB2 összekötő szakaszt jelöli. Adatok kinyerésére szolgál a CCD táblából. Double- kattintson az ikonra. Megnyílik egy színpadszerkesztő ablak.

A DataStage Jobs tulajdonságainak beállítása

A DataStage Jobs tulajdonságainak beállítása

Step 3) A szerkesztőben kattintson a Betöltés gombra a mezők csatlakozási adatokkal való feltöltéséhez. A szakaszszerkesztő bezárásához és a módosítások mentéséhez kattintson az OK gombra.

Step 4) Most térjen vissza a STAGEDB_ASN_PRODUCT_CCD_extract párhuzamos feladat tervezési ablakához. Keresse meg a get ikontSynchPoints DB2 csatlakozó szakasz. Ezután kattintson duplán az ikonra.

Step 5) Most kattintson a betöltés gombra, hogy feltöltse a mezőket a csatlakozási adatokkal.

JEGYZET: Ha a STAGEDB-től eltérő adatbázist használ Apply-vezérlőkiszolgálóként. Ezután válassza ki a csatlakozási információk betöltésének lehetőségét a getSynchPoints szakasz, amely a CCD táblája helyett a vezérlőtáblákkal működik együtt.

Step 6) Ebben a lépésben a

  • Hozzon létre egy üres szövegfájlt azon a rendszeren, ahol az InfoSphere DataStage fut.
  • Nevezze el ezt a fájlt productdataset.ds néven, és jegyezze fel, hová mentette.
  • A DataStage változtatásokat ír ebbe a fájlba, miután lekérte a változtatásokat a CCD táblából.
  • A csatolt jobok közötti adatok mozgatására használt adatkészleteket vagy fájlokat állandó adatkészleteknek nevezzük. Ezt egy DataSet szakasz képviseli.

Step 7) Most nyissa meg a színpadszerkesztőt a tervezési ablakban, és kattintson duplán az insert_into_a_dataset ikonra. Megnyílik egy másik ablak.

A DataStage Jobs tulajdonságainak beállítása

Step 8) Ebben az ablakban

A DataStage Jobs tulajdonságainak beállítása

  • A tulajdonságok fül alatt ellenőrizze, hogy a Target mappa nyitva van, és a File = DATASETNAME tulajdonság ki van jelölve.
  • A jobb oldalon lesz egy fájlmező
  • Adja meg a productdataset.ds fájl teljes elérési útját
  • Kattintson az 'OK' gombra.

Most frissítette a termék CCD-táblázatának összes szükséges tulajdonságát. Zárja be a tervezési ablakot, és mentse az összes módosítást.

Step 9) Most keresse meg és nyissa meg a STAGEDB_ASN_INVENTORY_CCD_extract párhuzamos feladatot a Tervező lerakat paneljéből, és ismételje meg a 3-8.

JEGYZET:

  • Be kell töltenie a vezérlőkiszolgáló adatbázis kapcsolati adatait a szakaszszerkesztőbe a gethezSynchPoints színpadon. Ha a vezérlőkiszolgáló nem STAGEDB.
  • A STAGEDB_ST00_AQ00_getExtractRange és STAGEDB_ST00_AQ00_markRangeProcessed párhuzamos jobok esetén nyissa meg az összes DB2 összekötő szakaszt. Ezután használja a load függvényt a STAGEDB adatbázis csatlakozási információinak hozzáadásához

A DataStage Jobs fordítása és futtatása

Amikor a DataStage job készen áll a fordításra, a tervező a bemenetek, átalakítások, kifejezések és egyéb részletek megtekintésével ellenőrzi a job tervét.

Ha a feladat összeállítása sikeresen megtörtént, az készen áll a futtatásra. Mind az öt munkát összeállítjuk, de csak a „munkasorozatot” futtatjuk. Ennek az az oka, hogy ez a job mind a négy párhuzamos jobot vezérli.

Step 1) Az SQLREP mappa alatt. Válassza ki mind az öt feladatot a (Cntrl+Shift). Ezután kattintson a jobb gombbal, és válassza a Több feladat fordítása lehetőséget.

A DataStage Jobs fordítása és futtatása

Step 2) Látni fogja, hogy öt feladat van kiválasztva a DataStage fordítási varázslóban. Kattintson a Tovább gombra.

A DataStage Jobs fordítása és futtatása

Step 3) Megkezdődik a fordítás, és a „Sikeres fordítás” üzenet jelenik meg, ha elkészült.

A DataStage Jobs fordítása és futtatása

Step 4) Most indítsa el a DataStage és a QualityStage Director alkalmazást. Válassza a Start > Minden program > lehetőséget IBM Információs szerver > IBM WebSphere DataStage és QualityStage Director.

Step 5) A projekt bal oldali navigációs ablaktáblájában. Kattintson az SQLREP mappára. Ezzel mind az öt munkakör bekerül az igazgatói állapottáblázatba.

Step 6) Válassza ki a STAGEDB_AQ00_S00_sequence feladatot. A menüsorban kattintson a Feladat > Futtatás most elemre.

A DataStage Jobs fordítása és futtatása

Az összeállítás után látni fogja a kész állapotot.

A DataStage Jobs fordítása és futtatása

Most ellenőrizze, hogy a PRODUCT_CCD és az INVENTORY_CCD táblákban tárolt módosított sorokat a DataStage kibontotta-e, és beillesztette-e a két adatkészlet-fájlba.

Step 7) Menjen vissza a Tervezőhöz, és nyissa meg a STAGEDB_ASN_PRODUCT_CCD_extract feladatot. A színpadszerkesztő megnyitásához Double-kattintson a beszúrás_adatkészletbe_beszúrása ikonra. Ezután kattintson az adatok megtekintése elemre.

Step 8) Fogadja el az alapértelmezett értékeket a megjelenítendő ablakban. Ezután kattintson az OK gombra. Megnyílik egy adatböngésző ablak az adatkészlet fájl tartalmának megjelenítéséhez.

A DataStage Jobs fordítása és futtatása

Az SQL-replikáció és a DataStage közötti integráció tesztelése

Az előző lépésben összeállítottuk és végrehajtottuk a munkát. Ebben a részben az SQL-replikáció és a DataStage integrációját fogjuk ellenőrizni. Ehhez módosítjuk a forrástáblát, és megnézzük, hogy ugyanaz a változás frissül-e a DataStage-ben.

Step 1) Keresse meg az operációs rendszerének megfelelő sqlrepl-datastage-scripts mappát.

Step 2) Indítsa el az SQL-replikációt a következő lépésekkel:

  • Futtassa a startSQLCapture.bat (Windows) fájlt a Capture program elindításához az SALES adatbázisban.
  • Futtassa a startSQLApply.bat (Windows) fájlt az Apply program elindításához a STAGEDB adatbázisban.

Step 3) Most nyissa meg az updateSourceTables.sql fájlt. Az SALES adatbázishoz való csatlakozáshoz cserélje ki és felhasználói azonosítóval és jelszóval.

Step 4) Nyisson meg egy DB2 parancsablakot. Módosítsa a könyvtárat az sqlrepl-datastage-tutorial\scripts könyvtárra, és futtassa a kiadást a megadott paranccsal:

db2 -tvf updateSourceTables.sql

Az SQL parancsfájl különféle műveleteket hajt végre, például frissítést, beszúrást és törlést mindkét táblán (TERMÉK, KÉSZLET) az értékesítési adatbázisban.

Step 5) Azon a rendszeren, ahol a DataStage fut. Nyissa meg a DataStage Directort, és hajtsa végre a STAGEDB_AQ00_S00_sequence feladatot. Kattintson a Feladat > Futtatás most elemre.

Integráció az SQL-replikáció és a DataStage között

A munka végrehajtása során a következő tevékenységeket hajtják végre.

  • A Capture program beolvassa a hatsoros változtatásokat az SALES adatbázis naplójában, és beilleszti a CD-táblázatokba.
  • Az Apply program lekéri a változássorokat a SALES CD-táblázataiból, és beszúrja azokat a STAGEDB CCD-táblázataiba.
  • A két DataStage kivonatfeladat felveszi a módosításokat a CCD-táblákból, és beírja azokat a productdataset.ds és inventory dataset.ds fájlba.

Az adatkészletek megtekintésével ellenőrizheti, hogy a fenti lépések megtörténtek-e.

Step 6) Kövesse az alábbi lépéseket,

  • Indítsa el a Tervezőt. Nyissa meg a STAGEDB_ASN_PRODUCT_CCD_extract feladatot.
  • Majd Double-kattintson a beszúrás_adatkészletbe_beszúrása ikonra. A színpadi szerkesztőben. Kattintson az Adatok megtekintése elemre.
  • Fogadja el az alapértelmezett értékeket a megjelenítendő sorokban, majd kattintson az OK gombra.

Az adatkészlet három új sort tartalmaz. A módosítások végrehajtásának legegyszerűbb módja az Adatböngésző jobb szélén lefelé görgetés. Most nézze meg az utolsó három sort (lásd az alábbi képet)

Integráció az SQL-replikáció és a DataStage között

Az I, U és D betű az INSERT, UPDATE és DELETE műveleteket határozza meg, amelyek minden új sort eredményeztek.

Ugyanezt ellenőrizheti a készlettáblázatnál is.

Összegzésként

  • Datastage egy ETL eszköz amely kivonja az adatokat, átalakítja és betölti az adatokat a forrásból a célba.
  • Megkönnyíti üzleti elemzés minőségi adatok biztosításával az üzleti intelligencia megszerzéséhez.
  • A DataStage két részre oszlik, Megosztott összetevők és futásidő Architectúra.
  • A DataStage négy fő összetevőből áll,
  • adminisztrátor
  • menedzser
  • Tervező
  • Igazgató
  • Az alábbiakban bemutatjuk a legfontosabb szempontokat IBM InfoSphere DataStage
  • Adatátalakítás
  • Állások
  • Párhuzamos feldolgozás
  • A munkatervezés különböző szakaszaiban vesz részt
  • Átalakítási szakasz
  • Szűrési fokozat
  • Aggregátor szakasz
  • Az ismétlődések eltávolítása
  • Csatlakozz a színpadhoz
  • Keresési szakasz