Tutorial DataStage pentru începători: IBM Instruire DataStage (instrument ETL).

Ce este DataStage?

DataStage este un instrument ETL folosit pentru a extrage, transforma și încărca date de la sursă la destinația țintă. Sursa acestor date poate include fișiere secvențiale, fișiere indexate, baze de date relaționale, surse de date externe, arhive, aplicații de întreprindere etc. DataStage este utilizat pentru a facilita analiza de afaceri prin furnizarea de date de calitate pentru a ajuta la obținerea informațiilor de afaceri.

Instrumentul DataStage ETL este utilizat într-o organizație mare ca interfață între diferite sisteme. Se ocupă de extragerea, traducerea și încărcarea datelor de la sursă la destinația țintă. A fost lansat pentru prima dată de VMark la mijlocul anilor '90. Cu IBM achiziționând DataStage în 2005, a fost redenumit în IBM WebSphere DataStage și mai târziu la IBM InfoSphere.

Diferite versiuni de Datastage disponibile pe piață până acum au fost Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft și așa mai departe. Ultima ediție este IBM InfoSphere DataStage

IBM Serverul de informații include următoarele produse,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Director InfoSphere Information Services
  • IBM Analizorul de informații InfoSphere
  • IBM Server de informații FastTrack
  • IBM InfoSphere Business Glosar

Prezentare generală a DataStage

Datastage are următoarele Capabilități.

  • Poate integra date din cea mai largă gamă de surse de date externe și de întreprindere
  • Implementează regulile de validare a datelor
  • Este util în procesarea și transformarea unor cantități mari de date
  • Utilizează o abordare scalabilă de procesare paralelă
  • Poate gestiona transformări complexe și poate gestiona mai multe procese de integrare
  • Profitați de conectivitatea directă la aplicațiile de întreprindere ca surse sau ținte
  • Folosiți metadate pentru analiză și întreținere
  • Operateste în lot, în timp real sau ca serviciu web

În următoarele secțiuni ale acestui tutorial DataStage, descriem pe scurt următoarele aspecte ale IBM InfoSphere DataStage:

  • Transformarea datelor
  • Locuri de munca
  • Procesare paralelă

InfoSphere DataStage și QualityStage pot accesa date din aplicații de întreprindere și surse de date, cum ar fi:

Tipuri de etape de procesare

IBM jobul infosphere constă din etape individuale care sunt legate între ele. Descrie fluxul de date de la o sursă de date la o țintă de date. De obicei, o etapă are minim o intrare de date și/sau o ieșire de date. Cu toate acestea, unele etape pot accepta mai multe date de intrare și de ieșire în mai multe etape.

În proiectarea jobului, diferitele etape pe care le puteți utiliza sunt:

  • Etapa de transformare
  • Etapa de filtrare
  • Etapa de agregare
  • Eliminați etapa duplicatelor
  • Alăturați-vă etapei
  • Etapa de căutare
  • Etapa de copiere
  • Faza de sortare
  • Containere

Componentele DataStage și Architectură

DataStage are patru componente principale și anume,

  1. administrator: Este folosit pentru sarcini de administrare. Aceasta include configurarea utilizatorilor DataStage, stabilirea criteriilor de purjare și crearea și mutarea proiectelor.
  2. Manager: Este interfața principală a Repository-ului ETL DataStage. Este folosit pentru stocarea și gestionarea metadatelor reutilizabile. Prin DataStage Manager, se poate vizualiza și edita conținutul Arhivei.
  3. Designer: O interfață de proiectare utilizată pentru a crea aplicații DataStage SAU joburi. Specifică sursa datelor, transformarea necesară și destinația datelor. Joburile sunt compilate pentru a crea un executabil care este programat de Director și rulat de Server
  4. Director: Este folosit pentru a valida, programa, executa și monitoriza joburile de server DataStage și joburile paralele.
Etapa de date ArchiDiagrama de tectură
Etapa de date ArchiDiagrama de tectură

Imaginea de mai sus explică cum IBM Infosphere DataStage interacționează cu alte elemente ale IBM Platforma Information Server. DataStage este împărțit în două secțiuni, Componente partajate și Runtime Architectură.

   
Activitati

Shared

Interfață de utilizator unificată

  • O interfață de proiectare grafică este utilizată pentru a crea aplicații InfoSphere DataStage (cunoscute sub numele de joburi).
  • Fiecare job determină sursele de date, transformările necesare și destinația datelor.
  • Joburile sunt compilate pentru a crea fluxuri paralele de joburi și componente reutilizabile. Acestea sunt programate și rulate de InfoSphere DataStage și QualityStage Director.
  • Clientul Designer gestionează metadatele din depozit. În timp ce datele de execuție compilate sunt implementate pe nivelul Information Server Engine.

Servicii comune

  • Servicii de metadate, cum ar fi analiza impactului și căutarea
  • Servicii de proiectare care sprijină dezvoltarea și întreținerea sarcinilor InfoSphere DataStage
  • Servicii de execuție care acceptă toate funcțiile InfoSphere DataStage

Procesare paralelă comună

  • Motorul rulează joburi executabile care extrag, transformă și încarcă date într-o mare varietate de setări.
  • Abordarea de selectare a motorului de procesare paralelă și conducte pentru a gestiona un volum mare de muncă.

Runtime Architectură

Script OSH

  • Aceasta descrie generarea OSH (orchestrare Shell Script) și fluxul de execuție al IBM iar fluxul de IBM Infosphere DataStage folosind motorul Information Server
  • Vă permite să utilizați tehnici grafice de punctare și clic pentru a dezvolta fluxuri de lucru pentru extragerea, curățarea, transformarea, integrarea și încărcarea datelor în fișierele țintă.

Condiție prealabilă pentru Instrumentul Datastage

Pentru DataStage, veți avea nevoie de următoarea configurare.

  • Infosfera
  • DataStage Server 9.1.2 sau o versiune ulterioară
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle client (client complet, nu un client instant) dacă vă conectați la un Oracle Baza de date
  • Client DB2 dacă vă conectați la o bază de date DB2

Acum, în această serie de tutoriale DataStage pentru începători, vom învăța cum să descărcați și să instalați serverul de informații InfoSphere.

Descărcarea și instalarea InfoSphere Information Server

Pentru a accesa DataStage, descărcați și instalați cea mai recentă versiune a IBM InfoSphere Server. Serverul acceptă AIX, Linux și Windows sistem de operare. Puteți alege conform cerințelor.

Pentru a migra datele de la o versiune mai veche a Infosphere la o versiune nouă, utilizați instrumentul de schimb de active.

Fișiere de instalare

Pentru instalarea și configurarea Infosphere Datastage, trebuie să aveți următoarele fișiere în configurație.

Pentru Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Pentru Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Fluxul de proces al datelor de modificare într-un job de etapă de tranzacție CDC

Fluxul procesului de modificare a datelor într-un CDC

  1. Serviciul „InfoSphere CDC” pentru baza de date monitorizează și captează modificarea dintr-o bază de date sursă
  2. Conform definiției de replicare, „InfoSphere CDC” transferă datele de modificare la „InfoSphere CDC pentru InfoSphere DataStage”.
  3. Serverul „InfoSphere CDC pentru InfoSphere DataStage” trimite date către „etapa de tranzacție CDC” printr-o sesiune TCP/IP. Serverul „InfoSphere CDC pentru InfoSphere DataStage” trimite, de asemenea, un mesaj COMMIT (împreună cu informații despre marcaj) pentru a marca limita tranzacției în jurnalul capturat.
  4. Pentru fiecare mesaj COMMIT trimis de serverul „InfoSphere CDC pentru InfoSphere DataStage”, „etapa de tranzacție CDC” creează markeri de sfârșit de val (EOW). Acești marcatori sunt trimiși pe toate legăturile de ieșire către stadiul conector al bazei de date țintă.
  5. Când „etapa de conectare a bazei de date țintă” primește un marcator de sfârșit de undă pe toate legăturile de intrare, scrie informații de marcaj într-un tabel de marcaje și apoi trimite tranzacția în baza de date țintă.
  6. Serverul „InfoSphere CDC pentru InfoSphere DataStage” solicită informații despre marcaje dintr-un tabel de marcaje din „baza de date țintă”.
  7. Serverul „InfoSphere CDC pentru InfoSphere DataStage” primește informațiile Marcaj.

Aceste informații sunt folosite pentru,

  • Determinați punctul de pornire din jurnalul de tranzacții în care sunt citite modificările când începe replicarea.
  • Pentru a determina dacă jurnalul de tranzacții existent poate fi curățat

Configurarea replicării SQL

Înainte de a începe cu Datastage, trebuie să configurați baza de date. Veți crea două baze de date DB2.

  • Una care să servească drept sursă de replicare și
  • Unul ca țintă.

De asemenea, veți crea două tabele (Produs și Inventar) și le veți popula cu date eșantion. Apoi vă puteți testa integrarea între SQL Replicare și Datastage.

În continuare, veți configura replicarea SQL prin creare tabele de control, seturi de abonament, înregistrări și membri ai setului de abonament. Vom afla mai multe despre acest lucru în detalii în secțiunea următoare.

Aici vom lua un exemplu de articol de vânzări cu amănuntul ca bază de date și vom crea două tabele Inventar și Produs. Aceste tabele vor încărca date de la sursă la țintă prin aceste seturi. (tabele de control, seturi de abonament, înregistrări și membri ai setului de abonament.)

Pas 1) Creați o bază de date sursă denumită SALES. Sub această bază de date, creați două tabele produs si Inventar.

Pas 2) Rulați următoarea comandă pentru a crea baza de date SALES.

db2 create database SALES

Pas 3) Activați înregistrarea de arhivare pentru baza de date SALES. De asemenea, faceți o copie de rezervă a bazei de date utilizând următoarele comenzi

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Pas 4) În același prompt de comandă, treceți la subdirectorul setupDB din directorul sqlrepl-datastage-tutorial pe care l-ați extras din fișierul comprimat descărcat.

Configurarea replicării SQL

Pas 5) Utilizați următoarea comandă pentru a crea tabelul de inventar și pentru a importa date în tabel, rulând următoarea comandă.

db2 import from inventory.ixf of ixf create in inventory

Pas 6) Creați un tabel țintă. Denumiți baza de date țintă ca STAGEDB.

Deoarece acum ați creat atât bazele de date sursă, cât și țintă, următorul pas din acest tutorial DataStage, vom vedea cum să o replici.

Următoarele informații pot fi utile în configurarea sursei de date ODBC.

Crearea obiectelor de replicare SQL

Imaginea de mai jos arată modul în care fluxul de date de modificare este livrat de la sursă la baza de date țintă. Creați o mapare de la sursă la țintă între tabelele cunoscute ca membrii setului de abonament și grupați membrii într-o abonament.

Crearea obiectelor de replicare SQL

Unitatea de replicare din InfoSphere CDC (Change Data Capture) este denumită abonament.

  • Modificările efectuate în sursă sunt capturate în „Tabelul de control de captură” care este trimis la tabelul CD și apoi la tabelul țintă. În timp ce programul de aplicare va avea detalii despre rândul de unde trebuie făcute modificări. De asemenea, se va alătura tabelului CD în setul de abonament.
  • Un abonament conține detalii de mapare care specifică modul în care datele dintr-un depozit de date sursă sunt aplicate unui depozit de date țintă. Rețineți, CDC este acum denumit Replicarea datelor Infosphere.
  • Când se execută un abonament, InfoSphere CDC captează modificările din baza de date sursă. InfoSphere CDC furnizează datele de modificare către țintă și stochează informații despre punctul de sincronizare într-un tabel de marcaje din baza de date țintă.
  • InfoSphere CDC utilizează informațiile de marcaj pentru a monitoriza progresul jobului InfoSphere DataStage.
  • În caz de eșec, informațiile marcajului sunt folosite ca punct de repornire. În exemplul nostru, ASN.IBMTabelul SNAP_FEEDETL stochează informații despre punctul de sincronizare legate de DataStage, care sunt utilizate pentru a urmări progresul DataStage.

În această secțiune din IBM Tutorial de formare DataStage, trebuie să faceți următoarele lucruri,

  • Creați tabele CAPTURE CONTROL și APPLY CONTROL pentru a stoca opțiunile de replicare
  • Înregistrați tabelele PRODUCT și INVENTORY ca surse de replicare
  • Creați un set de abonament cu doi membri
  • Creați membri ai setului de abonament și tabelele CCD vizate

Utilizați programul de linie de comandă ASNCLP pentru a configura replicarea SQL

Pas 1) Localizați fișierul script crtCtlTablesCaptureServer.asnclp în directorul sqlrepl-datastage-tutorial/setupSQLRep.

Pas 2) În fișierul înlocuiți și " ” cu ID-ul de utilizator și parola pentru conectarea la baza de date SALES.

Pas 3) Schimbați directoarele în directorul sqlrepl-datastage-tutorial/setupSQLRep și rulați scriptul. Utilizați următoarea comandă. Comanda se va conecta la baza de date SALES, va genera un script SQL pentru crearea tabelelor de control Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Pas 4) Localizați fișierul script crtCtlTablesApplyCtlServer.asnclp în același director. Acum înlocuiți două cazuri de și " ” cu ID-ul utilizatorului și parola pentru conectarea la baza de date STAGEDB.

Pas 5) Acum, în același prompt de comandă, utilizați următoarea comandă pentru a crea tabele de control aplicate.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Pas 6) Localizați fișierele script crtRegistration.asnclp și înlocuiți toate instanțele cu ID-ul de utilizator pentru conectarea la baza de date SALES. De asemenea, schimbați „ ” la parola de conectare.

Pas 7) Pentru a înregistra tabelele sursă, utilizați următorul script. Ca parte a creării înregistrării, programul ASNCLP va crea două tabele CD. CDPRODUS ŞI CDINVENTAR.

asnclp –f crtRegistration.asnclp

Comanda CREATE REGISTRATION folosește următoarele opțiuni:

  • Reîmprospătare diferențială: Se solicită programul Aplicați să actualizeze tabelul țintă numai atunci când rândurile din tabelul sursă se modifică
  • Imaginea ambele: Această opțiune este utilizată pentru a înregistra valoarea în coloana sursă înainte de modificarea și una pentru valoarea după modificarea.

Pas 8) Pentru conectarea la baza de date țintă (STAGEDB), utilizați pașii următori.

  • Găsiți fișierul crtTableSpaceApply.bat, deschideți-l într-un editor de text
  • A inlocui și cu ID-ul de utilizator și parola
  • În fereastra de comandă DB2, introduceți crtTableSpaceApply.bat și rulați fișierul.
  • Acest fișier batch creează un nou tablespace în baza de date țintă ( STAGEDB)

Pas 9) Găsiți fișierele de script crtSubscriptionSetAndAddMembers.asnclp și efectuați următoarele modificări.

  • Înlocuiți toate cazurile de și cu ID-ul de utilizator si parola pentru conectarea la baza de date SALES (sursa).
  • Înlocuiți toate cazurile de și cu ID-ul utilizatorului pentru conectarea la baza de date STAGEDB (țintă).

După modificări, rulați scriptul pentru a crea un set de abonament (ST00) care grupează tabelele sursă și țintă. Scriptul creează, de asemenea, doi membri ai setului de abonament și CCD (date de modificare consistente) în baza de date țintă care va stoca datele modificate. Aceste date vor fi consumate de Infosphere DataStage.

Pas 10) Rulați scriptul pentru a crea setul de abonament, membrii setului de abonament și tabelele CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Diverse opțiuni utilizate pentru crearea setului de abonament și doi membri includ

  • Complet on condensat off
  • Extern
  • Tip de încărcare import export
  • Cronometrare continuă

Pas 11) Din cauza defectului în instrumentele de administrare a replicării. Trebuie să executați un alt fișier batch pentru a seta coloana TARGET_CAPTURE_SCHEMA în IBMTabelul de control SNAP_SUBS_SET este nul.

  • Găsiți fișierul updateTgtCapSchema.bat. Deschideți-l într-un editor de text. A inlocui și cu ID-ul de utilizator pentru conectarea la baza de date STAGEDB.
  • În fereastra de comandă DB2, introduceți comanda updateTgtCapSchema.bat și executați fișierul.

Crearea fișierelor de definiție pentru a mapa tabelele CCD la DataStage

Înainte de a face replicarea în pasul următor, trebuie să conectăm tabelul CCD cu DataStage. În această secțiune, vom vedea cum să conectăm SQL cu DataStage.

Pentru a conecta tabelul CCD cu DataStage, trebuie să creați fișiere de definiție Datastage (.dxs). Formatul de fișier .dsx este utilizat de DataStage pentru a importa și exporta definițiile jobului. Veți folosi scriptul ASNCLP pentru a crea două fișiere .dsx. De exemplu, aici am creat două fișiere .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: creează o secvență de lucrări care direcționează fluxul de lucru al celor patru lucrări paralele.
  • stagedb_AQ00_SET00_pJobs.dsx : creează cele patru lucrări paralele

Programul ASNCLP mapează automat coloana CCD la formatul Datastage Column. Este acceptat numai atunci când ASNCLP rulează Windows, Linux sau Procedura Unix.

Fișiere de definiție pentru a mapa tabelele CCD la DataStage

Lucrările din faza de date extrag rânduri din tabelul CCD.

  1. O lucrare stabilește un punct de sincronizare de unde DataStage a oprit extragerea datelor din cele două tabele. Lucrarea primește aceste informații selectând valoarea SYNCHPOINT pentru setul de abonament ST00 din IBMSNAP_SUBS_SET și inserând-o în coloana MAX_SYNCHPOINT a IBMTabelul SNAP_FEEDETL.
  2. Două joburi care extrag date din tabelele PRODUCT_CCD și INVENTORY_CCD. Joburile știu ce rânduri să înceapă extragerea selectând valorile MIN_SYNCHPOINT și MAX_SYNCHPOINT din IBMTabelul SNAP_FEEDETL pentru setul de abonament.

Se începe replicarea

Pentru a începe replicarea, veți folosi pașii de mai jos. Când tabelele CCD sunt populate cu date, aceasta indică faptul că configurarea replicării este validată. Pentru a vizualiza datele replicate în tabelele CCD țintă, utilizați interfața grafică cu utilizatorul DB2 Control Center.

Pas 1) Asigurați-vă că DB2 rulează dacă nu, atunci utilizați pornire db2 comanda.

Pas 2) Apoi utilizați comanda asncap dintr-un prompt al sistemului de operare pentru a începe capturarea programului. De exemplu.

asncap capture_server=SALES

Comanda de mai sus specifică baza de date SALES ca server Capture. Păstrați fereastra de comandă deschisă în timp ce se execută captura.

Pas 3) Acum deschideți o nouă linie de comandă. Apoi porniți APLICA program folosind comanda asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Se începe replicarea

  • Comanda specifică baza de date STAGEDB ca server de control Apply (baza de date care conține tabelele de control Apply)
  • AQ00 ca calificativ Apply (identificatorul pentru acest set de tabele de control)

Lăsați fereastra de comandă deschisă cu Aplicația rulează.

Pas 4) Acum deschideți un alt prompt de comandă și lansați comanda db2cc pentru a lansa Centrul de control DB2. Acceptați Centrul de control implicit.

Pas 5) Acum, în arborele de navigare din stânga, deschideți Toate bazele de date > STAGEDB și apoi faceți clic pe Tabele. Double faceți clic pe numele tabelului ( Product CCD) pentru a deschide tabelul. Va arăta cam așa.

Se începe replicarea

De asemenea, puteți deschide și tabelul CCD pentru INVENTARE.

Se începe replicarea

Cum se creează proiecte în instrumentul Datastage

În primul rând, veți crea un proiect în DataStage. Pentru aceasta, trebuie să fiți administrator InfoSphere DataStage.

Odată ce instalarea și replicarea sunt finalizate, trebuie să creați un proiect. În DataStage, proiectele sunt o metodă de organizare a datelor. Include definirea fișierelor de date, a etapelor și a lucrărilor de construcție într-un anumit proiect.

Pentru a crea un proiect în DataStage, urmați pașii de mai jos:

Pasul 1) Lansați software-ul DataStage

Lansați DataStage și QualityStage Administrator. Apoi faceți clic pe Start > Toate programele > IBM Server de informare > IBM Administrator WebSphere DataStage și QualityStage.

Pasul 2) Conectați serverul și clientul DataStage

Pentru a vă conecta la serverul DataStage de la clientul dvs. DataStage, introduceți detalii precum numele domeniului, ID-ul utilizatorului, parola și informațiile despre server.

Pasul 3) Adăugați un proiect nou

În fereastra WebSphere DataStage Administration. Faceți clic pe fila Proiecte și apoi faceți clic pe Adăugare.

Pasul 4) Introduceți detaliile proiectului

În fereastra WebSphere DataStage Administration, introduceți detalii precum

  1. Nume
  2. Locația fișierului
  3. Faceți clic pe „OK”

Creați proiecte în instrumentul Datastage

Fiecare proiect contine:

  • Locuri de muncă DataStage
  • Componente încorporate. Acestea sunt componente predefinite utilizate într-o lucrare.
  • Componente definite de utilizator. Acestea sunt componente personalizate create folosind DataStage Manager sau DataStage Designer.

Vom vedea cum să importam joburi de replicare în Datastage Infosphere.

Cum să importați joburi de replicare în Datastage și QualityStage Designer

Veți importa locuri de muncă în IBM Client InfoSphere DataStage și QualityStage Designer. Și le executați în IBM Client InfoSphere DataStage și QualityStage Director.

Designerul-client este ca o pânză goală pentru a construi locuri de muncă. Extrage, transformă, încarcă și verifică calitatea datelor. Oferă instrumente care formează elementele de bază ale unui job. Acesta include

  • stagii: Se conectează la surse de date pentru a citi sau scrie fișiere și pentru a procesa date.
  • Link-uri: conectează etapele de-a lungul cărora fluxul de date

Etapele din InfoSphere DataStage și clientul QualityStage Designer sunt stocate în paleta de instrumente Designer.

Următoarele etape sunt incluse în InfoSphere QualityStage:

  • Investigați etapa
  • Etapa de standardizare
  • Etapa de frecvență de potrivire
  • Etapa de meci cu o singură sursă
  • Etapa de meci cu două surse
  • Etapa de supraviețuire
  • Etapa de evaluare a calității standardizării (SQA).

Puteți crea 4 tipuri de joburi în infosfera DataStage.

  • Iov paralel
  • Lucru de secvență
  • Job de mainframe
  • Job Server

Să vedem pas cu pas cum să importați fișierele job de replicare.

Pas 1) Porniți DataStage și QualityStage Designer. Faceți clic pe Start > Toate programele > IBM Server de informare > IBM WebSphere DataStage și QualityStage Designer

Pas 2) În fereastra Atașare la proiect, introduceți următoarele detalii.

  • domeniu
  • Nume de utilizator
  • Parolă
  • Numele Proiectului
  • OK

Importați joburi de replicare în Datastage și QualityStage

Pas 3) Acum, din meniul Fișier, faceți clic pe import -> Componentele DataStage.

Se va deschide o nouă fereastră DataStage Repository Import.

  1. În această fereastră răsfoiți STAGEDB_AQ00_ST00_sJobs.dsx fișier pe care l-am creat mai devreme
  2. Selectați opțiunea „Importați toate”.
  3. Bifați caseta de selectare „Efectuați analiza impactului”.
  4. Faceți clic pe „OK”.

Importați joburi de replicare în Datastage și QualityStage

Odată ce jobul este importat, DataStage va crea jobul STAGEDB_AQ00_ST00_sequence.

Pas 4) Urmați aceiași pași pentru a importa STAGEDB_AQ00_ST00_pJobs.dsx fișier. Acest import creează cele patru locuri de muncă paralele.

Pas 5) Sub panoul Designer Repository -> Deschideți folderul SQLREP. În interiorul folderului, veți vedea, Sequence Job și patru joburi paralele.

Importați joburi de replicare în Datastage și QualityStage

Pas 6) Pentru a vedea lucrarea secvenței. Accesați arborele de depozit, faceți clic dreapta pe jobul STAGEDB_AQ00_ST00_sequence și faceți clic pe Editare. Acesta va afișa fluxul de lucru al celor patru joburi paralele pe care le controlează secvența jobului.

Importați joburi de replicare în Datastage și QualityStage

Fiecare icoană este o scenă,

  • etapa getExtractRange: Actualizează IBMTabelul SNAP_FEEDETL. Acesta va seta punctul de pornire pentru extragerea datelor la punctul în care DataStage a extras ultimele rânduri și va seta punctul final la ultima tranzacție care a fost procesată pentru setul de abonament.
  • getExtractRangeSuccess: Această etapă furnizează punctele de plecare către etapa extractFromINVENTORY_CCD și etapa extractFromPRODUCT_CCD
  • AllExtractsSuccess: Această etapă asigură că atât extractFromINVENTORY_CCD, cât și extractFromPRODUCT_CCD s-au finalizat cu succes. Apoi trece puncte de sincronizare pentru ultimele rânduri care au fost preluate în etapa setRangeProcessed.
  • setRangeProcessed stadiu: Se actualizează IBMTabelul SNAP_FEEDETL. Deci, DataStage știe de unde să înceapă următoarea rundă de extracție a datelor

Pas 7) Pentru a vedea joburile paralele. Faceți clic dreapta pe STAGEDB_ASN_INVENTORY_CCD și selectați editați sub depozit. Se va deschide o fereastră așa cum se arată mai jos.

Importați joburi de replicare în Datastage și QualityStage

Aici, în imaginea de mai sus, puteți vedea că datele din tabelul CCD de inventar și SyncDetaliile punctului h din tabelul FEEDETL sunt redate în etapa Lookup_6.

Crearea unei conexiuni de date de la DataStage la baza de date STAGEDB

Următorul pas este să construiți o conexiune de date între InfoSphere DataStage și baza de date țintă SQL Replication. Conține tabelele CCD.

În DataStage, utilizați obiecte de conexiune de date cu etape de conector asociate pentru a defini rapid o conexiune la o sursă de date într-un proiect de lucru.

Pas 1) STAGEDB conține atât tabelele de control Apply pe care DataStage le folosește pentru a-și sincroniza extragerea datelor, cât și tabelele CCD din care sunt extrase datele. Utilizați următoarele comenzi

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

notițe: adresa IP a sistemului în care a fost creat STAGEDB

Pas 2) Faceți clic pe Fișier > Nou > Altele > Conexiune de date.

Pas 3) Veți avea o fereastră cu două file, Parametri și General.

Conexiune de date de la DataStage la baza de date STAGEDB

Pas 4) În această etapă,

  1. În general, tab, denumește conexiunea de date sqlreplConnect
  2. În fila Parametri, așa cum se arată mai jos
  • Faceți clic pe butonul de răsfoire de lângă câmpul „Conectați-vă folosind tipul de etapă” și în
  • Deschideți fereastra, navigați în arborele depozitului la Stage Types –> Parallel– > Database —-> DB2 Connector.
  • Faceți clic pe Deschidere.

Conexiune de date de la DataStage la baza de date STAGEDB

Pas 5) În tabelul cu parametrii de conexiune, introduceți detalii precum

  • ConnectionString: STAGEDB2
  • Nume de utilizator: ID utilizator pentru conectarea la baza de date STAGEDB
  • Parolă: Parolă pentru conectarea la baza de date STAGEDB
  • instanță: Numele instanței DB2 care conține baza de date STAGEDB

Pas 6) În fereastra următoare salvează conexiunea de date. Faceți clic pe butonul „salvare”.

Importarea definițiilor de tabel din STAGEDB în DataStage

În pasul anterior, am văzut că InfoSphere DataStage și baza de date STAGEDB sunt conectate. Acum, importați definiția coloanei și alte metadate pentru tabelele PRODUCT_CCD și INVENTORY_CCD în depozitul Information Server.

În fereastra de proiectare, urmați pașii de mai jos.

Pas 1) Selectați Import > Definiții tabel > Start Connector Import Wizard

Pas 2) Din pagina de selecție a conectorului a expertului, selectați conectorul DB2 și faceți clic pe Următorul.

Importarea definițiilor de tabel din STAGEDB în DataStage

Pas 3) Faceți clic pe încărcare pe pagina cu detaliile conexiunii. Aceasta va completa câmpurile expertului cu informații de conectare din conexiunea de date pe care ați creat-o în capitolul anterior.

Importarea definițiilor de tabel din STAGEDB în DataStage

Pas 4) Faceți clic pe Testare conexiune pe aceeași pagină. Acest lucru va solicita DataStage să încerce o conexiune la baza de date STAGEDB. Puteți vedea mesajul „conexiunea a avut succes”. Faceți clic pe Următorul.

Importarea definițiilor de tabel din STAGEDB în DataStage

Pas 5) Asigurați-vă că pe pagina Locație sursei de date câmpurile Nume gazdă și Numele bazei de date sunt corect completate. Apoi faceți clic pe următorul.

Pas 6) Pe pagina Schema. Introduceți schema aplicației tabelelor de control (ASN) sau verificați dacă schema ASN este pre-populată în câmpul de schemă. Apoi faceți clic pe următorul. Pagina de selecție va afișa lista de tabele care sunt definite în Schema ASN.

Importarea definițiilor de tabel din STAGEDB în DataStage

Pas 7) Primul tabel din care trebuie să importam metadate este IBMSNAP_FEEDETL, un tabel de control Apply. Are detalii despre punctele de sincronizare care permit DataStage să țină evidența ce rânduri a preluat din tabelele CCD. Alege IBMSNAP_FEEDETL și faceți clic pe Următorul.

Pas 8) Pentru a finaliza importul IBMDefiniția tabelului SNAP_FEEDETL. Faceți clic pe import și apoi în fereastra deschisă faceți clic pe deschidere.

Pas 9) Repetați pașii 1-8 de încă două ori pentru a importa definițiile pentru tabelul PRODUCT_CCD și apoi pentru tabelul INVENTORY_CCD.

NOTĂ: În timp ce importați definiții pentru inventar și produs, asigurați-vă că schimbați schemele din ASN în schema în care au fost create PRODUCT_CCD și INVENTORY_CCD.

Acum DataStage are toate detaliile necesare pentru a se conecta la baza de date țintă SQL Replication.

Setarea proprietăților pentru joburile DataStage

Pentru fiecare dintre cele patru joburi paralele DataStage pe care le avem, acesta conține una sau mai multe etape care se conectează cu baza de date STAGEDB. Trebuie să modificați etapele pentru a adăuga informații de conexiune și a face legătura la fișierele setului de date pe care le populează DataStage.

Etapele au proprietăți predefinite care sunt editabile. Aici vom modifica unele dintre aceste proprietăți pentru jobul paralel STAGEDB_ASN_PRODUCT_CCD_extract.

Pas 1) Răsfoiți arborele depozitului Designer. În folderul SQLREP, selectați jobul paralel STAGEDB_ASN_PRODUCT_CCD_extract. Pentru a edita, faceți clic dreapta pe lucrare. Fereastra de proiectare a jobului paralel se deschide în Paleta Designer.

Pas 2) Găsiți pictograma verde. Această pictogramă indică stadiul conectorului DB2. Este folosit pentru extragerea datelor din tabelul CCD. Double- dați clic pe pictogramă. Se deschide o fereastră de editor de scenă.

Setarea proprietăților pentru joburile DataStage

Setarea proprietăților pentru joburile DataStage

Pas 3) În editor, faceți clic pe Încărcare pentru a completa câmpurile cu informații despre conexiune. Pentru a închide editorul de scenă și a salva modificările, faceți clic pe OK.

Pas 4) Acum reveniți la fereastra de proiectare pentru jobul paralel STAGEDB_ASN_PRODUCT_CCD_extract. Găsiți pictograma pentru obținereSyncEtapa conectorului hPoints DB2. Apoi faceți dublu clic pe pictogramă.

Pas 5) Acum faceți clic pe butonul de încărcare pentru a completa câmpurile cu informații despre conexiune.

NOTĂ: Dacă utilizați o altă bază de date decât STAGEDB ca server de control Apply. Apoi selectați opțiunea de încărcare a informațiilor de conectare pentru getSyncEtapa hPoints, care interacționează mai degrabă cu tabelele de control decât cu tabelul CCD.

Pas 6) În această etapă,

  • Creați un fișier text gol pe sistemul în care rulează InfoSphere DataStage.
  • Denumiți acest fișier ca productdataset.ds și notați locul în care l-ați salvat.
  • DataStage va scrie modificări la acest fișier după ce preia modificări din tabelul CCD.
  • Seturile de date sau fișierele care sunt utilizate pentru a muta date între joburi legate sunt cunoscute ca seturi de date persistente. Este reprezentat de o etapă DataSet.

Pas 7) Acum deschideți editorul de scenă în fereastra de proiectare și faceți dublu clic pe pictograma insert_into_a_dataset. Se va deschide o altă fereastră.

Setarea proprietăților pentru joburile DataStage

Pas 8) În această fereastră,

Setarea proprietăților pentru joburile DataStage

  • Sub fila proprietăți, vă asigurați că Target folderul este deschis și proprietatea File = DATASETNAME este evidențiată.
  • În dreapta, veți avea un câmp de fișier
  • Introduceți calea completă către fișierul productdataset.ds
  • Faceți clic pe „OK”.

Acum ați actualizat toate proprietățile necesare pentru tabelul CCD de produs. Închideți fereastra de proiectare și salvați toate modificările.

Pas 9) Acum localizați și deschideți jobul paralel STAGEDB_ASN_INVENTORY_CCD_extract din panoul de depozit al Designer și repetați pașii 3-8.

NOTĂ:

  • Trebuie să încărcați informațiile de conectare pentru baza de date a serverului de control în editorul de etapă pentru obținereSyncEtapa hPuncte. Dacă serverul dumneavoastră de control nu este STAGEDB.
  • Pentru joburile paralele STAGEDB_ST00_AQ00_getExtractRange și STAGEDB_ST00_AQ00_markRangeProcessed, deschideți toate etapele conectorului DB2. Apoi utilizați funcția de încărcare pentru a adăuga informații de conectare pentru baza de date STAGEDB

Compilarea și rularea joburilor DataStage

Când jobul DataStage este gata de compilare, Designer-ul validează designul jobului analizând intrări, transformări, expresii și alte detalii.

Când compilarea jobului este realizată cu succes, este gata de rulare. Vom compila toate cele cinci joburi, dar vom rula doar „secvența de job”. Acest lucru se datorează faptului că acest job controlează toate cele patru joburi paralele.

Pas 1) În folderul SQLREP. Selectați fiecare dintre cele cinci lucrări prin (Cntrl+Shift). Apoi faceți clic dreapta și alegeți opțiunea de compilare a sarcinilor multiple.

Compilarea și rularea joburilor DataStage

Pas 2) Veți vedea că sunt selectate cinci locuri de muncă în Expertul de compilare DataStage. Faceți clic pe Următorul.

Compilarea și rularea joburilor DataStage

Pas 3) Compilarea începe și afișează mesajul „Compilat cu succes” odată terminată.

Compilarea și rularea joburilor DataStage

Pas 4) Acum porniți DataStage și QualityStage Director. Selectați Start > Toate programele > IBM Server de informare > IBM WebSphere DataStage și QualityStage Director.

Pas 5) În panoul de navigare al proiectului din stânga. Faceți clic pe folderul SQLREP. Acest lucru aduce toate cele cinci locuri de muncă în tabelul cu starea directorului.

Pas 6) Selectați jobul STAGEDB_AQ00_S00_sequence. Din bara de meniu, faceți clic pe Job > Run Now.

Compilarea și rularea joburilor DataStage

Odată ce compilarea este finalizată, veți vedea starea finalizată.

Compilarea și rularea joburilor DataStage

Acum verificați dacă rândurile modificate care sunt stocate în tabelele PRODUCT_CCD și INVENTORY_CCD au fost extrase de DataStage și inserate în cele două fișiere de seturi de date.

Pas 7) Reveniți la Designer și deschideți jobul STAGEDB_ASN_PRODUCT_CCD_extract. Pentru a deschide editorul de scenă Double- dați clic pe pictograma insert_into_a_dataset. Apoi faceți clic pe vizualizați datele.

Pas 8) Acceptați valorile implicite în fereastra rândurilor care urmează să fie afișate. Apoi faceți clic pe OK. Se va deschide o fereastră de browser de date pentru a afișa conținutul fișierului setului de date.

Compilarea și rularea joburilor DataStage

Testarea integrării între SQL Replication și DataStage

În pasul anterior, am compilat și executat jobul. În această secțiune, vom verifica integrarea replicării SQL și a DataStage. Pentru aceasta, vom face modificări în tabelul sursă și vom vedea dacă aceeași modificare este actualizată în DataStage.

Pas 1) Navigați la folderul sqlrepl-datastage-scripts pentru sistemul dvs. de operare.

Pas 2) Porniți replicarea SQL urmând pașii următori:

  • Rulați startSQLCapture.bat (Windows) pentru a porni programul Capture din baza de date SALES.
  • Rulați startSQLApply.bat (Windows) pentru a porni programul Apply din baza de date STAGEDB.

Pas 3) Acum deschideți fișierul updateSourceTables.sql. Pentru conectarea la baza de date SALES înlocuiți și cu ID-ul de utilizator și parola.

Pas 4) Deschideți o fereastră de comandă DB2. Schimbați directorul în sqlrepl-datastage-tutorial\scripts și rulați problema cu comanda dată:

db2 -tvf updateSourceTables.sql

Scriptul SQL va face diverse operațiuni precum Actualizare, Inserare și ștergere pe ambele tabele (PRODUS, INVENTARE) din baza de date de vânzări.

Pas 5) Pe sistemul în care rulează DataStage. Deschideți DataStage Director și executați jobul STAGEDB_AQ00_S00_sequence. Faceți clic pe Job > Run Now.

Integrare între SQL Replication și DataStage

Când executați lucrarea, vor fi efectuate următoarele activități.

  • Programul Capture citește modificările pe șase rânduri din jurnalul bazei de date SALES și le inserează în tabelele CD.
  • Programul Apply preia rândurile de modificare din tabelele CD la Vânzări și le inserează în tabelele CCD la STAGEDB.
  • Cele două joburi de extragere DataStage preiau modificările din tabelele CCD și le scriu în fișierele productdataset.ds și inventory dataset.ds.

Puteți verifica dacă pașii de mai sus au avut loc uitându-vă la seturile de date.

Pas 6) Urmați pașii de mai jos,

  • Porniți Designer. Deschideți jobul STAGEDB_ASN_PRODUCT_CCD_extract.
  • "Atunci Double- dați clic pe pictograma insert_into_a_dataset. În editorul de scenă. Faceți clic pe Vizualizare date.
  • Acceptați valorile implicite în fereastra rândurilor care urmează să fie afișate și faceți clic pe OK.

Setul de date conține trei rânduri noi. Cea mai ușoară modalitate de a verifica dacă modificările sunt implementate este să derulați în partea dreaptă în jos a browserului de date. Acum uitați-vă la ultimele trei rânduri (vezi imaginea de mai jos)

Integrare între SQL Replication și DataStage

Litera I, U și D specifică operația INSERT, UPDATE și DELETE care a rezultat în fiecare rând nou.

Puteți verifica aceeași verificare pentru tabelul de inventar.

Rezumat

  • Datastage este un instrument ETL care extrage date, transformă și încarcă date de la sursă la țintă.
  • Ea facilitează analiza afacerilor prin furnizarea de date de calitate pentru a ajuta la obținerea informațiilor de afaceri.
  • DataStage este împărțit în două secțiuni, Componente partajate și Runtime Architectură.
  • DataStage are patru componente principale,
  • Administrator
  • Manager
  • proiectant
  • Director
  • Următoarele sunt aspectele cheie ale IBM InfoSphere DataStage
  • Transformarea datelor
  • Locuri de munca
  • Procesare paralelă
  • În proiectarea Jobului sunt implicate diferite etape
  • Etapa de transformare
  • Etapa de filtrare
  • Etapa de agregare
  • Eliminați etapa duplicatelor
  • Alăturați-vă etapei
  • Etapa de căutare