Tutorial su DataStage per principianti: IBM Formazione DataStage (strumento ETL).

Cos'è DataStage?

DataStage è uno strumento ETL utilizzato per estrarre, trasformare e caricare dati dall'origine alla destinazione di destinazione. L'origine di questi dati potrebbe includere file sequenziali, file indicizzati, database relazionali, origini dati esterne, archivi, applicazioni aziendali, ecc. DataStage viene utilizzato per facilitare l'analisi aziendale fornendo dati di qualità per aiutare a ottenere business intelligence.

Lo strumento ETL DataStage viene utilizzato in una grande organizzazione come interfaccia tra diversi sistemi. Si occupa dell'estrazione, della traduzione e del caricamento dei dati dall'origine alla destinazione. È stato lanciato per la prima volta da VMark a metà degli anni '90. Con IBM acquisendo DataStage nel 2005, è stato rinominato in IBM WebSphere DataStage e versioni successive IBM InfoSfera.

Le varie versioni di Datastage disponibili finora sul mercato erano Enterprise Edition (PX), Server Edition, MVS Edition, DataStage per PeopleSoft e così via. L'ultima edizione è IBM InfoSphere DataStage

IBM Il server informativo include i seguenti prodotti,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Direttore dei servizi di informazione di InfoSphere
  • IBM Analizzatore di informazioni InfoSphere
  • IBM FastTrack del server delle informazioni
  • IBM Glossario aziendale di InfoSphere

Panoramica del DataStage

Datastage ha le seguenti funzionalità.

  • Può integrare dati provenienti dalla più ampia gamma di fonti dati aziendali ed esterne
  • Implementa le regole di convalida dei dati
  • È utile per elaborare e trasformare grandi quantità di dati
  • Utilizza un approccio di elaborazione parallela scalabile
  • Può gestire trasformazioni complesse e gestire molteplici processi di integrazione
  • Sfrutta la connettività diretta alle applicazioni aziendali come origini o destinazioni
  • Sfrutta i metadati per l'analisi e la manutenzione
  • Operates in batch, in tempo reale o come servizio Web

Nelle sezioni seguenti di questo tutorial di DataStage, descriviamo brevemente i seguenti aspetti di IBM InfoSphere DataStage:

  • Trasformazione dei dati
  • Offerte di lavoro
  • Elaborazione parallela

InfoSphere DataStage e QualityStage possono accedere ai dati nelle applicazioni aziendali e nelle origini dati come:

Tipi di fasi di elaborazione

IBM Il lavoro dell’infosfera è costituito da fasi individuali collegate tra loro. Descrive il flusso di dati da un'origine dati a una destinazione dati. Di solito, una fase ha almeno un input di dati e/o un output di dati. Tuttavia, alcune fasi possono accettare più di un input e output di dati in più di una fase.

Nella progettazione del lavoro le varie fasi che puoi utilizzare sono:

  • Fase di trasformazione
  • Fase di filtro
  • Fase aggregatrice
  • Fase Rimuovi duplicati
  • Partecipa al palco
  • Fase di ricerca
  • Fase di copia
  • Fase di ordinamento
  • Tecnologie Container

Componenti DataStage e Architectura

DataStage ha quattro componenti principali, vale a dire:

  1. Amministratore: Viene utilizzato per attività amministrative. Ciò include la configurazione degli utenti DataStage, l'impostazione dei criteri di eliminazione e la creazione e lo spostamento di progetti.
  2. Allenatore: È l'interfaccia principale del Repository di ETL DataStage. Viene utilizzato per l'archiviazione e la gestione di metadati riutilizzabili. Attraverso il gestore DataStage è possibile visualizzare e modificare il contenuto del Repository.
  3. Designer: Un'interfaccia di progettazione utilizzata per creare applicazioni O lavori DataStage. Specifica l'origine dati, la trasformazione richiesta e la destinazione dei dati. I lavori vengono compilati per creare un eseguibile pianificato dal Direttore ed eseguito dal Server
  4. Direttore: Viene utilizzato per convalidare, pianificare, eseguire e monitorare i lavori del server DataStage e i lavori paralleli.
Stadio dati Archidiagramma della struttura
Stadio dati Archidiagramma della struttura

L'immagine sopra spiega come IBM Infosphere DataStage interagisce con altri elementi del IBM Piattaforma del server delle informazioni. DataStage è diviso in due sezioni, Componenti condivisi e runtime Architectura.

   
Attività

diviso

Interfaccia utente unificata

  • Per creare applicazioni InfoSphere DataStage (conosciute come lavori) viene utilizzata un'interfaccia di progettazione grafica.
  • Ogni lavoro determina le origini dati, le trasformazioni richieste e la destinazione dei dati.
  • I lavori vengono compilati per creare flussi di lavoro paralleli e componenti riutilizzabili. Sono pianificati e gestiti da InfoSphere DataStage e dal Direttore QualityStage.
  • Il client Designer gestisce i metadati nel repository. Mentre i dati di esecuzione compilati vengono distribuiti sul livello Information Server Engine.

Servizi comuni

  • Servizi di metadati come analisi di impatto e ricerca
  • Servizi di progettazione che supportano lo sviluppo e la manutenzione delle attività InfoSphere DataStage
  • Servizi di esecuzione che supportano tutte le funzioni InfoSphere DataStage

Elaborazione parallela comune

  • Il motore esegue processi eseguibili che estraggono, trasformano e caricano dati in un'ampia varietà di impostazioni.
  • L'approccio di selezione del motore di elaborazione parallela e pipeline per gestire un volume di lavoro elevato.

Runtime Architectura

Scritta SSL

  • Questo descrive la generazione dell'OSH (orchestrare Shell Script) e il flusso di esecuzione dello stesso IBM e il flusso di IBM Infosphere DataStage utilizzando il motore Information Server
  • Consente di utilizzare tecniche grafiche punta e clicca per sviluppare flussi di lavoro per l'estrazione, la pulizia, la trasformazione, l'integrazione e il caricamento dei dati nei file di destinazione.

Prerequisito per lo strumento Datastage

Per DataStage sarà necessaria la seguente configurazione.

  • Infosfera
  • DataStage Server 9.1.2 o versione successiva
  • Microsoft Visual Studio .NET 2010 Edizione Express C++
  • Oracle client (client completo, non client istantaneo) se ci si connette a un file Oracle banca dati
  • Client DB2 se ci si connette a un database DB2

Ora, in questa serie di tutorial DataStage per principianti, impareremo come scaricare e installare il server di informazioni InfoSphere.

Download e installazione di InfoSphere Information Server

Per accedere a DataStage, scaricare e installare la versione più recente di IBM Server InfoSphere. Il server supporta AIX, Linux e Windows sistema operativo. Puoi scegliere secondo i requisiti.

Per migrare i tuoi dati da una versione precedente di Infosphere alla nuova versione utilizza lo strumento di interscambio di risorse.

File di installazione

Per installare e configurare Infosphere Datastage, è necessario che nel programma di installazione siano presenti i seguenti file.

Per Windows,

  • Pacchetto EtlDeployment-windows-oracle.pkg
  • Pacchetto EtlDeployment-windows-db2.pkg

Per Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • Pacchetto EtlDeployment-linux-oracle.pkg

Flusso di elaborazione dei dati di modifica in un processo della fase di transazione CDC

Flusso di processo dei dati di modifica in un CDC

  1. Il servizio 'InfoSphere CDC' per il database monitora e acquisisce la modifica da un database di origine
  2. Secondo la definizione di replica, “InfoSphere CDC” trasferisce i dati di modifica a “InfoSphere CDC for InfoSphere DataStage”.
  3. Il server “InfoSphere CDC for InfoSphere DataStage” invia i dati alla “fase di transazione CDC” tramite una sessione TCP/IP. Il server “InfoSphere CDC for InfoSphere DataStage” invia anche un messaggio COMMIT (insieme alle informazioni sui segnalibri) per contrassegnare il limite della transazione nel log acquisito.
  4. Per ciascun messaggio COMMIT inviato dal server “InfoSphere CDC for InfoSphere DataStage”, la “fase di transazione CDC” crea marcatori di fine onda (EOW). Questi marcatori vengono inviati su tutti i collegamenti di output alla fase del connettore del database di destinazione.
  5. Quando la "fase del connettore del database di destinazione" riceve un indicatore di fine onda su tutti i collegamenti di input, scrive le informazioni sui segnalibri in una tabella di segnalibri e quindi esegue il commit della transazione nel database di destinazione.
  6. Il server “InfoSphere CDC for InfoSphere DataStage” richiede informazioni sui segnalibri da una tabella di segnalibri nel “database di destinazione”.
  7. Il server “InfoSphere CDC for InfoSphere DataStage” riceve le informazioni sui segnalibri.

Queste informazioni vengono utilizzate per,

  • Determinare il punto iniziale nel log delle transazioni in cui vengono lette le modifiche all'inizio della replica.
  • Per determinare se il registro delle transazioni esistente può essere ripulito

Configurazione della replica SQL

Prima di iniziare con Datastage, è necessario configurare il database. Creerai due database DB2.

  • Uno che funge da origine di replica e
  • Uno come bersaglio.

Creerai inoltre due tabelle (Prodotto e Inventario) e le popolerai con dati di esempio. Quindi puoi testare la tua integrazione tra SQL Replica e stadio dati.

Andando avanti configurerai la replica SQL creando tabelle di controllo, serie di richieste, registrazioni e membri della serie di richiesteNe parleremo più in dettaglio nella prossima sezione.

Qui prenderemo un esempio di articolo di vendita al dettaglio come database e creeremo due tabelle Inventario e Prodotto. Queste tabelle caricheranno i dati dall'origine alla destinazione attraverso questi set. (tabelle di controllo, serie di richieste, registrazioni e membri della serie di richieste.)

Passo 1) Creare un database di origine denominato VENDITE. In questo database creare due tabelle PRODOTTI Inventario.

Passo 2) Eseguire il seguente comando per creare il database SALES.

db2 create database SALES

Passo 3) Attiva la registrazione di archivio per il database SALES. Inoltre, esegui il backup del database utilizzando i seguenti comandi

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Passo 4) Nello stesso prompt dei comandi, passa alla sottodirectory setupDB nella directory sqlrepl-datastage-tutorial che hai estratto dal file compresso scaricato.

Configurazione della replica SQL

Passo 5) Utilizzare il seguente comando per creare la tabella Inventario e importare i dati nella tabella eseguendo il seguente comando.

Importazione db2 da inventory.ixf di ixf create nell'inventario

Passo 6) Crea una tabella di destinazione. Assegnare un nome al database di destinazione STAGEDB.

Dato che ora hai creato entrambi i database di origine e di destinazione, nel passaggio successivo di questo tutorial di DataStage vedremo come replicarlo.

Le seguenti informazioni possono essere utili in configurazione dell'origine dati ODBC.

Creazione degli oggetti di replica SQL

L'immagine seguente mostra come il flusso dei dati di modifica viene distribuito dal database di origine al database di destinazione. Si crea una mappatura da origine a destinazione tra tabelle note come membri del set di sottoscrizione e raggruppare i membri in a sottoscrizione.

Creazione degli oggetti di replica SQL

L'unità di replica all'interno di InfoSphere CDC (Change Data Capture) viene definita sottoscrizione.

  • Le modifiche apportate alla sorgente vengono catturate nella "Capture control table" che viene inviata alla tabella CD e poi alla tabella di destinazione. Mentre il programma apply avrà i dettagli sulla riga da cui devono essere apportate le modifiche. Si unirà anche alla tabella CD nel set di sottoscrizione.
  • Una sottoscrizione contiene dettagli di mappatura che specificano come i dati in un archivio dati di origine vengono applicati a un archivio dati di destinazione. Nota, CDC è ora indicato come Replica dei dati dell'infosfera.
  • Quando viene eseguita una sottoscrizione, InfoSphere CDC cattura le modifiche sul database di origine. InfoSphere CDC invia i dati delle modifiche al target e memorizza le informazioni del punto di sincronizzazione in una tabella dei segnalibri nel database di destinazione.
  • InfoSphere CDC utilizza le informazioni sui segnalibri per monitorare l'avanzamento del lavoro InfoSphere DataStage.
  • In caso di errore, le informazioni sui segnalibri vengono utilizzate come punto di riavvio. Nel nostro esempio, l'ASN.IBMNella tabella SNAP_FEEDETL vengono memorizzate le informazioni sui punti di sincronizzazione correlati a DataStage, utilizzate per monitorare l'avanzamento di DataStage.

In questa sezione di IBM Esercitazione di formazione DataStage, devi fare le seguenti cose,

  • Creare tabelle CAPTURE CONTROL e tabelle APPLY CONTROL per archiviare le opzioni di replica
  • Registrare le tabelle PRODUCT e INVENTORY come origini di replica
  • Creare un set di sottoscrizione con due membri
  • Creare membri della serie di richieste e tabelle CCD di destinazione

Utilizzare il programma della riga di comando ASNCLP per impostare la replica SQL

Passo 1) Individuare il file di script crtCtlTablesCaptureServer.asnclp nella directory sqlrepl-datastage-tutorial/setupSQLRep.

Passo 2) Nel file sostituisci E " ” con il tuo ID utente e password per la connessione al database SALES.

Passo 3) Cambia directory nella directory sqlrepl-datastage-tutorial/setupSQLRep ed esegui lo script. Usa il seguente comando. Il comando si collegherà al database SALES, genererà uno script SQL per creare le tabelle di controllo Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Passo 4) Individuare il file di script crtCtlTablesApplyCtlServer.asnclp nella stessa directory. Ora sostituisci due istanze di E " " con l'ID utente e la password per la connessione al database STAGEDB.

Passo 5) Ora, nello stesso prompt dei comandi, utilizzare il seguente comando per creare le tabelle di controllo applicate.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Passo 6) Individua i file di script crtRegistration.asnclp e sostituisci tutte le istanze di con l'ID utente per la connessione al database SALES. Inoltre, cambia “ ” alla password di connessione.

Passo 7) Per registrare le tabelle di origine, utilizzare lo script seguente. Come parte della creazione della registrazione, il programma ASNCLP creerà due tabelle CD. CDPRODUCT E CDINVENTORY.

asnclp –f crtRegistration.asnclp

Il comando CREATE REGISTRATION utilizza le seguenti opzioni:

  • Aggiornamento differenziale: richiede al programma Apply di aggiornare la tabella di destinazione solo quando le righe nella tabella di origine cambiano
  • Immagina entrambi: questa opzione viene utilizzata per registrare il valore nella colonna di origine prima che si verificasse la modifica e una per il valore dopo che si verificava la modifica.

Passo 8) Per connettersi al database di destinazione (STAGEDB), attenersi alla seguente procedura.

  • Trova il file crtTableSpaceApply.bat e aprilo in un editor di testo
  • Sostituire E con l'ID utente e la password
  • Nella finestra dei comandi DB2, immettere crtTableSpaceApply.bat ed eseguire il file.
  • Questo file batch crea un nuovo tablespace sul database di destinazione (STAGEDB)

Passo 9) Individuare i file di script crtSubscriptionSetAndAddMembers.asnclp ed effettuare le seguenti modifiche.

  • Sostituisci tutte le istanze di E con l'ID utente e la password per la connessione al database SALES (sorgente).
  • Sostituisci tutte le istanze di E con l'ID utente per la connessione al database STAGEDB (destinazione).

Dopo le modifiche, eseguire lo script per creare un set di richieste (ST00) che raggruppa le tabelle di origine e di destinazione. Lo script crea inoltre due membri della serie di richieste e CCD (dati di modifica coerenti) nel database di destinazione che memorizzerà i dati modificati. Questi dati verranno utilizzati da Infosphere DataStage.

Passo 10) Eseguire lo script per creare la serie di richieste, i membri della serie di richieste e le tabelle CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Sono incluse varie opzioni utilizzate per creare un set di abbonamenti e due membri

  • Completato condensato
  • Esterno
  • Tipo di caricamento import-export
  • Cronometraggio continuo

Passo 11) A causa di un difetto negli strumenti di amministrazione della replica. Devi eseguire un altro file batch per impostare la colonna TARGET_CAPTURE_SCHEMA nel file IBMTabella di controllo SNAP_SUBS_SET su null.

  • Individuare il file updateTgtCapSchema.bat. Aprilo in un editor di testo. Sostituire E con l'ID utente per la connessione al database STAGEDB.
  • Nella finestra dei comandi DB2, immettere il comando updateTgtCapSchema.bat ed eseguire il file.

Creazione dei file di definizione per mappare le tabelle CCD su DataStage

Prima di eseguire la replica nel passaggio successivo, dobbiamo connettere la tabella CCD con DataStage. In questa sezione vedremo come connettere SQL con DataStage.

Per connettere la tabella CCD con DataStage, è necessario creare file di definizione Datastage (.dxs). Il formato file .dsx viene utilizzato da DataStage per importare ed esportare le definizioni di lavoro. Utilizzerai lo script ASNCLP per creare due file .dsx. Ad esempio, qui abbiamo creato due file .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: crea una sequenza di lavori che dirige il flusso di lavoro dei quattro lavori paralleli.
  • stagedb_AQ00_SET00_pJobs.dsx : Crea i quattro lavori paralleli

Il programma ASNCLP mappa automaticamente la colonna CCD al formato Colonna Datastage. È supportato solo quando è in esecuzione ASNCLP Windows, Procedura Linux o Unix.

File di definizione per mappare le tabelle CCD su DataStage

I processi Datastage estraggono righe dalla tabella CCD.

  1. Un job imposta un punto di sincronizzazione in cui DataStage si è fermato nell'estrazione dei dati dalle due tabelle. Il job ottiene queste informazioni selezionando il valore SYNCHPOINT per il set di sottoscrizioni ST00 da IBMTabella SNAP_SUBS_SET e inserendola nella colonna MAX_SYNCHPOINT della IBMTabella SNAP_FEEDETL.
  2. Due lavori che estraggono dati dalle tabelle PRODUCT_CCD e INVENTORY_CCD. I lavori sanno quali righe iniziare a estrarre selezionando i valori MIN_SYNCHPOINT e MAX_SYNCHPOINT da IBMTabella SNAP_FEEDETL per la serie di richieste.

Avvio della replica

Per avviare la replica, utilizzerai i passaggi seguenti. Quando le tabelle CCD vengono popolate con dati, indica che la configurazione della replica è convalidata. Per visualizzare i dati replicati nelle tabelle CCD di destinazione utilizzare l'interfaccia utente grafica del Centro di controllo DB2.

Passo 1) Assicurarsi che DB2 sia in esecuzione, altrimenti utilizzarlo avvio db2 comando.

Passo 2) Quindi utilizzare il comando asncap dal prompt del sistema operativo per avviare l'acquisizione del programma. Per esempio.

asncap capture_server=SALES

Il comando precedente specifica il database SALES come server Capture. Mantieni aperta la finestra di comando mentre l'acquisizione è in esecuzione.

Passo 3) Ora apri un nuovo prompt dei comandi. Quindi avviare il APPLICA programma utilizzando il comando asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Avvio della replica

  • Il comando specifica il database STAGEDB come server di controllo Apply (il database che contiene le tabelle di controllo Apply)
  • AQ00 come qualificatore Apply (l'identificatore per questo insieme di tabelle di controllo)

Lascia aperta la finestra di comando con Applica in esecuzione.

Passo 4) Ora apri un altro prompt dei comandi ed emetti il ​​comando db2cc per avviare DB2 Control Center. Accetta il Centro di controllo predefinito.

Passo 5) Ora nell'albero di navigazione a sinistra, apri Tutti i database > STAGEDB e quindi fai clic su Tabelle. Double fare clic sul nome della tabella (CCD prodotto) per aprire la tabella. Sembrerà qualcosa del genere.

Avvio della replica

Allo stesso modo, è possibile aprire la tabella CCD anche per INVENTARIO.

Avvio della replica

Come creare progetti nello strumento Datastage

Prima di tutto, creerai un progetto in DataStage. Per questo è necessario essere un amministratore di InfoSphere DataStage.

Una volta terminata l'installazione e la replica, è necessario creare un progetto. In DataStage, i progetti sono un metodo per organizzare i dati. Include la definizione di file di dati, fasi e lavori di costruzione in un progetto specifico.

Per creare un progetto in DataStage, seguire i passaggi seguenti:

Passaggio 1) Avviare il software DataStage

Avviare DataStage e QualityStage Administrator. Quindi fare clic su Start > Tutti i programmi > IBM Server delle informazioni > IBM Amministratore WebSphere DataStage e QualityStage.

Passaggio 2) Collegare il server e il client DataStage

Per connetterti al server DataStage dal tuo client DataStage, inserisci dettagli quali nome di dominio, ID utente, password e informazioni sul server.

Passaggio 3) Aggiungi un nuovo progetto

Nella finestra Amministrazione WebSphere DataStage. Fare clic sulla scheda Progetti e quindi su Aggiungi.

Passaggio 4) Inserisci i dettagli del progetto

Nella finestra Amministrazione WebSphere DataStage, immettere dettagli come

  1. Nome
  2. Posizione del file
  3. Fai clic su "OK"

Crea progetti nello strumento Datastage

Ogni progetto contiene:

  • Lavori DataStage
  • Componenti integrati. Si tratta di componenti predefiniti utilizzati in un lavoro.
  • Componenti definiti dall'utente. Si tratta di componenti personalizzati creati utilizzando DataStage Manager o DataStage Designer.

Vedremo come importare job di replica in Datastage Infosphere.

Come importare processi di replica in Datastage e QualityStage Designer

Importerai lavori nel file IBM Client InfoSphere DataStage e QualityStage Designer. E li esegui nel IBM Client InfoSphere DataStage e QualityStage Director.

Il designer-client è come una tela bianca per la creazione di lavori. Estrae, trasforma, carica e controlla la qualità dei dati. Fornisce strumenti che costituiscono i blocchi di base di un lavoro. Include

  • stage: si connette alle origini dati per leggere o scrivere file e per elaborare i dati.
  • Link e Collegamenti: Collega le fasi lungo le quali scorrono i tuoi dati

Le fasi nel client InfoSphere DataStage e QualityStage Designer sono memorizzate nella tavolozza degli strumenti Designer.

InfoSphere QualityStage include le seguenti fasi:

  • Fase di indagine
  • Fase di standardizzazione
  • Fase della frequenza di corrispondenza
  • Fase di corrispondenza a una fonte
  • Fase di corrispondenza a due fonti
  • Fase Sopravvivenza
  • Fase di valutazione della qualità della standardizzazione (SQA).

È possibile creare 4 tipi di lavori nell'infosfera DataStage.

  • Lavoro parallelo
  • Lavoro in sequenza
  • Lavoro del mainframe
  • Lavoro del server

Vediamo passo dopo passo come importare i file di lavoro di replica.

Passo 1) Avviare DataStage e QualityStage Designer. Fare clic su Start > Tutti i programmi > IBM Server delle informazioni > IBM WebSphere DataStage e QualityStage Designer

Passo 2) Nella finestra Allega al progetto, inserisci i dettagli seguenti.

  • Domini
  • Nome utente
  • Password
  • Nome del progetto
  • OK

Importa processi di replica in Datastage e QualityStage

Passo 3) Ora dal menu File fai clic su Importa -> Componenti DataStage.

Si aprirà una nuova finestra di importazione del repository DataStage.

  1. In questa finestra sfoglia STAGEDB_AQ00_ST00_sJobs.dsx file che avevamo creato in precedenza
  2. Seleziona l'opzione "Importa tutto".
  3. Seleziona la casella di controllo "Esegui analisi di impatto".
  4. Fare clic su "OK".

Importa processi di replica in Datastage e QualityStage

Una volta importato il lavoro, DataStage creerà il lavoro STAGEDB_AQ00_ST00_sequence.

Passo 4) Segui gli stessi passaggi per importare il file File STAGEDB_AQ00_ST00_pJobs.dsx. Questa importazione crea i quattro lavori paralleli.

Passo 5) Nel riquadro Repository Designer -> Apri la cartella SQLREP. All'interno della cartella vedrai Sequence Job e quattro lavori paralleli.

Importa processi di replica in Datastage e QualityStage

Passo 6) Per vedere il lavoro in sequenza. Vai all'albero del repository, fai clic con il pulsante destro del mouse sul lavoro STAGEDB_AQ00_ST00_sequence e fai clic su Modifica. Mostrerà il flusso di lavoro dei quattro lavori paralleli controllati dalla sequenza di lavoro.

Importa processi di replica in Datastage e QualityStage

Ogni icona è un palcoscenico,

  • fase getExtractRange: Aggiorna il IBMTabella SNAP_FEEDETL. Imposterà il punto iniziale per l'estrazione dei dati sul punto in cui DataStage ha estratto le righe per l'ultima volta e imposterà il punto finale sull'ultima transazione elaborata per la serie di richieste.
  • getExtractRangeSuccess: questa fase fornisce i punti di partenza alle fasi extractFromINVENTORY_CCD e extractFromPRODUCT_CCD
  • AllExtractsSuccess: Questa fase assicura che sia extractFromINVENTORY_CCD che extractFromPRODUCT_CCD siano stati completati correttamente. Quindi passa i punti di sincronizzazione per le ultime righe che sono state recuperate alla fase setRangeProcessed.
  • fase setRangeProcessed: Si aggiorna IBMTabella SNAP_FEEDETL. Pertanto, DataStage sa da dove iniziare il prossimo ciclo di estrazione dei dati

Passo 7) Per vedere i lavori paralleli. Fare clic con il pulsante destro del mouse su STAGEDB_ASN_INVENTORY_CCD e selezionare Modifica in repository. Si aprirà la finestra come mostrato di seguito.

Importa processi di replica in Datastage e QualityStage

Qui nell'immagine sopra, puoi vedere che i dati dalla tabella CCD inventario e SyncI dettagli del punto h dalla tabella FEEDETL vengono renderizzati nella fase Lookup_6.

Creazione di una connessione dati da DataStage al database STAGEDB

Il passaggio successivo consiste nel creare una connessione dati tra InfoSphere DataStage e il database di destinazione della replica SQL. Contiene le tabelle CCD.

In DataStage si utilizzano oggetti connessione dati con fasi del connettore correlate per definire rapidamente una connessione a un'origine dati nella progettazione di un lavoro.

Passo 1) STAGEDB contiene sia le tabelle di controllo Apply che DataStage usa per sincronizzare l'estrazione dei dati sia le tabelle CCD da cui vengono estratti i dati. Usa i seguenti comandi

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Note:: indirizzo IP del sistema in cui è stato creato STAGEDB

Passo 2) Fare clic su File > Nuovo > Altro > Connessione dati.

Passo 3) Avrai una finestra con due schede, Parametri e Generale.

Connessione dati da DataStage al database STAGEDB

Passo 4) In questa fase,

  1. In generale, nella scheda, denominare la connessione dati sqlreplConnect
  2. Nella scheda Parametri, come mostrato di seguito
  • Fai clic sul pulsante Sfoglia accanto al campo "Connetti utilizzando il tipo di fase" e nel file
  • Aprire la finestra per navigare nell'albero del repository fino a Tipi di fase –> Parallela– > Database —-> Connettore DB2.
  • Fare clic su Apri.

Connessione dati da DataStage al database STAGEDB

Passo 5) Nella tabella Parametri di connessione, inserisci dettagli come

  • ConnectionString: STAGEDB2
  • Nome utente: ID utente per la connessione al database STAGEDB
  • Password: Password per la connessione al database STAGEDB
  • Instance: nome dell'istanza DB2 che contiene il database STAGEDB

Passo 6) Nella finestra successiva salva la connessione dati. Fare clic sul pulsante "Salva".

Importazione delle definizioni di tabella da STAGEDB in DataStage

Nel passaggio precedente, abbiamo visto che InfoSphere DataStage e il database STAGEDB sono collegati. Importare ora la definizione della colonna e altri metadati per le tabelle PRODUCT_CCD e INVENTORY_CCD nel repository di Information Server.

Nella finestra di progettazione, seguire i passaggi seguenti.

Passo 1) Selezionare Importa > Definizioni tabella > Avvia importazione guidata connettore

Passo 2) Dalla pagina di selezione del connettore della procedura guidata, selezionare il connettore DB2 e fare clic su Avanti.

Importazione delle definizioni di tabella da STAGEDB in DataStage

Passo 3) Fare clic su Carica nella pagina dei dettagli della connessione. Ciò popolerà i campi della procedura guidata con le informazioni di connessione dalla connessione dati creata nel capitolo precedente.

Importazione delle definizioni di tabella da STAGEDB in DataStage

Passo 4) Fare clic su Prova connessione nella stessa pagina. Ciò richiederà a DataStage di tentare una connessione al database STAGEDB. È possibile visualizzare il messaggio "la connessione è riuscita". Fare clic su Avanti.

Importazione delle definizioni di tabella da STAGEDB in DataStage

Passo 5) Assicurati che nella pagina Posizione origine dati i campi Nome host e Nome database siano compilati correttamente. Quindi fare clic su Avanti.

Passo 6) Nella pagina Schema. Immettere lo schema delle tabelle di controllo Apply (ASN) o verificare che lo schema ASN sia precompilato nel campo dello schema. Quindi fare clic su Avanti. La pagina di selezione mostrerà l'elenco delle tabelle definite nello schema ASN.

Importazione delle definizioni di tabella da STAGEDB in DataStage

Passo 7) La prima tabella da cui dobbiamo importare i metadati è IBMSNAP_FEEDETL, una tabella di controllo Apply. Contiene i dettagli sui punti di sincronizzazione che consentono a DataStage di tenere traccia delle righe che ha recuperato dalle tabelle CCD. Scegli IBMSNAP_FEEDETL e fare clic su Avanti.

Passo 8) Per completare l'importazione del file IBMDefinizione della tabella SNAP_FEEDETL. Fare clic su Importa, quindi nella finestra aperta fare clic su Apri.

Passo 9) Ripetere i passaggi da 1 a 8 altre due volte per importare le definizioni per la tabella PRODUCT_CCD e quindi per la tabella INVENTORY_CCD.

NOTA: durante l'importazione delle definizioni per l'inventario e il prodotto, assicurati di modificare gli schemi da ASN allo schema in base al quale sono stati creati PRODUCT_CCD e INVENTORY_CCD.

Ora DataStage dispone di tutti i dettagli necessari per connettersi al database di destinazione della replica SQL.

Impostazione delle proprietà per i lavori DataStage

Per ciascuno dei quattro lavori paralleli DataStage di cui disponiamo, contiene una o più fasi che si connettono al database STAGEDB. È necessario modificare le fasi per aggiungere informazioni sulla connessione e collegarsi ai file del set di dati popolati da DataStage.

Le fasi hanno proprietà predefinite modificabili. Qui modificheremo alcune di queste proprietà per il lavoro parallelo STAGEDB_ASN_PRODUCT_CCD_extract.

Passo 1) Sfoglia l'albero del repository di Designer. Nella cartella SQLREP selezionare il lavoro parallelo STAGEDB_ASN_PRODUCT_CCD_extract. Per modificare, fare clic con il pulsante destro del mouse sul lavoro. La finestra di disegno del lavoro parallelo si apre nella Designer Palette.

Passo 2) Individua l'icona verde. Questa icona indica la fase del connettore DB2. Viene utilizzato per estrarre dati dalla tabella CCD. Double-clicca sull'icona. Si apre una finestra dell'editor di stage.

Impostazione delle proprietà per i lavori DataStage

Impostazione delle proprietà per i lavori DataStage

Passo 3) Nell'editor fare clic su Carica per compilare i campi con le informazioni sulla connessione. Per chiudere l'editor delle fasi e salvare le modifiche, fare clic su OK.

Passo 4) Ora torna alla finestra di progettazione per il lavoro parallelo STAGEDB_ASN_PRODUCT_CCD_extract. Individua l'icona per ottenereSyncFase del connettore DB2 di hPoints. Quindi fare doppio clic sull'icona.

Passo 5) Ora fai clic sul pulsante Carica per compilare i campi con le informazioni sulla connessione.

NOTA: se si utilizza un database diverso da STAGEDB come server di controllo Apply. Quindi seleziona l'opzione per caricare le informazioni di connessione per getSyncFase hPoints, che interagisce con le tabelle di controllo anziché con la tabella CCD.

Passo 6) In questa fase,

  • Creare un file di testo vuoto sul sistema su cui viene eseguito InfoSphere DataStage.
  • Assegna a questo file il nome productdataset.ds e prendi nota di dove lo hai salvato.
  • DataStage scriverà le modifiche in questo file dopo aver recuperato le modifiche dalla tabella CCD.
  • I set di dati o i file utilizzati per spostare i dati tra lavori collegati sono noti come set di dati persistenti. È rappresentato da una fase DataSet.

Passo 7) Ora apri l'editor di stage nella finestra di progettazione e fai doppio clic sull'icona insert_into_a_dataset. Si aprirà un'altra finestra.

Impostazione delle proprietà per i lavori DataStage

Passo 8) In questa finestra,

Impostazione delle proprietà per i lavori DataStage

  • Nella scheda Proprietà assicurati che Target la cartella è aperta e la proprietà File = DATASETNAME è evidenziata.
  • Sulla destra avrai un campo file
  • Immettere il percorso completo del file productdataset.ds
  • Fare clic su "OK".

Ora hai aggiornato tutte le proprietà necessarie per la tabella CCD del prodotto. Chiudi la finestra del disegno e salva tutte le modifiche.

Passo 9) Ora individua e apri il lavoro parallelo STAGEDB_ASN_INVENTORY_CCD_extract dal riquadro repository di Designer e ripeti i passaggi 3-8.

NOTA:

  • È necessario caricare le informazioni di connessione per il database del server di controllo nell'editor di stage per ottenereSyncFase hPoints. Se il tuo server di controllo non è STAGEDB.
  • Per i lavori paralleli STAGEDB_ST00_AQ00_getExtractRange e STAGEDB_ST00_AQ00_markRangeProcessed, aprire tutte le fasi del connettore DB2. Quindi utilizzare la funzione di caricamento per aggiungere le informazioni di connessione per il database STAGEDB

Compilazione ed esecuzione dei lavori DataStage

Quando il processo DataStage è pronto per la compilazione, Designer convalida la progettazione del processo esaminando input, trasformazioni, espressioni e altri dettagli.

Una volta completata correttamente la compilazione del lavoro, è pronto per essere eseguito. Compileremo tutti e cinque i lavori, ma eseguiremo solo la “sequenza di lavori”. Questo perché questo lavoro controlla tutti e quattro i lavori paralleli.

Passo 1) Nella cartella SQLREP. Seleziona ciascuno dei cinque lavori tramite (Cntrl+Shift). Quindi fare clic con il tasto destro e scegliere l'opzione di compilazione di lavori multipli.

Compilazione ed esecuzione dei lavori DataStage

Passo 2) Vedrai che cinque lavori sono selezionati nella procedura guidata di compilazione DataStage. Fare clic su Avanti.

Compilazione ed esecuzione dei lavori DataStage

Passo 3) La compilazione inizia e al termine viene visualizzato il messaggio "Compilato con successo".

Compilazione ed esecuzione dei lavori DataStage

Passo 4) Ora avvia DataStage e QualityStage Director. Selezionare Start > Tutti i programmi > IBM Server delle informazioni > IBM Direttore di WebSphere DataStage e QualityStage.

Passo 5) Nel riquadro di navigazione del progetto a sinistra. Fare clic sulla cartella SQLREP. Ciò porta tutti e cinque i lavori nella tabella dello stato del direttore.

Passo 6) Seleziona il lavoro STAGEDB_AQ00_S00_sequence. Dalla barra dei menu fare clic su Lavoro > Esegui ora.

Compilazione ed esecuzione dei lavori DataStage

Una volta completata la compilazione, vedrai lo stato finito.

Compilazione ed esecuzione dei lavori DataStage

Ora controlla se le righe modificate memorizzate nelle tabelle PRODUCT_CCD e INVENTORY_CCD sono state estratte da DataStage e inserite nei due file di set di dati.

Passo 7) Torna al Designer e apri il lavoro STAGEDB_ASN_PRODUCT_CCD_extract. Per aprire l'editor di stage Double-fai clic sull'icona insert_into_a_dataset. Quindi fare clic su Visualizza dati.

Passo 8) Accettare le impostazioni predefinite nelle righe da visualizzare nella finestra. Quindi fare clic su OK. Si aprirà una finestra del browser dei dati per mostrare il contenuto del file del set di dati.

Compilazione ed esecuzione dei lavori DataStage

Test dell'integrazione tra la replica SQL e DataStage

Nel passaggio precedente, abbiamo compilato ed eseguito il lavoro. In questa sezione verificheremo l'integrazione della replica SQL e DataStage. Per questo, apporteremo modifiche alla tabella di origine e vedremo se la stessa modifica viene aggiornata in DataStage.

Passo 1) Passare alla cartella sqlrepl-datastage-scripts per il proprio sistema operativo.

Passo 2) Avviare la replica SQL seguendo i passaggi seguenti:

  • Esegui startSQLCapture.bat (Windows) per avviare il programma Capture nel database SALES.
  • Esegui startSQLApply.bat (Windows) per avviare il programma Apply nel database STAGEDB.

Passo 3) Ora apri il file updateSourceTables.sql. Per connettersi al database SALES sostituire E con l'ID utente e la password.

Passo 4) Aprire una finestra di comando DB2. Cambia la directory in sqlrepl-datastage-tutorial\scripts ed esegui il problema con il comando indicato:

db2 -tvf updateSourceTables.sql

Lo script SQL eseguirà varie operazioni come Aggiorna, Inserisci ed elimina su entrambe le tabelle (PRODOTTO, INVENTARIO) nel database Vendite.

Passo 5) Sul sistema in cui è in esecuzione DataStage. Aprire DataStage Director ed eseguire il lavoro STAGEDB_AQ00_S00_sequence. Fare clic su Lavoro > Esegui ora.

Integrazione tra replica SQL e DataStage

Quando si esegue il lavoro verranno svolte le seguenti attività.

  • Il programma Capture legge le modifiche di sei righe nel log del database SALES e le inserisce nelle tabelle CD.
  • Il programma Apply recupera le righe di modifica dalle tabelle CD in SALES e le inserisce nelle tabelle CCD in STAGEDB.
  • I due processi di estrazione DataStage raccolgono le modifiche dalle tabelle CCD e le scrivono nei file productdataset.ds e inventory dataset.ds.

Puoi verificare che i passaggi precedenti siano stati eseguiti esaminando i set di dati.

Passo 6) Segui i passaggi seguenti,

  • Avvia Designer.Apri il lavoro STAGEDB_ASN_PRODUCT_CCD_extract.
  • Poi Double-fai clic sull'icona insert_into_a_dataset. Nell'editor di scena. Fare clic su Visualizza dati.
  • Accettare le impostazioni predefinite nella finestra delle righe da visualizzare e fare clic su OK.

Il set di dati contiene tre nuove righe. Il modo più semplice per verificare che le modifiche siano implementate è scorrere verso il basso a destra del browser dei dati. Ora guarda le ultime tre righe (vedi immagine sotto)

Integrazione tra replica SQL e DataStage

Le lettere I, U e D specificano le operazioni INSERT, UPDATE e DELETE che hanno prodotto ogni nuova riga.

Puoi fare lo stesso controllo per la tabella Inventario.

Sintesi

  • Datastage è un Strumento ETL che estrae i dati, trasforma e carica i dati dalla sorgente alla destinazione.
  • Facilita analisi aziendale fornendo dati di qualità per aiutare ad acquisire business intelligence.
  • DataStage è diviso in due sezioni, Componenti condivisi e runtime Architectura.
  • DataStage ha quattro componenti principali,
  • Amministratore
  • direttore
  • Designer
  • Direttore
  • Di seguito sono riportati gli aspetti chiave di IBM InfoSphere DataStage
  • Trasformazione dei dati
  • Offerte di lavoro
  • Elaborazione parallela
  • Nella progettazione del lavoro sono coinvolte varie fasi
  • Fase di trasformazione
  • Fase di filtro
  • Fase aggregatrice
  • Fase Rimuovi duplicati
  • Partecipa al palco
  • Fase di ricerca

Riassumi questo post con: