Урок за DataStage за начинаещи: IBM DataStage (ETL Tool) Обучение
Какво е DataStage?
DataStage е ETL инструмент, използван за извличане, трансформиране и зареждане на данни от източника към целевата дестинация. Източникът на тези данни може да включва последователни файлове, индексирани файлове, релационни бази данни, външни източници на данни, архиви, корпоративни приложения и т.н. DataStage се използва за улесняване на бизнес анализа чрез предоставяне на качествени данни, за да помогне за получаване на бизнес интелигентност.
Инструментът DataStage ETL се използва в голяма организация като интерфейс между различни системи. Той се грижи за извличането, превода и зареждането на данни от източника до целевата дестинация. За първи път беше пуснат от VMark в средата на 90-те години. с IBM придобиването на DataStage през 2005 г. е преименувано на IBM WebSphere DataStage и по-късно до IBM Инфосфера.
Различни версии на Datastage, налични на пазара досега, бяха Enterprise Edition (PX), Server Edition, MVS Edition, DataStage за PeopleSoft и т.н. Последното издание е IBM InfoSphere DataStage
IBM Информационният сървър включва следните продукти,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM Директор информационни услуги на InfoSphere
- IBM Информационен анализатор на InfoSphere
- IBM Информационен сървър FastTrack
- IBM Бизнес речник на InfoSphere
Общ преглед на DataStage
Datastage има следните възможности.
- Той може да интегрира данни от най-широка гама корпоративни и външни източници на данни
- Внедрява правила за валидиране на данни
- Той е полезен при обработката и трансформирането на големи количества данни
- Той използва подход за мащабируема паралелна обработка
- Може да обработва сложни трансформации и да управлява множество интеграционни процеси
- Възползвайте се от директната свързаност с корпоративни приложения като източници или цели
- Използвайте метаданни за анализ и поддръжка
- Operaтества в пакет, в реално време или като уеб услуга
В следващите раздели на този урок за DataStage описваме накратко следните аспекти на IBM InfoSphere DataStage:
- Преобразуване на данни
- Работа
- Паралелна обработка
InfoSphere DataStage и QualityStage имат достъп до данни в корпоративни приложения и източници на данни като:
- Релационни бази данни
- Мейнфрейм бази данни
- Бизнес и аналитични приложения
- Планиране на корпоративните ресурси (ERP) или бази данни за управление на взаимоотношенията с клиенти (CRM).
- Онлайн аналитична обработка (OLAP) или бази данни за управление на ефективността
Видове етапи на обработка
IBM работата в инфосферата се състои от отделни етапи, които са свързани помежду си. Той описва потока от данни от източник на данни към цел на данни. Обикновено един етап има минимум един вход на данни и/или един изход на данни. Някои етапи обаче могат да приемат повече от един вход и изход на данни към повече от един етап.
Различните етапи в проектирането на работа, които можете да използвате, са:
- Етап на трансформация
- Етап на филтриране
- Етап на агрегатора
- Премахване на дублирания етап
- Присъединете се към сцената
- Етап на търсене
- Етап на копиране
- Етап на сортиране
- Контейнери
Компоненти на DataStage и Archiтекстура
DataStage има четири основни компонента, а именно,
- администратор: Използва се за административни задачи. Това включва настройка на потребители на DataStage, настройка на критерии за изчистване и създаване и преместване на проекти.
- Мениджър: Това е основният интерфейс на хранилището на ETL DataStage. Използва се за съхранение и управление на метаданни за многократна употреба. Чрез мениджъра на DataStage можете да преглеждате и редактирате съдържанието на хранилището.
- Дизайнер: Интерфейс за проектиране, използван за създаване на DataStage приложения ИЛИ задания. Той определя източника на данни, необходимата трансформация и дестинацията на данните. Задачите се компилират, за да се създаде изпълним файл, който се планира от директора и се изпълнява от сървъра
- Режисьор: Използва се за валидиране, планиране, изпълнение и наблюдение на задания на DataStage сървър и паралелни задания.
Изображението по-горе обяснява как IBM Infosphere DataStage взаимодейства с други елементи на IBM Платформа за информационен сървър. DataStage е разделен на два раздела, Споделени компоненти и време за изпълнение Archiтекстура.
Обща |
Унифициран потребителски интерфейс |
|
Общи услуги |
|
|
Обща паралелна обработка |
|
|
Runtime Archiтекстура |
Скрипт за БЗР |
|
Предпоставка за Datastage Tool
За DataStage ще ви трябва следната настройка.
- Инфосфера
- DataStage Server 9.1.2 или по-нова версия
- Microsoft Visual Studio .NET 2010 Express Edition C++
- Oracle клиент (пълен клиент, а не незабавен клиент), ако се свързва към Oracle база данни
- DB2 клиент, ако се свързва към DB2 база данни
Сега в тази серия уроци за DataStage за начинаещи ще научим как да изтеглим и инсталираме информационен сървър на InfoSphere.
Изтегляне и инсталиране на InfoSphere Information Server
За достъп до DataStage изтеглете и инсталирайте най-новата версия на IBM InfoSphere сървър. Сървърът поддържа AIX, Linux и Windows операционна система. Можете да изберете според изискванията.
За да мигрирате вашите данни от по-стара версия на infosphere към нова версия, използвайте инструмента за обмен на активи.
Инсталационни файлове
За да инсталирате и конфигурирате Infosphere Datastage, трябва да имате следните файлове във вашата настройка.
За Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
За Linux,
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Поток на процеса на промяна на данни в задание на етап на транзакция на CDC
- Услугата „InfoSphere CDC“ за базата данни следи и улавя промяната от изходна база данни
- Според дефиницията за репликация „InfoSphere CDC“ прехвърля данните за промяна към „InfoSphere CDC за InfoSphere DataStage“.
- Сървърът „InfoSphere CDC за InfoSphere DataStage“ изпраща данни към „етапа на CDC транзакция“ чрез TCP/IP сесия. Сървърът “InfoSphere CDC за InfoSphere DataStage” също изпраща съобщение COMMIT (заедно с информация за маркер), за да маркира границата на транзакцията в заснетия журнал.
- За всяко съобщение COMMIT, изпратено от сървъра “InfoSphere CDC за InfoSphere DataStage”, “етапът на CDC транзакция” създава маркери за край на вълната (EOW). Тези маркери се изпращат на всички изходни връзки към етапа на конектора на целевата база данни.
- Когато „етапът на конектора на целевата база данни“ получи маркер за край на вълната на всички входни връзки, той записва информация за отметки в таблица с отметки и след това ангажира транзакцията към целевата база данни.
- Сървърът „InfoSphere CDC за InfoSphere DataStage“ изисква информация за отметки от таблица с отметки в „целевата база данни“.
- Сървърът “InfoSphere CDC за InfoSphere DataStage” получава информацията за отметка.
Тази информация се използва за,
- Определете началната точка в регистъра на транзакциите, където се четат промените, когато репликацията започне.
- За да определите дали съществуващият регистър на транзакциите може да бъде изчистен
Настройка на SQL репликация
Преди да започнете с Datastage, трябва да настроите база данни. Ще създадете две DB2 бази данни.
- Един, който да служи като източник на репликация и
- Един като цел.
Също така ще създадете две таблици (Продукт и Инвентар) и ще ги попълните с примерни данни. След това можете да тествате вашата интеграция между SQL Репликация и Datastage.
Продължавайки напред, ще настроите SQL репликация чрез създаване контролни таблици, абонаментни набори, регистрации и членове на абонаментен набор. Ще научим повече за това в подробности в следващия раздел.
Тук ще вземем пример за артикул за продажби на дребно като наша база данни и ще създадем две таблици Инвентар и Продукт. Тези таблици ще зареждат данни от източник към цел чрез тези набори. (контролни таблици, абонаментни набори, регистрации и членове на абонаментен набор.)
Стъпка 1) Създайте изходна база данни, наричана ПРОДАЖБИТЕ. Под тази база данни създайте две таблици продукт намлява Опис.
Стъпка 2) Изпълнете следната команда, за да създадете база данни SALES.
db2 create database SALES
Стъпка 3) Включете архивното регистриране за базата данни SALES. Също така архивирайте базата данни, като използвате следните команди
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
Стъпка 4) В същия команден ред преминете към поддиректорията setupDB в директорията sqlrepl-datastage-tutorial, която сте извлекли от изтегления компресиран файл.
Стъпка 5) Използвайте следната команда, за да създадете таблица с инвентаризация и да импортирате данни в таблицата, като изпълните следната команда.
db2 импортиране от inventory.ixf на ixf create в инвентар
Стъпка 6) Създайте целева таблица. Наименувайте целевата база данни като STAGEDB.
Тъй като вече сте създали както източник, така и цел на бази данни, следващата стъпка в този урок за DataStage ще видим как да го репликираме.
Следната информация може да бъде полезна при настройка на ODBC източник на данни.
Създаване на SQL репликационни обекти
Изображението по-долу показва как потокът от данни за промяна се доставя от източник към целева база данни. Вие създавате съпоставяне от източник към цел между таблици, известни като членове на абонаментния набор и групирайте членовете в a абонамент.
Единицата за репликация в рамките на InfoSphere CDC (Change Data Capture) се нарича абонамент.
- Промените, извършени в източника, се записват в „Контролната таблица на заснемането“, която се изпраща към CD таблицата и след това към целевата таблица. Докато програмата за прилагане ще има подробности за реда, откъдето трябва да се направят промени. Той също така ще се присъедини към CD таблица в абонаментния набор.
- Абонаментът съдържа подробности за съпоставяне, които указват как данните в изходно хранилище на данни се прилагат към целево хранилище на данни. Забележете, CDC сега се нарича Инфосфера репликация на данни.
- Когато се изпълнява абонамент, InfoSphere CDC улавя промените в изходната база данни. InfoSphere CDC доставя данните за промяната на целта и съхранява информация за синхронизираща точка в таблица с отметки в целевата база данни.
- InfoSphere CDC използва информацията за маркера, за да наблюдава напредъка на заданието InfoSphere DataStage.
- В случай на повреда, информацията за отметката се използва като точка за рестартиране. В нашия пример, ASN.IBMТаблицата SNAP_FEEDETL съхранява свързана с DataStage информация за точки на синхронизиране, която се използва за проследяване на прогреса на DataStage.
В този раздел на IBM Обучителен урок за DataStage, трябва да направите следните неща,
- Създайте CAPTURE CONTROL таблици и APPLY CONTROL таблици за съхраняване на опции за репликация
- Регистрирайте таблиците PRODUCT и INVENTORY като източници на репликация
- Създайте абонаментен набор с двама членове
- Създайте членове на набор от абонаменти и целеви CCD таблици
Използвайте програмата за команден ред ASNCLP, за да настроите SQL репликация
Стъпка 1) Намерете скриптовия файл crtCtlTablesCaptureServer.asnclp в директорията sqlrepl-datastage-tutorial/setupSQLRep.
Стъпка 2) Във файла замени и „ ” с вашето потребителско име и парола за връзка с базата данни SALES.
Стъпка 3) Променете директориите в директорията sqlrepl-datastage-tutorial/setupSQLRep и изпълнете скрипта. Използвайте следната команда. Командата ще се свърже с базата данни SALES, ще генерира SQL скрипт за създаване на контролните таблици Capture.
asnclp –f crtCtlTablesCaptureServer.asnclp
Стъпка 4) Намерете скриптовия файл crtCtlTablesApplyCtlServer.asnclp в същата директория. Сега заменете два екземпляра на и „ ” с потребителско име и парола за свързване към базата данни STAGEDB.
Стъпка 5) Сега в същия команден ред използвайте следната команда, за да създадете прилагащи контролни таблици.
asnclp –f crtCtlTablesApplyCtlServer.asnclp
Стъпка 6) Намерете скриптовите файлове crtRegistration.asnclp и заменете всички екземпляри на с потребителския идентификатор за връзка с базата данни SALES. Също така променете „ ” към паролата за връзка.
Стъпка 7) За да регистрирате изходните таблици, използвайте следния скрипт. Като част от създаването на регистрацията програмата ASNCLP ще създаде две CD таблици. CDPRODUCT И CDINVENTORY.
asnclp –f crtRegistration.asnclp
Командата CREATE REGISTRATION използва следните опции:
- Диференциално опресняване: Подканва програмата за прилагане за актуализиране на целевата таблица само когато редовете в таблицата източник се променят
- Изображение и на двете: Тази опция се използва за регистриране на стойността в колоната източник преди настъпване на промяната и една за стойността след настъпване на промяната.
Стъпка 8) За свързване към целевата база данни (STAGEDB) използвайте следните стъпки.
- Намерете файла crtTableSpaceApply.bat, отворете го в текстов редактор
- Сменете и с потребителско име и парола
- В командния прозорец на DB2 въведете crtTableSpaceApply.bat и стартирайте файла.
- Този пакетен файл създава ново таблично пространство в целевата база данни ( STAGEDB)
Стъпка 9) Намерете скриптовите файлове crtSubscriptionSetAndAddMembers.asnclp и направете следните промени.
- Заменете всички случаи на и с потребителско име и парола за връзка с базата данни SALES (източник).
- Заменете всички случаи на и с потребителския идентификатор за свързване към базата данни STAGEDB (цел).
След промените изпълнете скрипта, за да създадете абонаментен набор (ST00), който групира изходната и целевата таблици. Скриптът също така създава два члена на набор от абонаменти и CCD (последователни данни за промяна) в целевата база данни, която ще съхранява модифицираните данни. Тези данни ще бъдат използвани от Infosphere DataStage.
Стъпка 10) Изпълнете скрипта, за да създадете набор от абонаменти, членове на набор от абонаменти и CCD таблици.
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
Различни опции, използвани за създаване на набор от абонаменти, включват два члена
- Пълен на кондензиран изключен
- Външен
- Заредете тип импортиране експортиране
- Времето непрекъснато
Стъпка 11) Поради дефект в инструментите за администриране на репликация. Трябва да изпълните друг пакетен файл, за да зададете колоната TARGET_CAPTURE_SCHEMA в IBMSNAP_SUBS_SET контролна таблица на нула.
- Намерете файла updateTgtCapSchema.bat. Отворете го в текстов редактор. Сменете и с потребителския идентификатор за свързване към базата данни STAGEDB.
- В командния прозорец на DB2 въведете команда updateTgtCapSchema.bat и изпълнете файла.
Създаване на дефиниционните файлове за картографиране на CCD таблици към DataStage
Преди да направим репликация в следващата стъпка, трябва да свържем CCD таблицата с DataStage. В този раздел ще видим как да свържете SQL с DataStage.
За да свържете CCD таблица с DataStage, трябва да създадете файлове с дефиниция на Datastage (.dxs). Файловият формат .dsx се използва от DataStage за импортиране и експортиране на дефиниции на задачи. Ще използвате ASNCLP скрипт, за да създадете два .dsx файла. Например, тук създадохме два .dsx файла.
- stagedb_AQ00_SET00_sJobs.dsx: Създава последователност от задачи, която насочва работния процес на четирите паралелни задачи.
- stagedb_AQ00_SET00_pJobs.dsx : Създава четирите паралелни задачи
Програмата ASNCLP автоматично преобразува CCD колоната във формата на колоната на Datastage. Поддържа се само когато ASNCLP работи Windows, Linux или Unix процедура.
Задачите на Datastage изтеглят редове от CCD таблица.
- Едно задание задава точка на синхронизиране там, където DataStage е спрял при извличането на данни от двете таблици. Заданието получава тази информация чрез избиране на стойността SYNCHPOINT за набора абонамент ST00 от IBMSNAP_SUBS_SET таблица и вмъкването й в колоната MAX_SYNCHPOINT на IBMТаблица SNAP_FEEDETL.
- Две задачи, които извличат данни от таблиците PRODUCT_CCD и INVENTORY_CCD. Заданията знаят кои редове да започнат да извличат, като изберат стойностите MIN_SYNCHPOINT и MAX_SYNCHPOINT от IBMТаблица SNAP_FEEDETL за набора абонаменти.
Стартиране на репликация
За да започнете репликация, ще използвате стъпките по-долу. Когато CCD таблиците са попълнени с данни, това показва, че настройката за репликация е валидирана. За да прегледате репликираните данни в целевите CCD таблици, използвайте графичния потребителски интерфейс на DB2 Център за управление.
Стъпка 1) Уверете се, че DB2 работи, ако не, използвайте db2 стартиране команда.
Стъпка 2) След това използвайте командата asncap от подкана на операционната система, за да започнете програмата за заснемане. например.
asncap capture_server=SALES
Горната команда посочва базата данни SALES като Capture сървър. Дръжте командния прозорец отворен, докато заснемането се изпълнява.
Стъпка 3) Сега отворете нов команден ред. След това започнете КАНДИДАТСТВА програма с помощта на командата asnapply.
asnapply control_server=STAGEDB apply_qual=AQ00
- Командата указва базата данни STAGEDB като контролен сървър на Apply (базата данни, която съдържа контролните таблици на Apply)
- AQ00 като квалификатор на Apply (идентификаторът за този набор от контролни таблици)
Оставете командния прозорец отворен с Apply.
Стъпка 4) Сега отворете друг команден ред и издайте командата db2cc, за да стартирате DB2 Центъра за управление. Приемете контролния център по подразбиране.
Стъпка 5) Сега в лявото навигационно дърво отворете Всички бази данни > STAGEDB и след това щракнете върху Таблици. Double щракнете върху името на таблицата ( CCD на продукта), за да отворите таблицата. Ще изглежда нещо подобно.
По същия начин можете също да отворите CCD таблица за ИНВЕНТОР.
Как да създавате проекти в Datastage Tool
Първо, ще създадете проект в DataStage. За целта трябва да сте администратор на InfoSphere DataStage.
След като инсталацията и репликацията са готови, трябва да създадете проект. В DataStage проектите са метод за организиране на вашите данни. Включва дефиниране на файлове с данни, етапи и задания за изграждане в конкретен проект.
За да създадете проект в DataStage, следвайте стъпките по-долу:
Стъпка 1) Стартирайте софтуера DataStage
Стартирайте DataStage и QualityStage Administrator. След това щракнете върху Старт > Всички програми > IBM Информационен сървър > IBM WebSphere DataStage и QualityStage администратор.
Стъпка 2) Свържете DataStage сървър и клиент
За да се свържете към сървъра на DataStage от вашия клиент DataStage, въведете подробности като име на домейн, потребителско име, парола и информация за сървъра.
Стъпка 3) Добавете нов проект
В прозореца за администриране на WebSphere DataStage. Щракнете върху раздела Проекти и след това щракнете върху Добавяне.
Стъпка 4) Въведете подробностите за проекта
В прозореца за администриране на WebSphere DataStage въведете подробности като
- Име
- Местоположение на файла
- Щракнете върху „OK“
Всеки проект съдържа:
- Задачи на DataStage
- Вградени компоненти. Това са предварително дефинирани компоненти, използвани в дадена работа.
- Дефинирани от потребителя компоненти. Това са персонализирани компоненти, създадени с помощта на DataStage Manager или DataStage Designer.
Ще видим как да импортираме задания за репликация в Datastage Infosphere.
Как да импортирате задания за репликация в Datastage и QualityStage Designer
Ще импортирате работни места в IBM Клиент на InfoSphere DataStage и QualityStage Designer. И вие ги изпълнявате в IBM Клиент на InfoSphere DataStage и QualityStage Director.
Дизайнерът-клиент е като празно платно за строителни работи. Той извлича, трансформира, зарежда и проверява качеството на данните. Той предоставя инструменти, които формират основните градивни елементи на заданието. Тя включва
- Стажовете: Свързва се с източници на данни, за да чете или записва файлове и да обработва данни.
- Връзки: Свързва етапите, през които протичат вашите данни
Етапите в клиента InfoSphere DataStage и QualityStage Designer се съхраняват в палитрата с инструменти Designer.
Следните етапи са включени в InfoSphere QualityStage:
- Етап на изследване
- Стандартизирайте етапа
- Етап на честота на съвпадение
- Етап на съвпадение с един източник
- Етап на съвпадение с два източника
- Етап на оцеляване
- Етап на оценка на качеството на стандартизацията (SQA).
Можете да създадете 4 вида задачи в информационната сфера на DataStage.
- Паралелна работа
- Последователна работа
- Мейнфрейм работа
- Сървърна работа
Нека видим стъпка по стъпка как да импортирате файлове за задание за репликация.
Стъпка 1) Стартирайте DataStage и QualityStage Designer. Щракнете върху Старт > Всички програми > IBM Информационен сървър > IBM WebSphere DataStage и QualityStage Designer
Стъпка 2) В прозореца Прикачване към проекта въведете следните подробности.
- домейн
- потребителско име
- Парола
- Име на проекта
- OK
Стъпка 3) Сега от менюто Файл щракнете върху импортиране -> Компоненти на DataStage.
Ще се отвори нов прозорец за импортиране на DataStage Repository.
- В този прозорец разглеждайте STAGEDB_AQ00_ST00_sJobs.dsx файл, който бяхме създали по-рано
- Изберете опцията „Импортиране на всички“.
- Поставете отметка в квадратчето „Извършване на анализ на въздействието“.
- Кликнете върху „OK“.
След като заданието бъде импортирано, DataStage ще създаде STAGEDB_AQ00_ST00_sequence задание.
Стъпка 4) Следвайте същите стъпки, за да импортирате STAGEDB_AQ00_ST00_pJobs.dsx файл. Това импортиране създава четирите паралелни задания.
Стъпка 5) Под панела Designer Repository -> Отворете папката SQLREP. Вътре в папката ще видите Sequence Job и четири паралелни задания.
Стъпка 6) За да видите последователността на работата. Отидете до дървото на хранилището, щракнете с десния бутон върху заданието STAGEDB_AQ00_ST00_sequence и щракнете върху Редактиране. Той ще покаже работния процес на четирите паралелни задания, които последователността на заданията контролира.
Всяка икона е сцена,
- етап getExtractRange: Актуализира IBMТаблица SNAP_FEEDETL. Той ще зададе началната точка за извличане на данни до точката, в която DataStage последно е извлякъл редове, и ще зададе крайната точка до последната транзакция, която е била обработена за набора от абонаменти.
- getExtractRangeSuccess: Този етап захранва началните точки към етапа extractFromINVENTORY_CCD и етапа extractFromPRODUCT_CCD
- AllExtractsSuccess: Този етап гарантира, че и extractFromINVENTORY_CCD, и extractFromPRODUCT_CCD са завършени успешно. След това предава точки за синхронизиране за последните редове, които са били извлечени към етапа setRangeProcessed.
- setRangeProcessed етап: Актуализира се IBMТаблица SNAP_FEEDETL. Така че DataStage знае откъде да започне следващия кръг на извличане на данни
Стъпка 7) За да видите паралелните работни места. Щракнете с десния бутон върху STAGEDB_ASN_INVENTORY_CCD и изберете редактиране под хранилище. Ще се отвори прозорец, както е показано по-долу.
Тук в изображението по-горе можете да видите, че данните от инвентарната CCD таблица и Syncподробностите за h точки от таблицата FEEDETL се изобразяват на етап Lookup_6.
Създаване на връзка за данни от DataStage към базата данни STAGEDB
Сега следващата стъпка е изграждането на връзка за данни между InfoSphere DataStage и целевата база данни на SQL репликация. Той съдържа CCD таблиците.
В DataStage използвате обекти за свързване на данни със свързани етапи на конектор, за да дефинирате бързо връзка към източник на данни в проект на задание.
Стъпка 1) STAGEDB съдържа както контролните таблици на Apply, които DataStage използва, за да синхронизира своето извличане на данни, така и CCD таблиците, от които се извличат данните. Използвайте следните команди
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
Забележка: IP адрес на системата, където е създаден STAGEDB
Стъпка 2) Щракнете върху Файл > Нов > Други > Връзка с данни.
Стъпка 3) Ще имате прозорец с два раздела, Параметри и Общи.
Стъпка 4) В този етап,
- Като цяло, раздел, наименувайте връзката за данни sqlreplConnect
- В раздела Параметри, както е показано по-долу
- Щракнете върху бутона за преглед до полето „Свързване с помощта на тип етап“ и в
- Отворете прозореца, навигирайте дървото на хранилището до Типове етапи –> Паралелно– > База данни —-> DB2 конектор.
- Щракнете върху Отваряне.
Стъпка 5) В таблицата с параметри на връзката въведете подробности като
- ConnectionString: STAGEDB2
- Потребител: Потребителски идентификатор за свързване към база данни STAGEDB
- Парола: Парола за свързване към база данни STAGEDB
- инстанция: Име на DB2 потребителски модел, който съдържа STAGEDB база данни
Стъпка 6) В следващия прозорец запазете връзката за данни. Кликнете върху бутона „запази“.
Импортиране на дефиниции на таблици от STAGEDB в DataStage
В предишната стъпка видяхме, че InfoSphere DataStage и базата данни STAGEDB са свързани. Сега импортирайте дефиниция на колона и други метаданни за таблиците PRODUCT_CCD и INVENTORY_CCD в хранилището на информационния сървър.
В прозореца на дизайнера следвайте стъпките по-долу.
Стъпка 1) Изберете Импортиране > Дефиниции на таблици > Стартирайте съветника за импортиране на конектор
Стъпка 2) От страницата за избор на конектор на съветника изберете DB2 конектора и щракнете върху Напред.
Стъпка 3) Щракнете върху зареждане на страницата с подробности за връзката. Това ще попълни полетата на съветника с информация за връзката от връзката за данни, която сте създали в предишната глава.
Стъпка 4) Щракнете върху Тестване на връзката на същата страница. Това ще подкани DataStage да опита връзка с базата данни STAGEDB. Можете да видите съобщението „връзката е успешна“. Щракнете Напред.
Стъпка 5) Уверете се, че на страницата за местоположение на източника на данни полетата Име на хост и Име на база данни са правилно попълнени. След това щракнете върху следващия.
Стъпка 6) На страница със схема. Въведете схемата на контролните таблици на приложението (ASN) или проверете дали схемата на ASN е предварително попълнена в полето за схема. След това щракнете върху следващия. Страницата за избор ще покаже списъка с таблици, които са дефинирани в ASN схемата.
Стъпка 7) Първата таблица, от която трябва да импортираме метаданни, е IBMSNAP_FEEDETL, контролна таблица на приложението. Той разполага с подробности за точките на синхронизация, които позволяват на DataStage да следи кои редове е извлякъл от CCD таблиците. Изберете IBMSNAP_FEEDETL и щракнете върху Напред.
Стъпка 8) За да завършите импортирането на IBMДефиниция на таблица SNAP_FEEDETL. Щракнете върху импортиране и след това в отворения прозорец щракнете върху отваряне.
Стъпка 9) Повторете стъпки 1-8 още два пъти, за да импортирате дефинициите за таблицата PRODUCT_CCD и след това таблицата INVENTORY_CCD.
ЗАБЕЛЕЖКА: Докато импортирате дефиниции за инвентара и продукта, уверете се, че сте променили схемите от ASN към схемата, под която са създадени PRODUCT_CCD и INVENTORY_CCD.
Сега DataStage разполага с всички подробности, необходими за свързване към целевата база данни на SQL репликация.
Задаване на свойства за заданията на DataStage
За всяка от четирите паралелни задачи на DataStage, които имаме, тя съдържа един или повече етапи, които се свързват с базата данни STAGEDB. Трябва да модифицирате етапите, за да добавите информация за връзката и връзка към файлове с набор от данни, които DataStage попълва.
Етапите имат предварително дефинирани свойства, които могат да се редактират. Тук ще променим някои от тези свойства за STAGEDB_ASN_PRODUCT_CCD_extract паралелно задание.
Стъпка 1) Прегледайте дървото на хранилището на Designer. Под папката SQLREP изберете STAGEDB_ASN_PRODUCT_CCD_extract паралелно задание. За да редактирате, щракнете с десния бутон върху заданието. Прозорецът за проектиране на паралелната работа се отваря в Designer Palette.
Стъпка 2) Намерете зелената икона. Тази икона обозначава етапа на DB2 конектора. Използва се за извличане на данни от CCD таблицата. Double- щракнете върху иконата. Отваря се прозорец на сценичен редактор.
Стъпка 3) В редактора щракнете върху Зареждане, за да попълните полетата с информация за връзката. За да затворите сценичния редактор и да запазите промените, щракнете върху OK.
Стъпка 4) Сега се върнете към прозореца за проектиране за STAGEDB_ASN_PRODUCT_CCD_extract паралелно задание. Намерете иконата за получаванеSynchPoints етап на DB2 конектор. След това щракнете двукратно върху иконата.
Стъпка 5) Сега щракнете върху бутона за зареждане, за да попълните полетата с информация за връзката.
ЗАБЕЛЕЖКА: Ако използвате база данни, различна от STAGEDB, като вашия контролен сървър на Apply. След това изберете опцията за зареждане на информацията за връзката за getSyncЕтап hPoints, който взаимодейства с контролните таблици, а не с CCD таблицата.
Стъпка 6) В този етап,
- Направете празен текстов файл в системата, където работи InfoSphere DataStage.
- Наименувайте този файл като productdataset.ds и отбележете къде сте го записали.
- DataStage ще запише промени в този файл, след като извлече промените от CCD таблицата.
- Набори от данни или файлове, които се използват за преместване на данни между свързани задания, са известни като постоянни набори от данни. Той е представен от етап DataSet.
Стъпка 7) Сега отворете сценичния редактор в прозореца за проектиране и щракнете два пъти върху иконата insert_into_a_dataset. Ще отвори друг прозорец.
Стъпка 8) В този прозорец,
- В раздела свойства се уверява, че Target папката е отворена и свойството File = DATASETNAME е маркирано.
- Вдясно ще имате поле за файл
- Въведете пълния път до файла productdataset.ds
- Кликнете върху „OK“.
Вече актуализирахте всички необходими свойства за CCD таблицата на продукта. Затворете прозореца за дизайн и запазете всички промени.
Стъпка 9) Сега намерете и отворете паралелното задание STAGEDB_ASN_INVENTORY_CCD_extract от прозореца на хранилището на дизайнера и повторете стъпки 3-8.
ЗАБЕЛЕЖКА:
- Трябва да заредите информацията за връзката за базата данни на контролния сървър в сценичния редактор за getSyncЕтап на hPoints. Ако вашият управляващ сървър не е STAGEDB.
- За STAGEDB_ST00_AQ00_getExtractRange и STAGEDB_ST00_AQ00_markRangeProcessed паралелни задачи, отворете всички етапи на DB2 конектора. След това използвайте функцията за зареждане, за да добавите информация за свързване към базата данни STAGEDB
Компилиране и изпълнение на заданията на DataStage
Когато заданието на DataStage е готово за компилиране, дизайнерът валидира дизайна на заданието, като разглежда входове, трансформации, изрази и други подробности.
Когато компилирането на заданието е извършено успешно, то е готово за изпълнение. Ще компилираме всичките пет задания, но ще изпълним само „последователността на заданията“. Това е така, защото това задание контролира всичките четири паралелни задания.
Стъпка 1) В папката SQLREP. Изберете всяка от петте задачи чрез (Cntrl+Shift). След това щракнете с десния бутон и изберете опцията за компилиране на множество задачи.
Стъпка 2) Ще видите, че в съветника за компилиране на DataStage са избрани пет задания. Щракнете Напред.
Стъпка 3) Компилирането започва и показва съобщение „Компилирано успешно“, след като приключи.
Стъпка 4) Сега стартирайте DataStage и QualityStage Director. Изберете Старт > Всички програми > IBM Информационен сървър > IBM WebSphere DataStage и QualityStage Director.
Стъпка 5) В навигационния панел на проекта отляво. Щракнете върху папката SQLREP. Това води всичките пет работни места в таблицата със статус на директора.
Стъпка 6) Изберете заданието STAGEDB_AQ00_S00_sequence. От лентата с менюта щракнете върху Задача > Изпълни сега.
След като компилацията приключи, ще видите статуса завършен.
Сега проверете дали променените редове, които се съхраняват в таблиците PRODUCT_CCD и INVENTORY_CCD, са извлечени от DataStage и вмъкнати в двата файла с набор от данни.
Стъпка 7) Върнете се в дизайнера и отворете заданието STAGEDB_ASN_PRODUCT_CCD_extract. За да отворите сценичния редактор Double-щракнете върху иконата insert_into_a_dataset. След това щракнете върху преглед на данните.
Стъпка 8) Приемете настройките по подразбиране в редовете, които ще се показват в прозореца. След това щракнете върху OK. Ще се отвори прозорец на браузър за данни, за да покаже съдържанието на файла с набор от данни.
Тестване на интеграцията между SQL репликация и DataStage
В предишната стъпка компилирахме и изпълнихме заданието. В този раздел ще проверим интегрирането на SQL репликация и DataStage. За целта ще направим промени в изходната таблица и ще видим дали същата промяна се актуализира в DataStage.
Стъпка 1) Отидете до папката sqlrepl-datastage-scripts за вашата операционна система.
Стъпка 2) Стартирайте SQL репликация чрез следните стъпки:
- Стартирайте startSQLCapture.bat (Windows), за да стартирате програмата Capture в базата данни SALES.
- Стартирайте startSQLApply.bat (Windows), за да стартирате програмата Apply в базата данни STAGEDB.
Стъпка 3) Сега отворете файла updateSourceTables.sql. За свързване към базата данни SALES заменете и с потребителско име и парола.
Стъпка 4) Отворете команден прозорец на DB2. Променете директорията на sqlrepl-datastage-tutorial\scripts и стартирайте проблем чрез дадената команда:
db2 -tvf updateSourceTables.sql
SQL скриптът ще извърши различни операции като актуализиране, вмъкване и изтриване на двете таблици (ПРОДУКТ, ИНВЕНТОР) в базата данни за продажби.
Стъпка 5) В системата, където се изпълнява DataStage. Отворете DataStage Director и изпълнете заданието STAGEDB_AQ00_S00_sequence. Щракнете върху Задание > Изпълни сега.
Когато стартирате работата, ще бъдат извършени следните дейности.
- Програмата Capture чете промените от шест реда в регистрационния файл на базата данни SALES и ги вмъква в CD таблиците.
- Програмата Apply извлича редовете за промяна от CD таблиците в SALES и ги вмъква в CCD таблиците в STAGEDB.
- Двете задачи за извличане на DataStage взимат промените от CCD таблиците и ги записват във файловете productdataset.ds и inventory dataset.ds.
Можете да проверите дали горните стъпки са изпълнени, като разгледате наборите от данни.
Стъпка 6) Следвайте стъпките по-долу,
- Стартирайте дизайнера. Отворете заданието STAGEDB_ASN_PRODUCT_CCD_extract.
- След това Double-щракнете върху иконата insert_into_a_dataset. В сценичния редактор. Щракнете върху Преглед на данните.
- Приемете настройките по подразбиране в редовете за показване на прозореца и щракнете върху OK.
Наборът от данни съдържа три нови реда. Най-лесният начин да проверите дали промените са въведени е да превъртите надолу крайно вдясно на браузъра на данни. Сега погледнете последните три реда (вижте изображението по-долу)
Буквата I, U и D указва операция INSERT, UPDATE и DELETE, която е довела до всеки нов ред.
Можете да направите същата проверка за таблицата с инвентара.
Oбобщение
- Datastage е ETL инструмент който извлича данни, трансформира и зарежда данни от източника към целта.
- Улеснява бизнес анализ чрез предоставяне на качествени данни, които да помогнат за получаване на бизнес информация.
- DataStage е разделен на два раздела, Споделени компоненти и време за изпълнение Archiтекстура.
- DataStage има четири основни компонента,
- администратор
- Мениджър
- дизайнер
- Директор
- Следват ключовите аспекти на IBM InfoSphere DataStage
- Преобразуване на данни
- Работа
- Паралелна обработка
- В проектирането на работа са включени различни етапи
- Етап на трансформация
- Етап на филтриране
- Етап на агрегатора
- Премахване на дублирания етап
- Присъединете се към сцената
- Етап на търсене