Підручник DataStage для початківців: IBM Навчання DataStage (ETL Tool).
Що таке DataStage?
DataStage це інструмент ETL, який використовується для вилучення, перетворення та завантаження даних із джерела до цільового призначення. Джерелом цих даних можуть бути послідовні файли, індексовані файли, реляційні бази даних, зовнішні джерела даних, архіви, корпоративні програми тощо. DataStage використовується для полегшення бізнес-аналізу, надаючи якісні дані, щоб допомогти отримати бізнес-аналітику.
Інструмент DataStage ETL використовується у великій організації як інтерфейс між різними системами. Він піклується про вилучення, переклад і завантаження даних із джерела до цільового призначення. Його вперше запустив VMark у середині 90-х років. с IBM після придбання DataStage у 2005 році її було перейменовано на IBM WebSphere DataStage і пізніше IBM Інфосфера.
Наразі на ринку доступні різні версії Datastage: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft тощо. Останнє видання є IBM InfoSphere DataStage
IBM Інформаційний сервер містить такі продукти,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM Директор з інформаційних послуг «ІнфоСфера».
- IBM Аналізатор інформації InfoSphere
- IBM Інформаційний сервер FastTrack
- IBM Бізнес-глосарій InfoSphere
Огляд DataStage
Datastage має такі можливості.
- Він може інтегрувати дані з найширшого спектру корпоративних і зовнішніх джерел даних
- Реалізує правила перевірки даних
- Це корисно для обробки та перетворення великих обсягів даних
- Він використовує підхід масштабованої паралельної обробки
- Він може виконувати складні перетворення та керувати кількома процесами інтеграції
- Використовуйте пряме підключення до корпоративних додатків як джерел або цілей
- Використовуйте метадані для аналізу та обслуговування
- Operaпакетно, в реальному часі або як веб-сервіс
У наступних розділах цього підручника DataStage ми коротко опишемо наступні аспекти IBM InfoSphere DataStage:
- Перетворення даних
- Вакансії
- Паралельна обробка
InfoSphere DataStage і QualityStage можуть отримувати доступ до даних у корпоративних програмах і джерелах даних, таких як:
- Реляційні бази даних
- Мейнфреймові бази даних
- Бізнес та аналітичні програми
- Планування ресурсів підприємства (ERP) або бази даних управління взаємовідносинами з клієнтами (CRM).
- Онлайн аналітична обробка (OLAP) або бази даних управління продуктивністю
Типи етапів обробки
IBM Інфосферна робота складається з окремих етапів, які пов'язані між собою. Він описує потік даних від джерела даних до цілі даних. Зазвичай етап має мінімум один вхід та/або один вихід даних. Однак деякі етапи можуть приймати більше одного введення та виведення даних на більше ніж один етап.
У розробці роботи ви можете використовувати такі етапи:
- Етап трансформації
- Етап фільтра
- Етап агрегатора
- Видалення дублікатів етапу
- Приєднуйтесь до сцени
- Етап пошуку
- Етап копіювання
- Стадія сортування
- Контейнери
Компоненти DataStage і Archiтектура
DataStage має чотири основні компоненти, а саме:
- Адміністратор: Використовується для завдань адміністрування. Це включає налаштування користувачів DataStage, налаштування критеріїв очищення та створення та переміщення проектів.
- Менеджер: Це основний інтерфейс репозиторію ETL DataStage. Він використовується для зберігання та керування метаданими для повторного використання. За допомогою менеджера DataStage можна переглядати та редагувати вміст репозиторію.
- Дизайнер: Інтерфейс розробки, який використовується для створення програм DataStage АБО завдань. Він визначає джерело даних, необхідне перетворення та призначення даних. Завдання компілюються для створення виконуваного файлу, який планується директором і виконується сервером
- Director: Він використовується для перевірки, планування, виконання та моніторингу завдань сервера DataStage і паралельних завдань.
На зображенні вище пояснюється, як IBM Infosphere DataStage взаємодіє з іншими елементами IBM Платформа інформаційного сервера. DataStage розділений на дві частини, Спільні компоненти та середовище виконання Archiтектура.
Загальні |
Уніфікований інтерфейс користувача |
|
Загальні послуги |
|
|
Загальна паралельна обробка |
|
|
Час виконання Archiтектура |
Сценарій БГП |
|
Передумова для Datastage Tool
Для DataStage вам знадобиться таке налаштування.
- Інфосфера
- DataStage Server 9.1.2 або вище
- Microsoft Visual Studio .NET 2010 Express Edition C++
- Oracle клієнт (повний клієнт, а не миттєвий клієнт), якщо підключитися до Oracle база даних
- Клієнт DB2 у разі підключення до бази даних DB2
У цій серії навчальних посібників DataStage для початківців ми дізнаємося, як завантажити та встановити інформаційний сервер InfoSphere.
Завантаження та встановлення InfoSphere Information Server
Щоб отримати доступ до DataStage, завантажте та встановіть останню версію IBM Сервер InfoSphere. Сервер підтримує AIX, Linux і Windows операційна система. Ви можете вибрати відповідно до вимог.
Щоб перенести ваші дані зі старішої версії інфосфери до нової, скористайтеся інструментом обміну ресурсами.
Інсталяційні файли
Щоб установити та налаштувати Infosphere Datastage, ви повинні мати наступні файли у своїй установці.
для Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Для Linux,
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Потік процесу зміни даних у завданні етапу транзакції CDC
- Служба «InfoSphere CDC» для бази даних відстежує та фіксує зміни з вихідної бази даних
- Відповідно до визначення реплікації «InfoSphere CDC» передає дані про зміни до «InfoSphere CDC для InfoSphere DataStage».
- Сервер «InfoSphere CDC для InfoSphere DataStage» надсилає дані на «етап транзакцій CDC» через сеанс TCP/IP. Сервер «InfoSphere CDC для InfoSphere DataStage» також надсилає повідомлення COMMIT (разом із інформацією про закладку), щоб позначити межу транзакції в отриманому журналі.
- Для кожного повідомлення COMMIT, надісланого сервером «InfoSphere CDC для InfoSphere DataStage», «етап транзакції CDC» створює маркери кінця хвилі (EOW). Ці маркери надсилаються на всіх вихідних посиланнях на етап конектора цільової бази даних.
- Коли «етап конектора цільової бази даних» отримує маркер кінця хвилі на всіх вхідних посиланнях, він записує інформацію закладки в таблицю закладок, а потім фіксує транзакцію в цільовій базі даних.
- Сервер «InfoSphere CDC для InfoSphere DataStage» запитує інформацію про закладки з таблиці закладок у «цільовій базі даних».
- Сервер «InfoSphere CDC для InfoSphere DataStage» отримує інформацію про закладки.
Ця інформація використовується для
- Визначте початкову точку в журналі транзакцій, де зчитуються зміни, коли починається реплікація.
- Щоб визначити, чи можна очистити наявний журнал транзакцій
Налаштування реплікації SQL
Перш ніж розпочати роботу з Datastage, вам потрібно налаштувати базу даних. Ви створите дві бази даних DB2.
- Один служить джерелом реплікації та
- Один як ціль.
Ви також створите дві таблиці (продукт і запаси) і заповните їх зразками даних. Тоді ви можете перевірити свою інтеграцію між SQL Реплікація та етап даних.
Далі ви налаштуєте реплікацію SQL, створивши таблиці керування, набори підписок, реєстрації та члени наборів підписок. Детальніше про це ми дізнаємося в наступному розділі.
Тут ми візьмемо приклад елемента роздрібних продажів як нашу базу даних і створимо дві таблиці Inventory та Product. Ці таблиці завантажуватимуть дані від джерела до цільового через ці набори. (таблиці керування, набори підписок, реєстрації та члени набору підписок.)
Крок 1) Створіть вихідну базу даних, яка називається ПРОДАЖ. Під цією базою даних створіть дві таблиці продукт та Інвентаризація.
Крок 2) Виконайте таку команду, щоб створити базу даних SALES.
db2 create database SALES
Крок 3) Увімкніть архівне журналювання для бази даних SALES. Також створіть резервну копію бази даних за допомогою наведених нижче команд
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
Крок 4) У тому самому командному рядку перейдіть у підкаталог setupDB у каталозі sqlrepl-datastage-tutorial, який ви видобули із завантаженого стисненого файлу.
Крок 5) Використовуйте наведену нижче команду, щоб створити таблицю інвентаризації та імпортувати дані в таблицю, виконавши таку команду.
db2 імпортувати з inventory.ixf ixf create в інвентар
Крок 6) Створіть цільову таблицю. Назвіть цільову базу даних як STAGEDB.
Оскільки ви створили джерело і ціль баз даних, наступним кроком у цьому посібнику DataStage ми побачимо, як це відтворити.
Наступна інформація може бути корисною в налаштування джерела даних ODBC.
Створення об’єктів реплікації SQL
На зображенні нижче показано, як потік даних змін доставляється від джерела до цільової бази даних. Ви створюєте відображення джерело-ціль між таблицями, відоме як учасників набору підписки і згрупуйте членів у a передплата.
Одиниця реплікації в InfoSphere CDC (Change Data Capture) називається підпискою.
- Зміни, внесені в джерело, фіксуються в «Таблиці керування захопленням», яка надсилається до таблиці CD, а потім до цільової таблиці. У той час як програма застосування матиме відомості про рядок, з якого потрібно внести зміни. Він також приєднається до таблиці CD у наборі підписки.
- Підписка містить деталі зіставлення, які визначають, як дані з вихідного сховища даних застосовуються до цільового сховища даних. Зауважте, CDC тепер називається Тиражування даних інфосфери.
- Коли виконується підписка, InfoSphere CDC фіксує зміни у вихідній базі даних. InfoSphere CDC доставляє дані про зміни до цільової адреси та зберігає інформацію про точку синхронізації в таблиці закладок цільової бази даних.
- InfoSphere CDC використовує інформацію про закладки для моніторингу виконання завдання InfoSphere DataStage.
- У разі помилки інформація закладки використовується як точка перезапуску. У нашому прикладі ASN.IBMТаблиця SNAP_FEEDETL зберігає пов’язану з DataStage інформацію про точку синхронізації, яка використовується для відстеження прогресу DataStage.
У цьому розділі IBM Навчальний посібник DataStage, вам потрібно зробити наступне:
- Створюйте таблиці CAPTURE CONTROL і APPLY CONTROL для зберігання параметрів реплікації
- Зареєструйте таблиці PRODUCT і INVENTORY як джерела реплікації
- Створіть набір підписки з двох учасників
- Створюйте члени набору підписок і цільові таблиці CCD
Використовуйте програму командного рядка ASNCLP для налаштування реплікації SQL
Крок 1) Знайдіть файл сценарію crtCtlTablesCaptureServer.asnclp у каталозі sqlrepl-datastage-tutorial/setupSQLRep.
Крок 2) У файлі замінити і " » зі своїм логіном і паролем для підключення до бази даних SALES.
Крок 3) Змініть каталоги на каталог sqlrepl-datastage-tutorial/setupSQLRep і запустіть сценарій. Використовуйте наступну команду. Команда з’єднається з базою даних SALES, згенерує сценарій SQL для створення контрольних таблиць Capture.
asnclp –f crtCtlTablesCaptureServer.asnclp
Крок 4) Знайдіть файл сценарію crtCtlTablesApplyCtlServer.asnclp у тому ж каталозі. Тепер замініть два екземпляри і " » з ідентифікатором користувача та паролем для підключення до бази даних STAGEDB.
Крок 5) Тепер у тому самому командному рядку скористайтеся такою командою, щоб створити контрольні таблиці застосування.
asnclp –f crtCtlTablesApplyCtlServer.asnclp
Крок 6) Знайдіть файли сценарію crtRegistration.asnclp і замініть усі екземпляри з ідентифікатором користувача для підключення до бази даних SALES. Також змініть " ” до пароля підключення.
Крок 7) Щоб зареєструвати вихідні таблиці, використовуйте наступний скрипт. У рамках створення реєстрації програма ASNCLP створить дві таблиці CD. CDPRODUCT ТА CDINVENTORY.
asnclp –f crtRegistration.asnclp
Команда CREATE REGISTRATION використовує такі параметри:
- Диференціальне оновлення: запит Застосувати програму для оновлення цільової таблиці лише тоді, коли змінюються рядки у вихідній таблиці
- Зображення обох: цей параметр використовується для реєстрації значення у вихідному стовпці до того, як відбулася зміна, і один для значення після зміни.
Крок 8) Для підключення до цільової бази даних (STAGEDB) виконайте наступні дії.
- Знайдіть файл crtTableSpaceApply.bat, відкрийте його в текстовому редакторі
- Замінити і з ідентифікатором користувача та паролем
- У командному вікні DB2 введіть crtTableSpaceApply.bat і запустіть файл.
- Цей пакетний файл створює новий табличний простір у цільовій базі даних ( STAGEDB)
Крок 9) Знайдіть файли сценарію crtSubscriptionSetAndAddMembers.asnclp і виконайте наведені нижче зміни.
- Замінити всі екземпляри і з ідентифікатором користувача та паролем для підключення до бази даних SALES (джерело).
- Замінити всі екземпляри і з ідентифікатором користувача для підключення до бази даних STAGEDB (ціль).
Після змін запустіть сценарій, щоб створити набір підписок (ST00), який групує вихідну та цільову таблиці. Сценарій також створює два члени набору підписки та CCD (узгоджені дані про зміни) у цільовій базі даних, яка зберігатиме змінені дані. Ці дані використовуватимуться Infosphere DataStage.
Крок 10) Запустіть сценарій, щоб створити набір підписки, члени набору підписки та таблиці CCD.
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
Різноманітні параметри, які використовуються для створення набору підписки та включають двох учасників
- Повне ущільнення
- Зовнішній
- Тип завантаження імпорт експорт
- Хронометраж безперервний
Крок 11) Через дефект інструментів адміністрування реплікації. Ви повинні виконати інший пакетний файл, щоб встановити стовпець TARGET_CAPTURE_SCHEMA в IBMSNAP_SUBS_SET таблиці керування на нуль.
- Знайдіть файл updateTgtCapSchema.bat. Відкрийте його в текстовому редакторі. Замінити і з ідентифікатором користувача для підключення до бази даних STAGEDB.
- У вікні команд DB2 введіть команду updateTgtCapSchema.bat і виконайте файл.
Створення файлів визначення для відображення таблиць CCD у DataStage
Перш ніж виконувати реплікацію на наступному кроці, нам потрібно підключити таблицю CCD до DataStage. У цьому розділі ми побачимо, як підключити SQL до DataStage.
Для підключення таблиці CCD до DataStage вам потрібно створити файли визначення Datastage (.dxs). Формат файлу .dsx використовується DataStage для імпорту та експорту визначень завдань. Ви будете використовувати сценарій ASNCLP для створення двох файлів .dsx. Наприклад, тут ми створили два файли .dsx.
- stagedb_AQ00_SET00_sJobs.dsx: створює послідовність завдань, яка керує робочим процесом чотирьох паралельних завдань.
- stagedb_AQ00_SET00_pJobs.dsx : Створення чотирьох паралельних завдань
Програма ASNCLP автоматично зіставляє стовпець CCD із форматом стовпця Datastage. Він підтримується лише тоді, коли працює ASNCLP Windows, Linux або Unix Процедура.
Завдання Datastage отримують рядки з таблиці CCD.
- Одне завдання встановлює точку синхронізації, на якій DataStage зупинив вилучення даних із двох таблиць. Завдання отримує цю інформацію, вибираючи значення SYNCHPOINT для набору підписки ST00 із IBMSNAP_SUBS_SET таблиці та вставлення її в стовпець MAX_SYNCHPOINT IBMТаблиця SNAP_FEEDETL.
- Два завдання, які витягують дані з таблиць PRODUCT_CCD та INVENTORY_CCD. Завдання знають, які рядки розпочати вилучення, вибравши значення MIN_SYNCHPOINT і MAX_SYNCHPOINT із IBMТаблиця SNAP_FEEDETL для набору підписки.
Початок реплікації
Щоб розпочати реплікацію, виконайте наведені нижче дії. Коли таблиці CCD заповнюються даними, це означає, що налаштування реплікації перевірено. Щоб переглянути відтворені дані в цільових таблицях CCD, використовуйте графічний інтерфейс користувача DB2 Control Center.
Крок 1) Переконайтеся, що DB2 працює, якщо ні, скористайтеся запуск db2 команда
Крок 2) Потім скористайтеся командою asncap із підказки операційної системи, щоб розпочати програму захоплення. Наприклад.
asncap capture_server=SALES
Наведена вище команда вказує базу даних SALES як сервер Capture. Тримайте вікно команд відкритим під час захоплення.
Крок 3) Тепер відкрийте новий командний рядок. Потім почніть APPLY за допомогою команди asnapply.
asnapply control_server=STAGEDB apply_qual=AQ00
- Команда вказує базу даних STAGEDB як сервер керування Apply (база даних, яка містить таблиці керування Apply)
- AQ00 як кваліфікатор Apply (ідентифікатор для цього набору контрольних таблиць)
Залиште вікно команд відкритим із запущеним Apply.
Крок 4) Тепер відкрийте інший командний рядок і введіть команду db2cc, щоб запустити Центр керування DB2. Прийміть Центр керування за замовчуванням.
Крок 5) Тепер у дереві навігації зліва відкрийте «Усі бази даних» > «STAGEDB», а потім клацніть «Таблиці». Double клацніть назву таблиці ( CCD продукту), щоб відкрити таблицю. Це буде виглядати приблизно так.
Так само ви можете відкрити таблицю CCD для ІНВЕНТАРИЗАЦІЇ.
Як створювати проекти в Datastage Tool
Перш за все, ви створите проект у DataStage. Для цього ви повинні бути адміністратором InfoSphere DataStage.
Після завершення інсталяції та реплікації вам потрібно створити проект. У DataStage проекти — це метод упорядкування ваших даних. Він включає визначення файлів даних, етапів і завдань побудови в конкретному проекті.
Щоб створити проект у DataStage, виконайте наведені нижче дії.
Крок 1) Запустіть програмне забезпечення DataStage
Запустіть DataStage і QualityStage Administrator. Потім натисніть Пуск > Усі програми > IBM Інформаційний сервер > IBM WebSphere DataStage і QualityStage Administrator.
Крок 2) Підключіть сервер і клієнт DataStage
Для підключення до сервера DataStage із клієнта DataStage введіть такі деталі, як ім’я домену, ідентифікатор користувача, пароль та інформацію про сервер.
Крок 3) Додайте новий проект
У вікні адміністрування WebSphere DataStage. Перейдіть на вкладку «Проекти», а потім натисніть «Додати».
Крок 4) Введіть деталі проекту
У вікні адміністрування WebSphere DataStage введіть такі відомості, як
- ІМ'Я
- Розташування файлу
- Натисніть "ОК"
Кожен проект містить:
- Вакансії DataStage
- Вбудовані компоненти. Це попередньо визначені компоненти, які використовуються в роботі.
- Визначені користувачем компоненти. Це налаштовані компоненти, створені за допомогою DataStage Manager або DataStage Designer.
Ми побачимо, як імпортувати завдання реплікації в Datastage Infosphere.
Як імпортувати завдання реплікації в Datastage та QualityStage Designer
Ви будете імпортувати завдання в IBM Клієнт InfoSphere DataStage і QualityStage Designer. І ви виконуєте їх у IBM Клієнт InfoSphere DataStage і QualityStage Director.
Дизайнер-замовник – як чисте полотно для будівельних робіт. Він витягує, перетворює, завантажує та перевіряє якість даних. Він надає інструменти, які утворюють основні будівельні блоки завдання. Він включає в себе
- стажування: він підключається до джерел даних для читання або запису файлів і обробки даних.
- зв'язку: він поєднує етапи, за якими проходять ваші дані
Етапи в клієнті InfoSphere DataStage і QualityStage Designer зберігаються на панелі інструментів Designer.
Наступні етапи включені в InfoSphere QualityStage:
- Стадія дослідження
- Стадія стандартизації
- Стадія частоти відповідності
- Етап збігу з одного джерела
- Етап зіставлення з двох джерел
- Етап виживання
- Етап оцінки якості стандартизації (SQA).
В інфосфері DataStage можна створити 4 типи завдань.
- Паралельна робота
- Послідовність роботи
- Мейнфрейм Робота
- Серверна робота
Розглянемо крок за кроком, як імпортувати файли завдань реплікації.
Крок 1) Запустіть DataStage і QualityStage Designer. Натисніть Пуск > Усі програми > IBM Інформаційний сервер > IBM WebSphere DataStage і QualityStage Designer
Крок 2) У вікні «Приєднати до проекту» введіть такі відомості.
- Область
- ім'я користувача
- Пароль
- Project Name
- OK
Крок 3) Тепер у меню «Файл» клацніть «Імпорт». -> Компоненти DataStage.
Відкриється нове вікно імпорту DataStage Repository.
- У цьому вікні переглядайте STAGEDB_AQ00_ST00_sJobs.dsx файл, який ми створили раніше
- Виберіть опцію «Імпортувати все».
- Поставте прапорець «Виконати аналіз впливу».
- Натисніть "ОК".
Після імпорту завдання DataStage створить завдання STAGEDB_AQ00_ST00_sequence.
Крок 4) Виконайте ті самі дії, щоб імпортувати Файл STAGEDB_AQ00_ST00_pJobs.dsx. Цей імпорт створює чотири паралельні завдання.
Крок 5) На панелі «Сховище конструктора». -> Відкрийте папку SQLREP. Усередині папки ви побачите послідовне завдання та чотири паралельні завдання.
Крок 6) Щоб побачити послідовність роботи. Перейдіть до дерева сховища, клацніть правою кнопкою миші завдання STAGEDB_AQ00_ST00_sequence та натисніть «Редагувати». Він покаже робочий процес чотирьох паралельних завдань, якими керує послідовність завдань.
Кожна ікона - це сцена,
- етап getExtractRange: Оновлює IBMТаблиця SNAP_FEEDETL. Він встановить початкову точку для вилучення даних на точку, де DataStage востаннє витягував рядки, і встановить кінцеву точку на останню транзакцію, яка була оброблена для набору підписки.
- getExtractRangeSuccess: цей етап передає вихідні точки на етап extractFromINVENTORY_CCD і етап extractFromPRODUCT_CCD
- AllExtractsSuccess: Цей етап гарантує успішне завершення і extractFromINVENTORY_CCD, і extractFromPRODUCT_CCD. Потім передає точки синхронізації для останніх рядків, які були отримані на етапі setRangeProcessed.
- етап setRangeProcessed: Оновлюється IBMТаблиця SNAP_FEEDETL. Отже, DataStage знає, з чого почати наступний раунд вилучення даних
Крок 7) Щоб побачити паралельні роботи. Клацніть правою кнопкою миші STAGEDB_ASN_INVENTORY_CCD і виберіть редагувати в репозиторії. Відкриється вікно, як показано нижче.
Тут, на зображенні вище, ви можете побачити, що дані з таблиці CCD інвентаризації SyncДеталі точки h із таблиці FEEDETL відображаються на етапі Lookup_6.
Створення з’єднання даних із DataStage до бази даних STAGEDB
Тепер наступним кроком є створення з’єднання даних між InfoSphere DataStage та цільовою базою даних SQL Replication. Він містить таблиці CCD.
У DataStage ви використовуєте об’єкти з’єднання даних із пов’язаними етапами з’єднувача, щоб швидко визначити з’єднання з джерелом даних у проекті завдання.
Крок 1) STAGEDB містить керуючі таблиці Apply, які DataStage використовує для синхронізації вилучення даних, і таблиці CCD, з яких витягуються дані. Використовуйте наступні команди
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
Примітка:: IP-адреса системи, де було створено STAGEDB
Крок 2) Натисніть «Файл» > «Створити» > «Інше» > «З’єднання даних».
Крок 3) Ви матимете вікно з двома вкладками, Параметри та Загальні.
Крок 4) На цьому етапі
- Загалом на вкладці назвіть з’єднання даних sqlreplConnect
- На вкладці Параметри, як показано нижче
- Натисніть кнопку перегляду поруч із полем «Підключити за допомогою поля Stage Type» і в полі
- Відкрийте вікно, перейдіть у дереві сховища до Stage Types –> Parallel– > Database —-> DB2 Connector.
- Клацніть Відкрити.
Крок 5) У таблиці параметрів підключення введіть такі відомості, як
- ConnectionString: STAGEDB2
- ім'я користувача: Ідентифікатор користувача для підключення до бази даних STAGEDB
- Пароль: Пароль для підключення до бази даних STAGEDB
- Екземпляр: Ім’я примірника DB2, який містить базу даних STAGEDB
Крок 6) У наступному вікні збережіть підключення для передачі даних. Натисніть кнопку «зберегти».
Імпорт визначень таблиць із STAGEDB у DataStage
На попередньому кроці ми побачили, що InfoSphere DataStage і база даних STAGEDB підключені. Тепер імпортуйте визначення стовпця та інші метадані для таблиць PRODUCT_CCD та INVENTORY_CCD у репозиторій інформаційного сервера.
У вікні дизайнера виконайте наведені нижче дії.
Крок 1) Виберіть «Імпорт» > «Визначення таблиць» > «Запустити майстер імпорту конектора».
Крок 2) На сторінці вибору з’єднувача майстра виберіть З’єднувач DB2 і натисніть «Далі».
Крок 3) Натисніть «Завантажити» на сторінці з деталями підключення. Це заповнить поля майстра інформацією про підключення з підключення даних, яке ви створили в попередньому розділі.
Крок 4) На тій самій сторінці натисніть Перевірити з’єднання. Це запропонує DataStage спробувати підключитися до бази даних STAGEDB. Ви можете побачити повідомлення «підключення успішне». Натисніть Далі.
Крок 5) Переконайтеся, що на сторінці Розташування джерела даних поля Ім’я хоста та Ім’я бази даних заповнено правильно. Потім натисніть «Далі».
Крок 6) На сторінці схеми. Введіть схему контрольних таблиць Apply (ASN) або переконайтеся, що схему ASN попередньо заповнено в полі схеми. Потім натисніть «Далі». На сторінці вибору буде показано список таблиць, визначених у схемі ASN.
Крок 7) Перша таблиця, з якої нам потрібно імпортувати метадані IBMSNAP_FEEDETL, контрольна таблиця застосування. У ньому є деталі про точки синхронізації, які дозволяють DataStage відстежувати, які рядки він отримав із таблиць CCD. Виберіть IBMSNAP_FEEDETL і натисніть «Далі».
Крок 8) Щоб завершити імпорт файлу IBMВизначення таблиці SNAP_FEEDETL. Натисніть «Імпортувати», а потім у відкритому вікні натисніть «Відкрити».
Крок 9) Повторіть кроки 1-8 ще двічі, щоб імпортувати визначення для таблиці PRODUCT_CCD, а потім таблиці INVENTORY_CCD.
ПРИМІТКА: імпортуючи визначення для інвентарю та продукту, переконайтеся, що ви змінюєте схеми з ASN на схему, за якою було створено PRODUCT_CCD та INVENTORY_CCD.
Тепер DataStage має всі деталі, необхідні для підключення до цільової бази даних SQL Replication.
Налаштування властивостей для завдань DataStage
Для кожного з чотирьох паралельних завдань DataStage, які ми маємо, воно містить один або кілька етапів, які підключаються до бази даних STAGEDB. Вам потрібно змінити етапи, щоб додати інформацію про підключення та посилання на файли набору даних, які заповнює DataStage.
Етапи мають попередньо визначені властивості, які можна редагувати. Тут ми змінимо деякі з цих властивостей для STAGEDB_ASN_PRODUCT_CCD_extract паралельного завдання.
Крок 1) Перегляньте дерево сховища Designer. У папці SQLREP виберіть паралельне завдання STAGEDB_ASN_PRODUCT_CCD_extract. Для редагування клацніть правою кнопкою миші завдання. Вікно дизайну паралельного завдання відкриється в палітрі дизайнера.
Крок 2) Знайдіть зелений значок. Ця піктограма позначає етап конектора DB2. Використовується для отримання даних із таблиці CCD. Double- натисніть на значок. Відкриється вікно редактора сцени.
Крок 3) У редакторі натисніть «Завантажити», щоб заповнити поля інформацією про підключення. Щоб закрити редактор етапів і зберегти зміни, натисніть «ОК».
Крок 4) Тепер поверніться до вікна розробки для STAGEDB_ASN_PRODUCT_CCD_extract паралельного завдання. Знайдіть значок для отриманняSyncЕтап конектора DB2 hPoints. Потім двічі клацніть піктограму.
Крок 5) Тепер натисніть кнопку завантаження, щоб заповнити поля інформацією про підключення.
ПРИМІТКА: Якщо ви використовуєте базу даних, відмінну від STAGEDB, як сервер керування Apply. Потім виберіть опцію завантаження інформації про з’єднання для getSyncЕтап hPoints, який взаємодіє з контрольними таблицями, а не з таблицею CCD.
Крок 6) На цьому етапі
- Створіть порожній текстовий файл у системі, де працює InfoSphere DataStage.
- Назвіть цей файл як productdataset.ds і запишіть, де ви його зберегли.
- DataStage запише зміни до цього файлу після отримання змін із таблиці CCD.
- Набори даних або файли, які використовуються для переміщення даних між пов’язаними завданнями, називаються постійними наборами даних. Він представлений етапом DataSet.
Крок 7) Тепер відкрийте сценічний редактор у вікні дизайну та двічі клацніть піктограму insert_into_a_dataset. Відкриється інше вікно.
Крок 8) У цьому вікні
- На вкладці властивостей переконайтеся, що Target папку відкрито, а властивість File = DATASETNAME виділено.
- Праворуч у вас буде поле файлу
- Введіть повний шлях до файлу productdataset.ds
- Натисніть "OK".
Тепер ви оновили всі необхідні властивості для таблиці CCD продукту. Закрийте вікно дизайну та збережіть усі зміни.
Крок 9) Тепер знайдіть і відкрийте паралельне завдання STAGEDB_ASN_INVENTORY_CCD_extract на панелі сховища конструктора та повторіть кроки 3-8.
ПРИМІТКА:
- Ви повинні завантажити інформацію про підключення до бази даних керуючого сервера в редактор сцени для отриманняSyncЕтап hPoints. Якщо ваш контрольний сервер не STAGEDB.
- Для паралельних завдань STAGEDB_ST00_AQ00_getExtractRange та STAGEDB_ST00_AQ00_markRangeProcessed відкрийте всі етапи конектора DB2. Потім скористайтеся функцією завантаження, щоб додати інформацію про підключення до бази даних STAGEDB
Компіляція та запуск завдань DataStage
Коли завдання DataStage готове до компіляції, Designer перевіряє дизайн завдання, переглядаючи вхідні дані, перетворення, вирази та інші деталі.
Коли компіляція завдання виконана успішно, воно готове до запуску. Ми скомпілюємо всі п’ять завдань, але запустимо лише «послідовність завдань». Це тому, що це завдання контролює всі чотири паралельні завдання.
Крок 1) У папці SQLREP. Виберіть кожне з п’яти завдань за допомогою (Ctrl+Shift). Потім клацніть правою кнопкою миші та виберіть параметр компіляції кількох завдань.
Крок 2) Ви побачите, що у майстрі компіляції DataStage вибрано п’ять завдань. Натисніть Далі.
Крок 3) Розпочнеться компіляція, після завершення якої відобразиться повідомлення «Скомпільовано успішно».
Крок 4) Тепер запустіть DataStage і QualityStage Director. Виберіть Пуск > Усі програми > IBM Інформаційний сервер > IBM WebSphere DataStage і QualityStage Director.
Крок 5) На панелі навігації проекту зліва. Клацніть папку SQLREP. Це переносить усі п’ять вакансій у таблицю статусу директора.
Крок 6) Виберіть завдання STAGEDB_AQ00_S00_sequence. На панелі меню натисніть Завдання > Виконати зараз.
Після завершення компіляції ви побачите статус завершення.
Тепер перевірте, чи змінені рядки, які зберігаються в таблицях PRODUCT_CCD та INVENTORY_CCD, були витягнуті DataStage та вставлені в два файли наборів даних.
Крок 7) Поверніться до конструктора та відкрийте завдання STAGEDB_ASN_PRODUCT_CCD_extract. Щоб відкрити сценічний редактор Double-клацніть значок insert_into_a_dataset. Потім натисніть переглянути дані.
Крок 8) Прийміть значення за замовчуванням у рядках, які відображатимуться у вікні. Потім натисніть OK. Відкриється вікно переглядача даних, у якому буде показано вміст файлу набору даних.
Тестування інтеграції між реплікацією SQL і DataStage
На попередньому кроці ми скомпілювали та виконали завдання. У цьому розділі ми перевіримо інтеграцію реплікації SQL і DataStage. Для цього ми внесемо зміни у вихідну таблицю та перевіримо, чи оновлено цю саму зміну в DataStage.
Крок 1) Перейдіть до папки sqlrepl-datastage-scripts для вашої операційної системи.
Крок 2) Запустіть реплікацію SQL, виконавши такі дії:
- Запустіть startSQLCapture.bat (Windows), щоб запустити програму Capture у базі даних SALES.
- Запустіть startSQLApply.bat (Windows), щоб запустити програму Apply у базі даних STAGEDB.
Крок 3) Тепер відкрийте файл updateSourceTables.sql. Для підключення до бази даних SALES замініть і з ідентифікатором користувача та паролем.
Крок 4) Відкрийте командне вікно DB2. Змініть каталог на sqlrepl-datastage-tutorial\scripts і запустіть проблему за допомогою такої команди:
db2 -tvf updateSourceTables.sql
Сценарій SQL виконуватиме різні операції, як-от оновлення, вставлення та видалення в обох таблицях (PRODUCT, INVENTORY) у базі даних Sales.
Крок 5) У системі, де запущено DataStage. Відкрийте DataStage Director і виконайте завдання STAGEDB_AQ00_S00_sequence. Натисніть Завдання > Виконати зараз.
Під час виконання завдання будуть виконані такі дії.
- Програма Capture зчитує зміни з шести рядків у журналі бази даних SALES і вставляє їх у таблиці CD.
- Програма Apply отримує рядки змін із таблиць CD у SALES і вставляє їх у таблиці CCD у STAGEDB.
- Два завдання DataStage витягують зміни з таблиць CCD і записують їх у файли productdataset.ds і inventory dataset.ds.
Переглянувши набори даних, можна перевірити, чи виконано вищевказані кроки.
Крок 6) Виконайте наведені нижче дії.
- Запустіть Designer. Відкрийте завдання STAGEDB_ASN_PRODUCT_CCD_extract.
- Потім Double-клацніть значок insert_into_a_dataset. У сценічному редакторі. Натисніть Переглянути дані.
- Прийміть значення за замовчуванням у вікні рядків, які відображатимуться, і натисніть OK.
Набір даних містить три нові рядки. Найпростіший спосіб перевірити, чи внесено зміни, це прокрутити праворуч униз браузера даних. Тепер подивіться на останні три рядки (див. зображення нижче)
Букви I, U і D позначають операції INSERT, UPDATE і DELETE, які призводять до кожного нового рядка.
Ви можете зробити таку ж перевірку для таблиці запасів.
Підсумки
- Datastage є Інструмент ETL який витягує дані, перетворює та завантажує дані від джерела до цілі.
- Це полегшує бізнес-аналіз надаючи якісні дані, щоб допомогти отримати бізнес-розвідку.
- DataStage розділений на дві частини, Спільні компоненти та середовище виконання Archiтектура.
- DataStage має чотири основні компоненти,
- адміністратор
- менеджер
- Дизайнер
- Директор
- Нижче наведено ключові аспекти IBM InfoSphere DataStage
- Перетворення даних
- Вакансії
- Паралельна обробка
- Розробка роботи передбачає різні етапи
- Етап трансформації
- Етап фільтра
- Етап агрегатора
- Видалення дублікатів етапу
- Приєднуйтесь до сцени
- Етап пошуку