Підручник DataStage для початківців: IBM Навчання DataStage (ETL Tool).

Що таке DataStage?

DataStage це інструмент ETL, який використовується для вилучення, перетворення та завантаження даних із джерела до цільового призначення. Джерелом цих даних можуть бути послідовні файли, індексовані файли, реляційні бази даних, зовнішні джерела даних, архіви, корпоративні програми тощо. DataStage використовується для полегшення бізнес-аналізу, надаючи якісні дані, щоб допомогти отримати бізнес-аналітику.

Інструмент DataStage ETL використовується у великій організації як інтерфейс між різними системами. Він піклується про вилучення, переклад і завантаження даних із джерела до цільового призначення. Його вперше запустив VMark у середині 90-х років. с IBM після придбання DataStage у 2005 році її було перейменовано на IBM WebSphere DataStage і пізніше IBM Інфосфера.

Наразі на ринку доступні різні версії Datastage: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft тощо. Останнє видання є IBM InfoSphere DataStage

IBM Інформаційний сервер містить такі продукти,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Директор з інформаційних послуг «ІнфоСфера».
  • IBM Аналізатор інформації InfoSphere
  • IBM Інформаційний сервер FastTrack
  • IBM Бізнес-глосарій InfoSphere

Огляд DataStage

Datastage має такі можливості.

  • Він може інтегрувати дані з найширшого спектру корпоративних і зовнішніх джерел даних
  • Реалізує правила перевірки даних
  • Це корисно для обробки та перетворення великих обсягів даних
  • Він використовує підхід масштабованої паралельної обробки
  • Він може виконувати складні перетворення та керувати кількома процесами інтеграції
  • Використовуйте пряме підключення до корпоративних додатків як джерел або цілей
  • Використовуйте метадані для аналізу та обслуговування
  • Operaпакетно, в реальному часі або як веб-сервіс

У наступних розділах цього підручника DataStage ми коротко опишемо наступні аспекти IBM InfoSphere DataStage:

  • Перетворення даних
  • Вакансії
  • Паралельна обробка

InfoSphere DataStage і QualityStage можуть отримувати доступ до даних у корпоративних програмах і джерелах даних, таких як:

Типи етапів обробки

IBM Інфосферна робота складається з окремих етапів, які пов'язані між собою. Він описує потік даних від джерела даних до цілі даних. Зазвичай етап має мінімум один вхід та/або один вихід даних. Однак деякі етапи можуть приймати більше одного введення та виведення даних на більше ніж один етап.

У розробці роботи ви можете використовувати такі етапи:

  • Етап трансформації
  • Етап фільтра
  • Етап агрегатора
  • Видалення дублікатів етапу
  • Приєднуйтесь до сцени
  • Етап пошуку
  • Етап копіювання
  • Стадія сортування
  • Контейнери

Компоненти DataStage і Archiтектура

DataStage має чотири основні компоненти, а саме:

  1. Адміністратор: Використовується для завдань адміністрування. Це включає налаштування користувачів DataStage, налаштування критеріїв очищення та створення та переміщення проектів.
  2. Менеджер: Це основний інтерфейс репозиторію ETL DataStage. Він використовується для зберігання та керування метаданими для повторного використання. За допомогою менеджера DataStage можна переглядати та редагувати вміст репозиторію.
  3. Дизайнер: Інтерфейс розробки, який використовується для створення програм DataStage АБО завдань. Він визначає джерело даних, необхідне перетворення та призначення даних. Завдання компілюються для створення виконуваного файлу, який планується директором і виконується сервером
  4. Director: Він використовується для перевірки, планування, виконання та моніторингу завдань сервера DataStage і паралельних завдань.
Етап даних Archiдіаграма текстури
Етап даних Archiдіаграма текстури

На зображенні вище пояснюється, як IBM Infosphere DataStage взаємодіє з іншими елементами IBM Платформа інформаційного сервера. DataStage розділений на дві частини, Спільні компоненти та середовище виконання Archiтектура.

   
Діяльності

Загальні

Уніфікований інтерфейс користувача

  • Інтерфейс графічного дизайну використовується для створення програм InfoSphere DataStage (відомих як завдання).
  • Кожне завдання визначає джерела даних, необхідні перетворення та призначення даних.
  • Завдання компілюються для створення паралельних потоків завдань і багаторазових компонентів. Вони плануються та виконуються InfoSphere DataStage та QualityStage Director.
  • Клієнт Designer керує метаданими в репозиторії. Поки скомпільовані дані виконання розгортаються на рівні ядра інформаційного сервера.

Загальні послуги

  • Служби метаданих, такі як аналіз впливу та пошук
  • Сервіси проектування, які підтримують розробку та підтримку завдань InfoSphere DataStage
  • Служби виконання, які підтримують усі функції InfoSphere DataStage

Загальна паралельна обробка

  • Механізм запускає виконувані завдання, які витягують, перетворюють і завантажують дані в широкому спектрі налаштувань.
  • Механізм вибору підходу паралельної обробки та конвеєрної обробки для виконання великого обсягу роботи.

Час виконання Archiтектура

Сценарій БГП

  • Це описує генерацію OSH (оркеструвати сценарій оболонки) і потік виконання IBM і потік IBM Infosphere DataStage з використанням ядра Information Server
  • Це дає змогу використовувати графічні методи «наведіть і клацніть» для розробки потоків завдань для вилучення, очищення, перетворення, інтеграції та завантаження даних у цільові файли.

Передумова для Datastage Tool

Для DataStage вам знадобиться таке налаштування.

  • Інфосфера
  • DataStage Server 9.1.2 або вище
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle клієнт (повний клієнт, а не миттєвий клієнт), якщо підключитися до Oracle база даних
  • Клієнт DB2 у разі підключення до бази даних DB2

У цій серії навчальних посібників DataStage для початківців ми дізнаємося, як завантажити та встановити інформаційний сервер InfoSphere.

Завантаження та встановлення InfoSphere Information Server

Щоб отримати доступ до DataStage, завантажте та встановіть останню версію IBM Сервер InfoSphere. Сервер підтримує AIX, Linux і Windows операційна система. Ви можете вибрати відповідно до вимог.

Щоб перенести ваші дані зі старішої версії інфосфери до нової, скористайтеся інструментом обміну ресурсами.

Інсталяційні файли

Щоб установити та налаштувати Infosphere Datastage, ви повинні мати наступні файли у своїй установці.

для Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Для Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Потік процесу зміни даних у завданні етапу транзакції CDC

Процес обробки даних про зміни в CDC

  1. Служба «InfoSphere CDC» для бази даних відстежує та фіксує зміни з вихідної бази даних
  2. Відповідно до визначення реплікації «InfoSphere CDC» передає дані про зміни до «InfoSphere CDC для InfoSphere DataStage».
  3. Сервер «InfoSphere CDC для InfoSphere DataStage» надсилає дані на «етап транзакцій CDC» через сеанс TCP/IP. Сервер «InfoSphere CDC для InfoSphere DataStage» також надсилає повідомлення COMMIT (разом із інформацією про закладку), щоб позначити межу транзакції в отриманому журналі.
  4. Для кожного повідомлення COMMIT, надісланого сервером «InfoSphere CDC для InfoSphere DataStage», «етап транзакції CDC» створює маркери кінця хвилі (EOW). Ці маркери надсилаються на всіх вихідних посиланнях на етап конектора цільової бази даних.
  5. Коли «етап конектора цільової бази даних» отримує маркер кінця хвилі на всіх вхідних посиланнях, він записує інформацію закладки в таблицю закладок, а потім фіксує транзакцію в цільовій базі даних.
  6. Сервер «InfoSphere CDC для InfoSphere DataStage» запитує інформацію про закладки з таблиці закладок у «цільовій базі даних».
  7. Сервер «InfoSphere CDC для InfoSphere DataStage» отримує інформацію про закладки.

Ця інформація використовується для

  • Визначте початкову точку в журналі транзакцій, де зчитуються зміни, коли починається реплікація.
  • Щоб визначити, чи можна очистити наявний журнал транзакцій

Налаштування реплікації SQL

Перш ніж розпочати роботу з Datastage, вам потрібно налаштувати базу даних. Ви створите дві бази даних DB2.

  • Один служить джерелом реплікації та
  • Один як ціль.

Ви також створите дві таблиці (продукт і запаси) і заповните їх зразками даних. Тоді ви можете перевірити свою інтеграцію між SQL Реплікація та етап даних.

Далі ви налаштуєте реплікацію SQL, створивши таблиці керування, набори підписок, реєстрації та члени наборів підписок. Детальніше про це ми дізнаємося в наступному розділі.

Тут ми візьмемо приклад елемента роздрібних продажів як нашу базу даних і створимо дві таблиці Inventory та Product. Ці таблиці завантажуватимуть дані від джерела до цільового через ці набори. (таблиці керування, набори підписок, реєстрації та члени набору підписок.)

Крок 1) Створіть вихідну базу даних, яка називається ПРОДАЖ. Під цією базою даних створіть дві таблиці продукт та Інвентаризація.

Крок 2) Виконайте таку команду, щоб створити базу даних SALES.

db2 create database SALES

Крок 3) Увімкніть архівне журналювання для бази даних SALES. Також створіть резервну копію бази даних за допомогою наведених нижче команд

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Крок 4) У тому самому командному рядку перейдіть у підкаталог setupDB у каталозі sqlrepl-datastage-tutorial, який ви видобули із завантаженого стисненого файлу.

Налаштування реплікації SQL

Крок 5) Використовуйте наведену нижче команду, щоб створити таблицю інвентаризації та імпортувати дані в таблицю, виконавши таку команду.

db2 імпортувати з inventory.ixf ixf create в інвентар

Крок 6) Створіть цільову таблицю. Назвіть цільову базу даних як STAGEDB.

Оскільки ви створили джерело і ціль баз даних, наступним кроком у цьому посібнику DataStage ми побачимо, як це відтворити.

Наступна інформація може бути корисною в налаштування джерела даних ODBC.

Створення об’єктів реплікації SQL

На зображенні нижче показано, як потік даних змін доставляється від джерела до цільової бази даних. Ви створюєте відображення джерело-ціль між таблицями, відоме як учасників набору підписки і згрупуйте членів у a передплата.

Створення об’єктів реплікації SQL

Одиниця реплікації в InfoSphere CDC (Change Data Capture) називається підпискою.

  • Зміни, внесені в джерело, фіксуються в «Таблиці керування захопленням», яка надсилається до таблиці CD, а потім до цільової таблиці. У той час як програма застосування матиме відомості про рядок, з якого потрібно внести зміни. Він також приєднається до таблиці CD у наборі підписки.
  • Підписка містить деталі зіставлення, які визначають, як дані з вихідного сховища даних застосовуються до цільового сховища даних. Зауважте, CDC тепер називається Тиражування даних інфосфери.
  • Коли виконується підписка, InfoSphere CDC фіксує зміни у вихідній базі даних. InfoSphere CDC доставляє дані про зміни до цільової адреси та зберігає інформацію про точку синхронізації в таблиці закладок цільової бази даних.
  • InfoSphere CDC використовує інформацію про закладки для моніторингу виконання завдання InfoSphere DataStage.
  • У разі помилки інформація закладки використовується як точка перезапуску. У нашому прикладі ASN.IBMТаблиця SNAP_FEEDETL зберігає пов’язану з DataStage інформацію про точку синхронізації, яка використовується для відстеження прогресу DataStage.

У цьому розділі IBM Навчальний посібник DataStage, вам потрібно зробити наступне:

  • Створюйте таблиці CAPTURE CONTROL і APPLY CONTROL для зберігання параметрів реплікації
  • Зареєструйте таблиці PRODUCT і INVENTORY як джерела реплікації
  • Створіть набір підписки з двох учасників
  • Створюйте члени набору підписок і цільові таблиці CCD

Використовуйте програму командного рядка ASNCLP для налаштування реплікації SQL

Крок 1) Знайдіть файл сценарію crtCtlTablesCaptureServer.asnclp у каталозі sqlrepl-datastage-tutorial/setupSQLRep.

Крок 2) У файлі замінити і " » зі своїм логіном і паролем для підключення до бази даних SALES.

Крок 3) Змініть каталоги на каталог sqlrepl-datastage-tutorial/setupSQLRep і запустіть сценарій. Використовуйте наступну команду. Команда з’єднається з базою даних SALES, згенерує сценарій SQL для створення контрольних таблиць Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Крок 4) Знайдіть файл сценарію crtCtlTablesApplyCtlServer.asnclp у тому ж каталозі. Тепер замініть два екземпляри і " » з ідентифікатором користувача та паролем для підключення до бази даних STAGEDB.

Крок 5) Тепер у тому самому командному рядку скористайтеся такою командою, щоб створити контрольні таблиці застосування.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Крок 6) Знайдіть файли сценарію crtRegistration.asnclp і замініть усі екземпляри з ідентифікатором користувача для підключення до бази даних SALES. Також змініть " ” до пароля підключення.

Крок 7) Щоб зареєструвати вихідні таблиці, використовуйте наступний скрипт. У рамках створення реєстрації програма ASNCLP створить дві таблиці CD. CDPRODUCT ТА CDINVENTORY.

asnclp –f crtRegistration.asnclp

Команда CREATE REGISTRATION використовує такі параметри:

  • Диференціальне оновлення: запит Застосувати програму для оновлення цільової таблиці лише тоді, коли змінюються рядки у вихідній таблиці
  • Зображення обох: цей параметр використовується для реєстрації значення у вихідному стовпці до того, як відбулася зміна, і один для значення після зміни.

Крок 8) Для підключення до цільової бази даних (STAGEDB) виконайте наступні дії.

  • Знайдіть файл crtTableSpaceApply.bat, відкрийте його в текстовому редакторі
  • Замінити і з ідентифікатором користувача та паролем
  • У командному вікні DB2 введіть crtTableSpaceApply.bat і запустіть файл.
  • Цей пакетний файл створює новий табличний простір у цільовій базі даних ( STAGEDB)

Крок 9) Знайдіть файли сценарію crtSubscriptionSetAndAddMembers.asnclp і виконайте наведені нижче зміни.

  • Замінити всі екземпляри і з ідентифікатором користувача та паролем для підключення до бази даних SALES (джерело).
  • Замінити всі екземпляри і з ідентифікатором користувача для підключення до бази даних STAGEDB (ціль).

Після змін запустіть сценарій, щоб створити набір підписок (ST00), який групує вихідну та цільову таблиці. Сценарій також створює два члени набору підписки та CCD (узгоджені дані про зміни) у цільовій базі даних, яка зберігатиме змінені дані. Ці дані використовуватимуться Infosphere DataStage.

Крок 10) Запустіть сценарій, щоб створити набір підписки, члени набору підписки та таблиці CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Різноманітні параметри, які використовуються для створення набору підписки та включають двох учасників

  • Повне ущільнення
  • Зовнішній
  • Тип завантаження імпорт експорт
  • Хронометраж безперервний

Крок 11) Через дефект інструментів адміністрування реплікації. Ви повинні виконати інший пакетний файл, щоб встановити стовпець TARGET_CAPTURE_SCHEMA в IBMSNAP_SUBS_SET таблиці керування на нуль.

  • Знайдіть файл updateTgtCapSchema.bat. Відкрийте його в текстовому редакторі. Замінити і з ідентифікатором користувача для підключення до бази даних STAGEDB.
  • У вікні команд DB2 введіть команду updateTgtCapSchema.bat і виконайте файл.

Створення файлів визначення для відображення таблиць CCD у DataStage

Перш ніж виконувати реплікацію на наступному кроці, нам потрібно підключити таблицю CCD до DataStage. У цьому розділі ми побачимо, як підключити SQL до DataStage.

Для підключення таблиці CCD до DataStage вам потрібно створити файли визначення Datastage (.dxs). Формат файлу .dsx використовується DataStage для імпорту та експорту визначень завдань. Ви будете використовувати сценарій ASNCLP для створення двох файлів .dsx. Наприклад, тут ми створили два файли .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: створює послідовність завдань, яка керує робочим процесом чотирьох паралельних завдань.
  • stagedb_AQ00_SET00_pJobs.dsx : Створення чотирьох паралельних завдань

Програма ASNCLP автоматично зіставляє стовпець CCD із форматом стовпця Datastage. Він підтримується лише тоді, коли працює ASNCLP Windows, Linux або Unix Процедура.

Файли визначення для відображення таблиць CCD у DataStage

Завдання Datastage отримують рядки з таблиці CCD.

  1. Одне завдання встановлює точку синхронізації, на якій DataStage зупинив вилучення даних із двох таблиць. Завдання отримує цю інформацію, вибираючи значення SYNCHPOINT для набору підписки ST00 із IBMSNAP_SUBS_SET таблиці та вставлення її в стовпець MAX_SYNCHPOINT IBMТаблиця SNAP_FEEDETL.
  2. Два завдання, які витягують дані з таблиць PRODUCT_CCD та INVENTORY_CCD. Завдання знають, які рядки розпочати вилучення, вибравши значення MIN_SYNCHPOINT і MAX_SYNCHPOINT із IBMТаблиця SNAP_FEEDETL для набору підписки.

Початок реплікації

Щоб розпочати реплікацію, виконайте наведені нижче дії. Коли таблиці CCD заповнюються даними, це означає, що налаштування реплікації перевірено. Щоб переглянути відтворені дані в цільових таблицях CCD, використовуйте графічний інтерфейс користувача DB2 Control Center.

Крок 1) Переконайтеся, що DB2 працює, якщо ні, скористайтеся запуск db2 команда

Крок 2) Потім скористайтеся командою asncap із підказки операційної системи, щоб розпочати програму захоплення. Наприклад.

asncap capture_server=SALES

Наведена вище команда вказує базу даних SALES як сервер Capture. Тримайте вікно команд відкритим під час захоплення.

Крок 3) Тепер відкрийте новий командний рядок. Потім почніть APPLY за допомогою команди asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Початок реплікації

  • Команда вказує базу даних STAGEDB як сервер керування Apply (база даних, яка містить таблиці керування Apply)
  • AQ00 як кваліфікатор Apply (ідентифікатор для цього набору контрольних таблиць)

Залиште вікно команд відкритим із запущеним Apply.

Крок 4) Тепер відкрийте інший командний рядок і введіть команду db2cc, щоб запустити Центр керування DB2. Прийміть Центр керування за замовчуванням.

Крок 5) Тепер у дереві навігації зліва відкрийте «Усі бази даних» > «STAGEDB», а потім клацніть «Таблиці». Double клацніть назву таблиці ( CCD продукту), щоб відкрити таблицю. Це буде виглядати приблизно так.

Початок реплікації

Так само ви можете відкрити таблицю CCD для ІНВЕНТАРИЗАЦІЇ.

Початок реплікації

Як створювати проекти в Datastage Tool

Перш за все, ви створите проект у DataStage. Для цього ви повинні бути адміністратором InfoSphere DataStage.

Після завершення інсталяції та реплікації вам потрібно створити проект. У DataStage проекти — це метод упорядкування ваших даних. Він включає визначення файлів даних, етапів і завдань побудови в конкретному проекті.

Щоб створити проект у DataStage, виконайте наведені нижче дії.

Крок 1) Запустіть програмне забезпечення DataStage

Запустіть DataStage і QualityStage Administrator. Потім натисніть Пуск > Усі програми > IBM Інформаційний сервер > IBM WebSphere DataStage і QualityStage Administrator.

Крок 2) Підключіть сервер і клієнт DataStage

Для підключення до сервера DataStage із клієнта DataStage введіть такі деталі, як ім’я домену, ідентифікатор користувача, пароль та інформацію про сервер.

Крок 3) Додайте новий проект

У вікні адміністрування WebSphere DataStage. Перейдіть на вкладку «Проекти», а потім натисніть «Додати».

Крок 4) Введіть деталі проекту

У вікні адміністрування WebSphere DataStage введіть такі відомості, як

  1. ІМ'Я
  2. Розташування файлу
  3. Натисніть "ОК"

Створюйте проекти в Datastage Tool

Кожен проект містить:

  • Вакансії DataStage
  • Вбудовані компоненти. Це попередньо визначені компоненти, які використовуються в роботі.
  • Визначені користувачем компоненти. Це налаштовані компоненти, створені за допомогою DataStage Manager або DataStage Designer.

Ми побачимо, як імпортувати завдання реплікації в Datastage Infosphere.

Як імпортувати завдання реплікації в Datastage та QualityStage Designer

Ви будете імпортувати завдання в IBM Клієнт InfoSphere DataStage і QualityStage Designer. І ви виконуєте їх у IBM Клієнт InfoSphere DataStage і QualityStage Director.

Дизайнер-замовник – як чисте полотно для будівельних робіт. Він витягує, перетворює, завантажує та перевіряє якість даних. Він надає інструменти, які утворюють основні будівельні блоки завдання. Він включає в себе

  • стажування: він підключається до джерел даних для читання або запису файлів і обробки даних.
  • зв'язку: він поєднує етапи, за якими проходять ваші дані

Етапи в клієнті InfoSphere DataStage і QualityStage Designer зберігаються на панелі інструментів Designer.

Наступні етапи включені в InfoSphere QualityStage:

  • Стадія дослідження
  • Стадія стандартизації
  • Стадія частоти відповідності
  • Етап збігу з одного джерела
  • Етап зіставлення з двох джерел
  • Етап виживання
  • Етап оцінки якості стандартизації (SQA).

В інфосфері DataStage можна створити 4 типи завдань.

  • Паралельна робота
  • Послідовність роботи
  • Мейнфрейм Робота
  • Серверна робота

Розглянемо крок за кроком, як імпортувати файли завдань реплікації.

Крок 1) Запустіть DataStage і QualityStage Designer. Натисніть Пуск > Усі програми > IBM Інформаційний сервер > IBM WebSphere DataStage і QualityStage Designer

Крок 2) У вікні «Приєднати до проекту» введіть такі відомості.

  • Область
  • ім'я користувача
  • Пароль
  • Project Name
  • OK

Імпорт завдань реплікації в Datastage та QualityStage

Крок 3) Тепер у меню «Файл» клацніть «Імпорт». -> Компоненти DataStage.

Відкриється нове вікно імпорту DataStage Repository.

  1. У цьому вікні переглядайте STAGEDB_AQ00_ST00_sJobs.dsx файл, який ми створили раніше
  2. Виберіть опцію «Імпортувати все».
  3. Поставте прапорець «Виконати аналіз впливу».
  4. Натисніть "ОК".

Імпорт завдань реплікації в Datastage та QualityStage

Після імпорту завдання DataStage створить завдання STAGEDB_AQ00_ST00_sequence.

Крок 4) Виконайте ті самі дії, щоб імпортувати Файл STAGEDB_AQ00_ST00_pJobs.dsx. Цей імпорт створює чотири паралельні завдання.

Крок 5) На панелі «Сховище конструктора». -> Відкрийте папку SQLREP. Усередині папки ви побачите послідовне завдання та чотири паралельні завдання.

Імпорт завдань реплікації в Datastage та QualityStage

Крок 6) Щоб побачити послідовність роботи. Перейдіть до дерева сховища, клацніть правою кнопкою миші завдання STAGEDB_AQ00_ST00_sequence та натисніть «Редагувати». Він покаже робочий процес чотирьох паралельних завдань, якими керує послідовність завдань.

Імпорт завдань реплікації в Datastage та QualityStage

Кожна ікона - це сцена,

  • етап getExtractRange: Оновлює IBMТаблиця SNAP_FEEDETL. Він встановить початкову точку для вилучення даних на точку, де DataStage востаннє витягував рядки, і встановить кінцеву точку на останню транзакцію, яка була оброблена для набору підписки.
  • getExtractRangeSuccess: цей етап передає вихідні точки на етап extractFromINVENTORY_CCD і етап extractFromPRODUCT_CCD
  • AllExtractsSuccess: Цей етап гарантує успішне завершення і extractFromINVENTORY_CCD, і extractFromPRODUCT_CCD. Потім передає точки синхронізації для останніх рядків, які були отримані на етапі setRangeProcessed.
  • етап setRangeProcessed: Оновлюється IBMТаблиця SNAP_FEEDETL. Отже, DataStage знає, з чого почати наступний раунд вилучення даних

Крок 7) Щоб побачити паралельні роботи. Клацніть правою кнопкою миші STAGEDB_ASN_INVENTORY_CCD і виберіть редагувати в репозиторії. Відкриється вікно, як показано нижче.

Імпорт завдань реплікації в Datastage та QualityStage

Тут, на зображенні вище, ви можете побачити, що дані з таблиці CCD інвентаризації SyncДеталі точки h із таблиці FEEDETL відображаються на етапі Lookup_6.

Створення з’єднання даних із DataStage до бази даних STAGEDB

Тепер наступним кроком є ​​створення з’єднання даних між InfoSphere DataStage та цільовою базою даних SQL Replication. Він містить таблиці CCD.

У DataStage ви використовуєте об’єкти з’єднання даних із пов’язаними етапами з’єднувача, щоб швидко визначити з’єднання з джерелом даних у проекті завдання.

Крок 1) STAGEDB містить керуючі таблиці Apply, які DataStage використовує для синхронізації вилучення даних, і таблиці CCD, з яких витягуються дані. Використовуйте наступні команди

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Примітка:: IP-адреса системи, де було створено STAGEDB

Крок 2) Натисніть «Файл» > «Створити» > «Інше» > «З’єднання даних».

Крок 3) Ви матимете вікно з двома вкладками, Параметри та Загальні.

Підключення даних від DataStage до бази даних STAGEDB

Крок 4) На цьому етапі

  1. Загалом на вкладці назвіть з’єднання даних sqlreplConnect
  2. На вкладці Параметри, як показано нижче
  • Натисніть кнопку перегляду поруч із полем «Підключити за допомогою поля Stage Type» і в полі
  • Відкрийте вікно, перейдіть у дереві сховища до Stage Types –> Parallel– > Database —-> DB2 Connector.
  • Клацніть Відкрити.

Підключення даних від DataStage до бази даних STAGEDB

Крок 5) У таблиці параметрів підключення введіть такі відомості, як

  • ConnectionString: STAGEDB2
  • ім'я користувача: Ідентифікатор користувача для підключення до бази даних STAGEDB
  • Пароль: Пароль для підключення до бази даних STAGEDB
  • Екземпляр: Ім’я примірника DB2, який містить базу даних STAGEDB

Крок 6) У наступному вікні збережіть підключення для передачі даних. Натисніть кнопку «зберегти».

Імпорт визначень таблиць із STAGEDB у DataStage

На попередньому кроці ми побачили, що InfoSphere DataStage і база даних STAGEDB підключені. Тепер імпортуйте визначення стовпця та інші метадані для таблиць PRODUCT_CCD та INVENTORY_CCD у репозиторій інформаційного сервера.

У вікні дизайнера виконайте наведені нижче дії.

Крок 1) Виберіть «Імпорт» > «Визначення таблиць» > «Запустити майстер імпорту конектора».

Крок 2) На сторінці вибору з’єднувача майстра виберіть З’єднувач DB2 і натисніть «Далі».

Імпорт визначень таблиць із STAGEDB у DataStage

Крок 3) Натисніть «Завантажити» на сторінці з деталями підключення. Це заповнить поля майстра інформацією про підключення з підключення даних, яке ви створили в попередньому розділі.

Імпорт визначень таблиць із STAGEDB у DataStage

Крок 4) На тій самій сторінці натисніть Перевірити з’єднання. Це запропонує DataStage спробувати підключитися до бази даних STAGEDB. Ви можете побачити повідомлення «підключення успішне». Натисніть Далі.

Імпорт визначень таблиць із STAGEDB у DataStage

Крок 5) Переконайтеся, що на сторінці Розташування джерела даних поля Ім’я хоста та Ім’я бази даних заповнено правильно. Потім натисніть «Далі».

Крок 6) На сторінці схеми. Введіть схему контрольних таблиць Apply (ASN) або переконайтеся, що схему ASN попередньо заповнено в полі схеми. Потім натисніть «Далі». На сторінці вибору буде показано список таблиць, визначених у схемі ASN.

Імпорт визначень таблиць із STAGEDB у DataStage

Крок 7) Перша таблиця, з якої нам потрібно імпортувати метадані IBMSNAP_FEEDETL, контрольна таблиця застосування. У ньому є деталі про точки синхронізації, які дозволяють DataStage відстежувати, які рядки він отримав із таблиць CCD. Виберіть IBMSNAP_FEEDETL і натисніть «Далі».

Крок 8) Щоб завершити імпорт файлу IBMВизначення таблиці SNAP_FEEDETL. Натисніть «Імпортувати», а потім у відкритому вікні натисніть «Відкрити».

Крок 9) Повторіть кроки 1-8 ще двічі, щоб імпортувати визначення для таблиці PRODUCT_CCD, а потім таблиці INVENTORY_CCD.

ПРИМІТКА: імпортуючи визначення для інвентарю та продукту, переконайтеся, що ви змінюєте схеми з ASN на схему, за якою було створено PRODUCT_CCD та INVENTORY_CCD.

Тепер DataStage має всі деталі, необхідні для підключення до цільової бази даних SQL Replication.

Налаштування властивостей для завдань DataStage

Для кожного з чотирьох паралельних завдань DataStage, які ми маємо, воно містить один або кілька етапів, які підключаються до бази даних STAGEDB. Вам потрібно змінити етапи, щоб додати інформацію про підключення та посилання на файли набору даних, які заповнює DataStage.

Етапи мають попередньо визначені властивості, які можна редагувати. Тут ми змінимо деякі з цих властивостей для STAGEDB_ASN_PRODUCT_CCD_extract паралельного завдання.

Крок 1) Перегляньте дерево сховища Designer. У папці SQLREP виберіть паралельне завдання STAGEDB_ASN_PRODUCT_CCD_extract. Для редагування клацніть правою кнопкою миші завдання. Вікно дизайну паралельного завдання відкриється в палітрі дизайнера.

Крок 2) Знайдіть зелений значок. Ця піктограма позначає етап конектора DB2. Використовується для отримання даних із таблиці CCD. Double- натисніть на значок. Відкриється вікно редактора сцени.

Налаштування властивостей для завдань DataStage

Налаштування властивостей для завдань DataStage

Крок 3) У редакторі натисніть «Завантажити», щоб заповнити поля інформацією про підключення. Щоб закрити редактор етапів і зберегти зміни, натисніть «ОК».

Крок 4) Тепер поверніться до вікна розробки для STAGEDB_ASN_PRODUCT_CCD_extract паралельного завдання. Знайдіть значок для отриманняSyncЕтап конектора DB2 hPoints. Потім двічі клацніть піктограму.

Крок 5) Тепер натисніть кнопку завантаження, щоб заповнити поля інформацією про підключення.

ПРИМІТКА: Якщо ви використовуєте базу даних, відмінну від STAGEDB, як сервер керування Apply. Потім виберіть опцію завантаження інформації про з’єднання для getSyncЕтап hPoints, який взаємодіє з контрольними таблицями, а не з таблицею CCD.

Крок 6) На цьому етапі

  • Створіть порожній текстовий файл у системі, де працює InfoSphere DataStage.
  • Назвіть цей файл як productdataset.ds і запишіть, де ви його зберегли.
  • DataStage запише зміни до цього файлу після отримання змін із таблиці CCD.
  • Набори даних або файли, які використовуються для переміщення даних між пов’язаними завданнями, називаються постійними наборами даних. Він представлений етапом DataSet.

Крок 7) Тепер відкрийте сценічний редактор у вікні дизайну та двічі клацніть піктограму insert_into_a_dataset. Відкриється інше вікно.

Налаштування властивостей для завдань DataStage

Крок 8) У цьому вікні

Налаштування властивостей для завдань DataStage

  • На вкладці властивостей переконайтеся, що Target папку відкрито, а властивість File = DATASETNAME виділено.
  • Праворуч у вас буде поле файлу
  • Введіть повний шлях до файлу productdataset.ds
  • Натисніть "OK".

Тепер ви оновили всі необхідні властивості для таблиці CCD продукту. Закрийте вікно дизайну та збережіть усі зміни.

Крок 9) Тепер знайдіть і відкрийте паралельне завдання STAGEDB_ASN_INVENTORY_CCD_extract на панелі сховища конструктора та повторіть кроки 3-8.

ПРИМІТКА:

  • Ви повинні завантажити інформацію про підключення до бази даних керуючого сервера в редактор сцени для отриманняSyncЕтап hPoints. Якщо ваш контрольний сервер не STAGEDB.
  • Для паралельних завдань STAGEDB_ST00_AQ00_getExtractRange та STAGEDB_ST00_AQ00_markRangeProcessed відкрийте всі етапи конектора DB2. Потім скористайтеся функцією завантаження, щоб додати інформацію про підключення до бази даних STAGEDB

Компіляція та запуск завдань DataStage

Коли завдання DataStage готове до компіляції, Designer перевіряє дизайн завдання, переглядаючи вхідні дані, перетворення, вирази та інші деталі.

Коли компіляція завдання виконана успішно, воно готове до запуску. Ми скомпілюємо всі п’ять завдань, але запустимо лише «послідовність завдань». Це тому, що це завдання контролює всі чотири паралельні завдання.

Крок 1) У папці SQLREP. Виберіть кожне з п’яти завдань за допомогою (Ctrl+Shift). Потім клацніть правою кнопкою миші та виберіть параметр компіляції кількох завдань.

Компіляція та запуск завдань DataStage

Крок 2) Ви побачите, що у майстрі компіляції DataStage вибрано п’ять завдань. Натисніть Далі.

Компіляція та запуск завдань DataStage

Крок 3) Розпочнеться компіляція, після завершення якої відобразиться повідомлення «Скомпільовано успішно».

Компіляція та запуск завдань DataStage

Крок 4) Тепер запустіть DataStage і QualityStage Director. Виберіть Пуск > Усі програми > IBM Інформаційний сервер > IBM WebSphere DataStage і QualityStage Director.

Крок 5) На панелі навігації проекту зліва. Клацніть папку SQLREP. Це переносить усі п’ять вакансій у таблицю статусу директора.

Крок 6) Виберіть завдання STAGEDB_AQ00_S00_sequence. На панелі меню натисніть Завдання > Виконати зараз.

Компіляція та запуск завдань DataStage

Після завершення компіляції ви побачите статус завершення.

Компіляція та запуск завдань DataStage

Тепер перевірте, чи змінені рядки, які зберігаються в таблицях PRODUCT_CCD та INVENTORY_CCD, були витягнуті DataStage та вставлені в два файли наборів даних.

Крок 7) Поверніться до конструктора та відкрийте завдання STAGEDB_ASN_PRODUCT_CCD_extract. Щоб відкрити сценічний редактор Double-клацніть значок insert_into_a_dataset. Потім натисніть переглянути дані.

Крок 8) Прийміть значення за замовчуванням у рядках, які відображатимуться у вікні. Потім натисніть OK. Відкриється вікно переглядача даних, у якому буде показано вміст файлу набору даних.

Компіляція та запуск завдань DataStage

Тестування інтеграції між реплікацією SQL і DataStage

На попередньому кроці ми скомпілювали та виконали завдання. У цьому розділі ми перевіримо інтеграцію реплікації SQL і DataStage. Для цього ми внесемо зміни у вихідну таблицю та перевіримо, чи оновлено цю саму зміну в DataStage.

Крок 1) Перейдіть до папки sqlrepl-datastage-scripts для вашої операційної системи.

Крок 2) Запустіть реплікацію SQL, виконавши такі дії:

  • Запустіть startSQLCapture.bat (Windows), щоб запустити програму Capture у базі даних SALES.
  • Запустіть startSQLApply.bat (Windows), щоб запустити програму Apply у базі даних STAGEDB.

Крок 3) Тепер відкрийте файл updateSourceTables.sql. Для підключення до бази даних SALES замініть і з ідентифікатором користувача та паролем.

Крок 4) Відкрийте командне вікно DB2. Змініть каталог на sqlrepl-datastage-tutorial\scripts і запустіть проблему за допомогою такої команди:

db2 -tvf updateSourceTables.sql

Сценарій SQL виконуватиме різні операції, як-от оновлення, вставлення та видалення в обох таблицях (PRODUCT, INVENTORY) у базі даних Sales.

Крок 5) У системі, де запущено DataStage. Відкрийте DataStage Director і виконайте завдання STAGEDB_AQ00_S00_sequence. Натисніть Завдання > Виконати зараз.

Інтеграція між SQL Replication і DataStage

Під час виконання завдання будуть виконані такі дії.

  • Програма Capture зчитує зміни з шести рядків у журналі бази даних SALES і вставляє їх у таблиці CD.
  • Програма Apply отримує рядки змін із таблиць CD у SALES і вставляє їх у таблиці CCD у STAGEDB.
  • Два завдання DataStage витягують зміни з таблиць CCD і записують їх у файли productdataset.ds і inventory dataset.ds.

Переглянувши набори даних, можна перевірити, чи виконано вищевказані кроки.

Крок 6) Виконайте наведені нижче дії.

  • Запустіть Designer. Відкрийте завдання STAGEDB_ASN_PRODUCT_CCD_extract.
  • Потім Double-клацніть значок insert_into_a_dataset. У сценічному редакторі. Натисніть Переглянути дані.
  • Прийміть значення за замовчуванням у вікні рядків, які відображатимуться, і натисніть OK.

Набір даних містить три нові рядки. Найпростіший спосіб перевірити, чи внесено зміни, це прокрутити праворуч униз браузера даних. Тепер подивіться на останні три рядки (див. зображення нижче)

Інтеграція між SQL Replication і DataStage

Букви I, U і D позначають операції INSERT, UPDATE і DELETE, які призводять до кожного нового рядка.

Ви можете зробити таку ж перевірку для таблиці запасів.

Підсумки

  • Datastage є Інструмент ETL який витягує дані, перетворює та завантажує дані від джерела до цілі.
  • Це полегшує бізнес-аналіз надаючи якісні дані, щоб допомогти отримати бізнес-розвідку.
  • DataStage розділений на дві частини, Спільні компоненти та середовище виконання Archiтектура.
  • DataStage має чотири основні компоненти,
  • адміністратор
  • менеджер
  • Дизайнер
  • Директор
  • Нижче наведено ключові аспекти IBM InfoSphere DataStage
  • Перетворення даних
  • Вакансії
  • Паралельна обробка
  • Розробка роботи передбачає різні етапи
  • Етап трансформації
  • Етап фільтра
  • Етап агрегатора
  • Видалення дублікатів етапу
  • Приєднуйтесь до сцени
  • Етап пошуку