Учебное пособие по DataStage для начинающих: IBM Обучение DataStage (ETL Tool)
Что такое DataStage?
DataStage — это инструмент ETL, используемый для извлечения, преобразования и загрузки данных из источника в целевой пункт назначения. Источником этих данных могут быть последовательные файлы, индексированные файлы, реляционные базы данных, внешние источники данных, архивы, корпоративные приложения и т. д. DataStage используется для облегчения бизнес-анализа путем предоставления качественных данных, помогающих получить бизнес-аналитику.
Инструмент DataStage ETL используется в крупной организации в качестве интерфейса между различными системами. Он обеспечивает извлечение, перевод и загрузку данных из источника в целевой пункт назначения. Впервые он был запущен VMark в середине 90-х годов. С IBM приобретя DataStage в 2005 году, она была переименована в IBM WebSphere DataStage и более поздние версии для IBM Инфосфера.
На данный момент на рынке доступны различные версии Datastage: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft и так далее. Последнее издание IBM Инфосфера DataStage
IBM Информационный сервер включает в себя следующие продукты:
- IBM Инфосфера DataStage
- IBM Стадия качества Инфосферы
- IBM Директор информационных служб Инфосферы
- IBM Анализатор информации InfoSphere
- IBM Информационный сервер FastTrack
- IBM Бизнес-словарь InfoSphere
Обзор DataStage
Datastage имеет следующие возможности.
- Он может интегрировать данные из самого широкого спектра корпоративных и внешних источников данных.
- Внедряет правила проверки данных
- Это полезно при обработке и преобразовании больших объемов данных.
- Он использует масштабируемый подход к параллельной обработке.
- Он может выполнять сложные преобразования и управлять несколькими процессами интеграции.
- Используйте прямое подключение к корпоративным приложениям в качестве источников или целей.
- Использование метаданных для анализа и обслуживания
- Operates в пакетном режиме, в реальном времени или в виде веб-сервиса.
В следующих разделах этого руководства по DataStage мы кратко опишем следующие аспекты: IBM Инфосфера DataStage:
- Преобразование данных
- Джобс
- Параллельная обработка
InfoSphere DataStage и QualityStage могут получать доступ к данным в корпоративных приложениях и источниках данных, таких как:
- Реляционные базы данных
- Базы данных мейнфреймов
- Бизнес и аналитические приложения
- Планирование ресурсов предприятия (ERP) или базы данных управления взаимоотношениями с клиентами (CRM).
- Онлайн-аналитическая обработка (OLAP) или базы данных управления производительностью
Типы этапов обработки
IBM Инфосферная работа состоит из отдельных этапов, которые связаны между собой. Он описывает поток данных от источника данных к целевому объекту данных. Обычно этап имеет минимум один вход данных и/или один выход данных. Однако некоторые этапы могут принимать более одного ввода и вывода данных на более чем один этап.
При разработке задания вы можете использовать следующие этапы:
- Этап трансформации
- Этап фильтра
- Стадия агрегатора
- Этап удаления дубликатов
- Присоединиться к сцене
- Этап поиска
- Этап копирования
- Этап сортировки
- Контейнеры
Компоненты DataStage и Archiтекстура
DataStage состоит из четырех основных компонентов, а именно:
- администратор: Он используется для задач администрирования. Сюда входит настройка пользователей DataStage, настройка критериев очистки, а также создание и перемещение проектов.
- Менеджер: Это основной интерфейс репозитория ETL DataStage. Он используется для хранения и управления метаданными многократного использования. Через менеджер DataStage можно просматривать и редактировать содержимое репозитория.
- Дизайнер: Интерфейс проектирования, используемый для создания приложений ИЛИ заданий DataStage. Он определяет источник данных, необходимое преобразование и место назначения данных. Задания компилируются для создания исполняемого файла, который запланирован директором и запускается сервером.
- Режиссер: Он используется для проверки, планирования, выполнения и мониторинга заданий сервера DataStage и параллельных заданий.
Изображение выше объясняет, как IBM InfoSphere DataStage взаимодействует с другими элементами IBM Платформа информационного сервера. DataStage разделен на два раздела: Общие компоненты и среда выполнения Archiтекстура.
общий |
Единый пользовательский интерфейс |
|
Общие службы |
|
|
Общая параллельная обработка |
|
|
Время выполнения Archiтекстура |
Сценарий охраны труда |
|
Предварительные условия для Datastage Tool
Для DataStage вам потребуется следующая настройка.
- инфосферы
- Сервер DataStage 9.1.2 или выше
- Microsoft Visual Studio .NET 2010 Экспресс-выпуск C++
- Oracle клиент (полный клиент, а не мгновенный клиент) при подключении к Oracle база данных
- Клиент DB2 при подключении к базе данных DB2
В этой серии руководств DataStage для начинающих мы научимся загружать и устанавливать информационный сервер InfoSphere.
Загрузка и установка InfoSphere Information Server
Чтобы получить доступ к DataStage, загрузите и установите последнюю версию IBM Инфосферный сервер. Сервер поддерживает AIX, Linux и Windows Операционная система. Вы можете выбрать согласно требованию.
Для переноса данных из старой версии инфосферы в новую версию используется инструмент обмена активами.
Файлы установки
Для установки и настройки InfoSphere Datastage в вашей установке должны быть следующие файлы.
Что касается Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Для Linux
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Поток обработки данных об изменениях в задании этапа транзакции CDC
- Служба InfoSphere CDC для базы данных отслеживает и фиксирует изменения в исходной базе данных.
- В соответствии с определением репликации «InfoSphere CDC» передает данные об изменениях в «InfoSphere CDC для InfoSphere DataStage».
- Сервер «InfoSphere CDC для InfoSphere DataStage» отправляет данные на «этап транзакции CDC» через сеанс TCP/IP. Сервер InfoSphere CDC для InfoSphere DataStage также отправляет сообщение COMMIT (вместе с информацией о закладках), чтобы отметить границу транзакции в записанном журнале.
- Для каждого сообщения COMMIT, отправленного сервером «InfoSphere CDC для InfoSphere DataStage», «этап транзакции CDC» создает маркеры конца волны (EOW). Эти маркеры отправляются по всем выходным ссылкам на этап коннектора целевой базы данных.
- Когда «этап коннектора целевой базы данных» получает маркер конца волны на всех входных ссылках, он записывает информацию о закладках в таблицу закладок, а затем фиксирует транзакцию в целевой базе данных.
- Сервер InfoSphere CDC для InfoSphere DataStage запрашивает информацию о закладках из таблицы закладок в «целевой базе данных».
- Сервер InfoSphere CDC для InfoSphere DataStage получает информацию о закладках.
Эта информация используется,
- Определите начальную точку в журнале транзакций, где изменения считываются при начале репликации.
- Чтобы определить, можно ли очистить существующий журнал транзакций
Настройка репликации SQL
Прежде чем начать работу с Datastage, вам необходимо настроить базу данных. Вы создадите две базы данных DB2.
- Один будет служить источником репликации и
- Один как цель.
Вы также создадите две таблицы (Продукт и Запасы) и заполните их примерами данных. Затем вы можете проверить свою интеграцию между SQL Репликация и этап обработки данных.
Двигаясь вперед, вы настроите репликацию SQL, создав управляющие таблицы, наборы подписок, регистрации и члены набора подписок. Подробнее об этом мы узнаем в следующем разделе.
Здесь мы возьмем пример позиции розничных продаж в качестве нашей базы данных и создадим две таблицы «Инвентарь» и «Продукт». Эти таблицы будут загружать данные из источника в цель через эти наборы. (управляющие таблицы, наборы подписок, регистрации и члены набора подписок.)
Шаг 1) Создайте исходную базу данных, называемую ПРОДАЖИ. В этой базе данных создайте две таблицы ПРОДУКТЫ и Каталог.
Шаг 2) Запустите следующую команду, чтобы создать базу данных SALES.
db2 create database SALES
Шаг 3) Включите архивное ведение журнала для базы данных SALES. Также создайте резервную копию базы данных, используя следующие команды
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
Шаг 4) В той же командной строке перейдите в подкаталог setupDB в каталоге sqlrepl-datastage-tutorial, который вы извлекли из загруженного сжатого файла.
Шаг 5) Используйте следующую команду, чтобы создать таблицу инвентаризации и импортировать данные в таблицу, выполнив следующую команду.
Импорт db2 из Inventory.ixf из ixf, созданного в инвентарь
Шаг 6) Создайте целевую таблицу. Назовите целевую базу данных как СТЕГЕДБ.
Поскольку теперь вы создали как исходную, так и целевую базу данных, на следующем этапе этого руководства по DataStage мы увидим, как ее реплицировать.
Следующая информация может быть полезна в настройка источника данных ODBC.
Создание объектов репликации SQL
На изображении ниже показано, как поток данных об изменениях доставляется из источника в целевую базу данных. Вы создаете сопоставление источника и цели между таблицами, известное как члены набора подписок и сгруппируйте участников в подписка.
Единица репликации в InfoSphere CDC (Change Data Capture) называется подпиской.
- Изменения, внесенные в источнике, фиксируются в «таблице управления захватом», которая отправляется в таблицу CD, а затем в целевую таблицу. В то время как программа Apply будет иметь подробную информацию о строке, из которой необходимо внести изменения. Он также присоединится к таблице компакт-дисков в наборе подписки.
- Подписка содержит сведения о сопоставлении, которые определяют, как данные из исходного хранилища данных применяются к целевому хранилищу данных. Обратите внимание, что CDC теперь называется Репликация данных инфосферы.
- При выполнении подписки InfoSphere CDC фиксирует изменения в исходной базе данных. InfoSphere CDC доставляет данные об изменениях в целевой объект и сохраняет информацию о точках синхронизации в таблице закладок в целевой базе данных.
- InfoSphere CDC использует информацию о закладках для отслеживания хода выполнения задания InfoSphere DataStage.
- В случае сбоя информация о закладке используется в качестве точки перезапуска. В нашем примере это ASN.IBMВ таблице SNAP_FEEDETL хранится информация о точках синхронизации, связанная с DataStage, которая используется для отслеживания прогресса DataStage.
В этом разделе IBM В обучающем руководстве по DataStage вам необходимо сделать следующее:
- Создайте таблицы CAPTURE CONTROL и таблицы APPLY CONTROL для хранения параметров репликации.
- Зарегистрируйте таблицы PRODUCT и INVENTORY в качестве источников репликации.
- Создайте набор подписок с двумя участниками.
- Создание членов набора подписок и целевых таблиц CCD.
Используйте программу командной строки ASNCLP для настройки репликации SQL.
Шаг 1) Найдите файл сценария crtCtlTablesCaptureServer.asnclp в каталоге sqlrepl-datastage-tutorial/setupSQLRep.
Шаг 2) В файле заменить и " » с вашим идентификатором пользователя и паролем для подключения к базе данных SALES.
Шаг 3) Перейдите в каталог sqlrepl-datastage-tutorial/setupSQLRep и запустите сценарий. Используйте следующую команду. Команда подключится к базе данных SALES, сгенерирует SQL-скрипт для создания управляющих таблиц Capture.
asnclp –f crtCtlTablesCaptureServer.asnclp
Шаг 4) Найдите файл сценария crtCtlTablesApplyCtlServer.asnclp в том же каталоге. Теперь замените два экземпляра и " » с идентификатором пользователя и паролем для подключения к базе данных STAGEDB.
Шаг 5) Теперь в той же командной строке используйте следующую команду для создания таблиц управления применением.
asnclp –f crtCtlTablesApplyCtlServer.asnclp
Шаг 6) Найдите файлы сценария crtRegistration.asnclp и замените все экземпляры с идентификатором пользователя для подключения к базе данных SALES. Также измените « » к паролю подключения.
Шаг 7) Чтобы зарегистрировать исходные таблицы, используйте следующий скрипт. В рамках создания регистрации программа ASNCLP создаст две таблицы CD. CDPRODUCT И CDINVENTORY.
asnclp –f crtRegistration.asnclp
Команда CREATE REGISTRATION использует следующие параметры:
- Дифференциальное обновление: программа Apply будет предлагать обновить целевую таблицу только при изменении строк в исходной таблице.
- Изображение обоих: этот параметр используется для регистрации значения в исходном столбце до того, как произошло изменение, и для значения после того, как изменение произошло.
Шаг 8) Для подключения к целевой базе данных (STAGEDB) выполните следующие действия.
- Найдите файл crtTableSpaceApply.bat, откройте его в текстовом редакторе.
- Заменять и с идентификатором пользователя и паролем
- В командном окне DB2 введите crtTableSpaceApply.bat и запустите файл.
- Этот пакетный файл создает новое табличное пространство в целевой базе данных (STAGEDB).
Шаг 9) Найдите файлы сценария crtSubscriptionSetAndAddMembers.asnclp и внесите следующие изменения.
- Замените все экземпляры и с идентификатором пользователя и паролем для подключения к базе данных SALES (источник).
- Замените все экземпляры и с идентификатором пользователя для подключения к базе данных STAGEDB (целевой).
После внесения изменений запустите сценарий для создания набора подписок (ST00), который группирует исходную и целевую таблицы. Сценарий также создает два элемента набора подписок и CCD (согласованные данные изменений) в целевой базе данных, в которой будут храниться измененные данные. Эти данные будут использоваться InfoSphere DataStage.
Шаг 10) Запустите сценарий, чтобы создать набор подписок, элементы набора подписок и таблицы CCD.
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
Различные параметры, используемые для создания набора подписок и двух участников, включают:
- Полное в сокращенном виде выкл.
- Внешний
- Импорт и экспорт типа загрузки
- Время непрерывное
Шаг 11) Из-за дефекта в средствах администрирования репликации. Вам необходимо выполнить другой пакетный файл, чтобы установить столбец TARGET_CAPTURE_SCHEMA в IBMТаблицу управления SNAP_SUBS_SET обнулить.
- Найдите файл updateTgtCapSchema.bat. Откройте его в текстовом редакторе. Заменять и с идентификатором пользователя для подключения к базе данных STAGEDB.
- В командном окне DB2 введите команду updateTgtCapSchema.bat и выполните файл.
Создание файлов определений для сопоставления таблиц CCD с DataStage
Прежде чем мы выполним репликацию на следующем шаге, нам нужно подключить таблицу CCD к DataStage. В этом разделе мы увидим, как подключить SQL к DataStage.
Для подключения таблицы CCD к DataStage необходимо создать файлы определения Datastage (.dxs). Формат файла .dsx используется DataStage для импорта и экспорта определений заданий. Вы будете использовать сценарий ASNCLP для создания двух файлов .dsx. Например, здесь мы создали два файла .dsx.
- stagedb_AQ00_SET00_sJobs.dsx: Создает последовательность заданий, которая управляет рабочим процессом четырех параллельных заданий.
- stagedb_AQ00_SET00_pJobs.dsx : Создает четыре параллельных задания.
Программа ASNCLP автоматически сопоставляет столбец CCD с форматом столбца Datastage. Поддерживается только тогда, когда ASNCLP работает на Windows, Linux или Unix Процедура.
Задания Datastage извлекают строки из таблицы CCD.
- Одно задание устанавливает точку синхронизации, на которой DataStage остановил извлечение данных из двух таблиц. Задание получает эту информацию, выбирая значение SYNCHPOINT для набора подписки ST00 из IBMтаблицу SNAP_SUBS_SET и вставьте ее в столбец MAX_SYNCHPOINT таблицы IBMТаблица SNAP_FEEDETL.
- Два задания, которые извлекают данные из таблиц PRODUCT_CCD и INVENTORY_CCD. Задания знают, какие строки следует начать извлекать, выбирая значения MIN_SYNCHPOINT и MAX_SYNCHPOINT из IBMТаблица SNAP_FEEDETL для набора подписок.
Запуск репликации
Чтобы начать репликацию, выполните следующие шаги. Когда таблицы CCD заполняются данными, это означает, что настройка репликации проверена. Для просмотра реплицированных данных в целевых таблицах CCD используйте графический интерфейс пользователя Центра управления DB2.
Шаг 1) Убедитесь, что DB2 работает, если нет, используйте запуск db2 команда.
Шаг 2) Затем используйте команду asncap из командной строки операционной системы, чтобы запустить программу захвата. Например.
asncap capture_server=SALES
Приведенная выше команда указывает базу данных SALES в качестве сервера Capture. Держите командное окно открытым во время захвата.
Шаг 3) Теперь откройте новую командную строку. Затем запустите ОТНОСИТЬСЯ программу с помощью команды asnaply.
asnapply control_server=STAGEDB apply_qual=AQ00
- Команда указывает базу данных STAGEDB в качестве сервера управления Apply (база данных, содержащая таблицы управления Apply).
- AQ00 в качестве квалификатора Apply (идентификатор этого набора управляющих таблиц)
Оставьте командное окно открытым, пока приложение Apply запущено.
Шаг 4) Теперь откройте другую командную строку и введите команду db2cc, чтобы запустить Центр управления DB2. Примите Центр управления по умолчанию.
Шаг 5) Теперь в левом дереве навигации откройте «Все базы данных» > «STAGEDB» и нажмите «Таблицы». Double щелкните имя таблицы (Product CCD), чтобы открыть таблицу. Это будет выглядеть примерно так.
Аналогичным образом вы также можете открыть таблицу CCD для ИНВЕНТАРИЗАЦИИ.
Как создавать проекты в Datastage Tool
Прежде всего, вы создадите проект в DataStage. Для этого вы должны быть администратором InfoSphere DataStage.
После завершения установки и репликации вам необходимо создать проект. В DataStage проекты — это метод организации данных. Он включает в себя определение файлов данных, этапов и заданий сборки в конкретном проекте.
Чтобы создать проект в DataStage, выполните следующие действия:
Шаг 1) Запустите программное обеспечение DataStage.
Запустите администратор DataStage и QualityStage. Затем нажмите Пуск > Все программы > IBM Информационный сервер > IBM Администратор WebSphere DataStage и QualityStage.
Шаг 2) Подключите сервер и клиент DataStage.
Для подключения к серверу DataStage из клиента DataStage введите такие данные, как имя домена, идентификатор пользователя, пароль и информацию о сервере.
Шаг 3) Добавьте новый проект
В окне администрирования WebSphere DataStage. Откройте вкладку «Проекты» и нажмите «Добавить».
Шаг 4) Введите детали проекта
В окне администрирования WebSphere DataStage введите такие данные, как
- ФИО
- Расположение файла
- Нажмите «ОК»
Каждый проект содержит:
- Задания DataStage
- Встроенные компоненты. Это предопределенные компоненты, используемые в задании.
- Пользовательские компоненты. Это настраиваемые компоненты, созданные с помощью DataStage Manager или DataStage Designer.
Мы увидим, как импортировать задания репликации в Datastage InfoSphere.
Как импортировать задания репликации в Datastage и QualityStage Designer
Вы будете импортировать рабочие места в IBM Клиент InfoSphere DataStage и QualityStage Designer. И вы выполняете их в IBM Клиент InfoSphere DataStage и QualityStage Director.
Дизайнер-клиент — это чистый холст для создания работ. Он извлекает, преобразует, загружает и проверяет качество данных. Он предоставляет инструменты, которые формируют основные строительные блоки задания. Оно включает
- Стажировки: он подключается к источникам данных для чтения или записи файлов, а также для обработки данных.
- Ссылки: он соединяет этапы, по которым проходят ваши данные.
Этапы в клиенте InfoSphere DataStage и QualityStage Designer хранятся в палитре инструментов Designer.
В InfoSphere QualityStage включены следующие этапы:
- Стадия расследования
- Этап стандартизации
- Этап частоты совпадений
- Этап матча из одного источника
- Этап матча с двумя источниками
- Этап выживания
- Этап оценки качества стандартизации (SQA)
В инфосфере DataStage можно создать 4 типа заданий.
- Параллельная работа
- Последовательность заданий
- Задача мейнфрейма
- Серверное задание
Давайте шаг за шагом рассмотрим, как импортировать файлы заданий репликации.
Шаг 1) Запустите конструктор DataStage и QualityStage. Нажмите Пуск > Все программы > IBM Информационный сервер > IBM WebSphere DataStage и QualityStage Designer
Шаг 2) В окне «Прикрепить к проекту» введите следующие данные.
- Домен
- имя пользователя
- Пароль
- Название проекта
- OK
Шаг 3) Теперь в меню «Файл» нажмите «Импорт». -> Компоненты DataStage.
Откроется новое окно импорта репозитория DataStage.
- В этом окне просмотрите STAGEDB_AQ00_ST00_sJobs.dsx файл, который мы создали ранее
- Выберите опцию «Импортировать все».
- Установите флажок «Выполнить анализ воздействия».
- Нажмите "ОК".
После импорта задания DataStage создаст задание STAGEDB_AQ00_ST00_sequence.
Шаг 4) Выполните те же действия, чтобы импортировать Файл STAGEDB_AQ00_ST00_pJobs.dsx. Этот импорт создает четыре параллельных задания.
Шаг 5) На панели «Репозиторий дизайнера» -> Откройте папку SQLREP. Внутри папки вы увидите последовательное задание и четыре параллельных задания.
Шаг 6) Чтобы увидеть последовательность заданий. Перейдите в дерево репозитория, щелкните правой кнопкой мыши задание STAGEDB_AQ00_ST00_sequence и выберите «Изменить». Он покажет рабочий процесс четырех параллельных заданий, которыми управляет последовательность заданий.
Каждая икона – это сцена,
- Этап getExtractRange: обновляет IBMТаблица SNAP_FEEDETL. Начальной точкой для извлечения данных будет установлена точка, в которой DataStage в последний раз извлекал строки, а конечной точкой — последняя транзакция, обработанная для набора подписок.
- getExtractRangeSuccess: этот этап передает начальные точки этапам extractFromINVENTORY_CCD и этапа ExtractFromPRODUCT_CCD.
- ВсеЭкстрактыУспех: Этот этап гарантирует успешное завершение как ExtractFromINVENTORY_CCD, так и ExtractFromPRODUCT_CCD. Затем передает точки синхронизации для последних строк, которые были выбраны на этапе setRangeProcessed.
- Этап setRangeProcessed: обновляет IBMТаблица SNAP_FEEDETL. Итак, DataStage знает, с чего начать следующий раунд извлечения данных.
Шаг 7) Чтобы увидеть параллельные работы. Щелкните правой кнопкой мыши STAGEDB_ASN_INVENTORY_CCD и выберите «Редактировать» в репозитории. Откроется окно, как показано ниже.
Здесь, на изображении выше, вы можете видеть, что данные из таблицы Inventory CCD и SyncДанные о точке h из таблицы FEEDETL переносятся на этап Lookup_6.
Создание подключения к данным из DataStage к базе данных STAGEDB.
Теперь следующим шагом будет создание соединения данных между InfoSphere DataStage и целевой базой данных SQL Replication. Он содержит таблицы CCD.
В DataStage вы используете объекты подключения к данным со связанными этапами соединителя, чтобы быстро определить соединение с источником данных в проекте задания.
Шаг 1) STAGEDB содержит как управляющие таблицы Apply, которые DataStage использует для синхронизации извлечения данных, так и таблицы CCD, из которых извлекаются данные. Используйте следующие команды
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
Внимание: IP-адрес системы, в которой был создан STAGEDB.
Шаг 2) Нажмите «Файл» > «Создать» > «Другое» > «Подключение к данным».
Шаг 3) У вас появится окно с двумя вкладками: «Параметры» и «Общие».
Шаг 4) На этом этапе
- В общем, на вкладке назовите подключение к данным sqlreplConnect.
- На вкладке «Параметры», как показано ниже.
- Нажмите кнопку обзора рядом с полем «Подключиться с использованием типа этапа» и в
- Откройте окно и перейдите в дереве репозитория к «Типы стадий» -> «Параллельный» -> «База данных» -> «Соединитель DB2».
- Нажмите Открыть.
Шаг 5) В таблице параметров подключения введите такие данные, как
- Строка подключения: STAGEDB2
- Имя пользователя: Идентификатор пользователя для подключения к базе данных STAGEDB.
- Пароль: Пароль для подключения к базе данных STAGEDB.
- Пример: Имя экземпляра DB2, содержащего базу данных STAGEDB.
Шаг 6) В следующем окне сохраните подключение для передачи данных. Нажмите кнопку «Сохранить».
Импорт определений таблиц из STAGEDB в DataStage
На предыдущем шаге мы увидели, что InfoSphere DataStage и база данных STAGEDB связаны. Теперь импортируйте определение столбца и другие метаданные для таблиц PRODUCT_CCD и INVENTORY_CCD в репозиторий Information Server.
В окне дизайнера выполните следующие действия.
Шаг 1) Выберите «Импорт» > «Определения таблиц» > «Запустить мастер импорта соединителя».
Шаг 2) На странице выбора соединителя мастера выберите соединитель DB2 и нажмите кнопку Далее.
Шаг 3) Нажмите «Загрузить» на странице сведений о подключении. При этом поля мастера будут заполнены информацией о соединении из подключения к данным, которое вы создали в предыдущей главе.
Шаг 4) Нажмите Проверить соединение на той же странице. Это предложит DataStage попытаться подключиться к базе данных STAGEDB. Вы можете увидеть сообщение «Соединение успешно». Нажмите "Далее.
Шаг 5) Убедитесь, что на странице «Расположение источника данных» поля «Имя хоста» и «Имя базы данных» заполнены правильно. Затем нажмите «Далее».
Шаг 6) На странице схемы. Введите схему управляющих таблиц применения (ASN) или убедитесь, что схема ASN предварительно заполнена в поле схемы. Затем нажмите «Далее». На странице выбора будет показан список таблиц, определенных в схеме ASN.
Шаг 7) Первая таблица, из которой нам нужно импортировать метаданные: IBMSNAP_FEEDETL, управляющая таблица Apply. Он содержит подробную информацию о точках синхронизации, которая позволяет DataStage отслеживать, какие строки он извлек из таблиц CCD. Выбирать IBMSNAP_FEEDETL и нажмите «Далее».
Шаг 8) Чтобы завершить импорт IBMОпределение таблицы SNAP_FEEDETL. Нажмите «Импорт», а затем в открывшемся окне нажмите «Открыть».
Шаг 9) Повторите шаги 1–8 еще два раза, чтобы импортировать определения для таблицы PRODUCT_CCD, а затем для таблицы INVENTORY_CCD.
ЗАМЕТКА: При импорте определений запасов и продуктов обязательно измените схемы с ASN на схему, в соответствии с которой были созданы PRODUCT_CCD и INVENTORY_CCD.
Теперь DataStage имеет все сведения, необходимые для подключения к целевой базе данных репликации SQL.
Настройка свойств заданий DataStage
Каждое из четырех имеющихся у нас параллельных заданий DataStage содержит один или несколько этапов, которые подключаются к базе данных STAGEDB. Вам необходимо изменить этапы, чтобы добавить информацию о подключении и ссылку на файлы набора данных, которые заполняет DataStage.
Этапы имеют предопределенные свойства, которые можно редактировать. Здесь мы изменим некоторые из этих свойств для параллельного задания STAGEDB_ASN_PRODUCT_CCD_extract.
Шаг 1) Просмотрите дерево репозитория Designer. В папке SQLREP выберите параллельное задание STAGEDB_ASN_PRODUCT_CCD_extract. Для редактирования щелкните задание правой кнопкой мыши. В палитре дизайнера откроется окно проектирования параллельного задания.
Шаг 2) Найдите зеленый значок. Этот значок обозначает этап соединителя DB2. Он используется для извлечения данных из таблицы CCD. Double-нажмите значок. Откроется окно редактора сцены.
Шаг 3) В редакторе нажмите «Загрузить», чтобы заполнить поля информацией о подключении. Чтобы закрыть редактор сцены и сохранить изменения, нажмите «ОК».
Шаг 4) Теперь вернитесь в окно разработки для параллельного задания STAGEDB_ASN_PRODUCT_CCD_extract. Найдите значок полученияSyncЭтап коннектора hPoints DB2. Затем дважды щелкните значок.
Шаг 5) Теперь нажмите кнопку загрузки, чтобы заполнить поля информацией о соединении.
ЗАМЕТКА: Если в качестве сервера управления Apply вы используете базу данных, отличную от STAGEDB. Затем выберите опцию загрузки информации о соединении для полученияSyncЭтап hPoints, который взаимодействует с управляющими таблицами, а не с таблицей CCD.
Шаг 6) На этом этапе
- Создайте пустой текстовый файл в системе, где работает InfoSphere DataStage.
- Назовите этот файл Productdataset.ds и запишите, где вы его сохранили.
- DataStage запишет изменения в этот файл после получения изменений из таблицы CCD.
- Наборы данных или файлы, которые используются для перемещения данных между связанными заданиями, называются постоянными наборами данных. Он представлен этапом DataSet.
Шаг 7) Теперь откройте редактор сцены в окне дизайна и дважды щелкните значок Insert_into_a_dataset. Откроется другое окно.
Шаг 8) В этом окне
- На вкладке свойств убедитесь, что Target папка открыта и свойство File = DATASETNAME выделено.
- Справа у вас будет поле файла.
- Введите полный путь к файлу productdataset.ds.
- Нажмите «ОК».
Теперь вы обновили все необходимые свойства для таблицы CCD продукта. Закройте окно дизайна и сохраните все изменения.
Шаг 9) Теперь найдите и откройте параллельное задание STAGEDB_ASN_INVENTORY_CCD_extract на панели репозитория дизайнера и повторите шаги 3–8.
ЗАМЕТКА:
- Вам необходимо загрузить информацию о соединении для базы данных сервера управления в редактор сцены, чтобы получитьSyncЭтап hPoints. Если ваш сервер управления не STAGEDB.
- Для параллельных заданий STAGEDB_ST00_AQ00_getExtractRange и STAGEDB_ST00_AQ00_markRangeProcessed откройте все этапы коннектора DB2. Затем используйте функцию загрузки, чтобы добавить информацию о соединении для базы данных STAGEDB.
Компиляция и запуск заданий DataStage
Когда задание DataStage готово к компиляции, Designer проверяет структуру задания, просматривая входные данные, преобразования, выражения и другие детали.
Когда компиляция задания завершена успешно, оно готово к запуску. Мы скомпилируем все пять заданий, но запустим только «последовательность заданий». Это связано с тем, что это задание контролирует все четыре параллельных задания.
Шаг 1) В папке SQLREP. Выберите каждое из пяти заданий, нажав (Cntrl+Shift). Затем щелкните правой кнопкой мыши и выберите вариант компиляции нескольких заданий.
Шаг 2) Вы увидите, что в мастере компиляции DataStage выбрано пять заданий. Нажмите "Далее.
Шаг 3) Начнется компиляция, и после завершения отобразится сообщение «Компилировано успешно».
Шаг 4) Теперь запустите DataStage и QualityStage Director. Выберите «Пуск» > «Все программы» > IBM Информационный сервер > IBM WebSphere DataStage и QualityStage Director.
Шаг 5) В панели навигации проекта слева. Щелкните папку SQLREP. Это приведет к тому, что все пять должностей появятся в таблице статусов директоров.
Шаг 6) Выберите задание STAGEDB_AQ00_S00_sequence. В строке меню нажмите «Задание» > «Выполнить сейчас».
После завершения компиляции вы увидите готовый статус.
Теперь проверьте, были ли измененные строки, хранящиеся в таблицах PRODUCT_CCD и INVENTORY_CCD, извлечены DataStage и вставлены в два файла набора данных.
Шаг 7) Вернитесь в дизайнер и откройте задание STAGEDB_ASN_PRODUCT_CCD_extract. Чтобы открыть редактор сцены Double-щелкните значок Insert_into_a_dataset. Затем нажмите «Просмотреть данные».
Шаг 8) Примите значения по умолчанию в строках, которые будут отображаться в окне. Затем нажмите ОК. Откроется окно браузера данных, в котором будет показано содержимое файла набора данных.
Тестирование интеграции между репликацией SQL и DataStage
На предыдущем шаге мы скомпилировали и выполнили задание. В этом разделе мы проверим интеграцию репликации SQL и DataStage. Для этого мы внесем изменения в исходную таблицу и посмотрим, обновится ли то же изменение в DataStage.
Шаг 1) Перейдите в папку sqlrepl-datastage-scripts вашей операционной системы.
Шаг 2) Запустите репликацию SQL, выполнив следующие действия:
- Запустите startSQLCapture.bat (Windows) для запуска программы Capture в базе данных SALES.
- Запустите startSQLApply.bat (Windows) для запуска программы Apply в базе данных STAGEDB.
Шаг 3) Теперь откройте файл updateSourceTables.sql. Для подключения к базе данных SALES замените и с идентификатором пользователя и паролем.
Шаг 4) Откройте командное окно DB2. Измените каталог на sqlrepl-datastage-tutorial\scripts и запустите задачу с помощью данной команды:
db2 -tvf updateSourceTables.sql
Сценарий SQL будет выполнять различные операции, такие как обновление, вставка и удаление, в обеих таблицах (PRODUCT, INVENTORY) в базе данных продаж.
Шаг 5) В системе, где работает DataStage. Откройте DataStage Director и выполните задание STAGEDB_AQ00_S00_sequence. Нажмите «Задание» > «Выполнить сейчас».
При запуске задания будут выполнены следующие действия.
- Программа Capture считывает изменения из шести строк в журнале базы данных SALES и вставляет их в таблицы CD.
- Программа Apply извлекает строки изменений из таблиц CD в SALES и вставляет их в таблицы CCD в STAGEDB.
- Два задания извлечения DataStage извлекают изменения из таблиц CCD и записывают их в файлы Productdataset.ds и Inventory Dataset.ds.
Вы можете убедиться, что описанные выше шаги были выполнены, просмотрев наборы данных.
Шаг 6) Выполните следующие шаги,
- Запустите Designer. Откройте задание STAGEDB_ASN_PRODUCT_CCD_extract.
- Затем Double-щелкните значок Insert_into_a_dataset. В редакторе сцены. Нажмите «Просмотреть данные».
- Примите значения по умолчанию в строках, которые будут отображаться в окне, и нажмите «ОК».
Набор данных содержит три новые строки. Самый простой способ проверить, реализованы ли изменения, — прокрутить вниз вправо в браузере данных. Теперь посмотрите на последние три строки (см. изображение ниже).
Буквы I, U и D обозначают операции INSERT, UPDATE и DELETE, в результате которых создается каждая новая строка.
Вы можете выполнить ту же проверку для таблицы Inventory.
Итого
- Datastage — это Инструмент ETL который извлекает данные, преобразует и загружает данные из источника в цель.
- Это облегчает бизнес анализ предоставляя качественные данные, которые помогут получить бизнес-аналитику.
- DataStage разделен на два раздела: Общие компоненты и среда выполнения Archiтекстура.
- DataStage состоит из четырех основных компонентов:
- Администратора
- Менеджер
- UX/UI дизайнер
- директор
- Ниже приведены ключевые аспекты IBM Инфосфера DataStage
- Преобразование данных
- Джобс
- Параллельная обработка
- В разработке задания участвуют различные этапы.
- Этап трансформации
- Этап фильтра
- Стадия агрегатора
- Этап удаления дубликатов
- Присоединиться к сцене
- Этап поиска