Hướng dẫn DataStage cho người mới bắt đầu: IBM Đào tạo về DataStage (Công cụ ETL)

DataStage là gì?

Giai đoạn dữ liệu là một công cụ ETL được sử dụng để trích xuất, chuyển đổi và tải dữ liệu từ nguồn đến đích đích. Nguồn dữ liệu này có thể bao gồm các tệp tuần tự, tệp được lập chỉ mục, cơ sở dữ liệu quan hệ, nguồn dữ liệu bên ngoài, kho lưu trữ, ứng dụng doanh nghiệp, v.v. DataStage được sử dụng để tạo điều kiện phân tích kinh doanh bằng cách cung cấp dữ liệu chất lượng để giúp thu thập thông tin kinh doanh.

Công cụ DataStage ETL được sử dụng trong một tổ chức lớn như một giao diện giữa các hệ thống khác nhau. Nó đảm nhiệm việc trích xuất, dịch và tải dữ liệu từ nguồn đến đích đích. Nó được VMark ra mắt lần đầu tiên vào giữa những năm 90. Với IBM mua lại DataStage vào năm 2005, nó được đổi tên thành IBM WebSphere DataStage và sau đó IBM InfoSphere.

Các phiên bản khác nhau của Datastage có sẵn trên thị trường cho đến nay là Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft, v.v. Phiên bản mới nhất là IBM Giai đoạn dữ liệu của InfoSphere

IBM Máy chủ thông tin bao gồm các sản phẩm sau:

  • IBM Giai đoạn dữ liệu của InfoSphere
  • IBM Giai đoạn chất lượng của InfoSphere
  • IBM Giám đốc Dịch vụ Thông tin InfoSphere
  • IBM Trình phân tích thông tin InfoSphere
  • IBM Máy chủ thông tin FastTrack
  • IBM Thuật ngữ kinh doanh của InfoSphere

Tổng quan về DataStage

Datastage có các khả năng sau.

  • Nó có thể tích hợp dữ liệu từ phạm vi rộng nhất của các nguồn dữ liệu bên ngoài và doanh nghiệp
  • Thực hiện các quy tắc xác thực dữ liệu
  • Nó rất hữu ích trong việc xử lý và chuyển đổi lượng lớn dữ liệu
  • Nó sử dụng phương pháp xử lý song song có thể mở rộng
  • Nó có thể xử lý các chuyển đổi phức tạp và quản lý nhiều quy trình tích hợp
  • Tận dụng kết nối trực tiếp tới các ứng dụng doanh nghiệp làm nguồn hoặc mục tiêu
  • Tận dụng siêu dữ liệu để phân tích và bảo trì
  • Operates theo đợt, thời gian thực hoặc dưới dạng dịch vụ Web

Trong các phần sau của hướng dẫn DataStage này, chúng tôi sẽ mô tả ngắn gọn các khía cạnh sau của IBM Giai đoạn dữ liệu của InfoSphere:

  • Chuyển đổi dữ liệu
  • việc làm
  • Tiến trình song song

InfoSphere DataStage và QualityStage có thể truy cập dữ liệu trong các ứng dụng doanh nghiệp và nguồn dữ liệu như:

Các loại giai đoạn xử lý

IBM công việc của infosphere bao gồm các giai đoạn riêng lẻ được liên kết với nhau. Nó mô tả luồng dữ liệu từ nguồn dữ liệu đến đích dữ liệu. Thông thường, một giai đoạn có tối thiểu một dữ liệu đầu vào và/hoặc một dữ liệu đầu ra. Tuy nhiên, một số giai đoạn có thể chấp nhận nhiều hơn một dữ liệu đầu vào và đầu ra cho nhiều giai đoạn.

Trong Thiết kế công việc, các giai đoạn khác nhau bạn có thể sử dụng là:

  • giai đoạn chuyển đổi
  • Giai đoạn lọc
  • Giai đoạn tổng hợp
  • Loại bỏ giai đoạn trùng lặp
  • Tham gia sân khấu
  • Giai đoạn tra cứu
  • Giai đoạn sao chép
  • Giai đoạn sắp xếp
  • Container

Các thành phần DataStage và Archikiến trúc

DataStage có bốn thành phần chính là:

  1. Người quản lý: Nó được sử dụng cho các nhiệm vụ quản trị. Điều này bao gồm thiết lập người dùng DataStage, thiết lập tiêu chí thanh lọc cũng như tạo và di chuyển dự án.
  2. Quản lý: Đây là giao diện chính của Repository của ETL DataStage. Nó được sử dụng để lưu trữ và quản lý Siêu dữ liệu có thể tái sử dụng. Thông qua trình quản lý DataStage, người ta có thể xem và chỉnh sửa nội dung của Kho lưu trữ.
  3. Nhà thiết kế: Giao diện thiết kế được sử dụng để tạo các ứng dụng HOẶC công việc DataStage. Nó chỉ định nguồn dữ liệu, chuyển đổi cần thiết và đích đến của dữ liệu. Các công việc được biên dịch để tạo ra một tệp thực thi được Giám đốc lên lịch và được điều hành bởi Máy chủ
  4. Giám đốc: Nó được sử dụng để xác thực, lên lịch, thực thi và giám sát các công việc của máy chủ DataStage và các công việc song song.
giai đoạn dữ liệu Archisơ đồ kiến ​​trúc
giai đoạn dữ liệu Archisơ đồ kiến ​​trúc

Hình ảnh trên giải thích cách IBM Infosphere DataStage tương tác với các thành phần khác của IBM Nền tảng máy chủ thông tin. DataStage được chia thành hai phần, Các thành phần được chia sẻ và thời gian chạy Archikiến trúc.

   
Hoạt động

Chia sẻ

Giao diện người dùng hợp nhất

  • Giao diện thiết kế đồ họa được sử dụng để tạo các ứng dụng InfoSphere DataStage (được gọi là công việc).
  • Mỗi công việc xác định nguồn dữ liệu, các phép biến đổi cần thiết và đích đến của dữ liệu.
  • Các công việc được biên soạn để tạo ra các luồng công việc song song và các thành phần có thể tái sử dụng. Chúng được lên lịch và điều hành bởi InfoSphere DataStage và QualityStage Director.
  • Máy khách Designer quản lý siêu dữ liệu trong kho lưu trữ. Trong khi dữ liệu thực thi được biên dịch được triển khai trên tầng Công cụ Máy chủ Thông tin.

Dịch vụ chung

  • Các dịch vụ siêu dữ liệu như phân tích tác động và tìm kiếm
  • Các dịch vụ thiết kế hỗ trợ phát triển và duy trì các nhiệm vụ của InfoSphere DataStage
  • Các dịch vụ thực thi hỗ trợ tất cả các chức năng của InfoSphere DataStage

Xử lý song song chung

  • Công cụ này chạy các công việc thực thi nhằm trích xuất, chuyển đổi và tải dữ liệu trong nhiều cài đặt khác nhau.
  • Phương pháp tiếp cận chọn lọc động cơ gồm xử lý song song và đường ống để xử lý khối lượng công việc lớn.

Runtime Archikiến trúc

Tập lệnh ATVSLĐ

  • Phần này mô tả việc tạo OSH (tập lệnh Shell phối hợp) và luồng thực thi của IBM và dòng chảy của IBM Infosphere DataStage sử dụng công cụ Máy chủ thông tin
  • Nó cho phép bạn sử dụng các kỹ thuật trỏ và nhấp đồ họa để phát triển các luồng công việc nhằm trích xuất, làm sạch, chuyển đổi, tích hợp và tải dữ liệu vào các tệp mục tiêu.

Điều kiện tiên quyết cho Công cụ Datastage

Đối với DataStage, bạn sẽ cần thiết lập như sau.

  • không gian thông tin
  • Máy chủ DataStage 9.1.2 trở lên
  • Microsoft Visual Studio .NET 2010 Phiên bản Express C++
  • Oracle máy khách (máy khách đầy đủ, không phải máy khách tức thời) nếu kết nối với Oracle cơ sở dữ liệu
  • Máy khách DB2 nếu kết nối với cơ sở dữ liệu DB2

Bây giờ trong loạt bài hướng dẫn DataStage dành cho người mới bắt đầu này, chúng ta sẽ tìm hiểu cách tải xuống và cài đặt máy chủ thông tin InfoSphere.

Tải xuống và cài đặt Máy chủ thông tin InfoSphere

Để truy cập DataStage, hãy tải xuống và cài đặt phiên bản mới nhất của IBM Máy chủ InfoSphere. Máy chủ hỗ trợ AIX, Linux và Windows hệ điều hành. Bạn có thể lựa chọn theo yêu cầu.

Để di chuyển dữ liệu của bạn từ phiên bản cũ hơn của mạng thông tin sang phiên bản mới, hãy sử dụng công cụ trao đổi nội dung.

Cài đặt tập tin

Để cài đặt và cấu hình Infosphere Datastage, bạn phải có các tệp sau trong thiết lập của mình.

Trong cáp Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Đối với Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Luồng quy trình của Dữ liệu thay đổi trong Công việc ở giai đoạn giao dịch CDC

Quy trình xử lý dữ liệu thay đổi trong CDC

  1. Dịch vụ 'InfoSphere CDC' dành cho cơ sở dữ liệu sẽ giám sát và nắm bắt sự thay đổi từ cơ sở dữ liệu nguồn
  2. Theo định nghĩa sao chép “InfoSphere CDC” chuyển dữ liệu thay đổi sang “InfoSphere CDC cho InfoSphere DataStage”.
  3. Máy chủ “InfoSphere CDC dành cho InfoSphere DataStage” gửi dữ liệu đến “Giai đoạn giao dịch CDC” thông qua phiên TCP/IP. Máy chủ “InfoSphere CDC dành cho InfoSphere DataStage” cũng gửi thông báo COMMIT (cùng với thông tin dấu trang) để đánh dấu ranh giới giao dịch trong nhật ký đã ghi lại.
  4. Đối với mỗi thông báo COMMIT được gửi bởi máy chủ “InfoSphere CDC dành cho InfoSphere DataStage”, “Giai đoạn giao dịch CDC” tạo ra các điểm đánh dấu cuối sóng (EOW). Các điểm đánh dấu này được gửi trên tất cả các liên kết đầu ra đến giai đoạn kết nối cơ sở dữ liệu đích.
  5. Khi “giai đoạn kết nối cơ sở dữ liệu đích” nhận được điểm đánh dấu cuối sóng trên tất cả các liên kết đầu vào, nó sẽ ghi thông tin dấu trang vào bảng dấu trang và sau đó thực hiện giao dịch với cơ sở dữ liệu đích.
  6. Máy chủ “InfoSphere CDC dành cho InfoSphere DataStage” yêu cầu thông tin dấu trang từ bảng dấu trang trên “cơ sở dữ liệu đích”.
  7. Máy chủ “InfoSphere CDC dành cho InfoSphere DataStage” nhận thông tin Dấu trang.

Thông tin này được sử dụng để,

  • Xác định điểm bắt đầu trong nhật ký giao dịch nơi các thay đổi được đọc khi bắt đầu sao chép.
  • Để xác định xem nhật ký giao dịch hiện tại có thể được dọn sạch hay không

Thiết lập bản sao SQL

Trước khi bắt đầu với Datastage, bạn cần thiết lập cơ sở dữ liệu. Bạn sẽ tạo hai cơ sở dữ liệu DB2.

  • Một cái dùng làm nguồn sao chép và
  • Một là mục tiêu.

Bạn cũng sẽ tạo hai bảng (Sản phẩm và Hàng tồn kho) và điền dữ liệu mẫu vào chúng. Sau đó, bạn có thể kiểm tra sự tích hợp của mình giữa SQL Sao chép và Datastage.

Tiếp theo, bạn sẽ thiết lập bản sao SQL bằng cách tạo bảng điều khiển, bộ đăng ký, đăng ký và thành viên của bộ đăng ký. Chúng ta sẽ tìm hiểu thêm về điều này chi tiết hơn ở phần tiếp theo.

Ở đây chúng ta sẽ lấy một ví dụ về Mặt hàng bán lẻ làm cơ sở dữ liệu của mình và tạo hai bảng Hàng tồn kho và Sản phẩm. Các bảng này sẽ tải dữ liệu từ nguồn tới đích thông qua các bộ này. (bảng điều khiển, bộ đăng ký, đăng ký và thành viên của bộ đăng ký.)

Bước 1) Tạo một cơ sở dữ liệu nguồn được gọi là BÁN HÀNG. Trong cơ sở dữ liệu này, tạo hai bảng sản phẩmHàng tồn kho.

Bước 2) Chạy lệnh sau để tạo cơ sở dữ liệu SALES.

db2 create database SALES

Bước 3) Bật ghi nhật ký lưu trữ cho cơ sở dữ liệu SALES. Ngoài ra, hãy sao lưu cơ sở dữ liệu bằng cách sử dụng các lệnh sau

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Bước 4) Trong cùng dấu nhắc lệnh, hãy thay đổi thư mục con setupDB trong thư mục sqlrepl-datastage-tutorial mà bạn đã trích xuất từ ​​tệp nén đã tải xuống.

Thiết lập bản sao SQL

Bước 5) Sử dụng lệnh sau để tạo bảng Hàng tồn kho và nhập dữ liệu vào bảng bằng cách chạy lệnh sau.

nhập db2 từ Inventory.ixf của ixf tạo vào kho

Bước 6) Tạo một bảng mục tiêu. Đặt tên cơ sở dữ liệu đích là GIAI ĐOẠN.

Vì bây giờ bạn đã tạo cả nguồn và đích cơ sở dữ liệu, bước tiếp theo trong hướng dẫn DataStage này, chúng ta sẽ xem cách sao chép nó.

Những thông tin sau đây có thể hữu ích trong thiết lập nguồn dữ liệu ODBC.

Tạo các đối tượng sao chép SQL

Hình ảnh bên dưới cho thấy luồng dữ liệu thay đổi được phân phối từ cơ sở dữ liệu nguồn đến cơ sở dữ liệu đích như thế nào. Bạn tạo ánh xạ nguồn-đích giữa các bảng được gọi là thành viên nhóm đăng ký và nhóm các thành viên thành một đăng ký.

Tạo các đối tượng sao chép SQL

Đơn vị sao chép trong InfoSphere CDC (Thu thập dữ liệu thay đổi) được gọi là đăng ký.

  • Các thay đổi được thực hiện trong nguồn được ghi lại trong “Bảng điều khiển ghi lại” được gửi đến bảng CD và sau đó đến bảng mục tiêu. Trong khi chương trình áp dụng sẽ có thông tin chi tiết về hàng mà từ đó cần thực hiện thay đổi. Nó cũng sẽ tham gia bảng CD vào tập đăng ký.
  • Một đăng ký chứa các chi tiết ánh xạ chỉ định cách dữ liệu trong kho dữ liệu nguồn được áp dụng cho kho dữ liệu mục tiêu. Lưu ý, CDC hiện được gọi là Sao chép dữ liệu Infosphere.
  • Khi đăng ký được thực hiện, InfoSphere CDC sẽ ghi lại các thay đổi trên cơ sở dữ liệu nguồn. InfoSphere CDC cung cấp dữ liệu thay đổi cho mục tiêu và lưu trữ thông tin điểm đồng bộ trong bảng dấu trang trong cơ sở dữ liệu mục tiêu.
  • InfoSphere CDC sử dụng thông tin đánh dấu để theo dõi tiến trình của công việc InfoSphere DataStage.
  • Trong trường hợp thất bại, thông tin dấu trang sẽ được sử dụng làm điểm khởi động lại. Trong ví dụ của chúng tôi, ASN.IBMBảng SNAP_FEEDETL lưu trữ thông tin điểm đồng bộ liên quan đến DataStage được sử dụng để theo dõi tiến trình DataStage.

Trong phần này của IBM Hướng dẫn đào tạo DataStage, bạn phải làm những việc sau:

  • Tạo bảng KIỂM SOÁT CAPTURE và bảng KIỂM SOÁT ÁP DỤNG để lưu trữ các tùy chọn sao chép
  • Đăng ký bảng SẢN PHẨM và HÀNG TỒN KHO làm nguồn sao chép
  • Tạo một bộ đăng ký với hai thành viên
  • Tạo thành viên nhóm đăng ký và bảng CCD mục tiêu

Sử dụng chương trình dòng lệnh ASNCLP để thiết lập sao chép SQL

Bước 1) Xác định vị trí tệp tập lệnh crtCtlTablesCaptureServer.asnclp trong thư mục sqlrepl-datastage-tutorial/setupSQLRep.

Bước 2) Trong tập tin thay thế Và " ” với ID người dùng và mật khẩu của bạn để kết nối với cơ sở dữ liệu SALES.

Bước 3) Thay đổi thư mục thành thư mục sqlrepl-datastage-tutorial/setupSQLRep và chạy tập lệnh. Sử dụng lệnh sau. Lệnh sẽ kết nối với cơ sở dữ liệu SALES, tạo tập lệnh SQL để tạo bảng điều khiển Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Bước 4) Xác định vị trí tệp tập lệnh crtCtlTablesApplyCtlServer.asnclp trong cùng thư mục. Bây giờ thay thế hai trường hợp của Và " ” với ID người dùng và mật khẩu để kết nối với cơ sở dữ liệu STAGEDB.

Bước 5) Bây giờ trong dấu nhắc lệnh đó, hãy sử dụng lệnh sau để tạo bảng điều khiển áp dụng.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Bước 6) Xác định vị trí các tệp tập lệnh crtRegistration.asnclp và thay thế tất cả các phiên bản của với ID người dùng để kết nối với cơ sở dữ liệu SALES. Ngoài ra, hãy thay đổi “ ” vào mật khẩu kết nối.

Bước 7) Để đăng ký các bảng nguồn, hãy sử dụng tập lệnh sau. Là một phần của việc tạo đăng ký, chương trình ASNCLP sẽ tạo hai bảng CD. CDPRODUCT VÀ CDINVENTORY.

asnclp –f crtRegistration.asnclp

Lệnh CREATE REGISTRATION sử dụng các tùy chọn sau:

  • Làm mới khác biệt: Nó nhắc chương trình Áp dụng chỉ cập nhật bảng đích khi các hàng trong bảng nguồn thay đổi
  • Hình ảnh cả hai: Tùy chọn này được sử dụng để đăng ký giá trị trong cột nguồn trước khi thay đổi xảy ra và một cho giá trị sau khi thay đổi xảy ra.

Bước 8) Để kết nối với cơ sở dữ liệu đích (STAGEDB), hãy thực hiện theo các bước sau.

  • Tìm tệp crtTableSpaceApply.bat, mở nó trong trình soạn thảo văn bản
  • Thay thế Và với ID người dùng và mật khẩu
  • Trong cửa sổ lệnh DB2, nhập crtTableSpaceApply.bat và chạy tệp.
  • Tệp bó này tạo một vùng bảng mới trên cơ sở dữ liệu đích ( STAGEDB)

Bước 9) Xác định vị trí các tệp lệnh crtSubscriptionSetAndAddMembers.asnclp và thực hiện những thay đổi sau.

  • Thay thế tất cả các trường hợp của Và với ID người dùng và mật khẩu để kết nối với cơ sở dữ liệu SALES (nguồn).
  • Thay thế tất cả các trường hợp của Và với ID người dùng để kết nối với cơ sở dữ liệu STAGEDB (đích).

Sau khi thay đổi, hãy chạy tập lệnh để tạo bộ đăng ký (ST00) nhóm các bảng nguồn và bảng đích. Tập lệnh cũng tạo hai thành viên nhóm đăng ký và CCD (dữ liệu thay đổi nhất quán) trong cơ sở dữ liệu đích sẽ lưu trữ dữ liệu đã sửa đổi. Dữ liệu này sẽ được Infoosphere DataStage sử dụng.

Bước 10) Chạy tập lệnh để tạo nhóm đăng ký, thành viên nhóm đăng ký và bảng CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Các tùy chọn khác nhau được sử dụng để tạo bộ đăng ký và hai thành viên bao gồm

  • Hoàn thành tắt ngưng tụ
  • Bên ngoài
  • Tải loại nhập xuất
  • Thời gian liên tục

Bước 11) Do sự khiếm khuyết trong các công cụ quản trị nhân rộng. Bạn phải thực thi một tệp bó khác để đặt cột TARGET_CAPTURE_SCHEMA trong IBMBảng điều khiển SNAP_SUBS_SET thành null.

  • Xác định vị trí tệp updateTgtCapSchema.bat. Mở nó trong một trình soạn thảo văn bản. Thay thế Và với ID người dùng để kết nối với cơ sở dữ liệu STAGEDB.
  • Trong cửa sổ lệnh DB2, nhập lệnh updateTgtCapSchema.bat và thực thi tệp.

Tạo các tệp định nghĩa để ánh xạ các bảng CCD tới DataStage

Trước khi thực hiện sao chép ở bước tiếp theo, chúng ta cần kết nối bảng CCD với DataStage. Trong phần này, chúng ta sẽ xem cách kết nối SQL với DataStage.

Để kết nối bảng CCD với DataStage, bạn cần tạo các tệp định nghĩa Datastage (.dxs). Định dạng tệp .dsx được DataStage sử dụng để nhập và xuất định nghĩa công việc. Bạn sẽ sử dụng tập lệnh ASNCLP để tạo hai tệp .dsx. Ví dụ: ở đây chúng tôi đã tạo hai tệp .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: Tạo một chuỗi công việc chỉ đạo quy trình làm việc của bốn công việc song song.
  • stagedb_AQ00_SET00_pJobs.dsx : Tạo bốn công việc song song

Chương trình ASNCLP tự động ánh xạ cột CCD sang định dạng Cột Datastage. Nó chỉ được hỗ trợ khi ASNCLP chạy trên Windows, Linux hoặc Quy trình Unix.

Tệp định nghĩa để ánh xạ các bảng CCD tới DataStage

Công việc dữ liệu kéo các hàng từ bảng CCD.

  1. Một công việc thiết lập một điểm đồng bộ hóa nơi DataStage dừng lại khi trích xuất dữ liệu từ hai bảng. Công việc lấy thông tin này bằng cách chọn giá trị SYNCHPOINT cho bộ đăng ký ST00 từ IBMBảng SNAP_SUBS_SET và chèn nó vào cột MAX_SYNCHPOINT của IBMBảng SNAP_FEEDETL.
  2. Hai công việc trích xuất dữ liệu từ các bảng PRODUCT_CCD và INVENTORY_CCD. Các công việc biết những hàng nào để bắt đầu trích xuất bằng cách chọn các giá trị MIN_SYNCHPOINT và MAX_SYNCHPOINT từ IBMBảng SNAP_FEEDETL cho bộ đăng ký.

Bắt đầu sao chép

Để bắt đầu sao chép, bạn sẽ sử dụng các bước dưới đây. Khi các bảng CCD được điền dữ liệu, nó cho biết thiết lập sao chép đã được xác thực. Để xem dữ liệu được sao chép trong các bảng CCD đích, hãy sử dụng giao diện người dùng đồ họa của Trung tâm điều khiển DB2.

Bước 1) Đảm bảo rằng DB2 đang chạy nếu không thì hãy sử dụng bắt đầu db2 chỉ huy.

Bước 2) Sau đó sử dụng lệnh asncap từ lời nhắc của hệ điều hành để bắt đầu chụp chương trình. Ví dụ.

asncap capture_server=SALES

Lệnh trên chỉ định cơ sở dữ liệu SALES làm máy chủ Capture. Giữ cửa sổ lệnh mở trong khi quá trình chụp đang chạy.

Bước 3) Bây giờ hãy mở một dấu nhắc lệnh mới. Sau đó bắt đầu ÁP DỤNG chương trình bằng cách sử dụng lệnh asnaply.

asnapply control_server=STAGEDB apply_qual=AQ00

Bắt đầu sao chép

  • Lệnh chỉ định cơ sở dữ liệu STAGEDB làm máy chủ điều khiển Áp dụng (cơ sở dữ liệu chứa các bảng điều khiển Áp dụng)
  • AQ00 làm vòng loại Áp dụng (mã định danh cho bộ bảng kiểm soát này)

Để cửa sổ lệnh mở khi Áp dụng đang chạy.

Bước 4) Bây giờ hãy mở một dấu nhắc lệnh khác và đưa ra lệnh db2cc để khởi chạy Trung tâm điều khiển DB2. Chấp nhận Trung tâm điều khiển mặc định.

Bước 5) Bây giờ trong cây điều hướng bên trái, mở Tất cả cơ sở dữ liệu > STAGEDB rồi nhấp vào Bảng. Double click vào tên bảng (Product CCD) để mở bảng. Nó sẽ trông giống như thế này.

Bắt đầu sao chép

Tương tự như vậy, bạn cũng có thể mở bảng CCD cho INVENTORY.

Bắt đầu sao chép

Cách tạo dự án trong Datastage Tool

Trước hết, bạn sẽ tạo một Dự án trong DataStage. Để làm được điều đó, bạn phải là quản trị viên InfoSphere DataStage.

Sau khi cài đặt và sao chép hoàn tất, bạn cần tạo một dự án. Trong DataStage, dự án là một phương pháp tổ chức dữ liệu của bạn. Nó bao gồm việc xác định các tệp dữ liệu, các giai đoạn và xây dựng công việc trong một dự án cụ thể.

Để tạo một dự án trong DataStage, hãy làm theo các bước dưới đây:

Bước 1) Khởi chạy phần mềm DataStage

Khởi chạy Quản trị viên DataStage và QualityStage. Sau đó bấm Bắt đầu > Tất cả chương trình > IBM Máy chủ thông tin > IBM Quản trị viên WebSphere DataStage và QualityStage.

Bước 2) Kết nối máy chủ và máy khách DataStage

Để kết nối với máy chủ DataStage từ máy khách DataStage của bạn, hãy nhập các thông tin như Tên miền, ID người dùng, mật khẩu và thông tin máy chủ.

Bước 3) Thêm dự án mới

Trong cửa sổ Quản trị WebSphere DataStage. Nhấp vào tab Dự án rồi nhấp vào Thêm.

Bước 4) Nhập thông tin chi tiết về dự án

Trong cửa sổ Quản trị WebSphere DataStage, hãy nhập các thông tin chi tiết như

  1. Họ tên
  2. Vị trí của tập tin
  3. Nhấp vào 'OK'

Tạo dự án trong Datastage Tool

Mỗi dự án có chứa:

  • Việc làm DataStage
  • Các thành phần tích hợp. Đây là những thành phần được xác định trước được sử dụng trong một công việc.
  • Các thành phần do người dùng xác định. Đây là các thành phần tùy chỉnh được tạo bằng DataStage Manager hoặc DataStage Designer.

Chúng ta sẽ xem cách nhập các công việc sao chép trong Datastage Infoosphere.

Cách nhập công việc sao chép trong Datastage và QualityStage Designer

Bạn sẽ nhập công việc vào IBM Máy khách InfoSphere DataStage và QualityStage Designer. Và bạn thực hiện chúng trong IBM Máy khách InfoSphere DataStage và QualityStage Director.

Nhà thiết kế-khách hàng giống như một trang giấy trắng để xây dựng công việc. Nó trích xuất, chuyển đổi, tải và kiểm tra chất lượng dữ liệu. Nó cung cấp các công cụ tạo thành các khối xây dựng cơ bản của một công việc. Nó bao gồm

  • Các giai đoạn: Nó kết nối với các nguồn dữ liệu để đọc hoặc ghi tệp và xử lý dữ liệu.
  • Liên kết: Nó kết nối các giai đoạn mà dữ liệu của bạn chảy qua

Các giai đoạn trong ứng dụng khách InfoSphere DataStage và QualityStage Designer được lưu trữ trong bảng công cụ Designer.

Các giai đoạn sau đây được bao gồm trong InfoSphere QualityStage:

  • Giai đoạn điều tra
  • Chuẩn hóa giai đoạn
  • Giai đoạn tần số trận đấu
  • Giai đoạn trận đấu một nguồn
  • Giai đoạn trận đấu hai nguồn
  • Giai đoạn sống sót
  • Giai đoạn đánh giá chất lượng tiêu chuẩn hóa (SQA)

Bạn có thể tạo 4 loại Công việc trong mạng lưới thông tin DataStage.

  • Công việc song song
  • Trình tự công việc
  • Công việc máy tính lớn
  • Công việc máy chủ

Chúng ta hãy xem từng bước cách nhập tệp công việc sao chép.

Bước 1) Khởi động DataStage và QualityStage Designer. Nhấp vào Bắt đầu > Tất cả chương trình > IBM Máy chủ thông tin > IBM WebSphere DataStage và QualityStage Designer

Bước 2) Trong cửa sổ Đính kèm vào Dự án, hãy nhập các thông tin chi tiết sau.

  • miền
  • Tên người dùng
  • Mật khẩu
  • Tên Dự Án
  • OK

Nhập công việc sao chép trong Datastage và QualityStage

Bước 3) Bây giờ từ menu Tệp, hãy nhấp vào nhập -> Thành phần DataStage.

Một cửa sổ Nhập kho lưu trữ DataStage mới sẽ mở ra.

  1. Trong cửa sổ này duyệt STAGEDB_AQ00_ST00_sJobs.dsx tập tin mà chúng tôi đã tạo trước đó
  2. Chọn tùy chọn “Nhập tất cả”.
  3. Đánh dấu vào ô “Thực hiện Phân tích tác động”.
  4. Nhấp vào 'OK.'

Nhập công việc sao chép trong Datastage và QualityStage

Sau khi công việc được nhập, DataStage sẽ tạo công việc STAGEDB_AQ00_ST00_sequence.

Bước 4) Thực hiện theo các bước tương tự để nhập Tệp STAGEDB_AQ00_ST00_pJobs.dsx. Việc nhập này tạo ra bốn công việc song song.

Bước 5) Trong ngăn Kho lưu trữ của nhà thiết kế -> Mở thư mục SQLREP. Bên trong thư mục, bạn sẽ thấy Công việc theo trình tự và bốn công việc song song.

Nhập công việc sao chép trong Datastage và QualityStage

Bước 6) Để xem trình tự công việc. Đi tới cây kho lưu trữ, nhấp chuột phải vào công việc STAGEDB_AQ00_ST00_sequence và nhấp vào Chỉnh sửa. Nó sẽ hiển thị quy trình làm việc của bốn công việc song song mà trình tự công việc kiểm soát.

Nhập công việc sao chép trong Datastage và QualityStage

Mỗi biểu tượng là một sân khấu

  • giai đoạn getExtractRange: Nó cập nhật IBMBảng SNAP_FEEDETL. Nó sẽ đặt điểm bắt đầu để trích xuất dữ liệu đến điểm mà DataStage trích xuất các hàng lần cuối và đặt điểm kết thúc cho giao dịch cuối cùng được xử lý cho nhóm đăng ký.
  • getExtractRangeThành công: Giai đoạn này cung cấp điểm bắt đầu cho giai đoạn extractFromINVENTORY_CCD và giai đoạn extractFromproduct_CCD
  • AllExtractsThành công: Giai đoạn này đảm bảo rằng cả extractFromINVENTORY_CCD và extractFromPRODUCT_CCD đều hoàn thành thành công. Sau đó chuyển các điểm đồng bộ cho các hàng cuối cùng đã được lấy đến giai đoạn setRangeProcessed.
  • giai đoạn setRangeProcessed: Nó cập nhật IBMBảng SNAP_FEEDETL. Vì vậy, DataStage biết bắt đầu vòng trích xuất dữ liệu tiếp theo từ đâu

Bước 7) Để xem các công việc song song. Nhấp chuột phải vào STAGEDB_ASN_INVENTORY_CCD và chọn chỉnh sửa trong kho lưu trữ. Nó sẽ mở cửa sổ như hình dưới đây.

Nhập công việc sao chép trong Datastage và QualityStage

Ở đây trong hình ảnh trên, bạn có thể thấy rằng dữ liệu từ bảng Inventory CCD và SyncChi tiết điểm h từ bảng FEEDETL được hiển thị ở giai đoạn Lookup_6.

Tạo kết nối dữ liệu từ DataStage đến cơ sở dữ liệu STAGEDB

Bây giờ, bước tiếp theo là xây dựng kết nối dữ liệu giữa InfoSphere DataStage và cơ sở dữ liệu đích Bản sao SQL. Nó chứa các bảng CCD.

Trong DataStage, bạn sử dụng các đối tượng kết nối dữ liệu với các giai đoạn kết nối liên quan để nhanh chóng xác định kết nối với nguồn dữ liệu trong thiết kế công việc.

Bước 1) STAGEDB chứa cả bảng điều khiển Apply mà DataStage sử dụng để đồng bộ hóa việc trích xuất dữ liệu và các bảng CCD mà dữ liệu được trích xuất. Sử dụng các lệnh sau

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Lưu ý: Địa chỉ IP của hệ thống nơi STAGEDB được tạo

Bước 2) Bấm vào Tệp > Mới > Khác > Kết nối dữ liệu.

Bước 3) Bạn sẽ có một cửa sổ có hai tab, Tham số và Chung.

Kết nối dữ liệu từ DataStage đến cơ sở dữ liệu STAGEDB

Bước 4) Trong bước này,

  1. Nói chung là tab, đặt tên kết nối dữ liệu sqlreplConnect
  2. Trong tab Tham số, như hiển thị bên dưới
  • Nhấp vào nút duyệt bên cạnh 'Kết nối bằng trường Loại giai đoạn' và trong
  • Mở cửa sổ điều hướng cây kho lưu trữ đến Loại giai đoạn -> Song song– > Cơ sở dữ liệu ---> Trình kết nối DB2.
  • Nhấp vào Mở.

Kết nối dữ liệu từ DataStage đến cơ sở dữ liệu STAGEDB

Bước 5) Trong bảng tham số kết nối, nhập các chi tiết như

  • Chuỗi kết nối: GIAI ĐOẠNDB2
  • Tên đăng nhập (Username): ID người dùng để kết nối với cơ sở dữ liệu STAGEDB
  • Mật khẩu: Mật khẩu để kết nối với cơ sở dữ liệu STAGEDB
  • Sơ thẩm: Tên của phiên bản DB2 chứa cơ sở dữ liệu STAGEDB

Bước 6) Trong cửa sổ tiếp theo lưu kết nối dữ liệu. Nhấp vào nút 'lưu'.

Nhập định nghĩa bảng từ STAGEDB vào DataStage

Ở bước trước, chúng ta đã thấy InfoSphere DataStage và cơ sở dữ liệu STAGEDB được kết nối. Bây giờ, hãy nhập định nghĩa cột và siêu dữ liệu khác cho các bảng product_CCD và INVENTORY_CCD vào kho lưu trữ của Máy chủ Thông tin.

Trong cửa sổ thiết kế, hãy làm theo các bước dưới đây.

Bước 1) Chọn Nhập > Định nghĩa bảng > Bắt đầu trình hướng dẫn nhập trình kết nối

Bước 2) Từ trang lựa chọn trình kết nối của trình hướng dẫn, chọn Trình kết nối DB2 và nhấp vào Tiếp theo.

Nhập định nghĩa bảng từ STAGEDB vào DataStage

Bước 3) Nhấp vào tải trên trang chi tiết kết nối. Thao tác này sẽ điền vào các trường trình hướng dẫn thông tin kết nối từ kết nối dữ liệu mà bạn đã tạo ở chương trước.

Nhập định nghĩa bảng từ STAGEDB vào DataStage

Bước 4) Nhấp vào Kiểm tra kết nối trên cùng một trang. Điều này sẽ nhắc DataStage thử kết nối với cơ sở dữ liệu STAGEDB. Bạn có thể thấy thông báo “kết nối thành công”. Bấm tiếp.

Nhập định nghĩa bảng từ STAGEDB vào DataStage

Bước 5) Đảm bảo trên trang Vị trí nguồn dữ liệu, các trường Tên máy chủ và Tên cơ sở dữ liệu được điền chính xác. Sau đó bấm vào tiếp theo.

Bước 6) Trên trang Lược đồ. Nhập lược đồ của Áp dụng bảng điều khiển (ASN) hoặc kiểm tra xem lược đồ ASN có được điền trước vào trường lược đồ hay không. Sau đó bấm vào tiếp theo. Trang lựa chọn sẽ hiển thị danh sách các bảng được xác định trong Lược đồ ASN.

Nhập định nghĩa bảng từ STAGEDB vào DataStage

Bước 7) Bảng đầu tiên mà chúng ta cần nhập siêu dữ liệu là IBMSNAP_FEEDETL, một bảng điều khiển Apply. Nó có thông tin chi tiết về các điểm đồng bộ hóa cho phép DataStage theo dõi những hàng nào đã lấy từ các bảng CCD. Chọn IBMSNAP_FEEDETL và nhấp vào Tiếp theo.

Bước 8) Để hoàn tất việc nhập khẩu IBMĐịnh nghĩa bảng SNAP_FEEDETL. Nhấp vào nhập và sau đó trong cửa sổ mở, nhấp vào mở.

Bước 9) Lặp lại các bước 1-8 thêm hai lần nữa để nhập định nghĩa cho bảng product_CCD và sau đó là bảng INVENTORY_CCD.

LƯU Ý: Trong khi nhập định nghĩa cho khoảng không quảng cáo và sản phẩm, hãy đảm bảo bạn thay đổi lược đồ từ ASN sang lược đồ trong đó product_CCD và INVENTORY_CCD được tạo.

Bây giờ DataStage có đầy đủ thông tin chi tiết cần thiết để kết nối với cơ sở dữ liệu đích SQL Replication.

Đặt thuộc tính cho công việc DataStage

Đối với mỗi công việc trong số bốn công việc song song DataStage mà chúng tôi có, nó chứa một hoặc nhiều giai đoạn kết nối với cơ sở dữ liệu STAGEDB. Bạn cần sửa đổi các giai đoạn để thêm thông tin kết nối và liên kết đến các tệp dữ liệu mà DataStage điền vào.

Các giai đoạn có các thuộc tính được xác định trước có thể chỉnh sửa được. Ở đây chúng tôi sẽ thay đổi một số thuộc tính này cho công việc song song STAGEDB_ASN_product_CCD_extract.

Bước 1) Duyệt cây kho lưu trữ của Designer. Trong thư mục SQLREP, chọn công việc song song STAGEDB_ASN_PROD_CCD_extract. Để chỉnh sửa, nhấp chuột phải vào công việc. Cửa sổ thiết kế của công việc song song sẽ mở ra trong Designer Palette.

Bước 2) Xác định vị trí biểu tượng màu xanh lá cây. Biểu tượng này biểu thị giai đoạn kết nối DB2. Nó được sử dụng để trích xuất dữ liệu từ bảng CCD. Double-nhấp vào biểu tượng. Một cửa sổ soạn thảo giai đoạn sẽ mở ra.

Đặt thuộc tính cho công việc DataStage

Đặt thuộc tính cho công việc DataStage

Bước 3) Trong trình chỉnh sửa, nhấp vào Tải để điền thông tin kết nối vào các trường. Để đóng trình chỉnh sửa giai đoạn và lưu các thay đổi của bạn, hãy nhấp vào OK.

Bước 4) Bây giờ hãy quay lại cửa sổ thiết kế cho công việc song song STAGEDB_ASN_PROD_CCD_extract. Xác định vị trí biểu tượng để nhậnSyncGiai đoạn kết nối DB2 hPoints. Sau đó nhấp đúp vào biểu tượng.

Bước 5) Bây giờ hãy nhấp vào nút tải để điền thông tin kết nối vào các trường.

LƯU Ý: Nếu bạn đang sử dụng cơ sở dữ liệu không phải STAGEDB làm máy chủ điều khiển Áp dụng. Sau đó chọn tùy chọn tải thông tin kết nối để nhậnSyncGiai đoạn hPoints, tương tác với các bảng điều khiển hơn là bảng CCD.

Bước 6) Trong bước này,

  • Tạo một tệp văn bản trống trên hệ thống nơi InfoSphere DataStage chạy.
  • Đặt tên tệp này là Productdataset.ds và ghi lại nơi bạn đã lưu nó.
  • DataStage sẽ ghi các thay đổi vào tệp này sau khi nó tìm nạp các thay đổi từ bảng CCD.
  • Các tập dữ liệu hoặc tệp được sử dụng để di chuyển dữ liệu giữa các công việc được liên kết được gọi là tập dữ liệu liên tục. Nó được thể hiện bằng một giai đoạn DataSet.

Bước 7) Bây giờ hãy mở trình chỉnh sửa giai đoạn trong cửa sổ thiết kế và nhấp đúp vào biểu tượng insert_into_a_dataset. Nó sẽ mở một cửa sổ khác.

Đặt thuộc tính cho công việc DataStage

Bước 8) Trong cửa sổ này,

Đặt thuộc tính cho công việc DataStage

  • Trong tab thuộc tính, đảm bảo Target thư mục đang mở và thuộc tính File = DATASETNAME được tô sáng.
  • Ở bên phải, bạn sẽ có trường tệp
  • Nhập đường dẫn đầy đủ tới file Productdataset.ds
  • Nhấp vào 'OK'.

Bây giờ bạn đã cập nhật tất cả các thuộc tính cần thiết cho bảng CCD của sản phẩm. Đóng cửa sổ thiết kế và lưu tất cả các thay đổi.

Bước 9) Bây giờ hãy xác định và mở công việc song song STAGEDB_ASN_INVENTORY_CCD_extract từ ngăn kho lưu trữ của Trình thiết kế và lặp lại các Bước 3-8.

LƯU Ý:

  • Bạn phải tải thông tin kết nối cho cơ sở dữ liệu máy chủ điều khiển vào trình chỉnh sửa giai đoạn để nhậnSyncgiai đoạn hPoints. Nếu máy chủ điều khiển của bạn không phải là STAGEDB.
  • Đối với các công việc song song STAGEDB_ST00_AQ00_getExtractRange và STAGEDB_ST00_AQ00_markRangeProcessed, hãy mở tất cả các giai đoạn của trình kết nối DB2. Sau đó sử dụng hàm nạp để thêm thông tin kết nối cho cơ sở dữ liệu STAGEDB

Biên dịch và chạy các công việc DataStage

Khi công việc DataStage đã sẵn sàng để biên dịch, Nhà thiết kế sẽ xác thực thiết kế của công việc bằng cách xem xét các đầu vào, chuyển đổi, biểu thức và các chi tiết khác.

Khi quá trình biên dịch công việc được thực hiện thành công, nó đã sẵn sàng để chạy. Chúng tôi sẽ tổng hợp tất cả năm công việc, nhưng sẽ chỉ chạy “chuỗi công việc”. Điều này là do công việc này kiểm soát tất cả bốn công việc song song.

Bước 1) Trong thư mục SQLREP. Chọn từng công việc trong số năm công việc bằng (Cntrl+Shift). Sau đó nhấp chuột phải và chọn tùy chọn Biên dịch nhiều công việc.

Biên dịch và chạy các công việc DataStage

Bước 2) Bạn sẽ thấy năm công việc được chọn trong DataStage Compilation Wizard. Bấm tiếp.

Biên dịch và chạy các công việc DataStage

Bước 3) Quá trình biên dịch bắt đầu và hiển thị thông báo “Đã biên dịch thành công” sau khi hoàn tất.

Biên dịch và chạy các công việc DataStage

Bước 4) Bây giờ hãy khởi động DataStage và QualityStage Director. Chọn Bắt đầu > Tất cả chương trình > IBM Máy chủ thông tin > IBM WebSphere DataStage và Giám đốc QualityStage.

Bước 5) Trong ngăn điều hướng dự án ở bên trái. Bấm vào thư mục SQLREP. Điều này đưa tất cả năm công việc vào bảng trạng thái giám đốc.

Bước 6) Chọn công việc STAGEDB_AQ00_S00_sequence. Từ thanh menu, nhấp vào Công việc > Chạy ngay.

Biên dịch và chạy các công việc DataStage

Sau khi biên dịch xong, bạn sẽ thấy trạng thái hoàn thành.

Biên dịch và chạy các công việc DataStage

Bây giờ hãy kiểm tra xem các hàng đã thay đổi được lưu trữ trong bảng product_CCD và INVENTORY_CCD có được DataStage trích xuất và chèn vào hai tệp tập dữ liệu hay không.

Bước 7) Quay lại Trình thiết kế và mở công việc STAGEDB_ASN_product_CCD_extract. Để mở trình chỉnh sửa giai đoạn Double-nhấp vào biểu tượng Insert_into_a_dataset. Sau đó nhấn xem dữ liệu.

Bước 8) Chấp nhận các giá trị mặc định trong các hàng sẽ được hiển thị trong cửa sổ. Sau đó nhấn OK. Một cửa sổ trình duyệt dữ liệu sẽ mở ra để hiển thị nội dung của tệp tập dữ liệu.

Biên dịch và chạy các công việc DataStage

Kiểm tra sự tích hợp giữa bản sao SQL và DataStage

Ở bước trước, chúng tôi đã biên dịch và thực hiện công việc. Trong phần này, chúng tôi sẽ kiểm tra sự tích hợp của bản sao SQL và DataStage. Để làm được điều đó, chúng tôi sẽ thực hiện các thay đổi đối với bảng nguồn và xem liệu thay đổi tương tự có được cập nhật vào DataStage hay không.

Bước 1) Điều hướng đến thư mục sqlrepl-datastage-scripts cho hệ điều hành của bạn.

Bước 2) Bắt đầu SQL Replication theo các bước sau:

  • Chạy startSQLCapture.bat (Windows) để khởi động chương trình Capture tại cơ sở dữ liệu SALES.
  • Chạy startSQLApply.bat (Windows) để khởi động chương trình Áp dụng tại cơ sở dữ liệu STAGEDB.

Bước 3) Bây giờ hãy mở tệp updateSourceTables.sql. Để kết nối với cơ sở dữ liệu SALES thay thế Và với ID người dùng và mật khẩu.

Bước 4) Mở cửa sổ lệnh DB2. Thay đổi thư mục thành sqlrepl-datastage-tutorial\scripts và chạy vấn đề bằng lệnh đã cho:

db2 -tvf updateSourceTables.sql

Tập lệnh SQL sẽ thực hiện nhiều thao tác khác nhau như Cập nhật, Chèn và xóa trên cả hai bảng (SẢN PHẨM, HÀNG KHO) trong cơ sở dữ liệu Bán hàng.

Bước 5) Trên hệ thống nơi DataStage đang chạy. Mở DataStage Director và thực hiện công việc STAGEDB_AQ00_S00_sequence. Bấm vào Công việc > Chạy ngay.

Tích hợp giữa bản sao SQL và DataStage

Khi bạn chạy công việc, các hoạt động sau sẽ được thực hiện.

  • Chương trình Capture đọc các thay đổi sáu hàng trong nhật ký cơ sở dữ liệu SALES và chèn chúng vào bảng CD.
  • Chương trình Áp dụng tìm nạp các hàng thay đổi từ các bảng CD tại SALES và chèn chúng vào các bảng CCD tại STAGEDB.
  • Hai công việc trích xuất DataStage nhận các thay đổi từ các bảng CCD và ghi chúng vào các tệp datadataset.ds và Inventorydata.ds.

Bạn có thể kiểm tra xem các bước trên đã diễn ra hay chưa bằng cách xem các tập dữ liệu.

Bước 6) Làm theo các bước dưới đây,

  • Khởi động Trình thiết kế.Mở công việc STAGEDB_ASN_product_CCD_extract.
  • Sau đó Double-nhấp vào biểu tượng Insert_into_a_dataset. Trong trình chỉnh sửa sân khấu. Nhấp vào Xem dữ liệu.
  • Chấp nhận các giá trị mặc định trong cửa sổ các hàng sẽ được hiển thị và nhấp vào OK.

Tập dữ liệu chứa ba hàng mới. Cách dễ nhất để kiểm tra các thay đổi được thực hiện là cuộn xuống phía bên phải của Trình duyệt dữ liệu. Bây giờ hãy nhìn vào ba hàng cuối cùng (xem hình ảnh bên dưới)

Tích hợp giữa bản sao SQL và DataStage

Chữ cái I, U và D chỉ định thao tác INSERT, UPDATE và DELETE dẫn đến mỗi hàng mới.

Bạn có thể thực hiện kiểm tra tương tự cho bảng Inventory.

Tổng kết

  • Datastage là một Công cụ ETL trích xuất dữ liệu, chuyển đổi và tải dữ liệu từ nguồn đến đích.
  • Nó tạo điều kiện thuận lợi phân tích kinh doanh bằng cách cung cấp dữ liệu chất lượng để giúp đạt được thông tin kinh doanh.
  • DataStage được chia thành hai phần, Các thành phần được chia sẻ và thời gian chạy Archikiến trúc.
  • DataStage có bốn thành phần chính,
  • Quản trị
  • Quản Lý
  • nhà thiết kế
  • Giám đốc
  • Sau đây là những khía cạnh chính của IBM Giai đoạn dữ liệu của InfoSphere
  • Chuyển đổi dữ liệu
  • việc làm
  • Tiến trình song song
  • Trong thiết kế công việc, có nhiều giai đoạn liên quan
  • giai đoạn chuyển đổi
  • Giai đoạn lọc
  • Giai đoạn tổng hợp
  • Loại bỏ giai đoạn trùng lặp
  • Tham gia sân khấu
  • Giai đoạn tra cứu