บทช่วยสอน DataStage สำหรับผู้เริ่มต้น: IBM การฝึกอบรม DataStage (เครื่องมือ ETL)
DataStage คืออะไร?
DataStage เป็นเครื่องมือ ETL ที่ใช้ในการแยก แปลง และโหลดข้อมูลจากแหล่งที่มาสู่ปลายทาง แหล่งที่มาของข้อมูลเหล่านี้อาจรวมถึงไฟล์แบบลำดับ ไฟล์ที่สร้างดัชนี ฐานข้อมูลเชิงสัมพันธ์ แหล่งข้อมูลภายนอก ไฟล์เก็บถาวร แอปพลิเคชันองค์กร เป็นต้น DataStage ใช้เพื่ออำนวยความสะดวกในการวิเคราะห์ธุรกิจโดยให้ข้อมูลที่มีคุณภาพเพื่อช่วยในการรับข้อมูลเชิงลึกทางธุรกิจ
เครื่องมือ DataStage ETL ใช้ในองค์กรขนาดใหญ่เป็นอินเทอร์เฟซระหว่างระบบต่างๆ ดูแลการแยก การแปล และการโหลดข้อมูลจากต้นทางไปยังปลายทางเป้าหมาย เปิดตัวครั้งแรกโดย VMark ในช่วงกลางทศวรรษที่ 90 กับ IBM การได้รับ DataStage ในปี 2005 และได้เปลี่ยนชื่อเป็น IBM WebSphere DataStage และใหม่กว่า IBM อินโฟสเฟียร์.
Datastage เวอร์ชันต่างๆ ที่มีจำหน่ายในตลาดจนถึงตอนนี้ ได้แก่ Enterprise Edition (PX), Server Edition, MVS Edition, DataStage สำหรับ PeopleSoft และอื่นๆ ฉบับล่าสุดคือ IBM อินโฟสเฟียร์ ดาต้าสเตจ
IBM เซิร์ฟเวอร์ข้อมูลประกอบด้วยผลิตภัณฑ์ต่อไปนี้
- IBM อินโฟสเฟียร์ ดาต้าสเตจ
- IBM เวทีคุณภาพอินโฟสเฟียร์
- IBM ผู้อำนวยการฝ่ายบริการข้อมูล InfoSphere
- IBM เครื่องวิเคราะห์ข้อมูล InfoSphere
- IBM ข้อมูลเซิร์ฟเวอร์ FastTrack
- IBM อภิธานศัพท์ธุรกิจ InfoSphere
ภาพรวม DataStage
Datastage มีความสามารถดังต่อไปนี้
- สามารถรวมข้อมูลจากแหล่งข้อมูลองค์กรและแหล่งข้อมูลภายนอกที่หลากหลายที่สุด
- ใช้กฎการตรวจสอบข้อมูล
- มีประโยชน์ในการประมวลผลและแปลงข้อมูลจำนวนมาก
- ใช้วิธีการประมวลผลแบบขนานที่ปรับขนาดได้
- สามารถจัดการการเปลี่ยนแปลงที่ซับซ้อนและจัดการกระบวนการบูรณาการหลาย ๆ อย่างได้
- ใช้ประโยชน์จากการเชื่อมต่อโดยตรงกับแอปพลิเคชันระดับองค์กรเป็นแหล่งที่มาหรือเป้าหมาย
- ใช้ประโยชน์จากข้อมูลเมตาสำหรับการวิเคราะห์และการบำรุงรักษา
- Operates เป็นกลุ่ม เรียลไทม์ หรือเป็นบริการบนเว็บ
ในส่วนต่อไปนี้ของบทช่วยสอน DataStage นี้ เราจะอธิบายประเด็นต่อไปนี้โดยย่อ IBM อินโฟสเฟียร์ ดาต้าสเตจ:
- การแปลงข้อมูล
- งาน
- การประมวลผลแบบขนาน
InfoSphere DataStage และ QualityStage สามารถเข้าถึงข้อมูลในแอปพลิเคชันระดับองค์กรและแหล่งข้อมูล เช่น:
- ฐานข้อมูลเชิงสัมพันธ์
- ฐานข้อมูลเมนเฟรม
- แอปพลิเคชันทางธุรกิจและการวิเคราะห์
- การวางแผนทรัพยากรองค์กร (ERP) หรือฐานข้อมูลการจัดการลูกค้าสัมพันธ์ (CRM)
- การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) หรือฐานข้อมูลการจัดการประสิทธิภาพ
ประเภทขั้นตอนการประมวลผล
IBM งานอินโฟสเฟียร์ประกอบด้วยแต่ละขั้นตอนที่เชื่อมโยงเข้าด้วยกัน โดยอธิบายการไหลของข้อมูลจากแหล่งข้อมูลไปยังเป้าหมายข้อมูล โดยปกติแล้ว สเตจจะมีอินพุตข้อมูลอย่างน้อยหนึ่งรายการและ/หรือเอาต์พุตข้อมูลหนึ่งรายการ อย่างไรก็ตาม บางขั้นตอนสามารถรับอินพุตและเอาต์พุตข้อมูลได้มากกว่าหนึ่งรายการไปยังมากกว่าหนึ่งขั้นตอน
ในการออกแบบงาน ขั้นตอนต่างๆ ที่คุณสามารถใช้ได้ ได้แก่:
- เวทีแปลงร่าง
- ขั้นตอนการกรอง
- เวทีผู้รวบรวม
- ลบขั้นตอนที่ซ้ำกัน
- เข้าร่วมเวที
- ขั้นตอนการค้นหา
- ขั้นตอนการคัดลอก
- ขั้นตอนการเรียงลำดับ
- ภาชนะบรรจุ
ส่วนประกอบ DataStage และ Archiเทคเจอร์
DataStage มีองค์ประกอบหลัก 4 ส่วนคือ
- ผู้ดูแลระบบ: ใช้สำหรับงานธุรการ ซึ่งรวมถึงการตั้งค่าผู้ใช้ DataStage การตั้งค่าการลบล้างเกณฑ์ และการสร้างและการย้ายโปรเจ็กต์
- ผู้จัดการ: เป็นอินเทอร์เฟซหลักของ Repository ของ ETL DataStage ใช้สำหรับการจัดเก็บและการจัดการเมตาดาต้าที่นำมาใช้ซ้ำได้ ผ่านตัวจัดการ DataStage เราสามารถดูและแก้ไขเนื้อหาของ Repository ได้
- ผู้ออกแบบ: อินเทอร์เฟซการออกแบบที่ใช้ในการสร้างแอปพลิเคชัน DataStage หรืองาน โดยจะระบุแหล่งข้อมูล การเปลี่ยนแปลงที่จำเป็น และปลายทางของข้อมูล งานถูกคอมไพล์เพื่อสร้างปฏิบัติการที่ Director กำหนดไว้และรันโดยเซิร์ฟเวอร์
- ผู้อำนวยการ: ใช้เพื่อตรวจสอบ กำหนดเวลา ดำเนินการ และตรวจสอบงานเซิร์ฟเวอร์ DataStage และงานแบบขนาน
ภาพด้านบนจะอธิบายวิธีการ IBM Infosphere DataStage โต้ตอบกับองค์ประกอบอื่นๆ ของ IBM แพลตฟอร์มเซิร์ฟเวอร์ข้อมูล DataStage แบ่งออกเป็น 2 ส่วน คือ คอมโพเนนต์ที่ใช้ร่วมกันและรันไทม์ Archiเทคเจอร์.
ที่ใช้ร่วมกัน |
ส่วนต่อประสานผู้ใช้แบบรวม |
|
บริการทั่วไป |
|
|
การประมวลผลแบบขนานทั่วไป |
|
|
Runtime Archiเทคเจอร์ |
สคริปต์ OSH |
|
ข้อกำหนดเบื้องต้นสำหรับ Datastage Tool
สำหรับ DataStage คุณจะต้องมีการตั้งค่าต่อไปนี้
- อินโฟสเฟียร์
- เซิร์ฟเวอร์ DataStage 9.1.2 หรือสูงกว่า
- Microsoft Visual Studio .NET 2010 รุ่น Express C++
- Oracle ไคลเอนต์ (ไคลเอนต์แบบเต็ม ไม่ใช่ไคลเอนต์ทันที) หากเชื่อมต่อกับ Oracle ฐานข้อมูล
- ไคลเอนต์ DB2 หากเชื่อมต่อกับฐานข้อมูล DB2
ในซีรีส์บทช่วยสอน DataStage สำหรับผู้เริ่มต้น เราจะเรียนรู้วิธีดาวน์โหลดและติดตั้งเซิร์ฟเวอร์ข้อมูล InfoSphere
ดาวน์โหลดและติดตั้งเซิร์ฟเวอร์ข้อมูล InfoSphere
หากต้องการเข้าถึง DataStage ให้ดาวน์โหลดและติดตั้งเวอร์ชันล่าสุดของ IBM เซิร์ฟเวอร์อินโฟสเฟียร์ เซิร์ฟเวอร์สนับสนุน AIX, Linux และ Windows ระบบปฏิบัติการ สามารถเลือกใช้งานได้ตามความต้องการ
หากต้องการย้ายข้อมูลของคุณจากอินโฟสเฟียร์เวอร์ชันเก่าไปเป็นเวอร์ชันใหม่ ให้ใช้เครื่องมือการแลกเปลี่ยนสินทรัพย์
ไฟล์การติดตั้ง
เพื่อติดตั้งและกำหนดค่า Infosphere Datastage คุณต้องมีไฟล์ต่อไปนี้ในการตั้งค่าของคุณ
สำหรับ Windows,
- แพคเกจ etlDeployment-windows-oracle.pkg
- แพคเกจ EtlDeployment-windows-db2.pkg
สำหรับลินุกซ์
- EtlDeploymentPackage-linux-db2.pkg
- แพคเกจ etlDeployment-linux-oracle.pkg
ผังกระบวนการของข้อมูลการเปลี่ยนแปลงในงานขั้นตอนธุรกรรมของ CDC
- บริการ 'InfoSphere CDC' สำหรับฐานข้อมูลจะตรวจสอบและบันทึกการเปลี่ยนแปลงจากฐานข้อมูลต้นทาง
- ตามคำจำกัดความการจำลอง “InfoSphere CDC” จะถ่ายโอนข้อมูลการเปลี่ยนแปลงไปยัง “InfoSphere CDC สำหรับ InfoSphere DataStage”
- เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ส่งข้อมูลไปยัง “ขั้นตอนธุรกรรม CDC” ผ่านเซสชัน TCP/IP เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ยังส่งข้อความ COMMIT (พร้อมกับข้อมูลบุ๊กมาร์ก) เพื่อทำเครื่องหมายขอบเขตธุรกรรมในบันทึกที่บันทึกไว้
- สำหรับแต่ละข้อความ COMMIT ที่ส่งโดยเซิร์ฟเวอร์ “InfoSphere CDC for InfoSphere DataStage” นั้น “ขั้นตอนธุรกรรม CDC” จะสร้างเครื่องหมายจุดสิ้นสุดคลื่น (EOW) เครื่องหมายเหล่านี้จะถูกส่งไปที่ลิงก์เอาต์พุตทั้งหมดไปยังขั้นตอนตัวเชื่อมต่อฐานข้อมูลเป้าหมาย
- เมื่อ “ระยะตัวเชื่อมต่อฐานข้อมูลเป้าหมาย” ได้รับเครื่องหมายจุดสิ้นสุดของ wave บนลิงก์อินพุตทั้งหมด ระบบจะเขียนข้อมูลบุ๊กมาร์กลงในตารางบุ๊กมาร์ก จากนั้นส่งธุรกรรมไปยังฐานข้อมูลเป้าหมาย
- เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ร้องขอข้อมูลบุ๊กมาร์กจากตารางบุ๊กมาร์กบน “ฐานข้อมูลเป้าหมาย”
- เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ได้รับข้อมูลบุ๊กมาร์ก
ข้อมูลนี้ใช้เพื่อ
- กำหนดจุดเริ่มต้นในบันทึกธุรกรรมที่จะอ่านการเปลี่ยนแปลงเมื่อเริ่มการจำลองแบบ
- เพื่อตรวจสอบว่าสามารถล้างบันทึกธุรกรรมที่มีอยู่ได้หรือไม่
การตั้งค่าการจำลองแบบ SQL
ก่อนที่คุณจะเริ่มใช้ Datastage คุณต้องตั้งค่าฐานข้อมูลก่อน คุณจะสร้างฐานข้อมูล DB2 สองฐานข้อมูล
- หนึ่งเพื่อใช้เป็นแหล่งการจำลองและ
- คนหนึ่งเป็นเป้าหมาย
นอกจากนี้ คุณจะต้องสร้างตารางสองตาราง (ผลิตภัณฑ์และสินค้าคงคลัง) และเติมข้อมูลตัวอย่างลงในตารางเหล่านั้น จากนั้นคุณสามารถทดสอบการรวมของคุณระหว่าง SQL การจำลองแบบและ Datastage
นับจากนี้เป็นต้นไป คุณจะตั้งค่าการจำลองแบบ SQL โดยการสร้าง ตารางควบคุม ชุดการสมัครสมาชิก การลงทะเบียน และสมาชิกชุดการสมัครสมาชิกเราจะศึกษารายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ในหัวข้อถัดไป
ที่นี่เราจะนำตัวอย่างของรายการขายปลีกมาเป็นฐานข้อมูลของเราและสร้างตารางสินค้าคงคลังและผลิตภัณฑ์สองตาราง ตารางเหล่านี้จะโหลดข้อมูลจากแหล่งที่มาไปยังเป้าหมายผ่านชุดเหล่านี้ -ตารางควบคุม ชุดการสมัครสมาชิก การลงทะเบียน และสมาชิกชุดการสมัครสมาชิก.)
ขั้นตอน 1) สร้างฐานข้อมูลต้นทางที่เรียกว่า ขาย- ภายใต้ฐานข้อมูลนี้ ให้สร้างสองตาราง ผลิตภัณฑ์ และ สินค้าคงคลัง.
ขั้นตอน 2) รันคำสั่งต่อไปนี้เพื่อสร้างฐานข้อมูล SALES
db2 create database SALES
ขั้นตอน 3) เปิดใช้งานการบันทึกข้อมูลถาวรสำหรับฐานข้อมูลการขาย และสำรองฐานข้อมูลโดยใช้คำสั่งต่อไปนี้
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
ขั้นตอน 4) ในพร้อมท์คำสั่งเดียวกัน ให้เปลี่ยนเป็นไดเร็กทอรีย่อย setupDB ในไดเร็กทอรี sqlrepl-datastage-tutorial ที่คุณแยกจากไฟล์บีบอัดที่ดาวน์โหลด
ขั้นตอน 5) ใช้คำสั่งต่อไปนี้เพื่อสร้างตารางสินค้าคงคลังและนำเข้าข้อมูลลงในตารางโดยรันคำสั่งต่อไปนี้
นำเข้า db2 จาก inventory.ixf ของ ixf สร้างลงในสินค้าคงคลัง
ขั้นตอน 6) สร้างตารางเป้าหมาย ตั้งชื่อฐานข้อมูลเป้าหมายเป็น STAGEDB.
เนื่องจากตอนนี้คุณได้สร้างทั้งแหล่งที่มาและเป้าหมายของฐานข้อมูลแล้ว ขั้นตอนถัดไปในบทช่วยสอน DataStage นี้ เราจะดูวิธีการจำลองข้อมูลดังกล่าว
ข้อมูลต่อไปนี้อาจเป็นประโยชน์ใน การตั้งค่าแหล่งข้อมูล ODBC.
การสร้างวัตถุการจำลองแบบ SQL
ภาพด้านล่างแสดงวิธีการส่งข้อมูลการเปลี่ยนแปลงจากแหล่งที่มาไปยังฐานข้อมูลเป้าหมาย คุณสร้างการแมปต้นทางถึงเป้าหมายระหว่างตารางที่เรียกว่า สมาชิกชุดการสมัครสมาชิก และจัดกลุ่มสมาชิกให้เป็น การสมัครสมาชิก.
หน่วยการจำลองข้อมูลภายใน InfoSphere CDC (Change Data Capture) เรียกว่าการสมัครสมาชิก
- การเปลี่ยนแปลงที่เกิดขึ้นในแหล่งข้อมูลจะถูกบันทึกใน "ตารางควบคุมการบันทึก" ซึ่งจะถูกส่งไปยังตารางซีดีแล้วจึงส่งไปยังตารางเป้าหมาย ในขณะที่โปรแกรม Apply จะมีรายละเอียดเกี่ยวกับแถวที่ต้องทำการเปลี่ยนแปลง โปรแกรมจะรวมตารางซีดีเข้ากับชุดการสมัครใช้งานด้วย
- การสมัครสมาชิกประกอบด้วยรายละเอียดการแมปที่ระบุวิธีใช้ข้อมูลในที่เก็บข้อมูลต้นทางกับที่เก็บข้อมูลเป้าหมาย โปรดทราบว่า CDC จะถูกเรียกว่า การจำลองข้อมูลอินโฟสเฟียร์.
- เมื่อดำเนินการสมัครสมาชิก InfoSphere CDC จะบันทึกการเปลี่ยนแปลงบนฐานข้อมูลต้นทาง InfoSphere CDC จะส่งมอบข้อมูลการเปลี่ยนแปลงไปยังเป้าหมาย และจัดเก็บข้อมูลจุดซิงค์ในตารางบุ๊กมาร์กในฐานข้อมูลเป้าหมาย
- InfoSphere CDC ใช้ข้อมูลบุ๊กมาร์กเพื่อติดตามความคืบหน้าของงาน InfoSphere DataStage
- ในกรณีที่เกิดความล้มเหลว ข้อมูลบุ๊กมาร์กจะถูกใช้เป็นจุดรีสตาร์ท ในตัวอย่างของเรา ASNIBMตาราง SNAP_FEEDETL จัดเก็บข้อมูลจุดซิงก์ที่เกี่ยวข้องกับ DataStage ซึ่งใช้ในการติดตามความคืบหน้าของ DataStage
ในส่วนนี้ของ IBM บทช่วยสอนการฝึกอบรม DataStage คุณต้องทำสิ่งต่อไปนี้
- สร้างตาราง CAPTURE CONTROL และตาราง APPLY CONTROL เพื่อจัดเก็บตัวเลือกการจำลองแบบ
- ลงทะเบียนตารางผลิตภัณฑ์และสินค้าคงคลังเป็นแหล่งการจำลอง
- สร้างชุดการสมัครสมาชิกที่มีสมาชิกสองคน
- สร้างสมาชิกชุดการสมัครสมาชิกและตาราง CCD เป้าหมาย
ใช้โปรแกรมบรรทัดคำสั่ง ASNCLP เพื่อตั้งค่าการจำลองแบบ SQL
ขั้นตอน 1) ค้นหาไฟล์สคริปต์ crtCtlTablesCaptureServer.asnclp ในไดเร็กทอรี sqlrepl-datastage-tutorial/setupSQLRep
ขั้นตอน 2) ในไฟล์แทนที่ และ " ” พร้อม ID ผู้ใช้และรหัสผ่านของคุณสำหรับการเชื่อมต่อกับฐานข้อมูล SALES
ขั้นตอน 3) เปลี่ยนไดเรกทอรีเป็นไดเรกทอรี sqlrepl-datastage-tutorial/setupSQLRep และเรียกใช้สคริปต์ ใช้คำสั่งต่อไปนี้ คำสั่งจะเชื่อมต่อกับฐานข้อมูล SALES สร้างสคริปต์ SQL เพื่อสร้างตารางควบคุม Capture
asnclp –f crtCtlTablesCaptureServer.asnclp
ขั้นตอน 4) ค้นหาไฟล์สคริปต์ crtCtlTablesApplyCtlServer.asnclp ในไดเร็กทอรีเดียวกัน ตอนนี้แทนที่สองอินสแตนซ์ของ และ " ” พร้อม ID ผู้ใช้และรหัสผ่านสำหรับการเชื่อมต่อกับฐานข้อมูล STAGEDB
ขั้นตอน 5) ตอนนี้ในพรอมต์คำสั่งเดียวกัน ให้ใช้คำสั่งต่อไปนี้เพื่อสร้างตารางควบคุมการใช้งาน
asnclp –f crtCtlTablesApplyCtlServer.asnclp
ขั้นตอน 6) ค้นหาไฟล์สคริปต์ crtRegistration.asnclp และแทนที่อินสแตนซ์ทั้งหมดของ พร้อมรหัสผู้ใช้สำหรับเชื่อมต่อกับฐานข้อมูล SALES นอกจากนี้ให้เปลี่ยน” ” ไปยังรหัสผ่านการเชื่อมต่อ
ขั้นตอน 7) หากต้องการลงทะเบียนตารางต้นฉบับ ให้ใช้สคริปต์ต่อไปนี้ เป็นส่วนหนึ่งของการสร้างการลงทะเบียน โปรแกรม ASNCLP จะสร้างตาราง CD สองตาราง ได้แก่ CDPRODUCT และ CDINVENTORY
asnclp –f crtRegistration.asnclp
คำสั่ง CREATE REGISTRATION จะใช้ตัวเลือกดังต่อไปนี้:
- รีเฟรชส่วนต่าง: มันจะแจ้งให้ใช้โปรแกรมเพื่ออัพเดตตารางเป้าหมายเฉพาะเมื่อแถวในตารางต้นฉบับมีการเปลี่ยนแปลง
- ลงรูปทั้งคู่: ตัวเลือกนี้ใช้เพื่อลงทะเบียนค่าในคอลัมน์ต้นทางก่อนการเปลี่ยนแปลงเกิดขึ้น และอีกหนึ่งรายการสำหรับค่าหลังการเปลี่ยนแปลงเกิดขึ้น
ขั้นตอน 8) ในการเชื่อมต่อกับฐานข้อมูลเป้าหมาย (STAGEDB) ให้ใช้ขั้นตอนต่อไปนี้
- ค้นหาไฟล์ crtTableSpaceApply.bat เปิดในโปรแกรมแก้ไขข้อความ
- แทนที่ และ ด้วยรหัสผู้ใช้และรหัสผ่าน
- ในหน้าต่างคำสั่ง DB2 ให้ป้อน crtTableSpaceApply.bat และรันไฟล์
- ไฟล์แบตช์นี้สร้างพื้นที่ตารางใหม่บนฐานข้อมูลเป้าหมาย ( STAGEDB)
ขั้นตอน 9) ค้นหาไฟล์สคริปต์ crtSubscriptionSetAndAddMembers.asnclp และทำการเปลี่ยนแปลงดังต่อไปนี้
- แทนที่อินสแตนซ์ทั้งหมดของ และ พร้อมรหัสผู้ใช้และรหัสผ่านสำหรับเชื่อมต่อกับฐานข้อมูล SALES (ที่มา)
- แทนที่อินสแตนซ์ทั้งหมดของ และ ด้วย ID ผู้ใช้สำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB (เป้าหมาย)
หลังจากการเปลี่ยนแปลง ให้รันสคริปต์เพื่อสร้างชุดการสมัครสมาชิก (ST00) ที่จัดกลุ่มตารางต้นทางและเป้าหมาย สคริปต์ยังสร้างสมาชิกชุดการสมัครสมาชิกสองตัว และ CCD (ข้อมูลการเปลี่ยนแปลงที่สอดคล้องกัน) ในฐานข้อมูลเป้าหมายที่จะจัดเก็บข้อมูลที่แก้ไข ข้อมูลนี้จะถูกใช้โดย Infosphere DataStage
ขั้นตอน 10) รันสคริปต์เพื่อสร้างชุดการสมัครสมาชิก สมาชิกชุดการสมัครสมาชิก และตาราง CCD
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
ตัวเลือกต่าง ๆ ที่ใช้ในการสร้างชุดการสมัครสมาชิกและสมาชิกสองคน ได้แก่
- เสร็จสมบูรณ์เมื่อควบแน่นปิด
- ภายนอก
- โหลดประเภทการนำเข้าและส่งออก
- กำหนดเวลาอย่างต่อเนื่อง
ขั้นตอน 11) เนื่องจากข้อบกพร่องในเครื่องมือการดูแลการจำลองแบบ คุณต้องรันไฟล์แบตช์อื่นเพื่อตั้งค่าคอลัมน์ TARGET_CAPTURE_SCHEMA ในไฟล์ IBMตารางควบคุม SNAP_SUBS_SET เป็นโมฆะ
- ค้นหาไฟล์ updateTgtCapSchema.bat เปิดในโปรแกรมแก้ไขข้อความ แทนที่ และ ด้วย ID ผู้ใช้สำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB
- ในหน้าต่างคำสั่ง DB2 ให้ป้อนคำสั่ง updateTgtCapSchema.bat และดำเนินการไฟล์
การสร้างไฟล์คำจำกัดความเพื่อแมปตาราง CCD กับ DataStage
ก่อนที่เราจะทำการจำลองแบบในขั้นตอนถัดไป เราต้องเชื่อมต่อตาราง CCD กับ DataStage ก่อน ในส่วนนี้เราจะมาดูวิธีการเชื่อมต่อ SQL กับ DataStage
สำหรับการเชื่อมต่อตาราง CCD กับ DataStage คุณจะต้องสร้างไฟล์คำจำกัดความ Datastage (.dxs) DataStage ใช้รูปแบบไฟล์ .dsx เพื่อนำเข้าและส่งออกคำจำกัดความของงาน คุณจะใช้สคริปต์ ASNCLP เพื่อสร้างไฟล์ .dsx สองไฟล์ ตัวอย่างเช่น เราได้สร้างไฟล์ .dsx สองไฟล์ไว้ที่นี่
- stagedb_AQ00_SET00_sJobs.dsx: สร้างลำดับงานที่ควบคุมเวิร์กโฟลว์ของงานคู่ขนานทั้งสี่งาน
- stagedb_AQ00_SET00_pJobs.dsx : สร้างงานคู่ขนานสี่งาน
โปรแกรม ASNCLP จะแมปคอลัมน์ CCD เป็นรูปแบบคอลัมน์ Datastage โดยอัตโนมัติ รองรับเมื่อ ASNCLP ทำงานเท่านั้น Windows, Linux หรือ Unix Procedure
งาน Datastage ดึงแถวจากตาราง CCD
- งานหนึ่งกำหนดจุดซิงก์ที่ DataStage หยุดในการดึงข้อมูลจากสองตาราง งานจะได้รับข้อมูลนี้โดยเลือกค่า SYNCHPOINT สำหรับชุดการสมัครใช้งาน ST00 จาก IBMตาราง SNAP_SUBS_SET และแทรกเข้าในคอลัมน์ MAX_SYNCHPOINT ของ IBMตาราง SNAP_FEEDETL
- งานสองงานที่ดึงข้อมูลจากตาราง PRODUCT_CCD และ INVENTORY_CCD งานจะรู้ว่าจะเริ่มดึงข้อมูลแถวใดโดยเลือกค่า MIN_SYNCHPOINT และ MAX_SYNCHPOINT จาก IBMตาราง SNAP_FEEDETL สำหรับชุดการสมัครสมาชิก
กำลังเริ่มต้นการจำลองแบบ
เพื่อเริ่มการจำลอง คุณจะใช้ขั้นตอนด้านล่าง เมื่อตาราง CCD ถูกเติมข้อมูล แสดงว่าการตั้งค่าการจำลองได้รับการตรวจสอบแล้ว หากต้องการดูข้อมูลที่จำลองแบบในตาราง CCD เป้าหมาย ให้ใช้อินเทอร์เฟซผู้ใช้แบบกราฟิกของ DB2 Control Center
ขั้นตอน 1) ตรวจสอบให้แน่ใจว่า DB2 กำลังทำงานอยู่ หากไม่ได้ใช้งาน db2 เริ่มต้น คำสั่ง
ขั้นตอน 2) จากนั้นใช้คำสั่ง asncap จากพรอมต์ของระบบปฏิบัติการเพื่อเริ่มจับภาพโปรแกรม ตัวอย่างเช่น
asncap capture_server=SALES
คำสั่งข้างต้นระบุฐานข้อมูล SALES เป็นเซิร์ฟเวอร์ Capture เปิดหน้าต่างคำสั่งไว้ในขณะที่การจับภาพกำลังทำงานอยู่
ขั้นตอน 3) ตอนนี้เปิดพรอมต์คำสั่งใหม่ จากนั้นจึงเริ่มการ มีผลบังคับใช้ โปรแกรมโดยใช้คำสั่ง asnaply
asnapply control_server=STAGEDB apply_qual=AQ00
- คำสั่งระบุฐานข้อมูล STAGEDB เป็นเซิร์ฟเวอร์ควบคุม Apply (ฐานข้อมูลที่มีตารางควบคุม Apply)
- AQ00 เป็นตัวระบุที่ใช้ (ตัวระบุสำหรับตารางควบคุมชุดนี้)
เปิดหน้าต่างคำสั่งทิ้งไว้โดยที่ Apply กำลังทำงานอยู่
ขั้นตอน 4) ตอนนี้ให้เปิดพรอมต์คำสั่งอื่นแล้วออกคำสั่ง db2cc เพื่อเรียกใช้ DB2 Control Center ยอมรับศูนย์ควบคุมเริ่มต้น
ขั้นตอน 5) ในแผนผังการนำทางด้านซ้าย ให้เปิดฐานข้อมูลทั้งหมด > STAGEDB แล้วคลิกตาราง Double คลิกที่ชื่อตาราง (Product CCD) เพื่อเปิดตาราง มันจะมีลักษณะเช่นนี้
ในทำนองเดียวกันคุณยังสามารถเปิดตาราง CCD สำหรับ INVENTORY ได้อีกด้วย
วิธีสร้างโปรเจ็กต์ในเครื่องมือ Datastage
ก่อนอื่น คุณจะต้องสร้างโปรเจ็กต์ใน DataStage คุณต้องเป็นผู้ดูแลระบบ InfoSphere DataStage
เมื่อการติดตั้งและการจำลองเสร็จสิ้น คุณจะต้องสร้างโปรเจ็กต์ ใน DataStage โปรเจ็กต์คือวิธีการจัดระเบียบข้อมูลของคุณ รวมถึงการกำหนดไฟล์ข้อมูล ขั้นตอน และสร้างงานในโปรเจ็กต์เฉพาะ
หากต้องการสร้างโปรเจ็กต์ใน DataStage ให้ทำตามขั้นตอนด้านล่าง:
ขั้นตอนที่ 1) เปิดซอฟต์แวร์ DataStage
เปิดตัว DataStage และ QualityStage Administrator จากนั้นคลิกเริ่ม > โปรแกรมทั้งหมด > IBM เซิร์ฟเวอร์ข้อมูล > IBM ผู้ดูแลระบบ WebSphere DataStage และ QualityStage
ขั้นตอนที่ 2) เชื่อมต่อเซิร์ฟเวอร์ DataStage และไคลเอนต์
ในการเชื่อมต่อกับเซิร์ฟเวอร์ DataStage จากไคลเอนต์ DataStage ของคุณ ให้ป้อนรายละเอียด เช่น ชื่อโดเมน ID ผู้ใช้ รหัสผ่าน และข้อมูลเซิร์ฟเวอร์
ขั้นตอนที่ 3) เพิ่มโครงการใหม่
ในหน้าต่าง WebSphere DataStage Administration คลิกแท็บโครงการแล้วคลิกเพิ่ม
ขั้นตอนที่ 4) กรอกรายละเอียดโครงการ
ในหน้าต่างการดูแลระบบ WebSphere DataStage ให้ป้อนรายละเอียด เช่น
- Name
- ตำแหน่งของไฟล์
- คลิก 'ตกลง'
แต่ละโครงการประกอบด้วย:
- งาน DataStage
- ส่วนประกอบในตัว เหล่านี้เป็นส่วนประกอบที่กำหนดไว้ล่วงหน้าที่ใช้ในงาน
- ส่วนประกอบที่ผู้ใช้กำหนด เหล่านี้เป็นส่วนประกอบแบบกำหนดเองที่สร้างขึ้นโดยใช้ DataStage Manager หรือ DataStage Designer
เราจะดูวิธีการนำเข้างานการจำลองใน Datastage Infosphere
วิธีนำเข้างานการจำลองแบบใน Datastage และ QualityStage Designer
คุณจะนำเข้างานใน IBM ไคลเอ็นต์ InfoSphere DataStage และ QualityStage Designer และคุณดำเนินการพวกมันใน IBM ไคลเอ็นต์ InfoSphere DataStage และ QualityStage Director
ไคลเอนต์นักออกแบบเปรียบเสมือนผืนผ้าใบเปล่าสำหรับงานสร้าง โดยทำหน้าที่แยก แปลง โหลด และตรวจสอบคุณภาพของข้อมูล และจัดเตรียมเครื่องมือต่างๆ ที่ช่วยสร้างองค์ประกอบพื้นฐานของงาน ซึ่งรวมถึง
- การฝึกงาน: เชื่อมต่อกับแหล่งข้อมูลเพื่ออ่านหรือเขียนไฟล์และประมวลผลข้อมูล
- การเชื่อมโยง: มันเชื่อมต่อขั้นตอนที่ข้อมูลของคุณไหล
สเตจในไคลเอ็นต์ InfoSphere DataStage และ QualityStage Designer จะถูกจัดเก็บไว้ในถาดเครื่องมือ Designer
ขั้นตอนต่อไปนี้รวมอยู่ใน InfoSphere QualityStage:
- ขั้นสอบสวน
- ทำให้เวทีเป็นมาตรฐาน
- ระยะความถี่ที่ตรงกัน
- ขั้นตอนการจับคู่แหล่งเดียว
- ขั้นตอนการจับคู่แบบสองแหล่ง
- ระยะเอาตัวรอด
- ขั้นตอนการประเมินคุณภาพมาตรฐาน (SQA)
คุณสามารถสร้างงานได้ 4 ประเภทใน DataStage infosphere
- งานคู่ขนาน
- งานลำดับ
- งานเมนเฟรม
- งานเซิร์ฟเวอร์
มาดูทีละขั้นตอนเกี่ยวกับวิธีการนำเข้าไฟล์งานการจำลองแบบ
ขั้นตอน 1) เริ่มต้น DataStage และ QualityStage Designer คลิกเริ่ม > โปรแกรมทั้งหมด > IBM เซิร์ฟเวอร์ข้อมูล > IBM WebSphere DataStage และ QualityStage Designer
ขั้นตอน 2) ในหน้าต่างแนบกับโครงการ ให้ป้อนรายละเอียดต่อไปนี้
- โดเมน
- ชื่อผู้ใช้
- รหัสผ่าน
- ชื่อโครงการ
- OK
ขั้นตอน 3) ตอนนี้จากเมนูไฟล์คลิกนำเข้า -> ส่วนประกอบ DataStage
หน้าต่างนำเข้าพื้นที่เก็บข้อมูล DataStage ใหม่จะเปิดขึ้น
- ในหน้าต่างนี้ให้เรียกดู STAGEDB_AQ00_ST00_sJobs.dsx ไฟล์ที่เราสร้างไว้ก่อนหน้านี้
- เลือกตัวเลือก “นำเข้าทั้งหมด”
- ทำเครื่องหมายที่ช่องกาเครื่องหมาย “ดำเนินการวิเคราะห์ผลกระทบ”
- คลิก 'ตกลง'
เมื่อนำเข้างานแล้ว DataStage จะสร้างงาน STAGEDB_AQ00_ST00_sequence
ขั้นตอน 4) ทำตามขั้นตอนเดียวกันเพื่อนำเข้าไฟล์ ไฟล์ STAGEDB_AQ00_ST00_pJobs.dsx- การนำเข้านี้จะสร้างงานคู่ขนานสี่งาน
ขั้นตอน 5) ใต้บานหน้าต่าง Designer Repository -> เปิดโฟลเดอร์ SQLREP ภายในโฟลเดอร์ คุณจะเห็นงานลำดับและงานคู่ขนานสี่งาน
ขั้นตอน 6) เพื่อดูลำดับงาน ไปที่แผนผังที่เก็บ คลิกขวาที่งาน STAGEDB_AQ00_ST00_sequence แล้วคลิก แก้ไข โดยจะแสดงขั้นตอนการทำงานของงานคู่ขนานทั้งสี่ที่ควบคุมลำดับงาน
แต่ละไอคอนคือเวที
- ขั้นตอน getExtractRange: มันอัพเดต IBMตาราง SNAP_FEEDETL โดยจะกำหนดจุดเริ่มต้นสำหรับการดึงข้อมูลไปยังจุดที่ DataStage ดึงแถวล่าสุด และตั้งค่าจุดสิ้นสุดเป็นธุรกรรมสุดท้ายที่ได้รับการประมวลผลสำหรับชุดการสมัครสมาชิก
- getExtractRangeSuccess: ระยะนี้ฟีดจุดเริ่มต้นไปยังระยะ extractFromINVENTORY_CCD และระยะ extractFromPRODUCT_CCD
- ความสำเร็จของสารสกัดทั้งหมด: ขั้นตอนนี้จะช่วยให้แน่ใจว่า extractFromINVENTORY_CCD และ extractFromPRODUCT_CCD เสร็จสมบูรณ์ จากนั้นจึงส่งจุดซิงค์สำหรับแถวสุดท้ายที่ดึงมาไปยังขั้นตอน setRangeProcessed
- ระยะ setRangeProcessed: มันอัปเดต IBMตาราง SNAP_FEEDETL ดังนั้น DataStage จึงรู้ว่าจะเริ่มการดึงข้อมูลรอบถัดไปได้จากที่ไหน
ขั้นตอน 7) เพื่อดูงานคู่ขนาน คลิกขวาที่ STAGEDB_ASN_INVENTORY_CCD และเลือกแก้ไขภายใต้ที่เก็บ มันจะเปิดหน้าต่างดังภาพด้านล่าง
ในภาพด้านบนนี้ คุณจะเห็นได้ว่าข้อมูลจากตาราง Inventory CCD และ Syncรายละเอียดจุด h จากตาราง FEEDETL จะถูกเรนเดอร์ไปที่ระยะ Lookup_6
การสร้างการเชื่อมต่อข้อมูลจาก DataStage ไปยังฐานข้อมูล STAGEDB
ขั้นตอนต่อไปคือการสร้างการเชื่อมต่อข้อมูลระหว่าง InfoSphere DataStage และฐานข้อมูลเป้าหมาย SQL Replication ประกอบด้วยตาราง CCD
ใน DataStage คุณใช้ออบเจ็กต์การเชื่อมต่อข้อมูลที่มีขั้นตอนตัวเชื่อมต่อที่เกี่ยวข้องเพื่อกำหนดการเชื่อมต่อกับแหล่งข้อมูลในการออกแบบงานอย่างรวดเร็ว
ขั้นตอน 1) STAGEDB ประกอบด้วยทั้งตารางควบคุม Apply ที่ DataStage ใช้ในการซิงโครไนซ์การแยกข้อมูลและตาราง CCD ที่ใช้แยกข้อมูลออกมา ใช้คำสั่งต่อไปนี้
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
หมายเหตุ: ที่อยู่ IP ของระบบที่สร้าง STAGEDB
ขั้นตอน 2) คลิก ไฟล์ > ใหม่ > อื่นๆ > การเชื่อมต่อข้อมูล
ขั้นตอน 3) คุณจะมีหน้าต่างที่มีสองแท็บ พารามิเตอร์ และ ทั่วไป
ขั้นตอน 4) ในขั้นตอนนี้
- โดยทั่วไป แท็บ ตั้งชื่อการเชื่อมต่อข้อมูล sqlreplConnect
- ในแท็บพารามิเตอร์ ดังที่แสดงด้านล่าง
- คลิกปุ่มเรียกดูถัดจากช่อง "เชื่อมต่อโดยใช้ประเภทสเตจ" และใน
- เปิดหน้าต่างนำทางแผนผังพื้นที่เก็บข้อมูลไปยังประเภทสเตจ -> ขนาน– > ฐานข้อมูล —-> ตัวเชื่อมต่อ DB2
- คลิกเปิด
ขั้นตอน 5) ในตารางพารามิเตอร์การเชื่อมต่อ ให้ป้อนรายละเอียด เช่น
- การเชื่อมต่อ: STAGEDB2
- ชื่อผู้ใช้: User ID สำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB
- รหัสผ่าน: รหัสผ่านสำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB
- ตัวอย่าง: ชื่อของอินสแตนซ์ DB2 ที่มีฐานข้อมูล STAGEDB
ขั้นตอน 6) ในหน้าต่างถัดไปให้บันทึกการเชื่อมต่อข้อมูล คลิกที่ปุ่ม 'บันทึก'
การนำเข้าคำจำกัดความของตารางจาก STAGEDB ไปยัง DataStage
ในขั้นตอนที่แล้ว เราเห็นว่า InfoSphere DataStage และฐานข้อมูล STAGEDB เชื่อมต่อกัน ตอนนี้ นำเข้าคำจำกัดความคอลัมน์และข้อมูลเมตาอื่นๆ สำหรับตาราง PRODUCT_CCD และ INVENTORY_CCD ลงในที่เก็บเซิร์ฟเวอร์ข้อมูล
ในหน้าต่างตัวออกแบบ ให้ทำตามขั้นตอนด้านล่าง
ขั้นตอน 1) เลือกนำเข้า > คำนิยามตาราง > เริ่มตัวช่วยสร้างการนำเข้าตัวเชื่อมต่อ
ขั้นตอน 2) จากหน้าการเลือกตัวเชื่อมต่อของวิซาร์ด ให้เลือกตัวเชื่อมต่อ DB2 และคลิก ถัดไป
ขั้นตอน 3) คลิกโหลดในหน้ารายละเอียดการเชื่อมต่อ ซึ่งจะเติมฟิลด์ตัวช่วยสร้างด้วยข้อมูลการเชื่อมต่อจากการเชื่อมต่อข้อมูลที่คุณสร้างไว้ในบทที่แล้ว
ขั้นตอน 4) คลิกทดสอบการเชื่อมต่อในหน้าเดียวกัน สิ่งนี้จะแจ้งให้ DataStage พยายามเชื่อมต่อกับฐานข้อมูล STAGEDB คุณจะเห็นข้อความ “การเชื่อมต่อสำเร็จ” คลิกถัดไป
ขั้นตอน 5) ตรวจสอบให้แน่ใจว่าในหน้าตำแหน่งแหล่งข้อมูลมีการเติมฟิลด์ชื่อโฮสต์และชื่อฐานข้อมูลอย่างถูกต้อง จากนั้นคลิกถัดไป
ขั้นตอน 6) ในหน้าสคีมา ป้อนสคีมาของใช้ตารางควบคุม (ASN) หรือตรวจสอบว่าสคีมา ASN ได้รับการเติมไว้ล่วงหน้าในช่องสคีมา จากนั้นคลิกถัดไป หน้าการเลือกจะแสดงรายการตารางที่กำหนดไว้ใน ASN Schema
ขั้นตอน 7) ตารางแรกที่เราต้องนำเข้าข้อมูลเมตาคือ IBMSNAP_FEEDETL เป็นตารางควบคุม Apply ซึ่งมีรายละเอียดเกี่ยวกับจุดซิงโครไนซ์ที่ช่วยให้ DataStage ติดตามว่าดึงแถวใดมาจากตาราง CCD เลือก IBMSNAP_FEEDETL แล้วคลิกถัดไป
ขั้นตอน 8) เพื่อให้การนำเข้าเสร็จสมบูรณ์ IBMคำจำกัดความของตาราง SNAP_FEEDETL คลิกนำเข้า จากนั้นในหน้าต่างที่เปิดอยู่ให้คลิกเปิด
ขั้นตอน 9) ทำซ้ำขั้นตอนที่ 1-8 อีกสองครั้งเพื่อนำเข้าคำจำกัดความสำหรับตาราง PRODUCT_CCD และตาราง INVENTORY_CCD
หมายเหตุ: ขณะนำเข้าคำจำกัดความสำหรับสินค้าคงคลังและผลิตภัณฑ์ ตรวจสอบให้แน่ใจว่าคุณเปลี่ยนสคีมาจาก ASN เป็นสคีมาที่ใช้สร้าง PRODUCT_CCD และ INVENTORY_CCD
ขณะนี้ DataStage มีรายละเอียดทั้งหมดที่จำเป็นในการเชื่อมต่อกับฐานข้อมูลเป้าหมายการจำลอง SQL
การตั้งค่าคุณสมบัติสำหรับงาน DataStage
สำหรับงานคู่ขนาน DataStage ทั้งสี่งานที่เรามีอยู่ งานจะมีหนึ่งขั้นตอนขึ้นไปที่เชื่อมต่อกับฐานข้อมูล STAGEDB คุณต้องแก้ไขขั้นตอนเพื่อเพิ่มข้อมูลการเชื่อมต่อและลิงก์ไปยังไฟล์ชุดข้อมูลที่ DataStage สร้างขึ้น
สเตจมีคุณสมบัติที่กำหนดไว้ล่วงหน้าซึ่งสามารถแก้ไขได้ ที่นี่เราจะเปลี่ยนคุณสมบัติบางส่วนสำหรับงานคู่ขนาน STAGEDB_ASN_PRODUCT_CCD_extract
ขั้นตอน 1) เรียกดูแผนผังที่เก็บ Designer ภายใต้โฟลเดอร์ SQLREP ให้เลือกงานแบบขนาน STAGEDB_ASN_PRODUCT_CCD_extract หากต้องการแก้ไข ให้คลิกขวาที่งาน หน้าต่างการออกแบบของงานคู่ขนานจะเปิดขึ้นใน Designer Palette
ขั้นตอน 2) ค้นหาไอคอนสีเขียว ไอคอนนี้แสดงถึงขั้นตอนของตัวเชื่อมต่อ DB2 ใช้สำหรับดึงข้อมูลจากตาราง CCD Double- คลิกที่ไอคอน หน้าต่างตัวแก้ไขสเตจจะเปิดขึ้น
ขั้นตอน 3) ในตัวแก้ไขคลิกโหลดเพื่อเติมข้อมูลการเชื่อมต่อลงในฟิลด์ หากต้องการปิดเครื่องมือแก้ไขพื้นที่งานและบันทึกการเปลี่ยนแปลงของคุณ ให้คลิกตกลง
ขั้นตอน 4) ตอนนี้กลับไปที่หน้าต่างการออกแบบสำหรับงานแบบขนาน STAGEDB_ASN_PRODUCT_CCD_extract ค้นหาไอคอนเพื่อรับSyncขั้นตอนการเชื่อมต่อ DB2 ของ hPoints จากนั้นดับเบิลคลิกไอคอน
ขั้นตอน 5) ตอนนี้คลิกปุ่มโหลดเพื่อเติมฟิลด์ด้วยข้อมูลการเชื่อมต่อ
หมายเหตุ: หากคุณใช้ฐานข้อมูลอื่นที่ไม่ใช่ STAGEDB เป็นเซิร์ฟเวอร์ควบคุมการใช้งานของคุณ จากนั้นเลือกตัวเลือกเพื่อโหลดข้อมูลการเชื่อมต่อเพื่อรับSyncระยะ hPoints ซึ่งโต้ตอบกับตารางควบคุมแทนที่จะเป็นตาราง CCD
ขั้นตอน 6) ในขั้นตอนนี้
- สร้างไฟล์ข้อความว่างบนระบบที่ InfoSphere DataStage รัน
- ตั้งชื่อไฟล์นี้เป็น productdataset.ds และจดตำแหน่งที่คุณบันทึกไว้
- DataStage จะเขียนการเปลี่ยนแปลงในไฟล์นี้หลังจากดึงข้อมูลการเปลี่ยนแปลงจากตาราง CCD
- ชุดข้อมูลหรือไฟล์ที่ใช้ในการย้ายข้อมูลระหว่างงานที่เชื่อมโยงเรียกว่าชุดข้อมูลถาวร มันถูกแสดงโดยขั้นตอนชุดข้อมูล
ขั้นตอน 7) ตอนนี้เปิดตัวแก้ไขเวทีในหน้าต่างการออกแบบ และดับเบิลคลิกที่ไอคอน insert_into_a_dataset หน้าต่างอื่นจะเปิดขึ้นมา
ขั้นตอน 8) ในหน้าต่างนี้
- ใต้แท็บคุณสมบัติตรวจสอบให้แน่ใจว่า Target โฟลเดอร์เปิดอยู่และคุณสมบัติ File = DATASETNAME จะถูกไฮไลต์
- ทางด้านขวามือ คุณจะมีฟิลด์ไฟล์
- ป้อนเส้นทางแบบเต็มไปยังไฟล์ productdataset.ds
- คลิก 'ตกลง'
ขณะนี้ คุณได้อัปเดตคุณสมบัติที่จำเป็นทั้งหมดสำหรับตาราง CCD ของผลิตภัณฑ์แล้ว ปิดหน้าต่างการออกแบบและบันทึกการเปลี่ยนแปลงทั้งหมด
ขั้นตอน 9) ตอนนี้ค้นหาและเปิดงานแบบขนาน STAGEDB_ASN_INVENTORY_CCD_extract จากบานหน้าต่างพื้นที่เก็บข้อมูลของตัวออกแบบ และทำซ้ำขั้นตอนที่ 3-8
หมายเหตุ:
- คุณต้องโหลดข้อมูลการเชื่อมต่อสำหรับฐานข้อมูลเซิร์ฟเวอร์ควบคุมลงในตัวแก้ไขสเตจเพื่อรับSyncขั้น hPoints หากเซิร์ฟเวอร์ควบคุมของคุณไม่ใช่ STAGEDB
- สำหรับงาน STAGEDB_ST00_AQ00_getExtractRange และ STAGEDB_ST00_AQ00_markRangeProcessed แบบขนาน ให้เปิดสเตจตัวเชื่อมต่อ DB2 ทั้งหมด จากนั้นใช้ฟังก์ชันโหลดเพื่อเพิ่มข้อมูลการเชื่อมต่อสำหรับฐานข้อมูล STAGEDB
การรวบรวมและการรันงาน DataStage
เมื่องาน DataStage พร้อมที่จะคอมไพล์ ตัวออกแบบจะตรวจสอบการออกแบบงานโดยดูที่อินพุต การแปลง การแสดงออก และรายละเอียดอื่นๆ
เมื่อการรวบรวมงานเสร็จสิ้น ก็พร้อมที่จะรัน เราจะรวบรวมงานทั้งห้างาน แต่จะรันเฉพาะ "ลำดับงาน" เท่านั้น เนื่องจากงานนี้ควบคุมงานคู่ขนานทั้งสี่งาน
ขั้นตอน 1) ภายใต้โฟลเดอร์ SQLREP เลือกแต่ละงานจากห้างานโดย (Cntrl+Shift- จากนั้นคลิกขวาแล้วเลือกตัวเลือกการคอมไพล์งานหลายงาน
ขั้นตอน 2) คุณจะเห็นงานห้างานถูกเลือกไว้ใน DataStage Compilation Wizard คลิกถัดไป
ขั้นตอน 3) การคอมไพล์เริ่มต้นและแสดงข้อความ “คอมไพล์สำเร็จ” เมื่อเสร็จแล้ว
ขั้นตอน 4) ตอนนี้เริ่มต้น DataStage และ QualityStage Director เลือก เริ่มต้น > โปรแกรมทั้งหมด > IBM เซิร์ฟเวอร์ข้อมูล > IBM WebSphere DataStage และผู้อำนวยการ QualityStage
ขั้นตอน 5) ในบานหน้าต่างนำทางโครงการทางด้านซ้าย คลิกโฟลเดอร์ SQLREP นี่จะนำงานทั้งห้างานมาไว้ในตารางสถานะผู้อำนวยการ
ขั้นตอน 6) เลือกงาน STAGEDB_AQ00_S00_sequence จากแถบเมนู คลิก งาน > รันทันที
เมื่อการรวบรวมเสร็จสิ้น คุณจะเห็นสถานะเสร็จสิ้น
ตอนนี้ให้ตรวจสอบว่าแถวที่เปลี่ยนแปลงซึ่งจัดเก็บไว้ในตาราง PRODUCT_CCD และ INVENTORY_CCD ถูกแยกโดย DataStage และแทรกลงในไฟล์ชุดข้อมูลสองไฟล์หรือไม่
ขั้นตอน 7) กลับไปที่ตัวออกแบบและเปิดงาน STAGEDB_ASN_PRODUCT_CCD_extract เพื่อเปิดตัวแก้ไขพื้นที่งาน Double- คลิกไอคอน insert_into_a_dataset จากนั้นคลิกดูข้อมูล
ขั้นตอน 8) ยอมรับค่าเริ่มต้นในหน้าต่างแถวที่จะแสดง จากนั้นคลิกตกลง หน้าต่างเบราว์เซอร์ข้อมูลจะเปิดขึ้นเพื่อแสดงเนื้อหาของไฟล์ชุดข้อมูล
การทดสอบการรวมระหว่างการจำลอง SQL และ DataStage
ในขั้นตอนที่แล้ว เราได้รวบรวมและดำเนินงาน ในส่วนนี้ เราจะตรวจสอบการรวมการจำลอง SQL และ DataStage เพื่อสิ่งนั้น เราจะทำการเปลี่ยนแปลงในตารางต้นฉบับและดูว่าการเปลี่ยนแปลงเดียวกันนี้ได้รับการอัปเดตใน DataStage หรือไม่
ขั้นตอน 1) นำทางไปยังโฟลเดอร์ sqlrepl-datastage-scripts สำหรับระบบปฏิบัติการของคุณ
ขั้นตอน 2) เริ่มการจำลอง SQL โดยทำตามขั้นตอนต่อไปนี้:
- เรียกใช้ startSQLCapture.bat (Windows) เพื่อเริ่มโปรแกรม Capture ที่ฐานข้อมูล SALES
- เรียกใช้ startSQLApply.bat (Windows) เพื่อเริ่มโปรแกรม Apply ที่ฐานข้อมูล STAGEDB
ขั้นตอน 3) ตอนนี้เปิดไฟล์ updateSourceTables.sql สำหรับเชื่อมต่อกับฐานข้อมูล SALES ให้แทนที่ และ ด้วยรหัสผู้ใช้และรหัสผ่าน
ขั้นตอน 4) เปิดหน้าต่างคำสั่ง DB2 เปลี่ยนไดเร็กทอรีเป็น sqlrepl-datastage-tutorial\scripts และรันปัญหาโดยคำสั่งที่กำหนด:
db2 -tvf updateSourceTables.sql
สคริปต์ SQL จะดำเนินการต่างๆ เช่น การอัปเดต แทรก และลบ ในตารางทั้งสอง (PRODUCT, INVENTORY) ในฐานข้อมูลการขาย
ขั้นตอน 5) บนระบบที่ DataStage กำลังทำงานอยู่ เปิด DataStage Director และรันงาน STAGEDB_AQ00_S00_sequence คลิก งาน > รันทันที
เมื่อคุณรันงาน กิจกรรมต่อไปนี้จะดำเนินการ
- โปรแกรม Capture จะอ่านการเปลี่ยนแปลงหกแถวในบันทึกฐานข้อมูล SALES และแทรกลงในตารางซีดี
- โปรแกรม Apply จะดึงแถวการเปลี่ยนแปลงจากตารางซีดีที่ SALES และแทรกลงในตาราง CCD ที่ STAGEDB
- งานแยก DataStage สองงานรับการเปลี่ยนแปลงจากตาราง CCD และเขียนลงในไฟล์ productdataset.ds และ inventory dataset.ds
คุณสามารถตรวจสอบได้ว่าขั้นตอนข้างต้นเกิดขึ้นโดยดูที่ชุดข้อมูล
ขั้นตอน 6) ทำตามขั้นตอนด้านล่าง
- เริ่มต้น Designer เปิดงาน STAGEDB_ASN_PRODUCT_CCD_extract
- แล้วก็ Double- คลิกไอคอน insert_into_a_dataset ในตัวแก้ไขเวที คลิกดูข้อมูล
- ยอมรับค่าเริ่มต้นในแถวที่จะแสดงหน้าต่างและคลิกตกลง
ชุดข้อมูลประกอบด้วยแถวใหม่สามแถว วิธีที่ง่ายที่สุดในการตรวจสอบการเปลี่ยนแปลงที่เกิดขึ้นคือการเลื่อนลงไปทางขวาสุดของ Data Browser ตอนนี้ดูสามแถวสุดท้าย (ดูภาพด้านล่าง)
ตัวอักษร I, U และ D ระบุการดำเนินการ INSERT, UPDATE และ DELETE ที่ส่งผลให้มีแถวใหม่แต่ละแถว
คุณสามารถตรวจสอบแบบเดียวกันสำหรับตารางสินค้าคงคลังได้
สรุป
- Datastage คือ เครื่องมือ ETL ซึ่งดึงข้อมูล แปลง และโหลดข้อมูลจากแหล่งที่มาไปยังเป้าหมาย
- มันอำนวยความสะดวก การวิเคราะห์ธุรกิจ ด้วยการให้ข้อมูลที่มีคุณภาพเพื่อช่วยในการรับข้อมูลทางธุรกิจ
- DataStage แบ่งออกเป็น 2 ส่วน คือ คอมโพเนนต์ที่ใช้ร่วมกันและรันไทม์ Archiเทคเจอร์.
- DataStage มีองค์ประกอบหลักสี่ส่วน
- ผู้บริหาร
- ผู้จัดการ
- นักออกแบบ
- ผู้อำนวยการ
- ต่อไปนี้เป็นประเด็นสำคัญของ IBM อินโฟสเฟียร์ ดาต้าสเตจ
- การแปลงข้อมูล
- งาน
- การประมวลผลแบบขนาน
- ในการออกแบบงาน ขั้นตอนต่างๆ ที่เกี่ยวข้องได้แก่
- เวทีแปลงร่าง
- ขั้นตอนการกรอง
- เวทีผู้รวบรวม
- ลบขั้นตอนที่ซ้ำกัน
- เข้าร่วมเวที
- ขั้นตอนการค้นหา