บทช่วยสอน DataStage สำหรับผู้เริ่มต้น: IBM เครื่องมือ ETL

⚡ สรุปอย่างชาญฉลาด

ดาต้าสเตจ จาก IBM อินโฟสเฟียร์ อดีตtracts แปลง และโหลดข้อมูลระดับองค์กรในปริมาณมาก หน้านี้อธิบายสถาปัตยกรรม ส่วนประกอบ การประมวลผลแบบขนาน การตั้งค่าการจำลองแบบ SQL การสร้างโปรเจกต์ การคอมไพล์งาน และการทดสอบการบูรณาการ โดยใช้ตัวอย่าง DB2 สำหรับธุรกิจค้าปลีกในทางปฏิบัติ

🧩 คำจำกัดความหลัก: DataStage ทำหน้าที่ย้ายข้อมูลจากไฟล์ข้อมูลแบบเรียงลำดับ ฐานข้อมูลเชิงสัมพันธ์ เมนเฟรม ระบบ ERP และ CRM ไปยังปลายทางที่กำหนดไว้
🏗️ Archiชั้นของโครงสร้าง: ลูกค้าในระดับผู้ดูแลระบบ ผู้จัดการ นักออกแบบ และผู้อำนวยการ จะใช้งานผ่านบริการส่วนกลางและเอนจินรันไทม์แบบขนานที่ปรับขนาดได้
⚡ การดำเนินการแบบขนาน: การประมวลผลแบบขนานของไปป์ไลน์จะส่งข้อมูลระหว่างขั้นตอนต่างๆ ในขณะที่การประมวลผลแบบขนานของพาร์ติชันจะแบ่งปริมาณข้อมูลไปยังโหนดต่างๆ เพื่อให้สามารถปรับขนาดได้เกือบเป็นเชิงเส้น
🔁 การตั้งค่าการจำลองข้อมูล: สคริปต์ ASNCLP สร้างตารางควบคุม Capture and Apply, การลงทะเบียน, ชุดการสมัครสมาชิก และตาราง CCD ภายใน DB2
🛠️ วงจรชีวิตของงาน: นักออกแบบจะประกอบขั้นตอนและเชื่อมโยงส่วนต่างๆ เข้าด้วยกัน จากนั้นผู้กำกับจะตรวจสอบความถูกต้อง กำหนดเวลา ดำเนินการ และติดตามตรวจสอบงานแบบขนานและแบบลำดับที่รวบรวมไว้
✅ ขั้นตอนการตรวจสอบความถูกต้อง: การอัปเดตแถวต้นทางและการเรียกใช้ลำดับงานอีกครั้งยืนยันว่าแฟล็ก I, U และ D ไปถึง ex แล้วtracชุดข้อมูล ted

อ่านเพิ่มเติม

DataStage คืออะไร?

DataStage เป็นเครื่องมือ ETL ที่ใช้ในการแยกวิเคราะห์tracDataStage ทำหน้าที่ประมวลผล แปลง และโหลดข้อมูลจากแหล่งที่มาไปยังปลายทางเป้าหมาย แหล่งที่มาของข้อมูลอาจรวมถึงไฟล์ลำดับ ไฟล์ที่มีดัชนี ฐานข้อมูลเชิงสัมพันธ์ แหล่งข้อมูลภายนอก ไฟล์เก็บถาวร แอปพลิเคชันระดับองค์กร เป็นต้น DataStage ใช้เพื่ออำนวยความสะดวกในการวิเคราะห์ทางธุรกิจโดยการจัดหาข้อมูลที่มีคุณภาพเพื่อช่วยในการได้มาซึ่งข้อมูลเชิงธุรกิจ

เครื่องมือ DataStage ETL ถูกใช้ในองค์กรขนาดใหญ่เพื่อเป็นตัวกลางเชื่อมต่อระหว่างระบบต่างๆ โดยจะจัดการเรื่องต่างๆ เช่น...tracการแปล การถ่ายโอน และการโหลดข้อมูลจากแหล่งที่มาไปยังปลายทางเป้าหมาย โปรแกรมนี้เปิดตัวครั้งแรกโดย VMark ในช่วงกลางทศวรรษ 90 IBM การได้รับ DataStage ในปี 2005 และได้เปลี่ยนชื่อเป็น IBM WebSphere DataStage และใหม่กว่า IBM อินโฟสเฟียร์.

Datastage เวอร์ชันต่างๆ ที่มีจำหน่ายในตลาดจนถึงตอนนี้ ได้แก่ Enterprise Edition (PX), Server Edition, MVS Edition, DataStage สำหรับ PeopleSoft และอื่นๆ ฉบับล่าสุดคือ IBM อินโฟสเฟียร์ ดาต้าสเตจ

IBM เซิร์ฟเวอร์ข้อมูลประกอบด้วยผลิตภัณฑ์ต่อไปนี้

IBM อินโฟสเฟียร์ ดาต้าสเตจ
IBM เวทีคุณภาพอินโฟสเฟียร์
IBM ผู้อำนวยการฝ่ายบริการข้อมูล InfoSphere
IBM เครื่องวิเคราะห์ข้อมูล InfoSphere
IBM เซิร์ฟเวอร์ข้อมูลความเร็วสูงTrack
IBM อภิธานศัพท์ธุรกิจ InfoSphere

เมื่อกำหนดนิยามเรียบร้อยแล้ว ส่วนถัดไปจะพิจารณาว่าผลิตภัณฑ์นี้สามารถทำอะไรได้บ้างภายในสภาพแวดล้อมจริง คลังข้อมูล สิ่งแวดล้อม

ภาพรวม DataStage

Datastage มีความสามารถดังต่อไปนี้

สามารถรวมข้อมูลจากแหล่งข้อมูลองค์กรและแหล่งข้อมูลภายนอกที่หลากหลายที่สุด
ใช้กฎการตรวจสอบข้อมูล
มีประโยชน์ในการประมวลผลและแปลงข้อมูลจำนวนมาก
ใช้วิธีการประมวลผลแบบขนานที่ปรับขนาดได้
สามารถจัดการการเปลี่ยนแปลงที่ซับซ้อนและจัดการกระบวนการบูรณาการหลาย ๆ อย่างได้
ใช้ประโยชน์จากการเชื่อมต่อโดยตรงกับแอปพลิเคชันระดับองค์กรเป็นแหล่งที่มาหรือเป้าหมาย
ใช้ประโยชน์จากข้อมูลเมตาสำหรับการวิเคราะห์และการบำรุงรักษา
Operates เป็นกลุ่ม เรียลไทม์ หรือเป็นบริการบนเว็บ

ในส่วนต่อไปนี้ของบทช่วยสอน DataStage นี้ เราจะอธิบายประเด็นต่อไปนี้โดยย่อ IBM อินโฟสเฟียร์ ดาต้าสเตจ:

การแปลงข้อมูล
งาน
การประมวลผลแบบขนาน

InfoSphere DataStage และ QualityStage สามารถเข้าถึงข้อมูลในแอปพลิเคชันระดับองค์กรและแหล่งข้อมูล เช่น:

ฐานข้อมูลเชิงสัมพันธ์
ฐานข้อมูลเมนเฟรม
แอปพลิเคชันทางธุรกิจและการวิเคราะห์
การวางแผนทรัพยากรองค์กร (ERP) หรือฐานข้อมูลการจัดการลูกค้าสัมพันธ์ (CRM)
การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) หรือฐานข้อมูลการจัดการประสิทธิภาพ

ประเภทขั้นตอนการประมวลผล

IBM งานอินโฟสเฟียร์ประกอบด้วยแต่ละขั้นตอนที่เชื่อมโยงเข้าด้วยกัน โดยอธิบายการไหลของข้อมูลจากแหล่งข้อมูลไปยังเป้าหมายข้อมูล โดยปกติแล้ว สเตจจะมีอินพุตข้อมูลอย่างน้อยหนึ่งรายการและ/หรือเอาต์พุตข้อมูลหนึ่งรายการ อย่างไรก็ตาม บางขั้นตอนสามารถรับอินพุตและเอาต์พุตข้อมูลได้มากกว่าหนึ่งรายการไปยังมากกว่าหนึ่งขั้นตอน

ในการออกแบบงาน ขั้นตอนต่างๆ ที่คุณสามารถใช้ได้ ได้แก่:

เวทีแปลงร่าง
ขั้นตอนการกรอง
เวทีผู้รวบรวม
ลบขั้นตอนที่ซ้ำกัน
เข้าร่วมเวที
ขั้นตอนการค้นหา
ขั้นตอนการคัดลอก
ขั้นตอนการเรียงลำดับ
ภาชนะบรรจุ

เหตุใดจึงควรใช้ DataStage สำหรับการรวมข้อมูล?

การรู้รายการคุณสมบัติเป็นเรื่องหนึ่ง การรู้ว่าเมื่อใดที่เครื่องมือนี้คุ้มค่ากับค่าลิขสิทธิ์เป็นอีกเรื่องหนึ่ง DataStage ถูกเลือกใช้สำหรับงานที่มีปริมาณมาก การกำกับดูแล และแหล่งข้อมูลที่หลากหลาย ซึ่งทำให้การเขียนสคริปต์ด้วยมือเป็นไปไม่ได้

เหตุผลที่ชัดเจนที่สุดคือปริมาณงาน เนื่องจากเอนจินจะแบ่งข้อมูลออกเป็นโหนดต่างๆ และส่งข้อมูลระหว่างขั้นตอนต่างๆ ไปพร้อมๆ กัน การเพิ่มฮาร์ดแวร์จึงช่วยเพิ่มปริมาณงานได้เกือบเป็นเส้นตรง งานที่ออกแบบบนเครื่องพัฒนาที่มีสองโหนดจะทำงานได้โดยไม่เปลี่ยนแปลงบนคลัสเตอร์การผลิตที่มีแปดโหนด

เหตุผลอื่นๆ เป็นเรื่องขององค์กรมากกว่าเรื่องทางเทคนิค:

ข้อมูลเมตาที่ใช้ร่วมกัน: คำจำกัดความของตาราง การเชื่อมต่อ และข้อกำหนดทางธุรกิจจะถูกจัดเก็บไว้เพียงครั้งเดียวในที่เก็บข้อมูล และนำกลับมาใช้ใหม่ในทุกงาน ซึ่งช่วยขจัดความคลาดเคลื่อนที่เกิดขึ้นเมื่อนักพัฒนาแต่ละคนกำหนดแหล่งที่มาอย่างอิสระ
คุณภาพข้อมูลในตัว: QualityStage ดำเนินการตรวจสอบ การกำหนดมาตรฐาน การจับคู่ และการคัดเลือกข้อมูลที่อยู่รอดควบคู่ไปกับกระบวนการ ETL ดังนั้นการทำความสะอาดข้อมูลจึงไม่จำเป็นต้องมีผลิตภัณฑ์เพิ่มเติมอีกตัวหนึ่ง
การเชื่อมต่อที่ครอบคลุม: ตัวเชื่อมต่อแบบเนทีฟเชื่อมต่อกับ DB2 ได้ Oracleเทราดาต้า, VSAM สำหรับเมนเฟรม, SAPSalesforce และระบบจัดเก็บข้อมูลแบบคลาวด์โดยไม่ต้องเขียนโค้ดเอง
Operaการควบคุมระดับภูมิภาค: ผู้อำนวยการจะแสดงประวัติการทำงาน จำนวนแถว คำเตือน และจุดเริ่มต้นใหม่ ซึ่งผู้ตรวจสอบยอมรับว่าเป็นหลักฐานของกระบวนการจัดการข้อมูลที่มีการควบคุม
การนำกลับมาใช้ใหม่: การใช้คอนเทนเนอร์และชุดพารามิเตอร์ร่วมกันช่วยให้การแปลงข้อมูลที่ผ่านการทดสอบแล้วหนึ่งครั้งสามารถใช้งานได้กับงานหลายงาน แทนที่จะต้องคัดลอกไปยังแต่ละงาน

ข้อดีเหล่านี้ขึ้นอยู่กับวิธีการประกอบผลิตภัณฑ์โดยตรง ซึ่งจะอธิบายในหัวข้อถัดไป

ส่วนประกอบ DataStage และ Archiเทคเจอร์

DataStage มีองค์ประกอบหลัก 4 ส่วนคือ

ผู้ดูแลระบบ: ใช้สำหรับงานธุรการ ซึ่งรวมถึงการตั้งค่าผู้ใช้ DataStage การตั้งค่าการลบล้างเกณฑ์ และการสร้างและการย้ายโปรเจ็กต์
ผู้จัดการ: เป็นอินเทอร์เฟซหลักของ Repository ของ ETL DataStage ใช้สำหรับการจัดเก็บและการจัดการเมตาดาต้าที่นำมาใช้ซ้ำได้ ผ่านตัวจัดการ DataStage เราสามารถดูและแก้ไขเนื้อหาของ Repository ได้
ผู้ออกแบบ: อินเทอร์เฟซการออกแบบที่ใช้ในการสร้างแอปพลิเคชัน DataStage หรืองาน โดยจะระบุแหล่งข้อมูล การเปลี่ยนแปลงที่จำเป็น และปลายทางของข้อมูล งานถูกคอมไพล์เพื่อสร้างปฏิบัติการที่ Director กำหนดไว้และรันโดยเซิร์ฟเวอร์
ผู้อำนวยการ: ใช้เพื่อตรวจสอบ กำหนดเวลา ดำเนินการ และตรวจสอบงานเซิร์ฟเวอร์ DataStage และงานแบบขนาน

ภาพด้านบนจะอธิบายวิธีการ IBM Infosphere DataStage โต้ตอบกับองค์ประกอบอื่นๆ ของ IBM แพลตฟอร์มเซิร์ฟเวอร์ข้อมูล DataStage แบ่งออกเป็น 2 ส่วน คือ คอมโพเนนต์ที่ใช้ร่วมกันและรันไทม์ Archiเทคเจอร์ตารางด้านล่างนี้จะอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับสิ่งที่แต่ละส่วนทั้งสองส่วนนั้นมีส่วนช่วย

		กิจกรรม
ที่ใช้ร่วมกัน	ส่วนต่อประสานผู้ใช้แบบรวม	อินเทอร์เฟซการออกแบบกราฟิกใช้เพื่อสร้างแอปพลิเคชัน InfoSphere DataStage (เรียกว่างาน) แต่ละงานจะกำหนดแหล่งข้อมูล การแปลงที่จำเป็น และปลายทางของข้อมูล งานได้รับการรวบรวมเพื่อสร้างโฟลว์งานแบบขนานและส่วนประกอบที่นำมาใช้ซ้ำได้ สิ่งเหล่านี้ได้รับการกำหนดเวลาและดำเนินการโดย InfoSphere DataStage และ QualityStage Director ไคลเอ็นต์ Designer จัดการข้อมูลเมตาในที่เก็บข้อมูล ในขณะที่ข้อมูลการดำเนินการที่คอมไพล์แล้วจะถูกปรับใช้บนระดับ Information Server Engine
	บริการทั่วไป	บริการข้อมูลเมตา เช่น การวิเคราะห์ผลกระทบและการค้นหา บริการออกแบบที่รองรับการพัฒนาและบำรุงรักษางาน InfoSphere DataStage บริการดำเนินการที่รองรับฟังก์ชัน InfoSphere DataStage ทั้งหมด
	การประมวลผลแบบขนานทั่วไป	เอนจินจะรันงานที่สามารถเรียกใช้งานได้tracแปลงและโหลดข้อมูลในหลากหลายสถานการณ์ เครื่องยนต์เลือกแนวทางการประมวลผลแบบขนานและการวางท่อเพื่อรองรับงานปริมาณมาก
Runtime Archiเทคเจอร์	สคริปต์ OSH	สิ่งนี้อธิบายการสร้าง OSH ( orchestrate Shell Script) และขั้นตอนการดำเนินการของ IBM และการไหลของ IBM Infosphere DataStage โดยใช้เอนจิ้น Information Server ช่วยให้คุณสามารถใช้เทคนิคการคลิกเมาส์แบบกราฟิกเพื่อพัฒนากระบวนการทำงาน เช่นtracการประมวลผล การทำความสะอาด การแปลง การบูรณาการ และการโหลดข้อมูลลงในไฟล์เป้าหมาย

วิธีการทำงานของการประมวลผลแบบขนานใน DataStage

ตารางสถาปัตยกรรมด้านบนระบุว่าการประมวลผลแบบขนานทั่วไปเป็นบริการที่ใช้ร่วมกัน ส่วนนี้จะอธิบายว่าบริการนั้นดำเนินการงานอย่างไร เนื่องจากแนวคิดนี้ได้รับการกล่าวถึงในภาพรวมแล้ว และเป็นตัวกำหนดว่างานจะเสร็จเร็วแค่ไหน

งานแบบขนานใช้กลไกสองอย่างพร้อมกัน โดยทั้งสองอย่างจะถูกนำไปใช้โดยอัตโนมัติในระหว่างการทำงาน แทนที่จะเขียนโค้ดด้วยตนเอง

1. การประมวลผลแบบขนานของไปป์ไลน์ ทุกขั้นตอนในงานจะเริ่มต้นพร้อมกันโดยไม่ต้องรอให้ขั้นตอนก่อนหน้าเสร็จสิ้น ขั้นตอนต้นทางจะเริ่มอ่านแถวและส่งข้อมูลเหล่านั้นไปยังไปป์ไลน์ในหน่วยความจำ ตัวแปลงข้อมูลจะเริ่มทำงานทันทีที่ได้รับแถวแรกและส่งเอาต์พุตไปยังไปป์ไลน์ที่สอง ตัวเชื่อมต่อปลายทางจะเริ่มเขียนข้อมูลทันทีหลังจากนั้น ไม่มีการเขียนไฟล์ปลายทางชั่วคราว ดังนั้นงานสามขั้นตอนจึงซ้อนทับการอ่าน การแปลง และการเขียน แทนที่จะทำงานตามลำดับ

2. การแบ่งส่วนการทำงานแบบขนาน แถวต่างๆ จะถูกแบ่งออกเป็นพาร์ติชันแยกกัน และสำเนาเต็มรูปแบบของตรรกะของขั้นตอนจะทำงานในแต่ละพาร์ติชันบนโหนดของตัวเอง พาร์ติชันแปดพาร์ติชันหมายถึงอินสแตนซ์ Transformer แปดตัวที่ทำงานพร้อมกัน เมื่อสิ้นสุดกระบวนการ พาร์ติชันต่างๆ จะถูกรวบรวมกลับเข้าเป็นสตรีมเดียวสำหรับเป้าหมาย

การเลือกวิธีการแบ่งพาร์ติชันที่เหมาะสมเป็นขั้นตอนการปรับแต่งที่สำคัญที่สุดที่นักพัฒนาต้องตัดสินใจ:

อัตโนมัติ: ค่าเริ่มต้น ระบบจะเลือกวิธีการตามความต้องการของแต่ละขั้นตอน
กัญชา: ส่งแถวที่มีค่าคีย์เดียวกันไปยังโหนดเดียวกัน จำเป็นต้องใช้ก่อน Join, Aggregator และ Remove Duplicates เพื่อให้คีย์ที่ตรงกันมาบรรจบกัน
ราวด์โรบิน: จัดการแถวทีละแถวอย่างสม่ำเสมอ เหมาะที่สุดสำหรับการโหลดไฟล์แบบเรียบที่มีการจัดกลุ่มคีย์ping ไม่เป็นไร.
ทั้งหมด: คัดลอกชุดข้อมูลทั้งหมดไปยังทุกโหนด ใช้สำหรับตารางอ้างอิงขนาดเล็กในขั้นตอนการค้นหา (Lookup stage)
เหมือนกัน: คงการแบ่งพาร์ติชันที่มีอยู่เดิมไว้ ซึ่งจะช่วยหลีกเลี่ยงการแบ่งพาร์ติชันซ้ำโดยไม่จำเป็นระหว่างสองขั้นตอน
ช่วงและค่าสัมบูรณ์: จัดเรียงแถวตามช่วงค่าหรือตามเศษเหลือของรหัสตัวเลข เมื่อต้องการกระจายอย่างสม่ำเสมอ

ไฟล์การกำหนดค่า (APT_CONFIG_FILE) จะระบุจำนวนโหนดที่มีอยู่ เนื่องจากจำนวนโหนดอยู่นอกเหนือตัวงาน ดังนั้นงานที่คอมไพล์แล้วเดียวกันจึงสามารถปรับขนาดได้ตั้งแต่แล็ปท็อปไปจนถึงระบบกริดสำหรับการใช้งานจริงโดยไม่ต้องเปลี่ยนแปลงการออกแบบ

ก่อนที่จะทดลองสิ่งใด ๆ เหล่านี้ได้ สภาพแวดล้อมต้องพร้อมเสียก่อน

ข้อกำหนดเบื้องต้นสำหรับ Datastage Tool

สำหรับ DataStage คุณจะต้องมีการตั้งค่าต่อไปนี้

อินโฟสเฟียร์
เซิร์ฟเวอร์ DataStage 9.1.2 หรือสูงกว่า
Microsoft Visual Studio .NET 2010 รุ่น Express C++
Oracle ไคลเอนต์ (ไคลเอนต์แบบเต็ม ไม่ใช่ไคลเอนต์ทันที) หากเชื่อมต่อกับ Oracle ฐานข้อมูล
ไคลเอนต์ DB2 หากเชื่อมต่อกับฐานข้อมูล DB2

ในซีรีส์บทช่วยสอน DataStage สำหรับผู้เริ่มต้น เราจะเรียนรู้วิธีดาวน์โหลดและติดตั้งเซิร์ฟเวอร์ข้อมูล InfoSphere

ดาวน์โหลดและติดตั้งเซิร์ฟเวอร์ข้อมูล InfoSphere

หากต้องการเข้าถึง DataStage ให้ดาวน์โหลดและติดตั้งเวอร์ชันล่าสุดของ IBM เซิร์ฟเวอร์อินโฟสเฟียร์ เซิร์ฟเวอร์สนับสนุน AIX, Linux และ Windows ระบบปฏิบัติการ สามารถเลือกใช้งานได้ตามความต้องการ

หากต้องการย้ายข้อมูลของคุณจากอินโฟสเฟียร์เวอร์ชันเก่าไปเป็นเวอร์ชันใหม่ ให้ใช้เครื่องมือการแลกเปลี่ยนสินทรัพย์

ไฟล์การติดตั้ง

เพื่อติดตั้งและกำหนดค่า Infosphere Datastage คุณต้องมีไฟล์ต่อไปนี้ในการตั้งค่าของคุณ

ใช้เพื่อการ Windows,

แพคเกจ etlDeployment-windows-oracle.pkg
แพคเกจ EtlDeployment-windows-db2.pkg

สำหรับลินุกซ์

EtlDeploymentPackage-linux-db2.pkg
แพคเกจ etlDeployment-linux-oracle.pkg

เมื่อติดตั้งเซิร์ฟเวอร์แล้ว ตัวอย่างการใช้งานในส่วนที่เหลือของหน้านี้จะใช้การบันทึกการเปลี่ยนแปลงข้อมูล ดังนั้นการทำความเข้าใจวิธีการส่งต่อข้อมูลการเปลี่ยนแปลงก่อนที่จะสร้างตัวอย่างนั้นจึงเป็นประโยชน์

ผังกระบวนการของข้อมูลการเปลี่ยนแปลงในงานขั้นตอนธุรกรรมของ CDC

แผนภาพด้านบน tracคือการเปลี่ยนแปลงเพียงครั้งเดียวจากฐานข้อมูลต้นทางไปยังฐานข้อมูลปลายทาง โดยเรียงลำดับตามที่ระบุไว้ด้านล่าง

บริการ 'InfoSphere CDC' สำหรับฐานข้อมูลจะตรวจสอบและบันทึกการเปลี่ยนแปลงจากฐานข้อมูลต้นทาง
ตามคำจำกัดความการจำลอง “InfoSphere CDC” จะถ่ายโอนข้อมูลการเปลี่ยนแปลงไปยัง “InfoSphere CDC สำหรับ InfoSphere DataStage”
เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ส่งข้อมูลไปยัง “ขั้นตอนธุรกรรม CDC” ผ่านเซสชัน TCP/IP เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ยังส่งข้อความ COMMIT (พร้อมกับข้อมูลบุ๊กมาร์ก) เพื่อทำเครื่องหมายขอบเขตธุรกรรมในบันทึกที่บันทึกไว้
สำหรับแต่ละข้อความ COMMIT ที่ส่งโดยเซิร์ฟเวอร์ “InfoSphere CDC for InfoSphere DataStage” นั้น “ขั้นตอนธุรกรรม CDC” จะสร้างเครื่องหมายจุดสิ้นสุดคลื่น (EOW) เครื่องหมายเหล่านี้จะถูกส่งไปที่ลิงก์เอาต์พุตทั้งหมดไปยังขั้นตอนตัวเชื่อมต่อฐานข้อมูลเป้าหมาย
เมื่อ “ระยะตัวเชื่อมต่อฐานข้อมูลเป้าหมาย” ได้รับเครื่องหมายจุดสิ้นสุดของ wave บนลิงก์อินพุตทั้งหมด ระบบจะเขียนข้อมูลบุ๊กมาร์กลงในตารางบุ๊กมาร์ก จากนั้นส่งธุรกรรมไปยังฐานข้อมูลเป้าหมาย
เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ร้องขอข้อมูลบุ๊กมาร์กจากตารางบุ๊กมาร์กบน “ฐานข้อมูลเป้าหมาย”
เซิร์ฟเวอร์ “InfoSphere CDC สำหรับ InfoSphere DataStage” ได้รับข้อมูลบุ๊กมาร์ก

ข้อมูลนี้ใช้เพื่อ

กำหนดจุดเริ่มต้นในบันทึกธุรกรรมที่จะอ่านการเปลี่ยนแปลงเมื่อเริ่มการจำลองแบบ
เพื่อตรวจสอบว่าสามารถล้างบันทึกธุรกรรมที่มีอยู่ได้หรือไม่

การตั้งค่าการจำลองแบบ SQL

ก่อนที่คุณจะเริ่มใช้ Datastage คุณต้องตั้งค่าฐานข้อมูลก่อน คุณจะสร้างฐานข้อมูล DB2 สองฐานข้อมูล

หนึ่งเพื่อใช้เป็นแหล่งการจำลองและ
คนหนึ่งเป็นเป้าหมาย

นอกจากนี้ คุณจะต้องสร้างตารางสองตาราง (ผลิตภัณฑ์และสินค้าคงคลัง) และเติมข้อมูลตัวอย่างลงในตารางเหล่านั้น จากนั้นคุณสามารถทดสอบการรวมของคุณระหว่าง SQL การจำลองแบบและ Datastage

นับจากนี้เป็นต้นไป คุณจะตั้งค่าการจำลองแบบ SQL โดยการสร้าง ตารางควบคุม ชุดการสมัครสมาชิก การลงทะเบียน และสมาชิกชุดการสมัครสมาชิกเราจะศึกษารายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ในหัวข้อถัดไป

ที่นี่เราจะนำตัวอย่างของรายการขายปลีกมาเป็นฐานข้อมูลของเราและสร้างตารางสินค้าคงคลังและผลิตภัณฑ์สองตาราง ตารางเหล่านี้จะโหลดข้อมูลจากแหล่งที่มาไปยังเป้าหมายผ่านชุดเหล่านี้ -ตารางควบคุม ชุดการสมัครสมาชิก การลงทะเบียน และสมาชิกชุดการสมัครสมาชิก.)

ขั้นตอน 1) สร้างฐานข้อมูลต้นทางที่เรียกว่า ขาย- ภายใต้ฐานข้อมูลนี้ ให้สร้างสองตาราง ผลิตภัณฑ์ และ สินค้าคงคลัง.

ขั้นตอน 2) รันคำสั่งต่อไปนี้เพื่อสร้างฐานข้อมูล SALES

db2 create database SALES

ขั้นตอน 3) เปิดใช้งานการบันทึกข้อมูลถาวรสำหรับฐานข้อมูลการขาย และสำรองฐานข้อมูลโดยใช้คำสั่งต่อไปนี้

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

ขั้นตอน 4) ในหน้าต่าง Command Prompt เดียวกัน ให้เปลี่ยนไปยังไดเร็กทอรีย่อย setupDB ภายในไดเร็กทอรี sqlrepl-datastage-tutorial ที่คุณได้เรียกใช้tracted จากไฟล์บีบอัดที่ดาวน์โหลดมา

ขั้นตอน 5) ใช้คำสั่งต่อไปนี้เพื่อสร้างตารางสินค้าคงคลังและนำเข้าข้อมูลลงในตารางโดยรันคำสั่งต่อไปนี้

db2 import from inventory.ixf of ixf create into inventory

ขั้นตอน 6) สร้างตารางเป้าหมาย ตั้งชื่อฐานข้อมูลเป้าหมายเป็น STAGEDB.

เนื่องจากตอนนี้คุณได้สร้างทั้งแหล่งที่มาและเป้าหมายของฐานข้อมูลแล้ว ขั้นตอนถัดไปในบทช่วยสอน DataStage นี้ เราจะดูวิธีการจำลองข้อมูลดังกล่าว

ข้อมูลต่อไปนี้อาจเป็นประโยชน์ใน การตั้งค่าแหล่งข้อมูล ODBC ที่ IBM เอกสารประกอบการใช้งาน InfoSphere Information Server

การสร้างวัตถุการจำลองแบบ SQL

ภาพด้านล่างแสดงวิธีการไหลของข้อมูลการเปลี่ยนแปลงจากฐานข้อมูลต้นทางไปยังฐานข้อมูลปลายทาง คุณสร้างแผนที่จากฐานข้อมูลต้นทางไปยังฐานข้อมูลปลายทางping ระหว่างโต๊ะที่รู้จักกันในชื่อ สมาชิกชุดการสมัครสมาชิก และจัดกลุ่มสมาชิกให้เป็น การสมัครสมาชิก.

หน่วยการจำลองข้อมูลภายใน InfoSphere CDC (Change Data Capture) เรียกว่าการสมัครสมาชิก

การเปลี่ยนแปลงที่เกิดขึ้นในแหล่งข้อมูลจะถูกบันทึกใน "ตารางควบคุมการบันทึก" ซึ่งจะถูกส่งไปยังตารางซีดีแล้วจึงส่งไปยังตารางเป้าหมาย ในขณะที่โปรแกรม Apply จะมีรายละเอียดเกี่ยวกับแถวที่ต้องทำการเปลี่ยนแปลง โปรแกรมจะรวมตารางซีดีเข้ากับชุดการสมัครใช้งานด้วย
การสมัครสมาชิกประกอบด้วยแผนที่ping รายละเอียดที่ระบุวิธีการนำข้อมูลจากแหล่งเก็บข้อมูลต้นทางไปใช้กับแหล่งเก็บข้อมูลปลายทาง หมายเหตุ ปัจจุบัน CDC ถูกเรียกว่า... การจำลองข้อมูลอินโฟสเฟียร์.
เมื่อดำเนินการสมัครสมาชิก InfoSphere CDC จะบันทึกการเปลี่ยนแปลงบนฐานข้อมูลต้นทาง InfoSphere CDC จะส่งมอบข้อมูลการเปลี่ยนแปลงไปยังเป้าหมาย และจัดเก็บข้อมูลจุดซิงค์ในตารางบุ๊กมาร์กในฐานข้อมูลเป้าหมาย
InfoSphere CDC ใช้ข้อมูลบุ๊กมาร์กเพื่อติดตามความคืบหน้าของงาน InfoSphere DataStage
ในกรณีที่เกิดความล้มเหลว ข้อมูลบุ๊กมาร์กจะถูกใช้เป็นจุดรีสตาร์ท ในตัวอย่างของเรา ASNIBMตาราง SNAP_FEEDETL จัดเก็บข้อมูล synchpoint ที่เกี่ยวข้องกับ DataStage ซึ่งใช้เพื่อ tracความคืบหน้าของ DataStage

ในส่วนนี้ของ IBM บทช่วยสอนการฝึกอบรม DataStage คุณต้องทำสิ่งต่อไปนี้

สร้างตาราง CAPTURE CONTROL และตาราง APPLY CONTROL เพื่อจัดเก็บตัวเลือกการจำลองแบบ
ลงทะเบียนตารางผลิตภัณฑ์และสินค้าคงคลังเป็นแหล่งการจำลอง
สร้างชุดการสมัครสมาชิกที่มีสมาชิกสองคน
สร้างสมาชิกชุดการสมัครสมาชิกและตาราง CCD เป้าหมาย

ใช้โปรแกรมบรรทัดคำสั่ง ASNCLP เพื่อตั้งค่าการจำลองแบบ SQL

ขั้นตอน 1) ค้นหาไฟล์สคริปต์ crtCtlTablesCaptureServer.asnclp ในไดเร็กทอรี sqlrepl-datastage-tutorial/setupSQLRep

ขั้นตอน 2) ในไฟล์แทนที่ และ " ” พร้อม ID ผู้ใช้และรหัสผ่านของคุณสำหรับการเชื่อมต่อกับฐานข้อมูล SALES

ขั้นตอน 3) เปลี่ยนไดเรกทอรีเป็นไดเรกทอรี sqlrepl-datastage-tutorial/setupSQLRep และเรียกใช้สคริปต์ ใช้คำสั่งต่อไปนี้ คำสั่งจะเชื่อมต่อกับฐานข้อมูล SALES สร้างสคริปต์ SQL เพื่อสร้างตารางควบคุม Capture

asnclp –f crtCtlTablesCaptureServer.asnclp

ขั้นตอน 4) ค้นหาไฟล์สคริปต์ crtCtlTablesApplyCtlServer.asnclp ในไดเร็กทอรีเดียวกัน ตอนนี้แทนที่สองอินสแตนซ์ของ และ " ” พร้อม ID ผู้ใช้และรหัสผ่านสำหรับการเชื่อมต่อกับฐานข้อมูล STAGEDB

ขั้นตอน 5) ตอนนี้ในพรอมต์คำสั่งเดียวกัน ให้ใช้คำสั่งต่อไปนี้เพื่อสร้างตารางควบคุมการใช้งาน

asnclp –f crtCtlTablesApplyCtlServer.asnclp

ขั้นตอน 6) ค้นหาไฟล์สคริปต์ crtRegistration.asnclp และแทนที่อินสแตนซ์ทั้งหมดของ พร้อมรหัสผู้ใช้สำหรับเชื่อมต่อกับฐานข้อมูล SALES นอกจากนี้ให้เปลี่ยน” ” ไปยังรหัสผ่านการเชื่อมต่อ

ขั้นตอน 7) หากต้องการลงทะเบียนตารางต้นฉบับ ให้ใช้สคริปต์ต่อไปนี้ เป็นส่วนหนึ่งของการสร้างการลงทะเบียน โปรแกรม ASNCLP จะสร้างตาราง CD สองตาราง ได้แก่ CDPRODUCT และ CDINVENTORY

asnclp –f crtRegistration.asnclp

คำสั่ง CREATE REGISTRATION จะใช้ตัวเลือกดังต่อไปนี้:

รีเฟรชส่วนต่าง: มันจะแจ้งให้ใช้โปรแกรมเพื่ออัพเดตตารางเป้าหมายเฉพาะเมื่อแถวในตารางต้นฉบับมีการเปลี่ยนแปลง
ลงรูปทั้งคู่: ตัวเลือกนี้ใช้เพื่อลงทะเบียนค่าในคอลัมน์ต้นทางก่อนการเปลี่ยนแปลงเกิดขึ้น และอีกหนึ่งรายการสำหรับค่าหลังการเปลี่ยนแปลงเกิดขึ้น

ขั้นตอน 8) ในการเชื่อมต่อกับฐานข้อมูลเป้าหมาย (STAGEDB) ให้ใช้ขั้นตอนต่อไปนี้

ค้นหาไฟล์ crtTableSpaceApply.bat เปิดในโปรแกรมแก้ไขข้อความ
แทนที่ และ ด้วยรหัสผู้ใช้และรหัสผ่าน
ในหน้าต่างคำสั่ง DB2 ให้ป้อน crtTableSpaceApply.bat และรันไฟล์
ไฟล์แบตช์นี้สร้างพื้นที่ตารางใหม่บนฐานข้อมูลเป้าหมาย ( STAGEDB)

ขั้นตอน 9) ค้นหาไฟล์สคริปต์ crtSubscriptionSetAndAddMembers.asnclp และทำการเปลี่ยนแปลงดังต่อไปนี้

แทนที่อินสแตนซ์ทั้งหมดของ และ พร้อมรหัสผู้ใช้และรหัสผ่านสำหรับเชื่อมต่อกับฐานข้อมูล SALES (ที่มา)
แทนที่อินสแตนซ์ทั้งหมดของ และ ด้วย ID ผู้ใช้สำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB (เป้าหมาย)

หลังจากการเปลี่ยนแปลง ให้รันสคริปต์เพื่อสร้างชุดการสมัครสมาชิก (ST00) ที่จัดกลุ่มตารางต้นทางและเป้าหมาย สคริปต์ยังสร้างสมาชิกชุดการสมัครสมาชิกสองตัว และ CCD (ข้อมูลการเปลี่ยนแปลงที่สอดคล้องกัน) ในฐานข้อมูลเป้าหมายที่จะจัดเก็บข้อมูลที่แก้ไข ข้อมูลนี้จะถูกใช้โดย Infosphere DataStage

ขั้นตอน 10) รันสคริปต์เพื่อสร้างชุดการสมัครสมาชิก สมาชิกชุดการสมัครสมาชิก และตาราง CCD

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

ตัวเลือกต่าง ๆ ที่ใช้ในการสร้างชุดการสมัครสมาชิกและสมาชิกสองคน ได้แก่

เสร็จสมบูรณ์เมื่อควบแน่นปิด
ภายนอก
โหลดประเภทการนำเข้าและส่งออก
กำหนดเวลาอย่างต่อเนื่อง

ขั้นตอน 11) เนื่องจากข้อบกพร่องในเครื่องมือการดูแลการจำลองแบบ คุณต้องรันไฟล์แบตช์อื่นเพื่อตั้งค่าคอลัมน์ TARGET_CAPTURE_SCHEMA ในไฟล์ IBMตารางควบคุม SNAP_SUBS_SET เป็นโมฆะ

ค้นหาไฟล์ updateTgtCapSchema.bat เปิดในโปรแกรมแก้ไขข้อความ แทนที่ และ ด้วย ID ผู้ใช้สำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB
ในหน้าต่างคำสั่ง DB2 ให้ป้อนคำสั่ง updateTgtCapSchema.bat และดำเนินการไฟล์

การสร้างไฟล์คำจำกัดความเพื่อแมปตาราง CCD กับ DataStage

ก่อนที่เราจะทำการจำลองแบบในขั้นตอนถัดไป เราต้องเชื่อมต่อตาราง CCD กับ DataStage ก่อน ในส่วนนี้เราจะมาดูวิธีการเชื่อมต่อ SQL กับ DataStage

ในการเชื่อมต่อแท็บเล็ต CCD กับ DataStage คุณต้องสร้างไฟล์กำหนดค่า DataStage (.dsx) ก่อน รูปแบบไฟล์ .dsx ถูกใช้โดย DataStage เพื่อนำเข้าและส่งออกคำจำกัดความของงาน คุณจะใช้สคริปต์ ASNCLP เพื่อสร้างไฟล์ .dsx สองไฟล์ ตัวอย่างเช่น ในที่นี้เราได้สร้างไฟล์ .dsx สองไฟล์แล้ว

stagedb_AQ00_SET00_sJobs.dsx: สร้างลำดับงานที่ควบคุมเวิร์กโฟลว์ของงานคู่ขนานทั้งสี่งาน
stagedb_AQ00_SET00_pJobs.dsx : สร้างงานคู่ขนานสี่งาน

โปรแกรม ASNCLP จะแมปคอลัมน์ CCD เป็นรูปแบบคอลัมน์ Datastage โดยอัตโนมัติ รองรับเมื่อ ASNCLP ทำงานเท่านั้น Windows, Linux หรือ Unix Procedure

งาน Datastage ดึงแถวจากตาราง CCD

งานหนึ่งจะกำหนดจุดซิงค์ที่ DataStage หยุดทำงานไว้ก่อนหน้านี้tracดึงข้อมูลจากสองตาราง งานจะได้รับข้อมูลนี้โดยการเลือกค่า SYNCHPOINT สำหรับชุดการสมัครสมาชิก ST00 จาก IBMตาราง SNAP_SUBS_SET และแทรกเข้าในคอลัมน์ MAX_SYNCHPOINT ของ IBMตาราง SNAP_FEEDETL
สองงานที่...tracข้อมูลจากตาราง PRODUCT_CCD และ INVENTORY_CCD กระบวนการทำงานจะทราบว่าต้องเริ่มต้นจากแถวใดtracโดยการเลือกค่า MIN_SYNCHPOINT และ MAX_SYNCHPOINT จาก IBMตาราง SNAP_FEEDETL สำหรับชุดการสมัครสมาชิก

เมื่อกำหนดคำจำกัดความเสร็จแล้ว การจำลองข้อมูลจึงสามารถเริ่มต้นได้ เพื่อให้ตาราง CCD เริ่มมีการเติมข้อมูล

กำลังเริ่มต้นการจำลองแบบ

เพื่อเริ่มการจำลอง คุณจะใช้ขั้นตอนด้านล่าง เมื่อตาราง CCD ถูกเติมข้อมูล แสดงว่าการตั้งค่าการจำลองได้รับการตรวจสอบแล้ว หากต้องการดูข้อมูลที่จำลองแบบในตาราง CCD เป้าหมาย ให้ใช้อินเทอร์เฟซผู้ใช้แบบกราฟิกของ DB2 Control Center

ขั้นตอน 1) ตรวจสอบให้แน่ใจว่า DB2 กำลังทำงานอยู่ หากไม่ได้ใช้งาน db2 เริ่มต้น คำสั่ง

ขั้นตอน 2) จากนั้นใช้คำสั่ง asncap จากพรอมต์ของระบบปฏิบัติการเพื่อเริ่มจับภาพโปรแกรม ตัวอย่างเช่น

asncap capture_server=SALES

คำสั่งข้างต้นระบุฐานข้อมูล SALES เป็นเซิร์ฟเวอร์ Capture เปิดหน้าต่างคำสั่งไว้ในขณะที่การจับภาพกำลังทำงานอยู่

ขั้นตอน 3) ตอนนี้เปิดพรอมต์คำสั่งใหม่ จากนั้นจึงเริ่มการ สมัครเรียน โปรแกรมโดยใช้คำสั่ง asnaply

asnapply control_server=STAGEDB apply_qual=AQ00

คำสั่งระบุฐานข้อมูล STAGEDB เป็นเซิร์ฟเวอร์ควบคุม Apply (ฐานข้อมูลที่มีตารางควบคุม Apply)
AQ00 เป็นตัวระบุที่ใช้ (ตัวระบุสำหรับตารางควบคุมชุดนี้)

เปิดหน้าต่างคำสั่งทิ้งไว้โดยที่ Apply กำลังทำงานอยู่

ขั้นตอน 4) ตอนนี้ให้เปิดพรอมต์คำสั่งอื่นแล้วออกคำสั่ง db2cc เพื่อเรียกใช้ DB2 Control Center ยอมรับศูนย์ควบคุมเริ่มต้น

ขั้นตอน 5) ในแผนผังการนำทางด้านซ้าย ให้เปิดฐานข้อมูลทั้งหมด > STAGEDB แล้วคลิกตาราง Double คลิกที่ชื่อตาราง (Product CCD) เพื่อเปิดตาราง มันจะมีลักษณะเช่นนี้

ในทำนองเดียวกันคุณยังสามารถเปิดตาราง CCD สำหรับ INVENTORY ได้อีกด้วย

ขณะนี้การจำลองข้อมูลกำลังส่งข้อมูลไปยังตาราง CCD แล้ว ดังนั้นความสนใจจึงย้ายจากฝั่งฐานข้อมูลไปยังฝั่งไคลเอ็นต์ DataStage

วิธีสร้างโปรเจ็กต์ในเครื่องมือ Datastage

ก่อนอื่น คุณจะต้องสร้างโปรเจ็กต์ใน DataStage คุณต้องเป็นผู้ดูแลระบบ InfoSphere DataStage

เมื่อการติดตั้งและการจำลองเสร็จสิ้น คุณจะต้องสร้างโปรเจ็กต์ ใน DataStage โปรเจ็กต์คือวิธีการจัดระเบียบข้อมูลของคุณ รวมถึงการกำหนดไฟล์ข้อมูล ขั้นตอน และสร้างงานในโปรเจ็กต์เฉพาะ

หากต้องการสร้างโปรเจ็กต์ใน DataStage ให้ทำตามขั้นตอนด้านล่าง:

ขั้นตอนที่ 1) เปิดซอฟต์แวร์ DataStage

เปิดตัว DataStage และ QualityStage Administrator จากนั้นคลิกเริ่ม > โปรแกรมทั้งหมด > IBM เซิร์ฟเวอร์ข้อมูล > IBM ผู้ดูแลระบบ WebSphere DataStage และ QualityStage

ขั้นตอนที่ 2) เชื่อมต่อเซิร์ฟเวอร์ DataStage และไคลเอนต์

ในการเชื่อมต่อกับเซิร์ฟเวอร์ DataStage จากไคลเอนต์ DataStage ของคุณ ให้ป้อนรายละเอียด เช่น ชื่อโดเมน ID ผู้ใช้ รหัสผ่าน และข้อมูลเซิร์ฟเวอร์

ขั้นตอนที่ 3) เพิ่มโครงการใหม่

ในหน้าต่าง WebSphere DataStage Administration คลิกแท็บโครงการแล้วคลิกเพิ่ม

ขั้นตอนที่ 4) กรอกรายละเอียดโครงการ

ในหน้าต่างการดูแลระบบ WebSphere DataStage ให้ป้อนรายละเอียด เช่น

ชื่อ
ตำแหน่งของไฟล์
คลิก 'ตกลง'

แต่ละโครงการประกอบด้วย:

งาน DataStage
ส่วนประกอบในตัว เหล่านี้เป็นส่วนประกอบที่กำหนดไว้ล่วงหน้าที่ใช้ในงาน
ส่วนประกอบที่ผู้ใช้กำหนด เหล่านี้เป็นส่วนประกอบแบบกำหนดเองที่สร้างขึ้นโดยใช้ DataStage Manager หรือ DataStage Designer

เราจะดูวิธีการนำเข้างานการจำลองใน Datastage Infosphere

วิธีนำเข้างานการจำลองแบบใน Datastage และ QualityStage Designer

คุณจะนำเข้างานใน IBM ไคลเอ็นต์ InfoSphere DataStage และ QualityStage Designer และคุณดำเนินการพวกมันใน IBM ไคลเอ็นต์ InfoSphere DataStage และ QualityStage Director

นักออกแบบที่เป็นลูกค้าเปรียบเสมือนผืนผ้าใบว่างเปล่าสำหรับงานก่อสร้างtracประกอบด้วยฟังก์ชันต่างๆ เช่น การแปลง การโหลด และการตรวจสอบคุณภาพของข้อมูล โดยมีเครื่องมือที่เป็นส่วนประกอบพื้นฐานของงาน ซึ่งรวมถึง...

การฝึกงาน: เชื่อมต่อกับแหล่งข้อมูลเพื่ออ่านหรือเขียนไฟล์และประมวลผลข้อมูล
การเชื่อมโยง: มันเชื่อมต่อขั้นตอนที่ข้อมูลของคุณไหล

สเตจในไคลเอ็นต์ InfoSphere DataStage และ QualityStage Designer จะถูกจัดเก็บไว้ในถาดเครื่องมือ Designer

ขั้นตอนต่อไปนี้รวมอยู่ใน InfoSphere QualityStage:

ขั้นสอบสวน
ทำให้เวทีเป็นมาตรฐาน
ระยะความถี่ที่ตรงกัน
ขั้นตอนการจับคู่แหล่งเดียว
ขั้นตอนการจับคู่แบบสองแหล่ง
ระยะเอาตัวรอด
ขั้นตอนการประเมินคุณภาพมาตรฐาน (SQA)

คุณสามารถสร้างงานได้ 4 ประเภทใน DataStage infosphere

งานคู่ขนาน
งานลำดับ
งานเมนเฟรม
งานเซิร์ฟเวอร์

มาดูทีละขั้นตอนเกี่ยวกับวิธีการนำเข้าไฟล์งานการจำลองแบบ

ขั้นตอน 1) เริ่มต้น DataStage และ QualityStage Designer คลิกเริ่ม > โปรแกรมทั้งหมด > IBM เซิร์ฟเวอร์ข้อมูล > IBM WebSphere DataStage และ QualityStage Designer

ขั้นตอน 2) ในหน้าต่างแนบกับโครงการ ให้ป้อนรายละเอียดต่อไปนี้

โดเมน
ชื่อผู้ใช้
รหัสผ่าน
ชื่อโครงการ
OK

ขั้นตอน 3) ตอนนี้จากเมนูไฟล์คลิกนำเข้า -> ส่วนประกอบ DataStage

หน้าต่างนำเข้าพื้นที่เก็บข้อมูล DataStage ใหม่จะเปิดขึ้น

ในหน้าต่างนี้ให้เรียกดู STAGEDB_AQ00_ST00_sJobs.dsx ไฟล์ที่เราสร้างไว้ก่อนหน้านี้
เลือกตัวเลือก “นำเข้าทั้งหมด”
ทำเครื่องหมายที่ช่องกาเครื่องหมาย “ดำเนินการวิเคราะห์ผลกระทบ”
คลิก 'ตกลง'

เมื่อนำเข้างานแล้ว DataStage จะสร้างงาน STAGEDB_AQ00_ST00_sequence

ขั้นตอน 4) ทำตามขั้นตอนเดียวกันเพื่อนำเข้าไฟล์ ไฟล์ STAGEDB_AQ00_ST00_pJobs.dsx- การนำเข้านี้จะสร้างงานคู่ขนานสี่งาน

ขั้นตอน 5) ใต้บานหน้าต่าง Designer Repository -> เปิดโฟลเดอร์ SQLREP ภายในโฟลเดอร์ คุณจะเห็นงานลำดับและงานคู่ขนานสี่งาน

ขั้นตอน 6) เพื่อดูลำดับงาน ไปที่แผนผังที่เก็บ คลิกขวาที่งาน STAGEDB_AQ00_ST00_sequence แล้วคลิก แก้ไข โดยจะแสดงขั้นตอนการทำงานของงานคู่ขนานทั้งสี่ที่ควบคุมลำดับงาน

แต่ละไอคอนคือเวที

เก็ตเอ็กซ์tractRange stage: มันอัพเดต IBMตาราง SNAP_FEEDETL จะกำหนดจุดเริ่มต้นสำหรับการดึงข้อมูลtracต่อเนื่องจากจุดที่ DataStage ใช้งานครั้งสุดท้ายtracแถวที่แก้ไขแล้วและกำหนดจุดสิ้นสุดเป็นธุรกรรมสุดท้ายที่ดำเนินการสำหรับชุดการสมัครสมาชิก
เก็ตเอ็กซ์tractRangeSuccessขั้นตอนนี้จะป้อนจุดเริ่มต้นให้กับตัวอย่างtractFromINVENTORY_CCD stage and extracขั้นตอน tFromPRODUCT_CCD
ออลเอ็กซ์tractsSuccess: ขั้นตอนนี้ช่วยให้มั่นใจได้ว่าทั้งอดีตและปัจจุบันtractFromINVENTORY_CCD และ extractFromPRODUCT_CCD เสร็จสมบูรณ์แล้ว จากนั้นจะส่งจุดซิงค์สำหรับแถวสุดท้ายที่ดึงมาไปยังขั้นตอน setRangeProcessed
ระยะ setRangeProcessed: มันอัปเดต IBMตาราง SNAP_FEEDETL ดังนั้น DataStage จึงรู้ว่าจะเริ่มต้นการดึงข้อมูลรอบต่อไปจากที่ใดtracการ

ขั้นตอน 7) เพื่อดูงานคู่ขนาน คลิกขวาที่ STAGEDB_ASN_INVENTORY_CCD และเลือกแก้ไขภายใต้ที่เก็บ มันจะเปิดหน้าต่างดังภาพด้านล่าง

ในภาพด้านบนนี้ คุณจะเห็นได้ว่าข้อมูลจากตาราง Inventory CCD และ Syncรายละเอียดจุด h จากตาราง FEEDETL จะถูกเรนเดอร์ไปที่ระยะ Lookup_6

งานที่นำเข้ายังคงชี้ไปยังที่ว่างเปล่า ดังนั้นจึงต้องกำหนดอ็อบเจ็กต์การเชื่อมต่อข้อมูลในขั้นตอนต่อไป

การสร้างการเชื่อมต่อข้อมูลจาก DataStage ไปยังฐานข้อมูล STAGEDB

ขั้นตอนต่อไปคือการสร้างการเชื่อมต่อข้อมูลระหว่าง InfoSphere DataStage และฐานข้อมูลเป้าหมาย SQL Replication ประกอบด้วยตาราง CCD

ใน DataStage คุณใช้ออบเจ็กต์การเชื่อมต่อข้อมูลที่มีขั้นตอนตัวเชื่อมต่อที่เกี่ยวข้องเพื่อกำหนดการเชื่อมต่อกับแหล่งข้อมูลในการออกแบบงานอย่างรวดเร็ว

ขั้นตอน 1) STAGEDB ประกอบด้วยตารางควบคุมการใช้งาน (Apply control tables) ที่ DataStage ใช้ในการซิงโครไนซ์ข้อมูลtraction และตาราง CCD ที่ดึงข้อมูลออกมาtracเท็ด ใช้คำสั่งต่อไปนี้

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

หมายเหตุ: ที่อยู่ IP ของระบบที่สร้าง STAGEDB

ขั้นตอน 2) คลิก ไฟล์ > ใหม่ > อื่นๆ > การเชื่อมต่อข้อมูล

ขั้นตอน 3) คุณจะมีหน้าต่างที่มีสองแท็บ พารามิเตอร์ และ ทั่วไป

ขั้นตอน 4) ในขั้นตอนนี้

โดยทั่วไป แท็บ ตั้งชื่อการเชื่อมต่อข้อมูล sqlreplConnect
ในแท็บพารามิเตอร์ ดังที่แสดงด้านล่าง

คลิกปุ่มเรียกดูถัดจากช่อง "เชื่อมต่อโดยใช้ประเภทสเตจ" และใน
เปิดหน้าต่างนำทางแผนผังพื้นที่เก็บข้อมูลไปยังประเภทสเตจ -> ขนาน– > ฐานข้อมูล —-> ตัวเชื่อมต่อ DB2
คลิกเปิด

ขั้นตอน 5) ในตารางพารามิเตอร์การเชื่อมต่อ ให้ป้อนรายละเอียด เช่น

การเชื่อมต่อ: STAGEDB2
ชื่อผู้ใช้: User ID สำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB
รหัสผ่าน: รหัสผ่านสำหรับเชื่อมต่อกับฐานข้อมูล STAGEDB
ตัวอย่าง: ชื่อของอินสแตนซ์ DB2 ที่มีฐานข้อมูล STAGEDB

ขั้นตอน 6) ในหน้าต่างถัดไปให้บันทึกการเชื่อมต่อข้อมูล คลิกที่ปุ่ม 'บันทึก'

การนำเข้าคำจำกัดความของตารางจาก STAGEDB ไปยัง DataStage

ในขั้นตอนที่แล้ว เราเห็นว่า InfoSphere DataStage และฐานข้อมูล STAGEDB เชื่อมต่อกัน ตอนนี้ นำเข้าคำจำกัดความคอลัมน์และข้อมูลเมตาอื่นๆ สำหรับตาราง PRODUCT_CCD และ INVENTORY_CCD ลงในที่เก็บเซิร์ฟเวอร์ข้อมูล

ในหน้าต่างตัวออกแบบ ให้ทำตามขั้นตอนด้านล่าง

ขั้นตอน 1) เลือกนำเข้า > คำนิยามตาราง > เริ่มตัวช่วยสร้างการนำเข้าตัวเชื่อมต่อ

ขั้นตอน 2) จากหน้าการเลือกตัวเชื่อมต่อของวิซาร์ด ให้เลือกตัวเชื่อมต่อ DB2 และคลิก ถัดไป

ขั้นตอน 3) คลิกโหลดในหน้ารายละเอียดการเชื่อมต่อ ซึ่งจะเติมฟิลด์ตัวช่วยสร้างด้วยข้อมูลการเชื่อมต่อจากการเชื่อมต่อข้อมูลที่คุณสร้างไว้ในบทที่แล้ว

ขั้นตอน 4) คลิกทดสอบการเชื่อมต่อในหน้าเดียวกัน สิ่งนี้จะแจ้งให้ DataStage พยายามเชื่อมต่อกับฐานข้อมูล STAGEDB คุณจะเห็นข้อความ “การเชื่อมต่อสำเร็จ” คลิกถัดไป

ขั้นตอน 5) ตรวจสอบให้แน่ใจว่าในหน้าตำแหน่งแหล่งข้อมูลมีการเติมฟิลด์ชื่อโฮสต์และชื่อฐานข้อมูลอย่างถูกต้อง จากนั้นคลิกถัดไป

ขั้นตอน 6) ในหน้าสคีมา ป้อนสคีมาของใช้ตารางควบคุม (ASN) หรือตรวจสอบว่าสคีมา ASN ได้รับการเติมไว้ล่วงหน้าในช่องสคีมา จากนั้นคลิกถัดไป หน้าการเลือกจะแสดงรายการตารางที่กำหนดไว้ใน ASN Schema

ขั้นตอน 7) ตารางแรกที่เราต้องนำเข้าข้อมูลเมตาคือ IBMSNAP_FEEDETL คือตารางควบคุมการใช้งาน (Apply control table) ซึ่งมีรายละเอียดเกี่ยวกับจุดซิงโครไนซ์ที่ช่วยให้ DataStage สามารถคงค่าไว้ได้ track แถวที่ดึงมาจากตาราง CCD เลือก IBMSNAP_FEEDETL แล้วคลิกถัดไป

ขั้นตอน 8) เพื่อให้การนำเข้าเสร็จสมบูรณ์ IBMคำจำกัดความของตาราง SNAP_FEEDETL คลิกนำเข้า จากนั้นในหน้าต่างที่เปิดอยู่ให้คลิกเปิด

ขั้นตอน 9) ทำซ้ำขั้นตอนที่ 1-8 อีกสองครั้งเพื่อนำเข้าคำจำกัดความสำหรับตาราง PRODUCT_CCD และตาราง INVENTORY_CCD

หมายเหตุ: ขณะนำเข้าคำจำกัดความสำหรับสินค้าคงคลังและผลิตภัณฑ์ ตรวจสอบให้แน่ใจว่าคุณเปลี่ยนสคีมาจาก ASN เป็นสคีมาที่ใช้สร้าง PRODUCT_CCD และ INVENTORY_CCD

ขณะนี้ DataStage มีรายละเอียดทั้งหมดที่จำเป็นในการเชื่อมต่อกับฐานข้อมูลเป้าหมายการจำลอง SQL

การตั้งค่าคุณสมบัติสำหรับงาน DataStage

สำหรับงานคู่ขนาน DataStage ทั้งสี่งานที่เรามีอยู่ งานจะมีหนึ่งขั้นตอนขึ้นไปที่เชื่อมต่อกับฐานข้อมูล STAGEDB คุณต้องแก้ไขขั้นตอนเพื่อเพิ่มข้อมูลการเชื่อมต่อและลิงก์ไปยังไฟล์ชุดข้อมูลที่ DataStage สร้างขึ้น

สเตจต่างๆ มีคุณสมบัติที่กำหนดไว้ล่วงหน้าซึ่งสามารถแก้ไขได้ ในที่นี้เราจะเปลี่ยนคุณสมบัติบางอย่างสำหรับ STAGEDB_ASN_PRODUCT_CCD_extracงานคู่ขนาน t

ขั้นตอน 1) เรียกดูโครงสร้างโฟลเดอร์ของที่เก็บข้อมูล Designer ภายใต้โฟลเดอร์ SQLREP ให้เลือก STAGEDB_ASN_PRODUCT_CCD_extracงานคู่ขนาน หากต้องการแก้ไข ให้คลิกขวาที่งาน หน้าต่างออกแบบของงานคู่ขนานจะเปิดขึ้นใน Designer Palette

ขั้นตอน 2) มองหาไอคอนสีเขียว ไอคอนนี้แสดงถึงขั้นตอนการเชื่อมต่อ DB2 ใช้สำหรับตัวอย่างเช่นtracดึงข้อมูลจากตาราง CCD Double- คลิกที่ไอคอน หน้าต่างตัวแก้ไขสเตจจะเปิดขึ้น

ขั้นตอน 3) ในตัวแก้ไขคลิกโหลดเพื่อเติมข้อมูลการเชื่อมต่อลงในฟิลด์ หากต้องการปิดเครื่องมือแก้ไขพื้นที่งานและบันทึกการเปลี่ยนแปลงของคุณ ให้คลิกตกลง

ขั้นตอน 4) ตอนนี้กลับไปที่หน้าต่างออกแบบสำหรับ STAGEDB_ASN_PRODUCT_CCD_extracงานคู่ขนาน t ค้นหาไอคอนสำหรับรับSyncขั้นตอนการเชื่อมต่อ DB2 ของ hPoints จากนั้นดับเบิลคลิกไอคอน

ขั้นตอน 5) ตอนนี้คลิกปุ่มโหลดเพื่อเติมฟิลด์ด้วยข้อมูลการเชื่อมต่อ

หมายเหตุ: หากคุณใช้ฐานข้อมูลอื่นที่ไม่ใช่ STAGEDB เป็นเซิร์ฟเวอร์ควบคุมการใช้งานของคุณ จากนั้นเลือกตัวเลือกเพื่อโหลดข้อมูลการเชื่อมต่อเพื่อรับSyncระยะ hPoints ซึ่งโต้ตอบกับตารางควบคุมแทนที่จะเป็นตาราง CCD

ขั้นตอน 6) ในขั้นตอนนี้

สร้างไฟล์ข้อความว่างบนระบบที่ InfoSphere DataStage รัน
ตั้งชื่อไฟล์นี้เป็น productdataset.ds และจดตำแหน่งที่คุณบันทึกไว้
DataStage จะเขียนการเปลี่ยนแปลงในไฟล์นี้หลังจากดึงข้อมูลการเปลี่ยนแปลงจากตาราง CCD
ชุดข้อมูลหรือไฟล์ที่ใช้ในการย้ายข้อมูลระหว่างงานที่เชื่อมโยงเรียกว่าชุดข้อมูลถาวร มันถูกแสดงโดยขั้นตอนชุดข้อมูล

ขั้นตอน 7) ตอนนี้เปิดตัวแก้ไขเวทีในหน้าต่างการออกแบบ และดับเบิลคลิกที่ไอคอน insert_into_a_dataset หน้าต่างอื่นจะเปิดขึ้นมา

ขั้นตอน 8) ในหน้าต่างนี้

ใต้แท็บคุณสมบัติตรวจสอบให้แน่ใจว่า Target โฟลเดอร์เปิดอยู่และคุณสมบัติ File = DATASETNAME จะถูกไฮไลต์
ทางด้านขวามือ คุณจะมีฟิลด์ไฟล์
ป้อนเส้นทางแบบเต็มไปยังไฟล์ productdataset.ds
คลิก 'ตกลง'

ขณะนี้ คุณได้อัปเดตคุณสมบัติที่จำเป็นทั้งหมดสำหรับตาราง CCD ของผลิตภัณฑ์แล้ว ปิดหน้าต่างการออกแบบและบันทึกการเปลี่ยนแปลงทั้งหมด

ขั้นตอน 9) จากนั้นค้นหาและเปิดไฟล์ STAGEDB_ASN_INVENTORY_CCD_extracเลือกงานคู่ขนานจากแผงที่เก็บข้อมูลของ Designer แล้วทำซ้ำขั้นตอนที่ 3-8

หมายเหตุ:

คุณต้องโหลดข้อมูลการเชื่อมต่อสำหรับฐานข้อมูลเซิร์ฟเวอร์ควบคุมลงในตัวแก้ไขสเตจเพื่อรับSyncขั้น hPoints หากเซิร์ฟเวอร์ควบคุมของคุณไม่ใช่ STAGEDB
สำหรับ STAGEDB_ST00_AQ00_getExtracสำหรับการประมวลผลงานคู่ขนาน tRange และ STAGEDB_ST00_AQ00_markRangeProcessed จะเปิดขั้นตอนการเชื่อมต่อ DB2 ทั้งหมด จากนั้นใช้ฟังก์ชัน load เพื่อเพิ่มข้อมูลการเชื่อมต่อสำหรับฐานข้อมูล STAGEDB

ตอนนี้ได้ตั้งค่าคุณสมบัติทั้งหมดเรียบร้อยแล้ว ดังนั้นจึงสามารถคอมไพล์และเรียกใช้งานโปรแกรมได้

การรวบรวมและการรันงาน DataStage

เมื่องาน DataStage พร้อมที่จะคอมไพล์ ตัวออกแบบจะตรวจสอบการออกแบบงานโดยดูที่อินพุต การแปลง การแสดงออก และรายละเอียดอื่นๆ

เมื่อการรวบรวมงานเสร็จสิ้น ก็พร้อมที่จะรัน เราจะรวบรวมงานทั้งห้างาน แต่จะรันเฉพาะ "ลำดับงาน" เท่านั้น เนื่องจากงานนี้ควบคุมงานคู่ขนานทั้งสี่งาน

ขั้นตอน 1) ภายใต้โฟลเดอร์ SQLREP เลือกแต่ละงานจากห้างานโดย (Cntrl+Shift- จากนั้นคลิกขวาแล้วเลือกตัวเลือกการคอมไพล์งานหลายงาน

ขั้นตอน 2) คุณจะเห็นงานห้างานถูกเลือกไว้ใน DataStage Compilation Wizard คลิกถัดไป

ขั้นตอน 3) การคอมไพล์เริ่มต้นและแสดงข้อความ “คอมไพล์สำเร็จ” เมื่อเสร็จแล้ว

ขั้นตอน 4) ตอนนี้เริ่มต้น DataStage และ QualityStage Director เลือก เริ่มต้น > โปรแกรมทั้งหมด > IBM เซิร์ฟเวอร์ข้อมูล > IBM WebSphere DataStage และผู้อำนวยการ QualityStage

ขั้นตอน 5) ในบานหน้าต่างนำทางโครงการทางด้านซ้าย คลิกโฟลเดอร์ SQLREP นี่จะนำงานทั้งห้างานมาไว้ในตารางสถานะผู้อำนวยการ

ขั้นตอน 6) เลือกงาน STAGEDB_AQ00_S00_sequence จากแถบเมนู คลิก งาน > รันทันที

เมื่อการรวบรวมเสร็จสิ้น คุณจะเห็นสถานะเสร็จสิ้น

ตรวจสอบว่าแถวที่เปลี่ยนแปลงซึ่งจัดเก็บอยู่ในตาราง PRODUCT_CCD และ INVENTORY_CCD นั้นถูกลบออกหรือไม่tracประมวลผลโดย DataStage และแทรกเข้าไปในไฟล์ชุดข้อมูลทั้งสองไฟล์

ขั้นตอน 7) กลับไปที่ Designer แล้วเปิด STAGEDB_ASN_PRODUCT_CCD_extracงาน. เพื่อเปิดโปรแกรมแก้ไขเวที Double- คลิกไอคอน insert_into_a_dataset จากนั้นคลิกดูข้อมูล

ขั้นตอน 8) ยอมรับค่าเริ่มต้นในหน้าต่างแถวที่จะแสดง จากนั้นคลิกตกลง หน้าต่างเบราว์เซอร์ข้อมูลจะเปิดขึ้นเพื่อแสดงเนื้อหาของไฟล์ชุดข้อมูล

การทดสอบการรวมระหว่างการจำลอง SQL และ DataStage

ในขั้นตอนที่แล้ว เราได้รวบรวมและดำเนินงาน ในส่วนนี้ เราจะตรวจสอบการรวมการจำลอง SQL และ DataStage เพื่อสิ่งนั้น เราจะทำการเปลี่ยนแปลงในตารางต้นฉบับและดูว่าการเปลี่ยนแปลงเดียวกันนี้ได้รับการอัปเดตใน DataStage หรือไม่

ขั้นตอน 1) นำทางไปยังโฟลเดอร์ sqlrepl-datastage-scripts สำหรับระบบปฏิบัติการของคุณ

ขั้นตอน 2) เริ่มการจำลอง SQL โดยทำตามขั้นตอนต่อไปนี้:

เรียกใช้ startSQLCapture.bat (Windows) เพื่อเริ่มโปรแกรม Capture ที่ฐานข้อมูล SALES
เรียกใช้ startSQLApply.bat (Windows) เพื่อเริ่มโปรแกรม Apply ที่ฐานข้อมูล STAGEDB

ขั้นตอน 3) ตอนนี้เปิดไฟล์ updateSourceTables.sql สำหรับเชื่อมต่อกับฐานข้อมูล SALES ให้แทนที่ และ ด้วยรหัสผู้ใช้และรหัสผ่าน

ขั้นตอน 4) เปิดหน้าต่างคำสั่ง DB2 เปลี่ยนไดเร็กทอรีเป็น sqlrepl-datastage-tutorial\scripts และรันปัญหาโดยคำสั่งที่กำหนด:

db2 -tvf updateSourceTables.sql

สคริปต์ SQL จะดำเนินการต่างๆ เช่น การอัปเดต แทรก และลบ ในตารางทั้งสอง (PRODUCT, INVENTORY) ในฐานข้อมูลการขาย

ขั้นตอน 5) บนระบบที่ DataStage กำลังทำงานอยู่ เปิด DataStage Director และรันงาน STAGEDB_AQ00_S00_sequence คลิก งาน > รันทันที

เมื่อคุณรันงาน กิจกรรมต่อไปนี้จะดำเนินการ

โปรแกรม Capture จะอ่านการเปลี่ยนแปลงหกแถวในบันทึกฐานข้อมูล SALES และแทรกลงในตารางซีดี
โปรแกรม Apply จะดึงแถวการเปลี่ยนแปลงจากตารางซีดีที่ SALES และแทรกลงในตาราง CCD ที่ STAGEDB
DataStage สองตัวtracงาน t จะดึงการเปลี่ยนแปลงจากตาราง CCD และเขียนลงในไฟล์ productdataset.ds และ inventorydataset.ds

คุณสามารถตรวจสอบได้ว่าขั้นตอนข้างต้นเกิดขึ้นโดยดูที่ชุดข้อมูล

ขั้นตอน 6) ทำตามขั้นตอนด้านล่าง

เริ่มโปรแกรมออกแบบ เปิดไฟล์ STAGEDB_ASN_PRODUCT_CCD_extracงาน.
แล้วก็ Double- คลิกไอคอน insert_into_a_dataset ในตัวแก้ไขเวที คลิกดูข้อมูล
ยอมรับค่าเริ่มต้นในแถวที่จะแสดงหน้าต่างและคลิกตกลง

ชุดข้อมูลประกอบด้วยแถวใหม่สามแถว วิธีที่ง่ายที่สุดในการตรวจสอบการเปลี่ยนแปลงที่เกิดขึ้นคือการเลื่อนลงไปทางขวาสุดของ Data Browser ตอนนี้ดูสามแถวสุดท้าย (ดูภาพด้านล่าง)

ตัวอักษร I, U และ D ระบุการดำเนินการ INSERT, UPDATE และ DELETE ที่ส่งผลให้มีแถวใหม่แต่ละแถว

คุณสามารถตรวจสอบแบบเดียวกันสำหรับตารางสินค้าคงคลังได้

DataStage เทียบกับเครื่องมือ ETL ยอดนิยมอื่นๆ

เมื่อกระบวนการทำงานแบบครบวงจรราบรื่นแล้ว คำถามต่อไปที่มักเกิดขึ้นคือ DataStage อยู่ในตำแหน่งใดเมื่อเทียบกับทางเลือกอื่นๆ ที่ทีมอาจมีอยู่แล้ว ตารางด้านล่างนี้เปรียบเทียบ DataStage กับแพลตฟอร์มที่ใช้กันอย่างแพร่หลายสามแพลตฟอร์ม โดยพิจารณาจากเกณฑ์ที่มักใช้ในการตัดสินใจซื้อ

หลักเกณฑ์	IBM DataStage	สารสนเทศ พาวเวอร์เซ็นเตอร์	Talend	SSIS
แบบจำลองการประมวลผล	ไปป์ไลน์บวกกับการทำงานแบบขนานของพาร์ติชัน	การแบ่งพาร์ติชันตามเมตาเดตา	สร้าง Java or Spark รหัส	การไหลของข้อมูลในหน่วยความจำ
เหมาะสมที่สุด	ปริมาณงานแบตช์และ CDC ขนาดใหญ่มากในระดับองค์กร	สถาปัตยกรรมดั้งเดิมที่ซับซ้อนพร้อมการกำกับดูแลที่เข้มงวด	ทีมที่เชี่ยวชาญด้านคลาวด์และคำนึงถึงต้นทุน	Microsoft SQL Server ที่ดิน
ลิขสิทธิ์	เชิงพาณิชย์ ระดับพรีเมียม	เชิงพาณิชย์	เวอร์ชันโอเพนซอร์ส พร้อมแพ็กเกจเชิงพาณิชย์	มาพร้อมกับ SQL Server
โค้งการเรียนรู้	บริษัท Steep ต้องการผู้เชี่ยวชาญด้าน ETL	สูงชัน	ระดับปานกลาง ทักษะการเขียนโค้ดจะช่วยได้	ปานกลาง
ข้อมูลที่มีคุณภาพ	QualityStage รวมอยู่ในชุดซอฟต์แวร์นี้	ผลิตภัณฑ์คุณภาพข้อมูลแยกต่างหาก	Talend Data Quality รวมอยู่ด้วย	ส่วนประกอบเสริม

โดยสรุปแล้ว DataStage ถูกเลือกใช้เมื่อปริมาณงานดิบ การเข้าถึงเมนเฟรม และการตรวจสอบที่มาของข้อมูลมีความสำคัญมากกว่าต้นทุนใบอนุญาต ทีมงานที่ทำงานในระบบคลาวด์เป็นหลักเลือกใช้ DataStage สถาปัตยกรรมดาต้าเลค หรือเปรียบเทียบ เช่นtracการจัดลำดับ t ก่อนอาจพบข้อแลกเปลี่ยนใน ETL กับ ELT มีความเกี่ยวข้องมากขึ้น และรายชื่อผู้เข้ารอบสุดท้ายที่กว้างขึ้นจะปรากฏในบทสรุปของ เครื่องมือ ETL และ เครื่องมือรวมข้อมูล.

คำถามที่พบบ่อย

งานเซิร์ฟเวอร์จะทำงานบนโหนดเดียวโดยใช้ชุดขั้นตอนการทำงานที่จำกัด ในขณะที่งานแบบขนานจะทำงานบนเอนจินแบบขนาน รองรับการแบ่งพาร์ติชันข้ามโหนด และใช้ชุดขั้นตอนการทำงานที่หลากหลายกว่า จึงสามารถรองรับปริมาณงานที่ใหญ่กว่ามากได้

ใช่ครับ นอกเหนือจากเซิร์ฟเวอร์ข้อมูลภายในองค์กรแล้ว IBM นำเสนอ DataStage ในรูปแบบบริการจัดการบน IBM Cloud Pak for Data และการผสานรวมภายใน watsonx.data ทำให้สามารถใช้งานการออกแบบเวิร์กโฟลว์แบบเดียวกันได้โดยไม่ต้องดูแลระบบเซิร์ฟเวอร์ในพื้นที่

งานส่วนใหญ่เป็นงานกราฟิก ส่วนเพิ่มเติมที่มีประโยชน์ได้แก่ SQL สำหรับการสืบค้นแหล่งข้อมูล การเขียนสคริปต์เชลล์สำหรับการควบคุมงาน และภาษาการแสดงออกของ DataStage BASIC ที่ใช้ภายในกระบวนการสร้างและการทำงานของขั้นตอน Transformer

ผู้ช่วย AI ใน IBM Cloud Pak for Data แนะนำแผนที่จากแหล่งข้อมูลไปยังเป้าหมายpingสร้างนิพจน์การแปลงจากภาษาธรรมดา ตรวจจับการเปลี่ยนแปลงโครงสร้างข้อมูล และแนะนำการเปลี่ยนแปลงการแบ่งพาร์ติชันเมื่อกระบวนการทำงานช้ากว่าเวลามาตรฐาน

ไม่ AI ช่วยเร่งความเร็วแผนที่pingรวมถึงการจัดทำเอกสารและข้อเสนอแนะในการปรับแต่ง แต่ผู้พัฒนาซอฟต์แวร์ยังคงรับผิดชอบในการสร้างแบบจำลองข้อมูล กฎทางธุรกิจ การจัดการข้อผิดพลาด และความรับผิดชอบต่อการผลิต บทบาทจึงเปลี่ยนไปสู่การตรวจสอบและการออกแบบมากกว่าที่จะหายไป

บทช่วยสอน DataStage สำหรับผู้เริ่มต้น: IBM เครื่องมือ ETL

DataStage คืออะไร?

ภาพรวม DataStage

ประเภทขั้นตอนการประมวลผล

เหตุใดจึงควรใช้ DataStage สำหรับการรวมข้อมูล?

ส่วนประกอบ DataStage และ Archiเทคเจอร์

วิธีการทำงานของการประมวลผลแบบขนานใน DataStage

ข้อกำหนดเบื้องต้นสำหรับ Datastage Tool

ดาวน์โหลดและติดตั้งเซิร์ฟเวอร์ข้อมูล InfoSphere

ผังกระบวนการของข้อมูลการเปลี่ยนแปลงในงานขั้นตอนธุรกรรมของ CDC

การตั้งค่าการจำลองแบบ SQL

การสร้างวัตถุการจำลองแบบ SQL

การสร้างไฟล์คำจำกัดความเพื่อแมปตาราง CCD กับ DataStage

กำลังเริ่มต้นการจำลองแบบ

วิธีสร้างโปรเจ็กต์ในเครื่องมือ Datastage

วิธีนำเข้างานการจำลองแบบใน Datastage และ QualityStage Designer

การสร้างการเชื่อมต่อข้อมูลจาก DataStage ไปยังฐานข้อมูล STAGEDB

การนำเข้าคำจำกัดความของตารางจาก STAGEDB ไปยัง DataStage

การตั้งค่าคุณสมบัติสำหรับงาน DataStage

การรวบรวมและการรันงาน DataStage

การทดสอบการรวมระหว่างการจำลอง SQL และ DataStage

DataStage เทียบกับเครื่องมือ ETL ยอดนิยมอื่นๆ

คำถามที่พบบ่อย

สรุปโพสต์นี้ด้วย:

ลงทะเบียนเพื่อรับจดหมายข่าว

DataStage คืออะไร?

ภาพรวม DataStage

ประเภทขั้นตอนการประมวลผล

บทความที่เกี่ยวข้อง

เหตุใดจึงควรใช้ DataStage สำหรับการรวมข้อมูล?

ส่วนประกอบ DataStage และ Archiเทคเจอร์

วิธีการทำงานของการประมวลผลแบบขนานใน DataStage

ข้อกำหนดเบื้องต้นสำหรับ Datastage Tool

ดาวน์โหลดและติดตั้งเซิร์ฟเวอร์ข้อมูล InfoSphere

ผังกระบวนการของข้อมูลการเปลี่ยนแปลงในงานขั้นตอนธุรกรรมของ CDC

การตั้งค่าการจำลองแบบ SQL

การสร้างวัตถุการจำลองแบบ SQL

การสร้างไฟล์คำจำกัดความเพื่อแมปตาราง CCD กับ DataStage

กำลังเริ่มต้นการจำลองแบบ

วิธีสร้างโปรเจ็กต์ในเครื่องมือ Datastage

วิธีนำเข้างานการจำลองแบบใน Datastage และ QualityStage Designer

การสร้างการเชื่อมต่อข้อมูลจาก DataStage ไปยังฐานข้อมูล STAGEDB

การนำเข้าคำจำกัดความของตารางจาก STAGEDB ไปยัง DataStage

การตั้งค่าคุณสมบัติสำหรับงาน DataStage

การรวบรวมและการรันงาน DataStage

การทดสอบการรวมระหว่างการจำลอง SQL และ DataStage

DataStage เทียบกับเครื่องมือ ETL ยอดนิยมอื่นๆ

คำถามที่พบบ่อย

สรุปโพสต์นี้ด้วย:

ลงทะเบียนเพื่อรับจดหมายข่าว