คลังข้อมูล Archiเทคเจอร์ ส่วนประกอบ และไดอะแกรม Concepts
คลังข้อมูล Concepts
แนวคิดพื้นฐานของคลังข้อมูลคือการอำนวยความสะดวกให้กับบริษัทในการตัดสินใจและคาดการณ์ความจริงเวอร์ชันเดียว คลังข้อมูลคือระบบข้อมูลที่ประกอบด้วยข้อมูลในอดีตและข้อมูลการสับเปลี่ยนจากแหล่งเดียวหรือหลายแหล่ง คลังข้อมูล Concepts ลดความซับซ้อนของกระบวนการรายงานและการวิเคราะห์ขององค์กร
ลักษณะของคลังข้อมูล
คลังข้อมูล Concepts มีลักษณะดังต่อไปนี้:
- เน้นหัวเรื่อง
- แบบบูรณาการ
- ตัวแปรเวลา
- ไม่ระเหย
เน้นหัวเรื่อง
คลังข้อมูลจะเน้นไปที่เนื้อหา เนื่องจากจะนำเสนอข้อมูลเกี่ยวกับธีมแทนที่จะเน้นไปที่การดำเนินงานของบริษัทที่กำลังดำเนินอยู่ เนื้อหาเหล่านี้อาจเป็นการขาย การตลาด การจัดจำหน่าย เป็นต้น
คลังข้อมูลไม่เคยเน้นที่การดำเนินการที่กำลังดำเนินอยู่ แต่จะเน้นการสร้างแบบจำลองและการวิเคราะห์ข้อมูลแทน การตัดสินใจ- นอกจากนี้ยังให้มุมมองที่เรียบง่ายและรัดกุมเกี่ยวกับหัวข้อเฉพาะ โดยการยกเว้นข้อมูลที่ไม่เป็นประโยชน์ในการสนับสนุนกระบวนการตัดสินใจ
แบบบูรณาการ
ในคลังข้อมูล การบูรณาการหมายถึงการจัดตั้งหน่วยวัดร่วมสำหรับข้อมูลที่คล้ายคลึงกันทั้งหมดจากฐานข้อมูลที่แตกต่างกัน ข้อมูลยังต้องถูกจัดเก็บไว้ในคลังข้อมูลในลักษณะทั่วไปและเป็นที่ยอมรับในระดับสากล
คลังข้อมูลได้รับการพัฒนาโดยการบูรณาการข้อมูลจากแหล่งต่างๆ เช่น เมนเฟรม ฐานข้อมูลเชิงสัมพันธ์ ไฟล์แบบเรียบ ฯลฯ นอกจากนี้ จะต้องรักษารูปแบบการตั้งชื่อ รูปแบบ และการเข้ารหัสที่สอดคล้องกัน
การบูรณาการนี้ช่วยให้วิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ จำเป็นต้องรักษาความสอดคล้องในหลักเกณฑ์การตั้งชื่อ การวัดแอตทริบิวต์ โครงสร้างการเข้ารหัส ฯลฯ พิจารณาตัวอย่างต่อไปนี้:
ในตัวอย่างข้างต้น มีแอปพลิเคชันที่แตกต่างกันสามรายการชื่อ A, B และ C ข้อมูลที่จัดเก็บไว้ในแอปพลิเคชันเหล่านี้ ได้แก่ เพศ วันที่ และยอดคงเหลือ อย่างไรก็ตาม ข้อมูลของแต่ละแอปพลิเคชันจะถูกจัดเก็บด้วยวิธีที่แตกต่างกัน
- ในแอปพลิเคชัน ฟิลด์เพศจะจัดเก็บค่าตรรกะ เช่น M หรือ F
- ในฟิลด์เพศของแอปพลิเคชัน B เป็นค่าตัวเลข
- ในแอปพลิเคชัน C ฟิลด์เพศจะถูกจัดเก็บในรูปแบบของค่าอักขระ
- เช่นเดียวกับกรณีวันที่และยอดคงเหลือ
อย่างไรก็ตาม หลังจากกระบวนการเปลี่ยนแปลงและทำความสะอาด ข้อมูลทั้งหมดนี้จะถูกจัดเก็บในรูปแบบทั่วไปใน คลังข้อมูล.
ตัวแปรเวลา
ขอบเขตเวลาของคลังข้อมูลนั้นค่อนข้างกว้างเมื่อเทียบกับระบบปฏิบัติการ ข้อมูลที่รวบรวมในคลังข้อมูลจะถูกจดจำด้วยระยะเวลาที่กำหนดและนำเสนอข้อมูลจากมุมมองทางประวัติศาสตร์ โดยมีองค์ประกอบของเวลาอย่างชัดเจนหรือโดยนัย
สถานที่หนึ่งที่ข้อมูล Datawarehouse แสดงความแปรปรวนของเวลาอยู่ในโครงสร้างของคีย์บันทึก คีย์หลักทุกคีย์ที่อยู่ใน DW ควรมีองค์ประกอบของเวลาโดยปริยายหรือชัดเจน เช่น วัน สัปดาห์ เดือน เป็นต้น
ความแปรปรวนเวลาอีกประการหนึ่งคือเมื่อข้อมูลถูกแทรกลงในคลังสินค้าแล้ว จะไม่สามารถอัปเดตหรือเปลี่ยนแปลงได้
ไม่ระเหย
คลังข้อมูลก็ไม่ลบเลือนเช่นกัน หมายความว่าข้อมูลก่อนหน้าจะไม่ถูกลบเมื่อมีการป้อนข้อมูลใหม่เข้าไป
ข้อมูลเป็นแบบอ่านอย่างเดียวและรีเฟรชเป็นระยะ นอกจากนี้ยังช่วยวิเคราะห์ข้อมูลในอดีตและทำความเข้าใจว่าเกิดอะไรขึ้นและเมื่อใด ไม่จำเป็นต้องมีกระบวนการธุรกรรม การกู้คืน และกลไกการควบคุมการทำงานพร้อมกัน
กิจกรรมต่างๆ เช่น การลบ การอัปเดต และการแทรก ซึ่งดำเนินการในสภาพแวดล้อมแอปพลิเคชันการทำงานจะถูกละเว้นในสภาพแวดล้อมคลังข้อมูล มีเพียงสองประเภทของการดำเนินการข้อมูลในคลังข้อมูลเท่านั้น
- กำลังโหลดข้อมูล
- การเข้าถึงข้อมูล
ต่อไปนี้เป็นข้อแตกต่างที่สำคัญบางประการระหว่างแอปพลิเคชันและคลังข้อมูล
Operaแอปพลิเคชันแห่งชาติ | คลังข้อมูล |
---|---|
จำเป็นต้องเขียนโค้ดโปรแกรมที่ซับซ้อนเพื่อให้แน่ใจว่ากระบวนการอัปเกรดข้อมูลรักษาความสมบูรณ์ของผลิตภัณฑ์ขั้นสุดท้ายในระดับสูง | ปัญหาประเภทนี้ไม่เกิดขึ้นเนื่องจากไม่ได้ดำเนินการอัปเดตข้อมูล |
ข้อมูลจะถูกวางในรูปแบบมาตรฐานเพื่อให้แน่ใจว่ามีความซ้ำซ้อนน้อยที่สุด | ข้อมูลไม่ได้ถูกจัดเก็บในรูปแบบมาตรฐาน |
เทคโนโลยีจำเป็นต้องรองรับปัญหาการทำธุรกรรม การกู้คืนข้อมูล การย้อนกลับ และการแก้ไขปัญหา เนื่องจากปัญหาทางตันค่อนข้างซับซ้อน | มันนำเสนอความเรียบง่ายในด้านเทคโนโลยี |
คลังข้อมูล Archiเทคเจอร์
คลังข้อมูล Archiเทคเจอร์ มีความซับซ้อนเนื่องจากเป็นระบบสารสนเทศที่มีข้อมูลประวัติและข้อมูลสับเปลี่ยนจากหลายแหล่ง มี 3 วิธีในการสร้างชั้นคลังข้อมูล ได้แก่ ชั้นเดียว ชั้นสอง และชั้นสาม สถาปัตยกรรมคลังข้อมูลแบบสามชั้นนี้จะอธิบายดังต่อไปนี้
สถาปัตยกรรมแบบชั้นเดียว
วัตถุประสงค์ของเลเยอร์เดียวคือเพื่อลดปริมาณข้อมูลที่จัดเก็บ เป้าหมายนี้คือการลบข้อมูลซ้ำซ้อน สถาปัตยกรรมนี้ไม่ค่อยได้ใช้ในทางปฏิบัติ
สถาปัตยกรรมสองชั้น
สถาปัตยกรรมสองชั้นเป็นชั้นหนึ่งของคลังข้อมูลซึ่งแยกแหล่งข้อมูลที่มีอยู่จริงและคลังข้อมูลออกจากกัน สถาปัตยกรรมนี้ไม่สามารถขยายได้และไม่รองรับผู้ใช้ปลายทางจำนวนมาก อีกทั้งยังมีปัญหาด้านการเชื่อมต่อเนื่องมาจากข้อจำกัดของเครือข่าย
คลังข้อมูลสามชั้น Archiเทคเจอร์
นี่คือการใช้กันอย่างแพร่หลายที่สุด Archiเทคเจอร์คลังข้อมูล
ประกอบด้วยชั้นบน กลาง และล่าง
- ชั้นล่างสุด: ฐานข้อมูลของเซิร์ฟเวอร์ Datawarehouse เป็นชั้นล่างสุด โดยปกติจะเป็นระบบฐานข้อมูลเชิงสัมพันธ์ ข้อมูลจะถูกล้าง แปลง และโหลดลงในเลเยอร์นี้โดยใช้เครื่องมือแบ็คเอนด์
- ระดับกลาง: ระดับกลางในคลังข้อมูลคือเซิร์ฟเวอร์ OLAP ซึ่งใช้งานโดยใช้โมเดล ROLAP หรือ MOLAP สำหรับผู้ใช้ ระดับแอปพลิเคชันนี้จะแสดงมุมมองเชิงนามธรรมของฐานข้อมูล เลเยอร์นี้ยังทำหน้าที่เป็นตัวกลางระหว่างผู้ใช้ปลายทางและฐานข้อมูล
- ชั้นบนสุด: ชั้นบนสุดคือเลเยอร์ไคลเอ็นต์ส่วนหน้า ชั้นบนสุดคือเครื่องมือและ API ที่คุณเชื่อมต่อและรับข้อมูลจากคลังข้อมูล อาจเป็นเครื่องมือสืบค้น เครื่องมือรายงาน เครื่องมือสืบค้นที่ได้รับการจัดการ เครื่องมือวิเคราะห์ และเครื่องมือขุดข้อมูล
ส่วนประกอบคลังข้อมูล
เราจะเรียนรู้เกี่ยวกับ Datawarehouse Components และ Archiโครงสร้าง Data Warehouse พร้อม Diagram ดังรูปด้านล่าง
คลังข้อมูลใช้เซิร์ฟเวอร์ RDBMS ซึ่งเป็นที่เก็บข้อมูลส่วนกลางที่ล้อมรอบด้วยส่วนประกอบคลังข้อมูลที่สำคัญเพื่อทำให้สภาพแวดล้อมทั้งหมดทำงานได้ จัดการได้ และเข้าถึงได้
ส่วนประกอบคลังข้อมูลส่วนใหญ่มีห้าองค์ประกอบ:
ฐานข้อมูลคลังข้อมูล
ฐานข้อมูลกลางเป็นรากฐานของสภาพแวดล้อมคลังข้อมูล ฐานข้อมูลนี้ถูกนำไปใช้งานบน อาร์ดีบีเอ็มเอส เทคโนโลยี. แม้ว่าการใช้งานประเภทนี้จะถูกจำกัดด้วยข้อเท็จจริงที่ว่าระบบ RDBMS แบบดั้งเดิมได้รับการปรับให้เหมาะสมสำหรับการประมวลผลฐานข้อมูลธุรกรรม ไม่ใช่สำหรับคลังข้อมูล ตัวอย่างเช่น การสืบค้นเฉพาะกิจ การรวมหลายตาราง การรวมจะใช้ทรัพยากรจำนวนมากและทำให้ประสิทธิภาพการทำงานช้าลง
ดังนั้นจึงมีการใช้แนวทางทางเลือกอื่นในฐานข้อมูลดังรายการด้านล่าง
- ในคลังข้อมูล ฐานข้อมูลเชิงสัมพันธ์จะถูกนำไปใช้งานแบบคู่ขนานเพื่อให้สามารถปรับขนาดได้ ฐานข้อมูลเชิงสัมพันธ์แบบคู่ขนานยังอนุญาตให้ใช้หน่วยความจำร่วมกันหรือแบบจำลองการไม่แชร์หน่วยความจำบนการกำหนดค่ามัลติโปรเซสเซอร์หรือโปรเซสเซอร์ขนานจำนวนมาก
- โครงสร้างดัชนีใหม่ใช้เพื่อข้ามการสแกนตารางเชิงสัมพันธ์และปรับปรุงความเร็ว
- การใช้ฐานข้อมูลหลายมิติ (MDDB) เพื่อเอาชนะข้อจำกัดใดๆ ที่เกิดขึ้นเนื่องจากโมเดลคลังข้อมูลเชิงสัมพันธ์ ตัวอย่าง: Essbase จาก Oracle.
เครื่องมือการจัดหา การเข้าซื้อกิจการ การล้างข้อมูล และการเปลี่ยนแปลง (ETL)
เครื่องมือจัดหาข้อมูล การแปลง และการย้ายข้อมูลใช้สำหรับการแปลง การสรุป และการเปลี่ยนแปลงทั้งหมดที่จำเป็นในการแปลงข้อมูลเป็นรูปแบบรวมในคลังข้อมูล เครื่องมือเหล่านี้เรียกอีกอย่างว่าเครื่องมือแยก การแปลง และการโหลด (ETL)
ฟังก์ชั่นประกอบด้วย:
- ทำให้ข้อมูลไม่ระบุชื่อตามข้อกำหนดด้านกฎระเบียบ
- การกำจัดข้อมูลที่ไม่ต้องการออกจากฐานข้อมูลปฏิบัติการจากการโหลดเข้าสู่คลังข้อมูล
- ค้นหาและแทนที่ชื่อและคำจำกัดความทั่วไปสำหรับข้อมูลที่มาจากแหล่งต่างๆ
- การคำนวณผลสรุปและข้อมูลที่ได้มา
- ในกรณีที่ข้อมูลสูญหาย ให้เติมข้อมูลเหล่านั้นด้วยค่าเริ่มต้น
- ขจัดข้อมูลซ้ำซ้อนที่มาจากแหล่งข้อมูลหลายแหล่ง
เครื่องมือแยก แปลง และโหลดเหล่านี้อาจสร้างงาน cron งานพื้นหลัง โปรแกรมภาษาโคบอล, เชลล์สคริปต์ ฯลฯ ที่อัปเดตข้อมูลในคลังข้อมูลเป็นประจำ เครื่องมือเหล่านี้ยังมีประโยชน์ในการรักษาข้อมูลเมตาอีกด้วย
ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน เครื่องมือ ETL ต้องจัดการกับความท้าทายของฐานข้อมูลและความหลากหลายของข้อมูล
เมตาดาต้า
ชื่อ Meta Data บ่งบอกถึงคลังข้อมูลทางเทคโนโลยีระดับสูง Concepts- อย่างไรก็ตาม มันค่อนข้างง่าย ข้อมูลเมตาคือข้อมูลเกี่ยวกับข้อมูลที่กำหนดคลังข้อมูล ใช้ในการสร้าง บำรุงรักษา และจัดการคลังข้อมูล
ในคลังข้อมูล Archiข้อมูลเมตามีบทบาทสำคัญเนื่องจากระบุแหล่งที่มา การใช้งาน ค่า และคุณลักษณะของข้อมูลคลังข้อมูล นอกจากนี้ยังกำหนดวิธีที่ข้อมูลสามารถเปลี่ยนแปลงและประมวลผลได้ มันเชื่อมต่อกับคลังข้อมูลอย่างใกล้ชิด
ตัวอย่างเช่น บรรทัดในฐานข้อมูลการขายอาจมี:
4030 KJ732 299.90
นี่เป็นข้อมูลที่ไม่มีความหมายจนกว่าเราจะปรึกษา Meta ที่บอกเราว่าเป็นข้อมูลนั้น
- หมายเลขรุ่น: 4030
- รหัสตัวแทนขาย: KJ732
- ยอดขายรวม 299.90 ดอลลาร์
ดังนั้น Meta Data จึงเป็นองค์ประกอบสำคัญในการเปลี่ยนแปลงข้อมูลให้เป็นความรู้
เมตาดาต้าช่วยตอบคำถามต่อไปนี้
- คลังข้อมูลประกอบด้วยตาราง คุณลักษณะ และคีย์ใดบ้าง
- ข้อมูลมาจากไหน?
- ข้อมูลถูกโหลดซ้ำกี่ครั้ง?
- การเปลี่ยนแปลงใดบ้างที่นำไปใช้กับการทำความสะอาด?
เมตาดาต้าสามารถแบ่งออกเป็นประเภทต่อไปนี้:
- ข้อมูลเมตาทางเทคนิค: Metadata ประเภทนี้มีข้อมูลเกี่ยวกับคลังสินค้าซึ่งใช้โดยผู้ออกแบบและผู้ดูแลระบบคลังข้อมูล
- ข้อมูลเมตาธุรกิจ: Metadata ประเภทนี้มีรายละเอียดที่ช่วยให้ผู้ใช้ปลายทางเข้าใจข้อมูลที่จัดเก็บไว้ในคลังข้อมูลได้ง่าย
เครื่องมือสืบค้นข้อมูล
หนึ่งในวัตถุประสงค์หลักของคลังข้อมูลคือการให้ข้อมูลแก่ธุรกิจเพื่อการตัดสินใจเชิงกลยุทธ์ เครื่องมือสืบค้นช่วยให้ผู้ใช้สามารถโต้ตอบกับระบบคลังข้อมูลได้
เครื่องมือเหล่านี้แบ่งออกเป็นสี่ประเภทที่แตกต่างกัน:
- เครื่องมือสืบค้นและการรายงาน
- เครื่องมือพัฒนาแอพพลิเคชั่น
- เครื่องมือขุดข้อมูล
- เครื่องมือ OLAP
1. เครื่องมือสืบค้นและการรายงาน
เครื่องมือสืบค้นและการรายงานสามารถแบ่งออกได้เป็น
- เครื่องมือการรายงาน
- เครื่องมือสืบค้นที่มีการจัดการ
เครื่องมือการรายงาน:
เครื่องมือการรายงาน สามารถแบ่งเพิ่มเติมออกเป็นเครื่องมือการรายงานการผลิตและผู้เขียนรายงานบนเดสก์ท็อป
- ผู้เขียนรายงาน: เครื่องมือการรายงานประเภทนี้เป็นเครื่องมือที่ออกแบบมาสำหรับผู้ใช้ปลายทางเพื่อการวิเคราะห์
- การรายงานการผลิต: เครื่องมือประเภทนี้ช่วยให้องค์กรสามารถสร้างรายงานการปฏิบัติงานเป็นประจำ นอกจากนี้ยังรองรับงานแบทช์ปริมาณมาก เช่น การพิมพ์และการคำนวณ เครื่องมือการรายงานยอดนิยม ได้แก่ Brio, Business Objects Oracle,พาวเวอร์ซอฟท์,สถาบันเอสเอเอส.
เครื่องมือสืบค้นที่มีการจัดการ:
เครื่องมือการเข้าถึงประเภทนี้ช่วยให้ผู้ใช้ปลายทางสามารถแก้ไขอุปสรรคในฐานข้อมูลและ SQL และโครงสร้างฐานข้อมูลโดยการแทรกเมตาเลเยอร์ระหว่างผู้ใช้และฐานข้อมูล
2. เครื่องมือพัฒนาแอพพลิเคชั่น
บางครั้งเครื่องมือกราฟิกและการวิเคราะห์ในตัวไม่ตอบสนองความต้องการด้านการวิเคราะห์ขององค์กร ในกรณีเช่นนี้ รายงานที่กำหนดเองจะได้รับการพัฒนาโดยใช้เครื่องมือการพัฒนาแอปพลิเคชัน
3. เครื่องมือขุดข้อมูล
การทำเหมืองข้อมูลเป็นกระบวนการในการค้นพบความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ๆ ที่มีความหมายโดยการขุดข้อมูลจำนวนมาก เครื่องมือขุดข้อมูล ถูกใช้เพื่อทำให้กระบวนการนี้เป็นแบบอัตโนมัติ
4. เครื่องมือ OLAP
เครื่องมือเหล่านี้มีพื้นฐานมาจากแนวคิดของฐานข้อมูลหลายมิติ ช่วยให้ผู้ใช้สามารถวิเคราะห์ข้อมูลโดยใช้มุมมองหลายมิติที่ละเอียดและซับซ้อน
รถบัสคลังข้อมูล Archiเทคเจอร์
บัสคลังข้อมูลจะกำหนดการไหลของข้อมูลในคลังสินค้าของคุณ การไหลของข้อมูลในคลังข้อมูลสามารถแบ่งได้เป็นการไหลเข้า การไหลขึ้น การไหลลง การไหลออก และการไหลของเมตา
ในขณะที่ออกแบบ Data Bus เราต้องพิจารณามิติข้อมูลที่ใช้ร่วมกันและข้อเท็จจริงทั่วทั้งศูนย์ข้อมูล
ดาต้า มาร์ท
A ดาต้ามาร์ท เป็นชั้นการเข้าถึงซึ่งใช้ในการนำข้อมูลออกสู่ผู้ใช้ นำเสนอเป็นทางเลือกสำหรับคลังข้อมูลขนาดใหญ่ เนื่องจากใช้เวลาและเงินในการสร้างน้อยกว่า อย่างไรก็ตาม ไม่มีคำจำกัดความมาตรฐานของ Data Mart ที่แตกต่างกันไปในแต่ละบุคคล
พูดง่ายๆ ก็คือ Data mart เป็นบริษัทในเครือของคลังข้อมูล ดาต้ามาร์ทใช้สำหรับแบ่งพาร์ติชันข้อมูลที่สร้างขึ้นสำหรับกลุ่มผู้ใช้เฉพาะ
ดาต้ามาร์ทสามารถสร้างได้ในฐานข้อมูลเดียวกันกับคลังข้อมูลหรือฐานข้อมูลที่แยกจากกัน
คลังข้อมูล Archiแนวทางปฏิบัติที่ดีที่สุดสำหรับการสอน
เพื่อออกแบบคลังข้อมูล Archiคุณต้องปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดด้านล่าง:
- ใช้โมเดลคลังข้อมูลที่ได้รับการปรับให้เหมาะสมสำหรับการดึงข้อมูลซึ่งอาจเป็นโหมดมิติ วิธีดีนอร์มัลไลซ์ หรือแบบไฮบริด
- เลือกวิธีการออกแบบที่เหมาะสมเป็นแนวทางจากบนลงล่างและจากล่างขึ้นบนในคลังข้อมูล
- ต้องมั่นใจว่าข้อมูลได้รับการประมวลผลอย่างรวดเร็วและแม่นยำ ในเวลาเดียวกัน คุณควรใช้แนวทางที่จะรวบรวมข้อมูลให้เป็นความจริงเวอร์ชันเดียว
- ออกแบบกระบวนการรับและล้างข้อมูลสำหรับคลังข้อมูลอย่างระมัดระวัง
- ออกแบบสถาปัตยกรรม MetaData ซึ่งช่วยให้สามารถแชร์ข้อมูลเมตาได้ระหว่างส่วนประกอบของ Data Warehouse
- พิจารณาใช้โมเดล ODS เมื่อความต้องการค้นหาข้อมูลอยู่ใกล้ระดับล่างสุดของพีระมิดการแยกข้อมูล หรือเมื่อต้องเข้าถึงแหล่งปฏิบัติการหลายแหล่ง
- เราควรตรวจสอบให้แน่ใจว่าโมเดลข้อมูลได้รับการผสานรวมแล้ว ไม่ใช่แค่รวมเข้าด้วยกัน ในกรณีนั้น คุณควรพิจารณาแบบจำลองข้อมูล 3NF นอกจากนี้ยังเหมาะอย่างยิ่งสำหรับการซื้อ ETL และเครื่องมือล้างข้อมูล
สรุป
- คลังข้อมูลคือระบบสารสนเทศที่ประกอบด้วยข้อมูลในอดีตและข้อมูลการสับเปลี่ยนจากแหล่งเดียวหรือหลายแหล่ง แหล่งที่มาเหล่านี้อาจเป็นคลังข้อมูลแบบดั้งเดิม คลังข้อมูลบนคลาวด์ หรือคลังข้อมูลเสมือน
- คลังข้อมูลจะเน้นไปที่เรื่องต่างๆ เนื่องจากนำเสนอข้อมูลเกี่ยวกับเรื่องต่างๆ แทนที่จะเน้นไปที่การดำเนินงานต่อเนื่องขององค์กร
- ในคลังข้อมูล การบูรณาการหมายถึงการจัดตั้งหน่วยวัดร่วมสำหรับข้อมูลที่คล้ายคลึงกันทั้งหมดจากฐานข้อมูลที่แตกต่างกัน
- คลังข้อมูลก็ไม่ลบเลือนเช่นกัน หมายความว่าข้อมูลก่อนหน้าจะไม่ถูกลบเมื่อมีการป้อนข้อมูลใหม่เข้าไป
- คลังข้อมูลเป็นแบบแปรผันตามเวลาเนื่องจากข้อมูลใน DW มีอายุการเก็บรักษาสูง
- Data Warehouse มีองค์ประกอบหลักๆ อยู่ 5 ส่วน Archiเทคเจอร์: 1) ฐานข้อมูล 2) เครื่องมือ ETL 3) ข้อมูลเมตา 4) เครื่องมือสืบค้น 5) DataMarts
- เครื่องมือสืบค้นเหล่านี้มีสี่ประเภทหลัก 1. การสืบค้นและการรายงานเครื่องมือ 2. เครื่องมือการพัฒนาแอปพลิเคชัน 3. เครื่องมือการทำเหมืองข้อมูล 4. เครื่องมือ OLAP
- เครื่องมือการจัดหาข้อมูล การแปลง และการย้ายข้อมูลจะถูกใช้เพื่อดำเนินการแปลงและสรุปข้อมูลทั้งหมด
- ในคลังข้อมูล Archiข้อมูลเมตามีบทบาทสำคัญเนื่องจากระบุแหล่งที่มา การใช้งาน ค่า และคุณลักษณะของข้อมูลคลังข้อมูล