คลังข้อมูล Archiเทคเจอร์ ส่วนประกอบ และไดอะแกรม Concepts

คลังข้อมูล Concepts

แนวคิดพื้นฐานของคลังข้อมูลคือการอำนวยความสะดวกให้กับบริษัทในการตัดสินใจและคาดการณ์ความจริงเวอร์ชันเดียว คลังข้อมูลคือระบบข้อมูลที่ประกอบด้วยข้อมูลในอดีตและข้อมูลการสับเปลี่ยนจากแหล่งเดียวหรือหลายแหล่ง คลังข้อมูล Concepts ลดความซับซ้อนของกระบวนการรายงานและการวิเคราะห์ขององค์กร

ลักษณะของคลังข้อมูล

คลังข้อมูล Concepts มีลักษณะดังต่อไปนี้:

  • เน้นหัวเรื่อง
  • แบบบูรณาการ
  • ตัวแปรเวลา
  • ไม่ระเหย

เน้นหัวเรื่อง

คลังข้อมูลจะเน้นไปที่เนื้อหา เนื่องจากจะนำเสนอข้อมูลเกี่ยวกับธีมแทนที่จะเน้นไปที่การดำเนินงานของบริษัทที่กำลังดำเนินอยู่ เนื้อหาเหล่านี้อาจเป็นการขาย การตลาด การจัดจำหน่าย เป็นต้น

คลังข้อมูลไม่เคยเน้นที่การดำเนินการที่กำลังดำเนินอยู่ แต่จะเน้นการสร้างแบบจำลองและการวิเคราะห์ข้อมูลแทน การตัดสินใจ- นอกจากนี้ยังให้มุมมองที่เรียบง่ายและรัดกุมเกี่ยวกับหัวข้อเฉพาะ โดยการยกเว้นข้อมูลที่ไม่เป็นประโยชน์ในการสนับสนุนกระบวนการตัดสินใจ

แบบบูรณาการ

ในคลังข้อมูล การบูรณาการหมายถึงการจัดตั้งหน่วยวัดร่วมสำหรับข้อมูลที่คล้ายคลึงกันทั้งหมดจากฐานข้อมูลที่แตกต่างกัน ข้อมูลยังต้องถูกจัดเก็บไว้ในคลังข้อมูลในลักษณะทั่วไปและเป็นที่ยอมรับในระดับสากล

คลังข้อมูลได้รับการพัฒนาโดยการบูรณาการข้อมูลจากแหล่งต่างๆ เช่น เมนเฟรม ฐานข้อมูลเชิงสัมพันธ์ ไฟล์แบบเรียบ ฯลฯ นอกจากนี้ จะต้องรักษารูปแบบการตั้งชื่อ รูปแบบ และการเข้ารหัสที่สอดคล้องกัน

การบูรณาการนี้ช่วยให้วิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ จำเป็นต้องรักษาความสอดคล้องในหลักเกณฑ์การตั้งชื่อ การวัดแอตทริบิวต์ โครงสร้างการเข้ารหัส ฯลฯ พิจารณาตัวอย่างต่อไปนี้:

ลักษณะของคลังข้อมูล

ในตัวอย่างข้างต้น มีแอปพลิเคชันที่แตกต่างกันสามรายการชื่อ A, B และ C ข้อมูลที่จัดเก็บไว้ในแอปพลิเคชันเหล่านี้ ได้แก่ เพศ วันที่ และยอดคงเหลือ อย่างไรก็ตาม ข้อมูลของแต่ละแอปพลิเคชันจะถูกจัดเก็บด้วยวิธีที่แตกต่างกัน

  • ในแอปพลิเคชัน ฟิลด์เพศจะจัดเก็บค่าตรรกะ เช่น M หรือ F
  • ในฟิลด์เพศของแอปพลิเคชัน B เป็นค่าตัวเลข
  • ในแอปพลิเคชัน C ฟิลด์เพศจะถูกจัดเก็บในรูปแบบของค่าอักขระ
  • เช่นเดียวกับกรณีวันที่และยอดคงเหลือ

อย่างไรก็ตาม หลังจากกระบวนการเปลี่ยนแปลงและทำความสะอาด ข้อมูลทั้งหมดนี้จะถูกจัดเก็บในรูปแบบทั่วไปใน คลังข้อมูล.

ตัวแปรเวลา

ขอบเขตเวลาของคลังข้อมูลนั้นค่อนข้างกว้างเมื่อเทียบกับระบบปฏิบัติการ ข้อมูลที่รวบรวมในคลังข้อมูลจะถูกจดจำด้วยระยะเวลาที่กำหนดและนำเสนอข้อมูลจากมุมมองทางประวัติศาสตร์ โดยมีองค์ประกอบของเวลาอย่างชัดเจนหรือโดยนัย

สถานที่หนึ่งที่ข้อมูล Datawarehouse แสดงความแปรปรวนของเวลาอยู่ในโครงสร้างของคีย์บันทึก คีย์หลักทุกคีย์ที่อยู่ใน DW ควรมีองค์ประกอบของเวลาโดยปริยายหรือชัดเจน เช่น วัน สัปดาห์ เดือน เป็นต้น

ความแปรปรวนเวลาอีกประการหนึ่งคือเมื่อข้อมูลถูกแทรกลงในคลังสินค้าแล้ว จะไม่สามารถอัปเดตหรือเปลี่ยนแปลงได้

ไม่ระเหย

คลังข้อมูลก็ไม่ลบเลือนเช่นกัน หมายความว่าข้อมูลก่อนหน้าจะไม่ถูกลบเมื่อมีการป้อนข้อมูลใหม่เข้าไป

ข้อมูลเป็นแบบอ่านอย่างเดียวและรีเฟรชเป็นระยะ นอกจากนี้ยังช่วยวิเคราะห์ข้อมูลในอดีตและทำความเข้าใจว่าเกิดอะไรขึ้นและเมื่อใด ไม่จำเป็นต้องมีกระบวนการธุรกรรม การกู้คืน และกลไกการควบคุมการทำงานพร้อมกัน

กิจกรรมต่างๆ เช่น การลบ การอัปเดต และการแทรก ซึ่งดำเนินการในสภาพแวดล้อมแอปพลิเคชันการทำงานจะถูกละเว้นในสภาพแวดล้อมคลังข้อมูล มีเพียงสองประเภทของการดำเนินการข้อมูลในคลังข้อมูลเท่านั้น

  1. กำลังโหลดข้อมูล
  2. การเข้าถึงข้อมูล

ต่อไปนี้เป็นข้อแตกต่างที่สำคัญบางประการระหว่างแอปพลิเคชันและคลังข้อมูล

Operaแอปพลิเคชันแห่งชาติ คลังข้อมูล
จำเป็นต้องเขียนโค้ดโปรแกรมที่ซับซ้อนเพื่อให้แน่ใจว่ากระบวนการอัปเกรดข้อมูลรักษาความสมบูรณ์ของผลิตภัณฑ์ขั้นสุดท้ายในระดับสูง ปัญหาประเภทนี้ไม่เกิดขึ้นเนื่องจากไม่ได้ดำเนินการอัปเดตข้อมูล
ข้อมูลจะถูกวางในรูปแบบมาตรฐานเพื่อให้แน่ใจว่ามีความซ้ำซ้อนน้อยที่สุด ข้อมูลไม่ได้ถูกจัดเก็บในรูปแบบมาตรฐาน
เทคโนโลยีจำเป็นต้องรองรับปัญหาการทำธุรกรรม การกู้คืนข้อมูล การย้อนกลับ และการแก้ไขปัญหา เนื่องจากปัญหาทางตันค่อนข้างซับซ้อน มันนำเสนอความเรียบง่ายในด้านเทคโนโลยี

คลังข้อมูล Archiเทคเจอร์

คลังข้อมูล Archiเทคเจอร์ มีความซับซ้อนเนื่องจากเป็นระบบสารสนเทศที่มีข้อมูลประวัติและข้อมูลสับเปลี่ยนจากหลายแหล่ง มี 3 วิธีในการสร้างชั้นคลังข้อมูล ได้แก่ ชั้นเดียว ชั้นสอง และชั้นสาม สถาปัตยกรรมคลังข้อมูลแบบสามชั้นนี้จะอธิบายดังต่อไปนี้

สถาปัตยกรรมแบบชั้นเดียว

วัตถุประสงค์ของเลเยอร์เดียวคือเพื่อลดปริมาณข้อมูลที่จัดเก็บ เป้าหมายนี้คือการลบข้อมูลซ้ำซ้อน สถาปัตยกรรมนี้ไม่ค่อยได้ใช้ในทางปฏิบัติ

สถาปัตยกรรมสองชั้น

สถาปัตยกรรมสองชั้นเป็นชั้นหนึ่งของคลังข้อมูลซึ่งแยกแหล่งข้อมูลที่มีอยู่จริงและคลังข้อมูลออกจากกัน สถาปัตยกรรมนี้ไม่สามารถขยายได้และไม่รองรับผู้ใช้ปลายทางจำนวนมาก อีกทั้งยังมีปัญหาด้านการเชื่อมต่อเนื่องมาจากข้อจำกัดของเครือข่าย

คลังข้อมูลสามชั้น Archiเทคเจอร์

นี่คือการใช้กันอย่างแพร่หลายที่สุด Archiเทคเจอร์คลังข้อมูล

ประกอบด้วยชั้นบน กลาง และล่าง

  1. ชั้นล่างสุด: ฐานข้อมูลของเซิร์ฟเวอร์ Datawarehouse เป็นชั้นล่างสุด โดยปกติจะเป็นระบบฐานข้อมูลเชิงสัมพันธ์ ข้อมูลจะถูกล้าง แปลง และโหลดลงในเลเยอร์นี้โดยใช้เครื่องมือแบ็คเอนด์
  2. ระดับกลาง: ระดับกลางในคลังข้อมูลคือเซิร์ฟเวอร์ OLAP ซึ่งใช้งานโดยใช้โมเดล ROLAP หรือ MOLAP สำหรับผู้ใช้ ระดับแอปพลิเคชันนี้จะแสดงมุมมองเชิงนามธรรมของฐานข้อมูล เลเยอร์นี้ยังทำหน้าที่เป็นตัวกลางระหว่างผู้ใช้ปลายทางและฐานข้อมูล
  3. ชั้นบนสุด: ชั้นบนสุดคือเลเยอร์ไคลเอ็นต์ส่วนหน้า ชั้นบนสุดคือเครื่องมือและ API ที่คุณเชื่อมต่อและรับข้อมูลจากคลังข้อมูล อาจเป็นเครื่องมือสืบค้น เครื่องมือรายงาน เครื่องมือสืบค้นที่ได้รับการจัดการ เครื่องมือวิเคราะห์ และเครื่องมือขุดข้อมูล

ส่วนประกอบคลังข้อมูล

เราจะเรียนรู้เกี่ยวกับ Datawarehouse Components และ Archiโครงสร้าง Data Warehouse พร้อม Diagram ดังรูปด้านล่าง

คลังข้อมูล Archiเทคเจอร์
คลังข้อมูล Archiเทคเจอร์

คลังข้อมูลใช้เซิร์ฟเวอร์ RDBMS ซึ่งเป็นที่เก็บข้อมูลส่วนกลางที่ล้อมรอบด้วยส่วนประกอบคลังข้อมูลที่สำคัญเพื่อทำให้สภาพแวดล้อมทั้งหมดทำงานได้ จัดการได้ และเข้าถึงได้

ส่วนประกอบคลังข้อมูลส่วนใหญ่มีห้าองค์ประกอบ:

ฐานข้อมูลคลังข้อมูล

ฐานข้อมูลกลางเป็นรากฐานของสภาพแวดล้อมคลังข้อมูล ฐานข้อมูลนี้ถูกนำไปใช้งานบน อาร์ดีบีเอ็มเอส เทคโนโลยี. แม้ว่าการใช้งานประเภทนี้จะถูกจำกัดด้วยข้อเท็จจริงที่ว่าระบบ RDBMS แบบดั้งเดิมได้รับการปรับให้เหมาะสมสำหรับการประมวลผลฐานข้อมูลธุรกรรม ไม่ใช่สำหรับคลังข้อมูล ตัวอย่างเช่น การสืบค้นเฉพาะกิจ การรวมหลายตาราง การรวมจะใช้ทรัพยากรจำนวนมากและทำให้ประสิทธิภาพการทำงานช้าลง

ดังนั้นจึงมีการใช้แนวทางทางเลือกอื่นในฐานข้อมูลดังรายการด้านล่าง

  • ในคลังข้อมูล ฐานข้อมูลเชิงสัมพันธ์จะถูกนำไปใช้งานแบบคู่ขนานเพื่อให้สามารถปรับขนาดได้ ฐานข้อมูลเชิงสัมพันธ์แบบคู่ขนานยังอนุญาตให้ใช้หน่วยความจำร่วมกันหรือแบบจำลองการไม่แชร์หน่วยความจำบนการกำหนดค่ามัลติโปรเซสเซอร์หรือโปรเซสเซอร์ขนานจำนวนมาก
  • โครงสร้างดัชนีใหม่ใช้เพื่อข้ามการสแกนตารางเชิงสัมพันธ์และปรับปรุงความเร็ว
  • การใช้ฐานข้อมูลหลายมิติ (MDDB) เพื่อเอาชนะข้อจำกัดใดๆ ที่เกิดขึ้นเนื่องจากโมเดลคลังข้อมูลเชิงสัมพันธ์ ตัวอย่าง: Essbase จาก Oracle.

เครื่องมือการจัดหา การเข้าซื้อกิจการ การล้างข้อมูล และการเปลี่ยนแปลง (ETL)

เครื่องมือจัดหาข้อมูล การแปลง และการย้ายข้อมูลใช้สำหรับการแปลง การสรุป และการเปลี่ยนแปลงทั้งหมดที่จำเป็นในการแปลงข้อมูลเป็นรูปแบบรวมในคลังข้อมูล เครื่องมือเหล่านี้เรียกอีกอย่างว่าเครื่องมือแยก การแปลง และการโหลด (ETL)

ฟังก์ชั่นประกอบด้วย:

  • ทำให้ข้อมูลไม่ระบุชื่อตามข้อกำหนดด้านกฎระเบียบ
  • การกำจัดข้อมูลที่ไม่ต้องการออกจากฐานข้อมูลปฏิบัติการจากการโหลดเข้าสู่คลังข้อมูล
  • ค้นหาและแทนที่ชื่อและคำจำกัดความทั่วไปสำหรับข้อมูลที่มาจากแหล่งต่างๆ
  • การคำนวณผลสรุปและข้อมูลที่ได้มา
  • ในกรณีที่ข้อมูลสูญหาย ให้เติมข้อมูลเหล่านั้นด้วยค่าเริ่มต้น
  • ขจัดข้อมูลซ้ำซ้อนที่มาจากแหล่งข้อมูลหลายแหล่ง

เครื่องมือแยก แปลง และโหลดเหล่านี้อาจสร้างงาน cron งานพื้นหลัง โปรแกรมภาษาโคบอล, เชลล์สคริปต์ ฯลฯ ที่อัปเดตข้อมูลในคลังข้อมูลเป็นประจำ เครื่องมือเหล่านี้ยังมีประโยชน์ในการรักษาข้อมูลเมตาอีกด้วย

ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน เครื่องมือ ETL ต้องจัดการกับความท้าทายของฐานข้อมูลและความหลากหลายของข้อมูล

เมตาดาต้า

ชื่อ Meta Data บ่งบอกถึงคลังข้อมูลทางเทคโนโลยีระดับสูง Concepts- อย่างไรก็ตาม มันค่อนข้างง่าย ข้อมูลเมตาคือข้อมูลเกี่ยวกับข้อมูลที่กำหนดคลังข้อมูล ใช้ในการสร้าง บำรุงรักษา และจัดการคลังข้อมูล

ในคลังข้อมูล Archiข้อมูลเมตามีบทบาทสำคัญเนื่องจากระบุแหล่งที่มา การใช้งาน ค่า และคุณลักษณะของข้อมูลคลังข้อมูล นอกจากนี้ยังกำหนดวิธีที่ข้อมูลสามารถเปลี่ยนแปลงและประมวลผลได้ มันเชื่อมต่อกับคลังข้อมูลอย่างใกล้ชิด

ตัวอย่างเช่น บรรทัดในฐานข้อมูลการขายอาจมี:

4030 KJ732 299.90

นี่เป็นข้อมูลที่ไม่มีความหมายจนกว่าเราจะปรึกษา Meta ที่บอกเราว่าเป็นข้อมูลนั้น

  • หมายเลขรุ่น: 4030
  • รหัสตัวแทนขาย: KJ732
  • ยอดขายรวม 299.90 ดอลลาร์

ดังนั้น Meta Data จึงเป็นองค์ประกอบสำคัญในการเปลี่ยนแปลงข้อมูลให้เป็นความรู้

เมตาดาต้าช่วยตอบคำถามต่อไปนี้

  • คลังข้อมูลประกอบด้วยตาราง คุณลักษณะ และคีย์ใดบ้าง
  • ข้อมูลมาจากไหน?
  • ข้อมูลถูกโหลดซ้ำกี่ครั้ง?
  • การเปลี่ยนแปลงใดบ้างที่นำไปใช้กับการทำความสะอาด?

เมตาดาต้าสามารถแบ่งออกเป็นประเภทต่อไปนี้:

  1. ข้อมูลเมตาทางเทคนิค: Metadata ประเภทนี้มีข้อมูลเกี่ยวกับคลังสินค้าซึ่งใช้โดยผู้ออกแบบและผู้ดูแลระบบคลังข้อมูล
  2. ข้อมูลเมตาธุรกิจ: Metadata ประเภทนี้มีรายละเอียดที่ช่วยให้ผู้ใช้ปลายทางเข้าใจข้อมูลที่จัดเก็บไว้ในคลังข้อมูลได้ง่าย

เครื่องมือสืบค้นข้อมูล

หนึ่งในวัตถุประสงค์หลักของคลังข้อมูลคือการให้ข้อมูลแก่ธุรกิจเพื่อการตัดสินใจเชิงกลยุทธ์ เครื่องมือสืบค้นช่วยให้ผู้ใช้สามารถโต้ตอบกับระบบคลังข้อมูลได้

เครื่องมือเหล่านี้แบ่งออกเป็นสี่ประเภทที่แตกต่างกัน:

  1. เครื่องมือสืบค้นและการรายงาน
  2. เครื่องมือพัฒนาแอพพลิเคชั่น
  3. เครื่องมือขุดข้อมูล
  4. เครื่องมือ OLAP

1. เครื่องมือสืบค้นและการรายงาน

เครื่องมือสืบค้นและการรายงานสามารถแบ่งออกได้เป็น

  • เครื่องมือการรายงาน
  • เครื่องมือสืบค้นที่มีการจัดการ

เครื่องมือการรายงาน:

เครื่องมือการรายงาน สามารถแบ่งเพิ่มเติมออกเป็นเครื่องมือการรายงานการผลิตและผู้เขียนรายงานบนเดสก์ท็อป

  1. ผู้เขียนรายงาน: เครื่องมือการรายงานประเภทนี้เป็นเครื่องมือที่ออกแบบมาสำหรับผู้ใช้ปลายทางเพื่อการวิเคราะห์
  2. การรายงานการผลิต: เครื่องมือประเภทนี้ช่วยให้องค์กรสามารถสร้างรายงานการปฏิบัติงานเป็นประจำ นอกจากนี้ยังรองรับงานแบทช์ปริมาณมาก เช่น การพิมพ์และการคำนวณ เครื่องมือการรายงานยอดนิยม ได้แก่ Brio, Business Objects Oracle,พาวเวอร์ซอฟท์,สถาบันเอสเอเอส.

เครื่องมือสืบค้นที่มีการจัดการ:

เครื่องมือการเข้าถึงประเภทนี้ช่วยให้ผู้ใช้ปลายทางสามารถแก้ไขอุปสรรคในฐานข้อมูลและ SQL และโครงสร้างฐานข้อมูลโดยการแทรกเมตาเลเยอร์ระหว่างผู้ใช้และฐานข้อมูล

2. เครื่องมือพัฒนาแอพพลิเคชั่น

บางครั้งเครื่องมือกราฟิกและการวิเคราะห์ในตัวไม่ตอบสนองความต้องการด้านการวิเคราะห์ขององค์กร ในกรณีเช่นนี้ รายงานที่กำหนดเองจะได้รับการพัฒนาโดยใช้เครื่องมือการพัฒนาแอปพลิเคชัน

3. เครื่องมือขุดข้อมูล

การทำเหมืองข้อมูลเป็นกระบวนการในการค้นพบความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ๆ ที่มีความหมายโดยการขุดข้อมูลจำนวนมาก เครื่องมือขุดข้อมูล ถูกใช้เพื่อทำให้กระบวนการนี้เป็นแบบอัตโนมัติ

4. เครื่องมือ OLAP

เครื่องมือเหล่านี้มีพื้นฐานมาจากแนวคิดของฐานข้อมูลหลายมิติ ช่วยให้ผู้ใช้สามารถวิเคราะห์ข้อมูลโดยใช้มุมมองหลายมิติที่ละเอียดและซับซ้อน

รถบัสคลังข้อมูล Archiเทคเจอร์

บัสคลังข้อมูลจะกำหนดการไหลของข้อมูลในคลังสินค้าของคุณ การไหลของข้อมูลในคลังข้อมูลสามารถแบ่งได้เป็นการไหลเข้า การไหลขึ้น การไหลลง การไหลออก และการไหลของเมตา

ในขณะที่ออกแบบ Data Bus เราต้องพิจารณามิติข้อมูลที่ใช้ร่วมกันและข้อเท็จจริงทั่วทั้งศูนย์ข้อมูล

ดาต้า มาร์ท

A ดาต้ามาร์ท เป็นชั้นการเข้าถึงซึ่งใช้ในการนำข้อมูลออกสู่ผู้ใช้ นำเสนอเป็นทางเลือกสำหรับคลังข้อมูลขนาดใหญ่ เนื่องจากใช้เวลาและเงินในการสร้างน้อยกว่า อย่างไรก็ตาม ไม่มีคำจำกัดความมาตรฐานของ Data Mart ที่แตกต่างกันไปในแต่ละบุคคล

พูดง่ายๆ ก็คือ Data mart เป็นบริษัทในเครือของคลังข้อมูล ดาต้ามาร์ทใช้สำหรับแบ่งพาร์ติชันข้อมูลที่สร้างขึ้นสำหรับกลุ่มผู้ใช้เฉพาะ

ดาต้ามาร์ทสามารถสร้างได้ในฐานข้อมูลเดียวกันกับคลังข้อมูลหรือฐานข้อมูลที่แยกจากกัน

คลังข้อมูล Archiแนวทางปฏิบัติที่ดีที่สุดสำหรับการสอน

เพื่อออกแบบคลังข้อมูล Archiคุณต้องปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดด้านล่าง:

  • ใช้โมเดลคลังข้อมูลที่ได้รับการปรับให้เหมาะสมสำหรับการดึงข้อมูลซึ่งอาจเป็นโหมดมิติ วิธีดีนอร์มัลไลซ์ หรือแบบไฮบริด
  • เลือกวิธีการออกแบบที่เหมาะสมเป็นแนวทางจากบนลงล่างและจากล่างขึ้นบนในคลังข้อมูล
  • ต้องมั่นใจว่าข้อมูลได้รับการประมวลผลอย่างรวดเร็วและแม่นยำ ในเวลาเดียวกัน คุณควรใช้แนวทางที่จะรวบรวมข้อมูลให้เป็นความจริงเวอร์ชันเดียว
  • ออกแบบกระบวนการรับและล้างข้อมูลสำหรับคลังข้อมูลอย่างระมัดระวัง
  • ออกแบบสถาปัตยกรรม MetaData ซึ่งช่วยให้สามารถแชร์ข้อมูลเมตาได้ระหว่างส่วนประกอบของ Data Warehouse
  • พิจารณาใช้โมเดล ODS เมื่อความต้องการค้นหาข้อมูลอยู่ใกล้ระดับล่างสุดของพีระมิดการแยกข้อมูล หรือเมื่อต้องเข้าถึงแหล่งปฏิบัติการหลายแหล่ง
  • เราควรตรวจสอบให้แน่ใจว่าโมเดลข้อมูลได้รับการผสานรวมแล้ว ไม่ใช่แค่รวมเข้าด้วยกัน ในกรณีนั้น คุณควรพิจารณาแบบจำลองข้อมูล 3NF นอกจากนี้ยังเหมาะอย่างยิ่งสำหรับการซื้อ ETL และเครื่องมือล้างข้อมูล

สรุป

  • คลังข้อมูลคือระบบสารสนเทศที่ประกอบด้วยข้อมูลในอดีตและข้อมูลการสับเปลี่ยนจากแหล่งเดียวหรือหลายแหล่ง แหล่งที่มาเหล่านี้อาจเป็นคลังข้อมูลแบบดั้งเดิม คลังข้อมูลบนคลาวด์ หรือคลังข้อมูลเสมือน
  • คลังข้อมูลจะเน้นไปที่เรื่องต่างๆ เนื่องจากนำเสนอข้อมูลเกี่ยวกับเรื่องต่างๆ แทนที่จะเน้นไปที่การดำเนินงานต่อเนื่องขององค์กร
  • ในคลังข้อมูล การบูรณาการหมายถึงการจัดตั้งหน่วยวัดร่วมสำหรับข้อมูลที่คล้ายคลึงกันทั้งหมดจากฐานข้อมูลที่แตกต่างกัน
  • คลังข้อมูลก็ไม่ลบเลือนเช่นกัน หมายความว่าข้อมูลก่อนหน้าจะไม่ถูกลบเมื่อมีการป้อนข้อมูลใหม่เข้าไป
  • คลังข้อมูลเป็นแบบแปรผันตามเวลาเนื่องจากข้อมูลใน DW มีอายุการเก็บรักษาสูง
  • Data Warehouse มีองค์ประกอบหลักๆ อยู่ 5 ส่วน Archiเทคเจอร์: 1) ฐานข้อมูล 2) เครื่องมือ ETL 3) ข้อมูลเมตา 4) เครื่องมือสืบค้น 5) DataMarts
  • เครื่องมือสืบค้นเหล่านี้มีสี่ประเภทหลัก 1. การสืบค้นและการรายงานเครื่องมือ 2. เครื่องมือการพัฒนาแอปพลิเคชัน 3. เครื่องมือการทำเหมืองข้อมูล 4. เครื่องมือ OLAP
  • เครื่องมือการจัดหาข้อมูล การแปลง และการย้ายข้อมูลจะถูกใช้เพื่อดำเนินการแปลงและสรุปข้อมูลทั้งหมด
  • ในคลังข้อมูล Archiข้อมูลเมตามีบทบาทสำคัญเนื่องจากระบุแหล่งที่มา การใช้งาน ค่า และคุณลักษณะของข้อมูลคลังข้อมูล