การสร้างแบบจำลองมิติข้อมูลในคลังข้อมูลคืออะไร เรียนรู้ประเภท

การสร้างแบบจำลองมิติ

การสร้างแบบจำลองมิติ (DM) เป็นเทคนิคโครงสร้างข้อมูลที่ปรับให้เหมาะสมสำหรับการจัดเก็บข้อมูลในคลังข้อมูล วัตถุประสงค์ของการสร้างแบบจำลองมิติคือเพื่อเพิ่มประสิทธิภาพฐานข้อมูลเพื่อการดึงข้อมูลที่รวดเร็วยิ่งขึ้น แนวคิดของการสร้างแบบจำลองมิติได้รับการพัฒนาโดย Ralph Kimball และประกอบด้วยตาราง "ข้อเท็จจริง" และ "มิติ"

แบบจำลองมิติในคลังข้อมูลได้รับการออกแบบมาเพื่ออ่าน สรุป และวิเคราะห์ข้อมูลตัวเลข เช่น ค่า สมดุล จำนวนนับ น้ำหนัก ฯลฯ ในคลังข้อมูล ในทางตรงกันข้าม แบบจำลองความสัมพันธ์ได้รับการปรับให้เหมาะสมสำหรับการบวก การอัปเดต และการลบข้อมูลในระบบธุรกรรมออนไลน์แบบเรียลไทม์

โมเดลเชิงมิติและเชิงสัมพันธ์เหล่านี้มีวิธีจัดเก็บข้อมูลเฉพาะซึ่งมีข้อดีเฉพาะ

ตัวอย่างเช่น ในโหมดเชิงสัมพันธ์ โมเดลการทำให้เป็นมาตรฐานและ ER จะช่วยลดความซ้ำซ้อนในข้อมูล ในทางตรงกันข้าม โมเดลมิติในคลังข้อมูลจะจัดเรียงข้อมูลในลักษณะที่ทำให้ดึงข้อมูลและสร้างรายงานได้ง่ายขึ้น

ดังนั้นจึงมีการใช้แบบจำลองมิติ ระบบคลังข้อมูล และไม่เหมาะกับระบบความสัมพันธ์

องค์ประกอบของแบบจำลองข้อมูลมิติ

ความจริง

ข้อเท็จจริงคือหน่วยวัด/หน่วยเมตริก หรือข้อเท็จจริงจากกระบวนการทางธุรกิจของคุณ สำหรับกระบวนการทางธุรกิจการขาย การวัดจะเป็นตัวเลขยอดขายรายไตรมาส

Dimension

มิติข้อมูลจัดเตรียมบริบทโดยรอบเหตุการณ์กระบวนการทางธุรกิจ พูดง่ายๆ ก็คือให้ใคร อะไร ที่ไหน เป็นข้อเท็จจริง ในกระบวนการธุรกิจการขาย สำหรับจำนวนยอดขายรายไตรมาส มิติจะเป็นดังนี้

  • ใคร – ชื่อลูกค้า
  • ที่ไหน – ที่ตั้ง
  • อะไร – ชื่อผลิตภัณฑ์

กล่าวอีกนัยหนึ่ง มิติข้อมูลคือหน้าต่างสำหรับดูข้อมูลในข้อเท็จจริง

คุณสมบัติ

แอ็ตทริบิวต์คือคุณลักษณะต่างๆ ของมิติในการสร้างแบบจำลองข้อมูลเชิงมิติ

ในมิติตำแหน่ง แอ็ตทริบิวต์สามารถเป็นได้

  • สถานะ
  • ประเทศ
  • รหัสไปรษณีย์ ฯลฯ

คุณลักษณะใช้เพื่อค้นหา กรอง หรือจัดประเภทข้อเท็จจริง ตารางไดเมนชันประกอบด้วยแอตทริบิวต์

ตารางข้อเท็จจริง

ตารางข้อเท็จจริงคือตารางหลักในการสร้างแบบจำลองมิติ

ตารางข้อเท็จจริงประกอบด้วย

  1. การวัด/ข้อเท็จจริง
  2. คีย์ต่างประเทศไปยังตารางมิติ

ตารางมิติ

  • ตารางมิติประกอบด้วยมิติของข้อเท็จจริง
  • พวกเขาจะเข้าร่วมกับตารางข้อเท็จจริงผ่านทางคีย์ต่างประเทศ
  • ตารางไดเมนชันคือตารางที่ไม่ทำให้เป็นมาตรฐาน
  • แอ็ตทริบิวต์ของไดเมนชันคือคอลัมน์ต่างๆ ในตารางไดเมนชัน
  • มิติข้อมูลนำเสนอคุณลักษณะเชิงพรรณนาของข้อเท็จจริงโดยอาศัยคุณลักษณะของข้อมูลเหล่านั้น
  • ไม่มีการกำหนดขีดจำกัดที่กำหนดไว้สำหรับจำนวนมิติ
  • มิติสามารถมีความสัมพันธ์แบบลำดับชั้นหนึ่งหรือหลายรายการได้

ประเภทของมิติในคลังข้อมูล

ต่อไปนี้คือไฟล์ ประเภทของมิติในคลังข้อมูล:

  • มิติที่สอดคล้องกัน
  • มิติเอาท์ริกเกอร์
  • มิติที่หดตัว
  • มิติการสวมบทบาท
  • มิติถึงตารางมิติ
  • มิติขยะ
  • เสื่อมมิติ
  • มิติข้อมูลแบบสลับได้
  • มิติขั้นตอน

ขั้นตอนของการสร้างแบบจำลองมิติ

ความแม่นยำในการสร้างแบบจำลองมิติข้อมูลจะกำหนดความสำเร็จของการใช้งานคลังข้อมูลของคุณ ต่อไปนี้เป็นขั้นตอนในการสร้างแบบจำลองไดเมนชัน

  1. ระบุกระบวนการทางธุรกิจ
  2. ระบุเกรน (ระดับรายละเอียด)
  3. ระบุมิติข้อมูล
  4. ระบุข้อเท็จจริง
  5. สร้างดาว

แบบจำลองควรอธิบายว่าทำไม เท่าไหร่ เมื่อไร/ที่ไหน/ใคร และอะไรของกระบวนการทางธุรกิจของคุณ

ขั้นตอนของการสร้างแบบจำลองมิติ

ขั้นตอนที่ 1) ระบุกระบวนการทางธุรกิจ

การระบุกระบวนการทางธุรกิจจริงที่คลังข้อมูลควรครอบคลุม นี่อาจเป็นการตลาด การขาย ทรัพยากรบุคคล ฯลฯ ตามที่ระบุ การวิเคราะห์ข้อมูล ความต้องการขององค์กร การเลือกกระบวนการทางธุรกิจยังขึ้นอยู่กับคุณภาพของข้อมูลที่มีอยู่สำหรับกระบวนการนั้นด้วย เป็นขั้นตอนที่สำคัญที่สุดของกระบวนการสร้างแบบจำลองข้อมูล และความล้มเหลวที่นี่จะทำให้เกิดข้อบกพร่องแบบต่อเนื่องและแก้ไขไม่ได้

เพื่ออธิบายกระบวนการทางธุรกิจ คุณสามารถใช้ข้อความธรรมดาหรือใช้ Business Process Modeling Notation (BPMN) พื้นฐานหรือ Unified Modeling Language (UML).

ขั้นตอนที่ 2) ระบุเกรน

The Grain อธิบายระดับรายละเอียดสำหรับปัญหา/แนวทางแก้ไขทางธุรกิจ เป็นกระบวนการระบุข้อมูลระดับต่ำสุดสำหรับตารางใดๆ ในคลังข้อมูลของคุณ หากตารางมีข้อมูลการขายในแต่ละวัน ก็ควรจะเป็นรายละเอียดรายวัน หากตารางมีข้อมูลยอดขายทั้งหมดในแต่ละเดือน ก็จะมีรายละเอียดปลีกย่อยรายเดือน

ในระหว่างขั้นตอนนี้ คุณจะตอบคำถามเช่น

  1. เราจำเป็นต้องจัดเก็บผลิตภัณฑ์ที่มีอยู่ทั้งหมดหรือผลิตภัณฑ์เพียงไม่กี่ประเภทหรือไม่? การตัดสินใจนี้ขึ้นอยู่กับกระบวนการทางธุรกิจที่เลือกสำหรับคลังข้อมูล
  2. เราจัดเก็บข้อมูลการขายผลิตภัณฑ์เป็นรายเดือน รายสัปดาห์ รายวัน หรือรายชั่วโมงหรือไม่? การตัดสินใจครั้งนี้ขึ้นอยู่กับลักษณะของรายงานที่ผู้บริหารร้องขอ
  3. สองตัวเลือกข้างต้นส่งผลต่อขนาดฐานข้อมูลอย่างไร

ตัวอย่างของเกรน:

CEO ของบริษัท MNC ต้องการค้นหายอดขายของผลิตภัณฑ์เฉพาะเจาะจงในสถานที่ต่างๆ ในแต่ละวัน

ดังนั้นธัญพืชคือ “ข้อมูลการขายผลิตภัณฑ์ตามสถานที่ในแต่ละวัน”

ขั้นตอนที่ 3) ระบุขนาด

มิติข้อมูลเป็นคำนาม เช่น วันที่ ร้านค้า สินค้าคงคลัง ฯลฯ มิติข้อมูลเหล่านี้เป็นที่ที่ควรจัดเก็บข้อมูลทั้งหมด ตัวอย่างเช่น มิติข้อมูลวันที่อาจมีข้อมูล เช่น ปี เดือน และวันในสัปดาห์

ตัวอย่างขนาด:

CEO ของบริษัท MNC ต้องการค้นหายอดขายของผลิตภัณฑ์เฉพาะเจาะจงในสถานที่ต่างๆ ในแต่ละวัน

ขนาด: ผลิตภัณฑ์ ที่ตั้ง และเวลา

คุณสมบัติ: สำหรับผลิตภัณฑ์: รหัสผลิตภัณฑ์ (รหัสต่างประเทศ) ชื่อ ประเภท ข้อมูลจำเพาะ

ลำดับชั้น: สำหรับสถานที่: ประเทศ, รัฐ, เมือง, ที่อยู่, ชื่อ

ขั้นตอนที่ 4) ระบุข้อเท็จจริง

ขั้นตอนนี้เชื่อมโยงร่วมกับผู้ใช้ทางธุรกิจของระบบ เนื่องจากนี่คือที่ที่พวกเขาสามารถเข้าถึงข้อมูลที่จัดเก็บไว้ในคลังข้อมูล แถวตารางข้อเท็จจริงส่วนใหญ่เป็นค่าตัวเลข เช่น ราคาหรือต้นทุนต่อหน่วย เป็นต้น

ตัวอย่างข้อเท็จจริง:

CEO ของบริษัท MNC ต้องการค้นหายอดขายของผลิตภัณฑ์เฉพาะเจาะจงในสถานที่ต่างๆ ในแต่ละวัน

ข้อเท็จจริงที่นี่คือผลรวมของยอดขายตามผลิตภัณฑ์ตามสถานที่ตามเวลา

ขั้นตอนที่ 5) สร้างสคีมา

ในขั้นตอนนี้ คุณจะใช้แบบจำลองไดเมนชัน สคีมาคืออะไรนอกจากโครงสร้างฐานข้อมูล (การจัดเรียงตาราง) มีสคีมายอดนิยมสองแบบ

  1. สคีมาของดาว

สถาปัตยกรรมของโครงร่างรูปดาวนั้นออกแบบได้ง่าย เรียกว่าโครงร่างรูปดาวเนื่องจากไดอะแกรมมีลักษณะคล้ายดาว โดยมีจุดแผ่ออกมาจากจุดศูนย์กลาง จุดศูนย์กลางของดาวประกอบด้วยตารางข้อเท็จจริง และจุดของดาวคือตารางมิติ

ตารางข้อเท็จจริงในสคีมาแบบดาวซึ่งเป็นรูปแบบปกติที่สาม ในขณะที่ตารางมิติจะถูกทำให้เป็นมาตรฐาน

  1. สคีมาเกล็ดหิมะ

สคีมาเกล็ดหิมะเป็นส่วนขยายของสคีมาแบบดาว ในสคีมาเกล็ดหิมะ แต่ละมิติจะถูกทำให้เป็นมาตรฐานและเชื่อมต่อกับตารางมิติเพิ่มเติม

ตรวจสอบด้วย: - สคีมาดาวและเกล็ดหิมะในคลังข้อมูลพร้อมตัวอย่างโมเดล

กฎสำหรับการสร้างแบบจำลองมิติ

ต่อไปนี้เป็นกฎและหลักการของการสร้างแบบจำลองมิติ:

  • โหลดข้อมูลอะตอมเข้าสู่โครงสร้างมิติ
  • สร้างแบบจำลองมิติรอบกระบวนการทางธุรกิจ
  • ต้องแน่ใจว่าตารางข้อเท็จจริงทุกตารางมีตารางมิติวันที่ที่เกี่ยวข้องกัน
  • ตรวจสอบให้แน่ใจว่าข้อเท็จจริงทั้งหมดในตารางข้อเท็จจริงเดียวมีรายละเอียดหรือระดับเดียวกัน
  • จำเป็นต้องจัดเก็บป้ายกำกับรายงานและกรองค่าโดเมนในตารางมิติ
  • ต้องแน่ใจว่าตารางมิติใช้คีย์ตัวแทน
  • สร้างสมดุลระหว่างความต้องการและความเป็นจริงอย่างต่อเนื่องเพื่อนำเสนอโซลูชันทางธุรกิจเพื่อรองรับการตัดสินใจ

ประโยชน์ของการสร้างแบบจำลองมิติ

  • การกำหนดมิติข้อมูลให้เป็นมาตรฐานทำให้สามารถรายงานข้ามส่วนต่างๆ ของธุรกิจได้อย่างง่ายดาย
  • ตารางไดเมนชันจะจัดเก็บประวัติของข้อมูลไดเมนชัน
  • ช่วยให้สามารถแนะนำมิติใหม่ทั้งหมดโดยไม่รบกวนตารางข้อเท็จจริงอย่างมาก
  • มิติยังใช้ในการจัดเก็บข้อมูลในลักษณะที่ง่ายต่อการดึงข้อมูลจากข้อมูลเมื่อข้อมูลถูกเก็บไว้ในฐานข้อมูล
  • เมื่อเทียบกับตารางมิติแบบจำลองมาตรฐานจะเข้าใจได้ง่ายกว่า
  • ข้อมูลถูกจัดกลุ่มเป็นหมวดหมู่ธุรกิจที่ชัดเจนและเรียบง่าย
  • โมเดลมิติเป็นสิ่งที่ธุรกิจเข้าใจได้ดีมาก แบบจำลองนี้อิงตามเงื่อนไขทางธุรกิจ เพื่อให้ธุรกิจทราบว่าข้อเท็จจริง มิติข้อมูล หรือคุณลักษณะแต่ละรายการหมายถึงอะไร
  • โมเดลมิติได้รับการเปลี่ยนรูปแบบและปรับให้เหมาะสมเพื่อการสืบค้นข้อมูลที่รวดเร็ว แพลตฟอร์มฐานข้อมูลเชิงสัมพันธ์จำนวนมากรู้จักโมเดลนี้และปรับแผนการดำเนินการสืบค้นให้เหมาะสมเพื่อช่วยในประสิทธิภาพ
  • การสร้างแบบจำลองมิติในคลังข้อมูลจะสร้างสคีมาซึ่งได้รับการปรับให้เหมาะสมเพื่อประสิทธิภาพสูง หมายถึงการรวมน้อยลงและช่วยลดความซ้ำซ้อนของข้อมูลให้เหลือน้อยที่สุด
  • โมเดลมิติยังช่วยเพิ่มประสิทธิภาพการสืบค้นอีกด้วย มันถูกทำให้เป็นมาตรฐานมากขึ้น ดังนั้นจึงได้รับการปรับให้เหมาะสมสำหรับการสืบค้น
  • โมเดลมิติสามารถรองรับการเปลี่ยนแปลงได้อย่างสะดวกสบาย ตารางไดเมนชันสามารถเพิ่มคอลัมน์เพิ่มเติมได้ โดยไม่กระทบต่อแอปพลิเคชันระบบธุรกิจอัจฉริยะที่มีอยู่โดยใช้ตารางเหล่านี้

โมเดลข้อมูลหลายมิติในคลังข้อมูลคืออะไร

แบบจำลองข้อมูลหลายมิติ ในคลังข้อมูลเป็นรูปแบบที่แสดงข้อมูลในรูปแบบคิวบ์ข้อมูล ช่วยให้สามารถสร้างแบบจำลองและดูข้อมูลในหลายมิติ และกำหนดโดยมิติข้อมูลและข้อเท็จจริง โดยทั่วไปแล้ว โมเดลข้อมูลหลายมิติจะถูกจัดหมวดหมู่ตามธีมหลักและแสดงด้วยตารางข้อเท็จจริง

สรุป

  • แบบจำลองมิติเป็นเทคนิคโครงสร้างข้อมูลที่ปรับให้เหมาะสม เครื่องมือคลังข้อมูล.
  • ข้อเท็จจริงคือหน่วยวัด/หน่วยเมตริก หรือข้อเท็จจริงจากกระบวนการทางธุรกิจของคุณ
  • มิติข้อมูลจัดเตรียมบริบทโดยรอบเหตุการณ์กระบวนการทางธุรกิจ
  • แอ็ตทริบิวต์คือคุณลักษณะต่างๆ ของการสร้างแบบจำลองมิติ
  • ตารางข้อเท็จจริงคือตารางหลักในแบบจำลองมิติ
  • ตารางมิติประกอบด้วยมิติของข้อเท็จจริง
  • ข้อเท็จจริงมีสามประเภท 1. สารเติมแต่ง 2. สารไม่เติมแต่ง 3. สารกึ่งเติมแต่ง
  • ประเภทของขนาดต่างๆ ได้แก่ Conformed, Outrigger, Shrunken, Role-playing, Dimension to Dimension Table, Junk, Degenerate, Swappable และ Step Dimensions
  • ห้าขั้นตอนของการสร้างแบบจำลองมิติ ได้แก่ 1. ระบุกระบวนการทางธุรกิจ 2. ระบุเกรน (ระดับของรายละเอียด) 3. ระบุมิติ 4. ระบุข้อเท็จจริง 5. สร้างดาว
  • สำหรับการสร้างแบบจำลองมิติในคลังข้อมูล จำเป็นต้องตรวจสอบให้แน่ใจว่าตารางข้อเท็จจริงทุกตารางมีตารางมิติวันที่ที่เกี่ยวข้องกัน