การสร้างแบบจำลองมิติข้อมูลในคลังข้อมูลคืออะไร เรียนรู้ประเภท
การสร้างแบบจำลองมิติ
การสร้างแบบจำลองมิติ (DM) เป็นเทคนิคโครงสร้างข้อมูลที่ปรับให้เหมาะสมสำหรับการจัดเก็บข้อมูลในคลังข้อมูล วัตถุประสงค์ของการสร้างแบบจำลองมิติคือเพื่อเพิ่มประสิทธิภาพฐานข้อมูลเพื่อการดึงข้อมูลที่รวดเร็วยิ่งขึ้น แนวคิดของการสร้างแบบจำลองมิติได้รับการพัฒนาโดย Ralph Kimball และประกอบด้วยตาราง "ข้อเท็จจริง" และ "มิติ"
แบบจำลองมิติในคลังข้อมูลได้รับการออกแบบมาเพื่ออ่าน สรุป และวิเคราะห์ข้อมูลตัวเลข เช่น ค่า สมดุล จำนวนนับ น้ำหนัก ฯลฯ ในคลังข้อมูล ในทางตรงกันข้าม แบบจำลองความสัมพันธ์ได้รับการปรับให้เหมาะสมสำหรับการบวก การอัปเดต และการลบข้อมูลในระบบธุรกรรมออนไลน์แบบเรียลไทม์
โมเดลเชิงมิติและเชิงสัมพันธ์เหล่านี้มีวิธีจัดเก็บข้อมูลเฉพาะซึ่งมีข้อดีเฉพาะ
ตัวอย่างเช่น ในโหมดเชิงสัมพันธ์ โมเดลการทำให้เป็นมาตรฐานและ ER จะช่วยลดความซ้ำซ้อนในข้อมูล ในทางตรงกันข้าม โมเดลมิติในคลังข้อมูลจะจัดเรียงข้อมูลในลักษณะที่ทำให้ดึงข้อมูลและสร้างรายงานได้ง่ายขึ้น
ดังนั้นจึงมีการใช้แบบจำลองมิติ ระบบคลังข้อมูล และไม่เหมาะกับระบบความสัมพันธ์
องค์ประกอบของแบบจำลองข้อมูลมิติ
ความจริง
ข้อเท็จจริงคือหน่วยวัด/หน่วยเมตริก หรือข้อเท็จจริงจากกระบวนการทางธุรกิจของคุณ สำหรับกระบวนการทางธุรกิจการขาย การวัดจะเป็นตัวเลขยอดขายรายไตรมาส
Dimension
มิติข้อมูลจัดเตรียมบริบทโดยรอบเหตุการณ์กระบวนการทางธุรกิจ พูดง่ายๆ ก็คือให้ใคร อะไร ที่ไหน เป็นข้อเท็จจริง ในกระบวนการธุรกิจการขาย สำหรับจำนวนยอดขายรายไตรมาส มิติจะเป็นดังนี้
- ใคร – ชื่อลูกค้า
- ที่ไหน – ที่ตั้ง
- อะไร – ชื่อผลิตภัณฑ์
กล่าวอีกนัยหนึ่ง มิติข้อมูลคือหน้าต่างสำหรับดูข้อมูลในข้อเท็จจริง
คุณสมบัติ
แอ็ตทริบิวต์คือคุณลักษณะต่างๆ ของมิติในการสร้างแบบจำลองข้อมูลเชิงมิติ
ในมิติตำแหน่ง แอ็ตทริบิวต์สามารถเป็นได้
- สถานะ
- ประเทศ
- รหัสไปรษณีย์ ฯลฯ
คุณลักษณะใช้เพื่อค้นหา กรอง หรือจัดประเภทข้อเท็จจริง ตารางไดเมนชันประกอบด้วยแอตทริบิวต์
ตารางข้อเท็จจริง
ตารางข้อเท็จจริงคือตารางหลักในการสร้างแบบจำลองมิติ
ตารางข้อเท็จจริงประกอบด้วย
- การวัด/ข้อเท็จจริง
- คีย์ต่างประเทศไปยังตารางมิติ
ตารางมิติ
- ตารางมิติประกอบด้วยมิติของข้อเท็จจริง
- พวกเขาจะเข้าร่วมกับตารางข้อเท็จจริงผ่านทางคีย์ต่างประเทศ
- ตารางไดเมนชันคือตารางที่ไม่ทำให้เป็นมาตรฐาน
- แอ็ตทริบิวต์ของไดเมนชันคือคอลัมน์ต่างๆ ในตารางไดเมนชัน
- มิติข้อมูลนำเสนอคุณลักษณะเชิงพรรณนาของข้อเท็จจริงโดยอาศัยคุณลักษณะของข้อมูลเหล่านั้น
- ไม่มีการกำหนดขีดจำกัดที่กำหนดไว้สำหรับจำนวนมิติ
- มิติสามารถมีความสัมพันธ์แบบลำดับชั้นหนึ่งหรือหลายรายการได้
ประเภทของมิติในคลังข้อมูล
ต่อไปนี้คือไฟล์ ประเภทของมิติในคลังข้อมูล:
- มิติที่สอดคล้องกัน
- มิติเอาท์ริกเกอร์
- มิติที่หดตัว
- มิติการสวมบทบาท
- มิติถึงตารางมิติ
- มิติขยะ
- เสื่อมมิติ
- มิติข้อมูลแบบสลับได้
- มิติขั้นตอน
ขั้นตอนของการสร้างแบบจำลองมิติ
ความแม่นยำในการสร้างแบบจำลองมิติข้อมูลจะกำหนดความสำเร็จของการใช้งานคลังข้อมูลของคุณ ต่อไปนี้เป็นขั้นตอนในการสร้างแบบจำลองไดเมนชัน
- ระบุกระบวนการทางธุรกิจ
- ระบุเกรน (ระดับรายละเอียด)
- ระบุมิติข้อมูล
- ระบุข้อเท็จจริง
- สร้างดาว
แบบจำลองควรอธิบายว่าทำไม เท่าไหร่ เมื่อไร/ที่ไหน/ใคร และอะไรของกระบวนการทางธุรกิจของคุณ
ขั้นตอนที่ 1) ระบุกระบวนการทางธุรกิจ
การระบุกระบวนการทางธุรกิจจริงที่คลังข้อมูลควรครอบคลุม นี่อาจเป็นการตลาด การขาย ทรัพยากรบุคคล ฯลฯ ตามที่ระบุ การวิเคราะห์ข้อมูล ความต้องการขององค์กร การเลือกกระบวนการทางธุรกิจยังขึ้นอยู่กับคุณภาพของข้อมูลที่มีอยู่สำหรับกระบวนการนั้นด้วย เป็นขั้นตอนที่สำคัญที่สุดของกระบวนการสร้างแบบจำลองข้อมูล และความล้มเหลวที่นี่จะทำให้เกิดข้อบกพร่องแบบต่อเนื่องและแก้ไขไม่ได้
เพื่ออธิบายกระบวนการทางธุรกิจ คุณสามารถใช้ข้อความธรรมดาหรือใช้ Business Process Modeling Notation (BPMN) พื้นฐานหรือ Unified Modeling Language (UML).
ขั้นตอนที่ 2) ระบุเกรน
The Grain อธิบายระดับรายละเอียดสำหรับปัญหา/แนวทางแก้ไขทางธุรกิจ เป็นกระบวนการระบุข้อมูลระดับต่ำสุดสำหรับตารางใดๆ ในคลังข้อมูลของคุณ หากตารางมีข้อมูลการขายในแต่ละวัน ก็ควรจะเป็นรายละเอียดรายวัน หากตารางมีข้อมูลยอดขายทั้งหมดในแต่ละเดือน ก็จะมีรายละเอียดปลีกย่อยรายเดือน
ในระหว่างขั้นตอนนี้ คุณจะตอบคำถามเช่น
- เราจำเป็นต้องจัดเก็บผลิตภัณฑ์ที่มีอยู่ทั้งหมดหรือผลิตภัณฑ์เพียงไม่กี่ประเภทหรือไม่? การตัดสินใจนี้ขึ้นอยู่กับกระบวนการทางธุรกิจที่เลือกสำหรับคลังข้อมูล
- เราจัดเก็บข้อมูลการขายผลิตภัณฑ์เป็นรายเดือน รายสัปดาห์ รายวัน หรือรายชั่วโมงหรือไม่? การตัดสินใจครั้งนี้ขึ้นอยู่กับลักษณะของรายงานที่ผู้บริหารร้องขอ
- สองตัวเลือกข้างต้นส่งผลต่อขนาดฐานข้อมูลอย่างไร
ตัวอย่างของเกรน:
CEO ของบริษัท MNC ต้องการค้นหายอดขายของผลิตภัณฑ์เฉพาะเจาะจงในสถานที่ต่างๆ ในแต่ละวัน
ดังนั้นธัญพืชคือ “ข้อมูลการขายผลิตภัณฑ์ตามสถานที่ในแต่ละวัน”
ขั้นตอนที่ 3) ระบุขนาด
มิติข้อมูลเป็นคำนาม เช่น วันที่ ร้านค้า สินค้าคงคลัง ฯลฯ มิติข้อมูลเหล่านี้เป็นที่ที่ควรจัดเก็บข้อมูลทั้งหมด ตัวอย่างเช่น มิติข้อมูลวันที่อาจมีข้อมูล เช่น ปี เดือน และวันในสัปดาห์
ตัวอย่างขนาด:
CEO ของบริษัท MNC ต้องการค้นหายอดขายของผลิตภัณฑ์เฉพาะเจาะจงในสถานที่ต่างๆ ในแต่ละวัน
ขนาด: ผลิตภัณฑ์ ที่ตั้ง และเวลา
คุณสมบัติ: สำหรับผลิตภัณฑ์: รหัสผลิตภัณฑ์ (รหัสต่างประเทศ) ชื่อ ประเภท ข้อมูลจำเพาะ
ลำดับชั้น: สำหรับสถานที่: ประเทศ, รัฐ, เมือง, ที่อยู่, ชื่อ
ขั้นตอนที่ 4) ระบุข้อเท็จจริง
ขั้นตอนนี้เชื่อมโยงร่วมกับผู้ใช้ทางธุรกิจของระบบ เนื่องจากนี่คือที่ที่พวกเขาสามารถเข้าถึงข้อมูลที่จัดเก็บไว้ในคลังข้อมูล แถวตารางข้อเท็จจริงส่วนใหญ่เป็นค่าตัวเลข เช่น ราคาหรือต้นทุนต่อหน่วย เป็นต้น
ตัวอย่างข้อเท็จจริง:
CEO ของบริษัท MNC ต้องการค้นหายอดขายของผลิตภัณฑ์เฉพาะเจาะจงในสถานที่ต่างๆ ในแต่ละวัน
ข้อเท็จจริงที่นี่คือผลรวมของยอดขายตามผลิตภัณฑ์ตามสถานที่ตามเวลา
ขั้นตอนที่ 5) สร้างสคีมา
ในขั้นตอนนี้ คุณจะใช้แบบจำลองไดเมนชัน สคีมาคืออะไรนอกจากโครงสร้างฐานข้อมูล (การจัดเรียงตาราง) มีสคีมายอดนิยมสองแบบ
- สคีมาของดาว
สถาปัตยกรรมของโครงร่างรูปดาวนั้นออกแบบได้ง่าย เรียกว่าโครงร่างรูปดาวเนื่องจากไดอะแกรมมีลักษณะคล้ายดาว โดยมีจุดแผ่ออกมาจากจุดศูนย์กลาง จุดศูนย์กลางของดาวประกอบด้วยตารางข้อเท็จจริง และจุดของดาวคือตารางมิติ
ตารางข้อเท็จจริงในสคีมาแบบดาวซึ่งเป็นรูปแบบปกติที่สาม ในขณะที่ตารางมิติจะถูกทำให้เป็นมาตรฐาน
- สคีมาเกล็ดหิมะ
สคีมาเกล็ดหิมะเป็นส่วนขยายของสคีมาแบบดาว ในสคีมาเกล็ดหิมะ แต่ละมิติจะถูกทำให้เป็นมาตรฐานและเชื่อมต่อกับตารางมิติเพิ่มเติม
ตรวจสอบด้วย: - สคีมาดาวและเกล็ดหิมะในคลังข้อมูลพร้อมตัวอย่างโมเดล
กฎสำหรับการสร้างแบบจำลองมิติ
ต่อไปนี้เป็นกฎและหลักการของการสร้างแบบจำลองมิติ:
- โหลดข้อมูลอะตอมเข้าสู่โครงสร้างมิติ
- สร้างแบบจำลองมิติรอบกระบวนการทางธุรกิจ
- ต้องแน่ใจว่าตารางข้อเท็จจริงทุกตารางมีตารางมิติวันที่ที่เกี่ยวข้องกัน
- ตรวจสอบให้แน่ใจว่าข้อเท็จจริงทั้งหมดในตารางข้อเท็จจริงเดียวมีรายละเอียดหรือระดับเดียวกัน
- จำเป็นต้องจัดเก็บป้ายกำกับรายงานและกรองค่าโดเมนในตารางมิติ
- ต้องแน่ใจว่าตารางมิติใช้คีย์ตัวแทน
- สร้างสมดุลระหว่างความต้องการและความเป็นจริงอย่างต่อเนื่องเพื่อนำเสนอโซลูชันทางธุรกิจเพื่อรองรับการตัดสินใจ
ประโยชน์ของการสร้างแบบจำลองมิติ
- การกำหนดมิติข้อมูลให้เป็นมาตรฐานทำให้สามารถรายงานข้ามส่วนต่างๆ ของธุรกิจได้อย่างง่ายดาย
- ตารางไดเมนชันจะจัดเก็บประวัติของข้อมูลไดเมนชัน
- ช่วยให้สามารถแนะนำมิติใหม่ทั้งหมดโดยไม่รบกวนตารางข้อเท็จจริงอย่างมาก
- มิติยังใช้ในการจัดเก็บข้อมูลในลักษณะที่ง่ายต่อการดึงข้อมูลจากข้อมูลเมื่อข้อมูลถูกเก็บไว้ในฐานข้อมูล
- เมื่อเทียบกับตารางมิติแบบจำลองมาตรฐานจะเข้าใจได้ง่ายกว่า
- ข้อมูลถูกจัดกลุ่มเป็นหมวดหมู่ธุรกิจที่ชัดเจนและเรียบง่าย
- โมเดลมิติเป็นสิ่งที่ธุรกิจเข้าใจได้ดีมาก แบบจำลองนี้อิงตามเงื่อนไขทางธุรกิจ เพื่อให้ธุรกิจทราบว่าข้อเท็จจริง มิติข้อมูล หรือคุณลักษณะแต่ละรายการหมายถึงอะไร
- โมเดลมิติได้รับการเปลี่ยนรูปแบบและปรับให้เหมาะสมเพื่อการสืบค้นข้อมูลที่รวดเร็ว แพลตฟอร์มฐานข้อมูลเชิงสัมพันธ์จำนวนมากรู้จักโมเดลนี้และปรับแผนการดำเนินการสืบค้นให้เหมาะสมเพื่อช่วยในประสิทธิภาพ
- การสร้างแบบจำลองมิติในคลังข้อมูลจะสร้างสคีมาซึ่งได้รับการปรับให้เหมาะสมเพื่อประสิทธิภาพสูง หมายถึงการรวมน้อยลงและช่วยลดความซ้ำซ้อนของข้อมูลให้เหลือน้อยที่สุด
- โมเดลมิติยังช่วยเพิ่มประสิทธิภาพการสืบค้นอีกด้วย มันถูกทำให้เป็นมาตรฐานมากขึ้น ดังนั้นจึงได้รับการปรับให้เหมาะสมสำหรับการสืบค้น
- โมเดลมิติสามารถรองรับการเปลี่ยนแปลงได้อย่างสะดวกสบาย ตารางไดเมนชันสามารถเพิ่มคอลัมน์เพิ่มเติมได้ โดยไม่กระทบต่อแอปพลิเคชันระบบธุรกิจอัจฉริยะที่มีอยู่โดยใช้ตารางเหล่านี้
โมเดลข้อมูลหลายมิติในคลังข้อมูลคืออะไร
แบบจำลองข้อมูลหลายมิติ ในคลังข้อมูลเป็นรูปแบบที่แสดงข้อมูลในรูปแบบคิวบ์ข้อมูล ช่วยให้สามารถสร้างแบบจำลองและดูข้อมูลในหลายมิติ และกำหนดโดยมิติข้อมูลและข้อเท็จจริง โดยทั่วไปแล้ว โมเดลข้อมูลหลายมิติจะถูกจัดหมวดหมู่ตามธีมหลักและแสดงด้วยตารางข้อเท็จจริง
สรุป
- แบบจำลองมิติเป็นเทคนิคโครงสร้างข้อมูลที่ปรับให้เหมาะสม เครื่องมือคลังข้อมูล.
- ข้อเท็จจริงคือหน่วยวัด/หน่วยเมตริก หรือข้อเท็จจริงจากกระบวนการทางธุรกิจของคุณ
- มิติข้อมูลจัดเตรียมบริบทโดยรอบเหตุการณ์กระบวนการทางธุรกิจ
- แอ็ตทริบิวต์คือคุณลักษณะต่างๆ ของการสร้างแบบจำลองมิติ
- ตารางข้อเท็จจริงคือตารางหลักในแบบจำลองมิติ
- ตารางมิติประกอบด้วยมิติของข้อเท็จจริง
- ข้อเท็จจริงมีสามประเภท 1. สารเติมแต่ง 2. สารไม่เติมแต่ง 3. สารกึ่งเติมแต่ง
- ประเภทของขนาดต่างๆ ได้แก่ Conformed, Outrigger, Shrunken, Role-playing, Dimension to Dimension Table, Junk, Degenerate, Swappable และ Step Dimensions
- ห้าขั้นตอนของการสร้างแบบจำลองมิติ ได้แก่ 1. ระบุกระบวนการทางธุรกิจ 2. ระบุเกรน (ระดับของรายละเอียด) 3. ระบุมิติ 4. ระบุข้อเท็จจริง 5. สร้างดาว
- สำหรับการสร้างแบบจำลองมิติในคลังข้อมูล จำเป็นต้องตรวจสอบให้แน่ใจว่าตารางข้อเท็จจริงทุกตารางมีตารางมิติวันที่ที่เกี่ยวข้องกัน