Какво е дименсионално моделиране в Data Warehouse? Научете типове

Моделиране на размери

Дименсионално моделиране (DM) е техника за структура на данни, оптимизирана за съхранение на данни в Data warehouse. Целта на дименсионалното моделиране е да оптимизира базата данни за по-бързо извличане на данни. Концепцията за дименсионално моделиране е разработена от Ралф Кимбъл и се състои от таблици „факт“ и „измерение“.

Размерният модел в хранилището на данни е проектиран да чете, обобщава, анализира цифрова информация като стойности, салда, брои, тегла и т.н. в хранилище на данни. Обратно, релационните модели са оптимизирани за добавяне, актуализиране и изтриване на данни в система за онлайн транзакции в реално време.

Тези размерни и релационни модели имат своя уникален начин за съхранение на данни, който има специфични предимства.

Например в релационния режим нормализацията и ER моделите намаляват излишъка в данните. Напротив, размерният модел в хранилището на данни подрежда данните по такъв начин, че да е по-лесно да се извлича информация и да се генерират отчети.

Следователно, размерните модели се използват в системи за съхранение на данни и не е подходящ за релационни системи.

Елементи на модела на размерните данни

факт

Фактите са измерванията/метриките или фактите от вашия бизнес процес. За бизнес процес Продажби, измерването ще бъде тримесечен брой продажби

Измерение

Dimension осигурява контекста около събитие на бизнес процес. С прости думи, те дават кой, какво, къде като факт. В бизнес процеса Продажби, за тримесечния номер на продажбите ще бъдат измерения

  • Кой – имена на клиенти
  • Къде – Местоположение
  • Какво – Име на продукта

С други думи, измерението е прозорец за преглед на информация във фактите.

Атрибути

Атрибутите са различните характеристики на измерението в моделирането на размерни данни.

В измерението Местоположение атрибутите могат да бъдат

  • Област
  • Страна
  • Пощенски код и др.

Атрибутите се използват за търсене, филтриране или класифициране на факти. Таблиците с измерения съдържат атрибути

Таблица с факти

Фактическата таблица е основна таблица в моделирането на измерения.

Таблица с факти съдържа

  1. Измервания/факти
  2. Външен ключ към таблица с размери

Таблица с размери

  • Таблица с измерения съдържа измерения на факт.
  • Те се присъединяват към таблицата с факти чрез външен ключ.
  • Таблиците с размери са денормализирани таблици.
  • Атрибутите на размерите са различните колони в таблица с размери
  • Dimensions предлага описателни характеристики на фактите с помощта на техните атрибути
  • Няма зададено ограничение, зададено за даден брой измерения
  • Измерението може също да съдържа една или повече йерархични връзки

Видове измерения в Data Warehouse

Следват Видове измерения в Data Warehouse:

  • Съгласувано измерение
  • Размер на аутригера
  • Свито измерение
  • Ролева игра Dimension
  • Таблица от размери към размери
  • Нежелано измерение
  • Изродено измерение
  • Сменяемо измерение
  • Измерение на стъпката

Стъпки на дименсионалното моделиране

Точността при създаването на вашето дименсионално моделиране определя успеха на внедряването на вашето хранилище за данни. Ето стъпките за създаване на Dimension Model

  1. Идентифицирайте бизнес процеса
  2. Идентифициране на зърното (ниво на детайлност)
  3. Идентифицирайте размерите
  4. Идентифицирайте фактите
  5. Изграждане на звезда

Моделът трябва да описва защо, колко, кога/къде/кой и какво от вашия бизнес процес

Стъпки на дименсионалното моделиране

Стъпка 1) Идентифицирайте бизнес процеса

Идентифициране на действителния бизнес процес, който трябва да покрива базата с данни. Това може да бъде маркетинг, продажби, човешки ресурси и т.н. според Анализ на данни нужди на организацията. Изборът на бизнес процес също зависи от качеството на наличните данни за този процес. Това е най-важната стъпка от процеса на моделиране на данни и повреда тук би довела до каскадни и непоправими дефекти.

За да опишете бизнес процеса, можете да използвате обикновен текст или да използвате основна нотация за моделиране на бизнес процеси (BPMN) или унифициран език за моделиране (UML).

Стъпка 2) Идентифицирайте зърното

Зърното описва нивото на детайлност на бизнес проблема/решението. Това е процес на идентифициране на най-ниското ниво на информация за всяка таблица във вашето хранилище за данни. Ако дадена таблица съдържа данни за продажбите за всеки ден, тогава тя трябва да е дневна детайлност. Ако дадена таблица съдържа общи данни за продажбите за всеки месец, тогава тя има месечна детайлност.

По време на този етап отговаряте на въпроси като

  1. Трябва ли да съхраняваме всички налични продукти или само няколко вида продукти? Това решение се основава на бизнес процесите, избрани за Datawarehouse
  2. Съхраняваме ли информацията за продажбата на продукта на месечна, седмична, дневна или почасова база? Това решение зависи от естеството на докладите, поискани от ръководителите
  3. Как горните два избора влияят на размера на базата данни?

Пример за зърно:

Главният изпълнителен директор на MNC иска ежедневно да намира продажбите за конкретни продукти на различни места.

И така, зърното е „информация за продажба на продукти по местоположение за всеки ден“.

Стъпка 3) Идентифицирайте размерите

Измеренията са съществителни като дата, магазин, инвентар и т.н. Тези измерения са мястото, където трябва да се съхраняват всички данни. Например измерението за дата може да съдържа данни като година, месец и ден от седмицата.

Пример за размери:

Главният изпълнителен директор на MNC иска ежедневно да намира продажбите за конкретни продукти на различни места.

Размери: продукт, местоположение и време

Атрибути: За продукт: Продуктов ключ (Чужд ключ), Име, Тип, Спецификации

Йерархии: За местоположение: Държава, Щат, Град, Уличен адрес, Име

Стъпка 4) Идентифицирайте факта

Тази стъпка е съвместно свързана с бизнес потребителите на системата, защото това е мястото, където те получават достъп до данните, съхранявани в хранилището на данни. Повечето от редовете на таблицата с факти са числени стойности като цена или цена на единица и т.н.

Пример за факти:

Главният изпълнителен директор на MNC иска ежедневно да намира продажбите за конкретни продукти на различни места.

Фактът тук е сбор от продажби по продукт по местоположение по време.

Стъпка 5) Изградете схема

В тази стъпка вие внедрявате модела на измеренията. Схемата не е нищо друго освен структурата на базата данни (подреждане на таблици). Има две популярни схеми

  1. Звездна схема

Архитектурата на звездната схема е лесна за проектиране. Нарича се звездна схема, защото диаграмата прилича на звезда с точки, излъчващи се от центъра. Центърът на звездата се състои от таблицата с фактите, а точките на звездата са таблици с размери.

Фактическите таблици в звездна схема, която е трета нормална форма, докато размерните таблици са денормализирани.

  1. Схема на снежинка

Схемата на снежинката е разширение на схемата на звездата. В схема на снежинка всяко измерение е нормализирано и свързано с повече таблици с размери.

Също така проверете: - Схема на звезда и снежинка в Data Warehouse с примерни модели

Правила за размерно моделиране

Следват правилата и принципите на дименсионалното моделиране:

  • Заредете атомни данни в размерни структури.
  • Изградете размерни модели около бизнес процесите.
  • Трябва да се гарантира, че всяка таблица с факти има свързана таблица с размери на дати.
  • Уверете се, че всички факти в една таблица с факти са с еднакво зърно или ниво на детайлност.
  • От съществено значение е да съхранявате етикети на отчети и стойности на филтрирани домейни в таблици с измерения
  • Трябва да се гарантира, че таблиците с размери използват сурогатен ключ
  • Непрекъснато балансирайте изискванията и реалностите, за да предоставите бизнес решение в подкрепа на вземането на решения

Предимства на дименсионалното моделиране

  • Стандартизирането на измеренията позволява лесно отчитане в различни области на бизнеса.
  • Таблиците с размери съхраняват историята на информацията за размерите.
  • Това позволява да се въведе изцяло ново измерение без големи смущения в таблицата с факти.
  • Dimensional също за съхраняване на данни по такъв начин, че да е по-лесно да се извлече информацията от данните, след като данните се съхранят в базата данни.
  • В сравнение с нормализирания модел таблицата с размери е по-лесна за разбиране.
  • Информацията е групирана в ясни и прости бизнес категории.
  • Размерният модел е много разбираем за бизнеса. Този модел се основава на бизнес условия, така че бизнесът да знае какво означава всеки факт, измерение или атрибут.
  • Размерните модели са деформализирани и оптимизирани за бързо търсене на данни. Много платформи за релационни бази данни разпознават този модел и оптимизират плановете за изпълнение на заявки, за да подпомогнат производителността.
  • Моделирането на размери в хранилището на данни създава схема, която е оптимизирана за висока производителност. Това означава по-малко присъединявания и помага с минимизирано излишък на данни.
  • Размерният модел също помага за повишаване на производителността на заявките. Той е по-денормализиран, следователно е оптимизиран за заявки.
  • Моделите с размери могат удобно да поемат промените. Таблиците с размери могат да имат повече колони, добавени към тях, без това да засяга съществуващите приложения за бизнес разузнаване, използващи тези таблици.

Какво е многомерен модел на данни в Data Warehouse?

Многомерен модел на данни в склад за данни е модел, който представя данни под формата на кубове с данни. Позволява да се моделират и преглеждат данните в множество измерения и се определят от измерения и факти. Многоизмерният модел на данни обикновено се категоризира около централна тема и се представя от таблица с факти.

Oбобщение

  • Размерният модел е техника за структура на данни, оптимизирана за Инструменти за съхранение на данни.
  • Фактите са измерванията/метриките или фактите от вашия бизнес процес.
  • Dimension осигурява контекста около събитие на бизнес процес.
  • Атрибутите са различните характеристики на моделирането на измеренията.
  • Фактическа таблица е основна таблица в размерен модел.
  • Таблица с измерения съдържа измерения на факт.
  • Има три вида факти: 1. Добавени 2. Неадитивни 3. Полу-адитивни.
  • Типовете измерения са съгласувани, аутригери, свити, ролеви, размери към таблица с размери, боклуци, изродени, разменяеми и стъпкови измерения.
  • Пет стъпки на дименсионалното моделиране са 1. Идентифициране на бизнес процеса 2. Идентифициране на зърното (ниво на детайлност) 3. Идентифициране на измеренията 4. Идентифициране на фактите 5. Изграждане на звезда
  • За размерното моделиране в хранилището на данни е необходимо да се гарантира, че всяка таблица с факти има свързана таблица с размери на дати.