Що таке розмірне моделювання в сховищі даних? Вивчайте типи

Розмірне моделювання

Розмірне моделювання (DM) це метод структури даних, оптимізований для зберігання даних у сховищі даних. Метою розмірного моделювання є оптимізація бази даних для швидшого пошуку даних. Концепція розмірного моделювання була розроблена Ральфом Кімболом і складається з таблиць «фактів» і «вимірів».

Розмірна модель у сховищі даних призначена для читання, узагальнення, аналізу числової інформації, як-от значень, балансів, підрахунків, ваги тощо, у сховищі даних. Навпаки, моделі відношень оптимізовані для додавання, оновлення та видалення даних у системі онлайнових транзакцій у режимі реального часу.

Ці розмірні та реляційні моделі мають свій унікальний спосіб зберігання даних, який має певні переваги.

Наприклад, у реляційному режимі моделі нормалізації та ER зменшують надмірність даних. Навпаки, розмірна модель у сховищі даних упорядковує дані таким чином, щоб було легше отримувати інформацію та створювати звіти.

Отже, розмірні моделі використовуються в системи сховищ даних і не підходить для реляційних систем.

Елементи вимірювальної моделі даних

факт

Факти – це вимірювання/метрики або факти з вашого бізнес-процесу. Для бізнес-процесу «Продажі» вимірюванням буде квартальне число продажів

Розмір

Вимір надає контекст навколо події бізнес-процесу. Простіше кажучи, вони повідомляють про те, хто, що, де. У бізнес-процесі «Продажі» для фактичного числа квартальних продажів будуть розміри

  • Хто – імена клієнтів
  • Де – Розташування
  • Що – назва продукту

Іншими словами, вимір — це вікно для перегляду інформації у фактах.

Attributes

Атрибути — це різні характеристики розмірності в моделюванні розмірних даних.

У вимірі Розташування атрибути можуть бути

  • стан
  • Країна
  • Поштовий індекс тощо

Атрибути використовуються для пошуку, фільтрації або класифікації фактів. Таблиці розмірів містять атрибути

Таблиця фактів

Таблиця фактів є основною таблицею в моделюванні розмірів.

Таблиця фактів містить

  1. Вимірювання/факти
  2. Зовнішній ключ до розмірної таблиці

Таблиця розмірів

  • Таблиця розмірів містить розміри факту.
  • Вони приєднуються до таблиці фактів через зовнішній ключ.
  • Таблиці розмірності є денормалізованими таблицями.
  • Атрибути розмірності — це різні стовпці в таблиці розмірності
  • Розміри пропонують описові характеристики фактів за допомогою їхніх атрибутів
  • Немає встановленого обмеження, встановленого для заданої кількості вимірів
  • Вимір також може містити один або декілька ієрархічних зв’язків

Типи розмірів у сховищі даних

Далі Типи розмірів у сховищі даних:

  • Відповідний вимір
  • Розмір аутригера
  • Зменшений вимір
  • Рольовий вимір
  • Розмір до таблиці розмірів
  • Сміттєвий вимір
  • Вироджений вимір
  • Замінний розмір
  • Розмір кроку

Етапи розмірного моделювання

Точність створення розмірного моделювання визначає успіх реалізації вашого сховища даних. Ось кроки для створення моделі вимірювання

  1. Визначте бізнес-процес
  2. Визначте зернистість (рівень деталізації)
  3. Визначте розміри
  4. Визначте факти
  5. Побудуйте зірку

Модель має описувати чому, скільки, коли/де/хто та що у вашому бізнес-процесі

Етапи розмірного моделювання

Крок 1) Визначте бізнес-процес

Визначення фактичного бізнес-процесу, який має охоплювати сховище даних. Це може бути маркетинг, продажі, кадри тощо відповідно до аналіз даних потреби організації. Вибір бізнес-процесу також залежить від якості даних, доступних для цього процесу. Це найважливіший етап процесу моделювання даних, і збій тут призведе до каскадних і непоправних дефектів.

Щоб описати бізнес-процес, ви можете використовувати звичайний текст або базову нотацію моделювання бізнес-процесів (BPMN) або уніфіковану мову моделювання (UML-).

Крок 2) Визначте зерно

Зернистість описує рівень деталізації бізнес-проблеми/рішення. Це процес визначення найнижчого рівня інформації для будь-якої таблиці у вашому сховищі даних. Якщо таблиця містить дані про продажі за кожен день, це має бути щоденна деталізація. Якщо таблиця містить дані про загальні продажі за кожен місяць, вона має місячну деталізацію.

На цьому етапі ви відповідаєте на такі запитання

  1. Нам потрібно зберігати всі наявні продукти чи лише кілька видів? Це рішення ґрунтується на бізнес-процесах, вибраних для Datawarehouse
  2. Чи зберігаємо ми інформацію про продаж продуктів щомісяця, щотижня, щодня чи щогодини? Це рішення залежить від характеру звітів, запитуваних керівниками
  3. Як наведені вище два варіанти впливають на розмір бази даних?

Приклад зерна:

Генеральний директор багатонаціональної компанії хоче щодня відстежувати продажі певних продуктів у різних місцях.

Отже, зерно – це «інформація про продаж продукції за місцезнаходженням за день».

Крок 3) Визначте розміри

Розміри — це такі іменники, як дата, магазин, інвентар тощо. У цих розмірах мають зберігатися всі дані. Наприклад, параметр дати може містити такі дані, як рік, місяць і день тижня.

Приклад розмірів:

Генеральний директор багатонаціональної компанії хоче щодня відстежувати продажі певних продуктів у різних місцях.

Розміри: товар, місце та час

Атрибути: для продукту: ключ продукту (зовнішній ключ), назва, тип, специфікації

Ієрархії: Для розташування: Країна, Штат, Місто, Адреса, Ім’я

Крок 4) Визначте факт

Цей крок пов’язаний із бізнес-користувачами системи, оскільки саме тут вони отримують доступ до даних, що зберігаються в сховищі даних. Більшість рядків таблиці фактів – це числові значення, такі як ціна або вартість за одиницю тощо.

Приклад фактів:

Генеральний директор багатонаціональної компанії хоче щодня відстежувати продажі певних продуктів у різних місцях.

Справа тут — це сума продажів за товаром за місцезнаходженням за часом.

Крок 5) Створіть схему

На цьому кроці ви реалізуєте модель вимірювання. Схема - це не що інше, як структура бази даних (розташування таблиць). Є дві популярні схеми

  1. Схема зірок

Архітектуру зіркової схеми легко спроектувати. Її називають зірковою схемою, оскільки діаграма нагадує зірку з точками, що виходять радіально від центру. Центр зірки складається з таблиці фактів, а точки зірки – таблиці розмірів.

Таблиці фактів у зірковій схемі, яка є третьою нормальною формою, тоді як розмірні таблиці денормалізовані.

  1. Схема сніжинки

Схема сніжинки є розширенням схеми зірки. У схемі сніжинки кожен розмір нормалізовано та пов’язано з іншими таблицями розмірів.

Також перевірте: - Схема зірки та сніжинки в сховищі даних із прикладами моделей

Правила розмірного моделювання

Нижче наведені правила та принципи розмірного моделювання:

  • Завантажте атомарні дані в розмірні структури.
  • Створюйте розмірні моделі навколо бізнес-процесів.
  • Необхідно переконатися, що кожна таблиця фактів має пов’язану таблицю виміру дати.
  • Переконайтеся, що всі факти в одній таблиці фактів мають однаковий рівень деталізації.
  • Важливо зберігати мітки звітів і фільтрувати значення домену в таблицях розмірів
  • Необхідно переконатися, що таблиці розмірів використовують сурогатний ключ
  • Постійно балансуйте між вимогами та реаліями, щоб надати бізнес-рішення для підтримки прийняття рішень

Переваги розмірного моделювання

  • Стандартизація параметрів дозволяє легко створювати звіти в різних сферах діяльності.
  • Таблиці розмірів зберігають історію розмірної інформації.
  • Це дозволяє ввести абсолютно новий вимір без серйозних порушень у таблиці фактів.
  • Розмірність також для зберігання даних таким чином, що легше отримати інформацію з даних, коли дані зберігаються в базі даних.
  • У порівнянні з нормалізованою моделлю таблицю розмірів легше зрозуміти.
  • Інформація згрупована в зрозумілі та прості бізнес-категорії.
  • Розмірна модель дуже зрозуміла для бізнесу. Ця модель базується на бізнес-термінах, щоб бізнес знав, що означає кожен факт, параметр або атрибут.
  • Розмірні моделі деформалізовані та оптимізовані для швидкого запиту даних. Багато платформ реляційних баз даних розпізнають цю модель і оптимізують плани виконання запитів, щоб підвищити продуктивність.
  • Розмірне моделювання в сховищі даних створює схему, оптимізовану для високої продуктивності. Це означає менше приєднань і допомагає з мінімізованою надмірністю даних.
  • Розмірна модель також допомагає підвищити продуктивність запитів. Він більш денормализований, тому оптимізований для запитів.
  • Габаритні моделі комфортно вміщають зміни. До таблиць розмірностей можна додавати більше стовпців, не впливаючи на існуючі програми бізнес-аналітики, які використовують ці таблиці.

Що таке багатовимірна модель даних у сховищі даних?

Багатовимірна модель даних у сховищі даних — це модель, яка представляє дані у формі кубів даних. Це дозволяє моделювати та переглядати дані в кількох вимірах, які визначаються вимірами та фактами. Багатовимірна модель даних зазвичай класифікується за центральною темою та представлена ​​таблицею фактів.

Підсумки

  • Розмірна модель – це метод структури даних, оптимізований для Інструменти сховища даних.
  • Факти – це вимірювання/метрики або факти з вашого бізнес-процесу.
  • Вимір надає контекст навколо події бізнес-процесу.
  • Атрибути — це різні характеристики моделювання розмірності.
  • Таблиця фактів є основною таблицею в розмірній моделі.
  • Таблиця розмірів містить розміри факту.
  • Є три типи фактів: 1. Додаткові 2. Неадитивні 3. Напівадитивні.
  • Типи розмірів: узгоджені, аутригерні, зменшені, рольові, розміри до таблиці розмірів, непотрібні, вироджені, змінні та крокові розміри.
  • П’ять кроків розмірного моделювання: 1. Визначення бізнес-процесу 2. Визначення зернистості (рівень деталізації) 3. Визначення розмірів 4. Визначення фактів 5. Побудова зірки
  • Для розмірного моделювання в сховищі даних необхідно переконатися, що кожна таблиця фактів має пов’язану таблицю розмірності дати.