Что такое размерное моделирование в хранилище данных? Изучите типы

Размерное моделирование

Размерное моделирование (ДМ) — это метод структуры данных, оптимизированный для хранения данных в хранилище данных. Цель многомерного моделирования — оптимизировать базу данных для более быстрого поиска данных. Концепция пространственного моделирования была разработана Ральфом Кимбаллом и состоит из таблиц «фактов» и «размерностей».

Многомерная модель в хранилище данных предназначена для чтения, обобщения и анализа числовой информации, такой как значения, балансы, количества, веса и т. д., в хранилище данных. Напротив, модели отношений оптимизированы для добавления, обновления и удаления данных в системе онлайн-транзакций в реальном времени.

Эти размерные и реляционные модели имеют свой уникальный способ хранения данных, который имеет определенные преимущества.

Например, в реляционном режиме модели нормализации и ER уменьшают избыточность данных. Напротив, многомерная модель в хранилище данных упорядочивает данные таким образом, чтобы было легче извлекать информацию и создавать отчеты.

Следовательно, размерные модели используются в системы хранения данных и не очень хорошо подходит для реляционных систем.

Элементы многомерной модели данных

Факт

Факты — это измерения/показатели или факты вашего бизнес-процесса. Для бизнес-процесса «Продажи» измерением будет квартальный объем продаж.

Размеры

Измерение предоставляет контекст события бизнес-процесса. Проще говоря, они дают кто, что, где факт. В бизнес-процессе «Продажи» для факта квартального объема продаж измерения будут следующими:

  • Кто – имена клиентов
  • Где – Местоположение
  • Что – Название продукта

Другими словами, измерение — это окно для просмотра информации в фактах.

Атрибуты

Атрибуты — это различные характеристики измерения при моделировании многомерных данных.

В измерении «Местоположение» атрибуты могут быть

  • Область
  • Страна
  • Почтовый индекс и т. д.

Атрибуты используются для поиска, фильтрации или классификации фактов. Таблицы измерений содержат атрибуты

Таблица фактов

Таблица фактов — это основная таблица в моделировании измерений.

Таблица фактов содержит

  1. Измерения/факты
  2. Внешний ключ к таблице измерений

Таблица размеров

  • Таблица измерений содержит измерения факта.
  • Они присоединяются к таблице фактов через внешний ключ.
  • Таблицы измерений являются денормализованными таблицами.
  • Атрибуты измерения — это различные столбцы в таблице измерений.
  • Измерения предлагают описательные характеристики фактов с помощью их атрибутов.
  • Не установлен предел для заданного количества измерений
  • Измерение также может содержать одну или несколько иерархических связей.

Типы измерений в хранилище данных

Ниже приведены Типы измерений в хранилище данных:

  • Соответствующий размер
  • Размер аутригера
  • Уменьшенное измерение
  • Ролевое измерение
  • Таблица размеров
  • Мусорное измерение
  • Вырожденное измерение
  • Сменный размер
  • Размер шага

Этапы размерного моделирования

Точность создания размерного моделирования определяет успех реализации вашего хранилища данных. Вот шаги для создания размерной модели.

  1. Определить бизнес-процесс
  2. Определить зерно (уровень детализации)
  3. Определить размеры
  4. Определите факты
  5. Построить звезду

Модель должна описывать почему, сколько, когда/где/кто и что в вашем бизнес-процессе.

Этапы размерного моделирования

Шаг 1) Определите бизнес-процесс

Определение фактического бизнес-процесса, который должно охватывать хранилище данных. Это может быть маркетинг, продажи, управление персоналом и т. д. в соответствии с анализ данных потребности организации. Выбор бизнес-процесса также зависит от качества данных, доступных для этого процесса. Это наиболее важный этап процесса моделирования данных, и сбой на этом этапе приведет к каскадным и неисправимым дефектам.

Чтобы описать бизнес-процесс, вы можете использовать простой текст или использовать базовую нотацию моделирования бизнес-процессов (BPMN) или унифицированный язык моделирования (UML-).

Шаг 2) Определите зерно

Зерно описывает уровень детализации бизнес-проблемы/решения. Это процесс определения самого низкого уровня информации для любой таблицы в вашем хранилище данных. Если таблица содержит данные о продажах за каждый день, то она должна иметь дневную детализацию. Если таблица содержит данные об общем объеме продаж за каждый месяц, то она имеет помесячную детализацию.

На этом этапе вы отвечаете на такие вопросы, как

  1. Нужно ли нам хранить все доступные продукты или только несколько видов продуктов? Это решение основано на бизнес-процессах, выбранных для Datawarehouse.
  2. Сохраняем ли мы информацию о продажах продуктов ежемесячно, еженедельно, ежедневно или ежечасно? Это решение зависит от характера отчетов, запрашиваемых руководителями.
  3. Как два вышеуказанных варианта влияют на размер базы данных?

Пример зерна:

Генеральный директор транснациональной корпорации хочет ежедневно отслеживать продажи конкретных продуктов в разных местах.

Итак, зерно — это «информация о продажах продукции по местонахождению по дням».

Шаг 3) Определите размеры

Измерения — это существительные, такие как дата, магазин, инвентарь и т. д. В этих измерениях должны храниться все данные. Например, измерение даты может содержать такие данные, как год, месяц и день недели.

Пример размеров:

Генеральный директор транснациональной корпорации хочет ежедневно отслеживать продажи конкретных продуктов в разных местах.

Размеры: продукт, местоположение и время.

Атрибуты: Для продукта: ключ продукта (внешний ключ), имя, тип, характеристики.

Иерархии: Для местоположения: Страна, Штат, Город, Адрес, Имя.

Шаг 4) Определите факт

Этот шаг связан с бизнес-пользователями системы, поскольку именно здесь они получают доступ к данным, хранящимся в хранилище данных. Большинство строк таблицы фактов представляют собой числовые значения, такие как цена или стоимость за единицу и т. д.

Пример фактов:

Генеральный директор транснациональной корпорации хочет ежедневно отслеживать продажи конкретных продуктов в разных местах.

Здесь речь идет о сумме продаж по продуктам, по местоположению и по времени.

Шаг 5) Постройте схему

На этом этапе вы реализуете модель измерения. Схема — это не что иное, как структура базы данных (расположение таблиц). Есть две популярные схемы.

  1. Схема звезды

Архитектуру звездообразной схемы легко спроектировать. Она называется звездной схемой, потому что диаграмма напоминает звезду с точками, расходящимися из центра. Центр звезды состоит из таблицы фактов, а точки звезды — таблицы измерений.

Таблицы фактов в звездообразной схеме, которая является третьей нормальной формой, тогда как таблицы измерений денормализованы.

  1. Схема снежинки

Схема снежинки является расширением схемы звезды. В схеме «снежинка» каждое измерение нормализовано и связано с другими таблицами измерений.

Также проверьте: - Схема «звезда» и «снежинка» в хранилище данных с примерами моделей

Правила размерного моделирования

Ниже приведены правила и принципы размерного моделирования:

  • Загружайте атомарные данные в размерные структуры.
  • Создавайте многомерные модели бизнес-процессов.
  • Необходимо убедиться, что с каждой таблицей фактов связана таблица измерений дат.
  • Убедитесь, что все факты в одной таблице фактов имеют одинаковую степень детализации.
  • Очень важно хранить метки отчетов и значения домена фильтрации в таблицах измерений.
  • Необходимо убедиться, что в таблицах измерений используется суррогатный ключ.
  • Постоянно балансировать требования и реалии, чтобы предоставлять бизнес-решения для поддержки принятия решений.

Преимущества размерного моделирования

  • Стандартизация измерений позволяет легко создавать отчеты по всем направлениям бизнеса.
  • Таблицы измерений хранят историю информации о измерениях.
  • Это позволяет ввести совершенно новое измерение без серьезных нарушений таблицы фактов.
  • Размерность также позволяет хранить данные таким образом, чтобы было легче извлекать информацию из данных, как только данные будут сохранены в базе данных.
  • По сравнению с нормализованной моделью размерная таблица более понятна.
  • Информация сгруппирована по четким и простым бизнес-категориям.
  • Размерная модель очень понятна бизнесу. Эта модель основана на бизнес-терминах, поэтому бизнес знает, что означает каждый факт, измерение или атрибут.
  • Размерные модели деформализованы и оптимизированы для быстрого запроса данных. Многие платформы реляционных баз данных распознают эту модель и оптимизируют планы выполнения запросов, чтобы повысить производительность.
  • Многомерное моделирование в хранилище данных создает схему, оптимизированную для высокой производительности. Это означает меньшее количество соединений и помогает свести к минимуму избыточность данных.
  • Многомерная модель также помогает повысить производительность запросов. Он более денормализован, поэтому оптимизирован для запросов.
  • Габаритные модели могут легко вносить изменения. В таблицы измерений можно добавлять дополнительные столбцы, не затрагивая существующие приложения бизнес-аналитики, использующие эти таблицы.

Что такое многомерная модель данных в хранилище данных?

Многомерная модель данных В хранилище данных — это модель, которая представляет данные в виде кубов данных. Он позволяет моделировать и просматривать данные в нескольких измерениях и определяется измерениями и фактами. Многомерная модель данных обычно классифицируется по центральной теме и представлена ​​таблицей фактов.

Резюме

  • Многомерная модель — это метод структуры данных, оптимизированный для Инструменты хранения данных.
  • Факты — это измерения/показатели или факты вашего бизнес-процесса.
  • Измерение предоставляет контекст события бизнес-процесса.
  • Атрибуты — это различные характеристики моделирования измерений.
  • Таблица фактов — это основная таблица в многомерной модели.
  • Таблица измерений содержит измерения факта.
  • Существует три типа фактов: 1. Аддитивные. 2. Неаддитивные. 3. Полуаддитивные.
  • Типы размеров: согласованные, выносные, сжатые, ролевые, размеры в таблице измерений, мусорные, вырожденные, заменяемые и ступенчатые размеры.
  • Пять шагов многомерного моделирования: 1. Определить бизнес-процесс 2. Определить зернистость (уровень детализации) 3. Определить измерения 4. Определить факты 5. Построить звезду
  • Для многомерного моделирования в хранилище данных необходимо убедиться, что каждая таблица фактов имеет связанную таблицу измерений дат.