Что такое витрина данных в хранилище данных? Типы и примеры

Что такое витрина данных?

A Магазин данных ориентирован на одну функциональную область организации и содержит подмножество данных, хранящихся в хранилище данных. Витрина данных — это сокращенная версия хранилища данных, предназначенная для использования определенным отделом, подразделением или группой пользователей в организации. Например, маркетинг, продажи, HR или финансы. Часто он контролируется одним отделом организации.

Витрина данных обычно собирает данные лишь из нескольких источников по сравнению с хранилищем данных. Витрины данных имеют небольшой размер и более гибкие по сравнению с хранилищами данных.

Зачем нам нужен Data Mart?

  • Data Mart помогает увеличить время отклика пользователя за счет сокращения объема данных.
  • Он обеспечивает легкий доступ к часто запрашиваемым данным.
  • Витрины данных реализовать проще по сравнению с корпоративными хранилищами данных. При этом стоимость внедрения Data Mart, безусловно, ниже по сравнению с внедрением полноценного хранилища данных.
  • По сравнению с хранилищем данных витрина данных более гибкая. В случае изменения модели витрину данных можно построить быстрее за счет меньшего размера.
  • Витрина данных определяется одним экспертом по предметной области. Напротив, хранилище данных определяется междисциплинарными малыми и средними предприятиями из различных областей. Следовательно, витрина данных более открыта для изменений по сравнению с хранилищем данных.
  • Данные секционированы и обеспечивают очень детальные права управления доступом.
  • Данные можно сегментировать и хранить на разных аппаратных/программных платформах.

Типы витрин данных

Существует три основных типа витрин данных:

  1. Зависимый: Зависимые витрины данных создаются путем получения данных непосредственно из операционных, внешних или обоих источников.
  2. Независмая платформа : Независимая витрина данных создается без использования центрального хранилища данных.
  3. Гибридный: этот тип витрин данных может получать данные из хранилищ данных или операционных систем.

Зависимая витрина данных

Зависимая витрина данных позволяет получать данные организации из единого хранилища данных. Это один из примеров витрины данных, который предлагает преимущества централизации. Если вам необходимо разработать одну или несколько физических витрин данных, вам необходимо настроить их как зависимые витрины данных.

Зависимая витрина данных в хранилище данных может быть построена двумя разными способами. Либо пользователь может получить доступ как к витрине данных, так и к хранилищу данных, в зависимости от необходимости, либо где доступ ограничен только витриной данных. Второй подход не является оптимальным, поскольку он создает иногда так называемую свалку данных. На свалке данных все данные начинаются с общего источника, но они выбрасываются и в основном выбрасываются.

Зависимая витрина данных
Зависимая витрина данных

Независимый киоск данных

Независимая витрина данных создается без использования центрального хранилища данных. Этот вид витрины данных — идеальный вариант для небольших групп внутри организации.

Независимая витрина данных не имеет связи ни с хранилищем данных предприятия, ни с какой-либо другой витриной данных. В независимой витрине данных данные вводятся отдельно, и их анализ также выполняется автономно.

Внедрение независимых витрин данных противоречит мотивации создания хранилища данных. Прежде всего, вам необходимо единообразное централизованное хранилище корпоративных данных, которое может анализировать множество пользователей с разными интересами, которым нужна самая разнообразная информация.

Независимый киоск данных

Независимый киоск данных

Гибридный киоск данных

Гибридная витрина данных объединяет входные данные из источников, отличных от хранилища данных. Это может быть полезно, если вам нужна разовая интеграция, например, после добавления в организацию новой группы или продукта.

Это лучший пример витрины данных, подходящий для нескольких сред баз данных и обеспечивающий быструю реализацию в любой организации. Это также требует минимальных усилий по очистке данных. Гибридная витрина данных также поддерживает большие структуры хранения и лучше всего подходит для гибких и небольших приложений, ориентированных на данные.

Гибридный киоск данных

Гибридный киоск данных

Шаги по реализации витрины данных

Шаги по реализации витрины данных

Внедрение витрины данных — полезная, но сложная процедура. Вот подробные шаги по реализации витрины данных:

Проектирование

Проектирование — это первый этап реализации витрины данных. Он охватывает все задачи от инициирования запроса на витрину данных до сбора информации о требованиях. Наконец, мы создаем логический и физический дизайн витрины данных.

Этап проектирования включает в себя следующие задачи:

  • Сбор бизнес- и технических требований и определение источников данных.
  • Выбор подходящего подмножества данных.
  • Проектирование логической и физической структуры витрины данных.

Данные можно разделить по следующим критериям:

  • Время
  • Бизнес или функциональное подразделение
  • География
  • Любая комбинация вышеперечисленного

Данные могут быть секционированы на уровне приложения или СУБД. Хотя рекомендуется секционировать на уровне приложения, поскольку это позволяет каждый год использовать разные модели данных с изменением бизнес-среды.

Какие продукты и технологии вам нужны?

Достаточно простой ручки и бумаги. Хотя инструменты, которые помогут вам создавать UML или ER диаграмма также добавит метаданные в ваши логические и физические проекты.

строительство

Это второй этап реализации. Он предполагает создание физическая база данных и логические структуры.

Этот шаг включает в себя следующие задачи:

  • Реализация физической базы данных, разработанной на предыдущем этапе. Например, создаются объекты схемы базы данных, такие как таблицы, индексы, представления и т. д.

Какие продукты и технологии вам нужны?

Тебе необходимо система управления реляционными базами данных построить витрину данных. СУРБД имеет несколько функций, необходимых для успеха витрины данных.

  • Управление хранилищем: СУБД хранит данные и управляет ими для создания, добавления и удаления данных.
  • Быстрый доступ к данным: С помощью SQL-запроса вы можете легко получить доступ к данным на основе определенных условий/фильтров.
  • Защита личных данных: Система СУРБД также предлагает способ восстановления после сбоев системы, таких как сбои питания. Это также позволяет восстанавливать данные из этих резервных копий в случае выхода из строя диска.
  • Многопользовательская поддержка: Система управления данными предлагает одновременный доступ, возможность для нескольких пользователей получать доступ и изменять данные, не вмешиваясь и не перезаписывая изменения, внесенные другим пользователем.
  • Безопасность: Система RDMS также предоставляет возможность регулировать доступ пользователей к объектам и определенным типам операций.

Заполнение

На третьем этапе данные заполняются в витрине данных.

Этап заполнения включает в себя следующие задачи:

  • Сопоставление исходных данных с целевыми данными
  • Извлечение исходных данных
  • Операции очистки и преобразования данных
  • Загрузка данных в витрину данных
  • Создание и хранение метаданных

Какие продукты и технологии вам нужны?

Вы выполняете эти задачи по заполнению с помощью Инструмент ETL (Извлечение нагрузки преобразования). Этот инструмент позволяет вам просматривать источники данных, выполнять сопоставление источника и цели, извлекать данные, преобразовывать, очищать их и загружать обратно в витрину данных.

В процессе инструмент также создает некоторые метаданные, относящиеся к таким вещам, как происхождение данных, их актуальность, тип изменений, внесенных в данные, и какой уровень обобщения был выполнен.

Доступ к

Доступ — это четвертый шаг, который включает в себя использование данных: запрос данных, создание отчетов, диаграмм и их публикацию. Конечный пользователь отправляет запросы в базу данных и отображает результаты запросов.

На этапе доступа необходимо выполнить следующие задачи:

  • Настройте метауровень, который преобразует структуры базы данных и имена объектов в бизнес-термины. Это помогает нетехническим пользователям легко получить доступ к витрине данных.
  • Настройка и поддержка структур базы данных.
  • Настройте API и интерфейсы, если необходимо.

Какие продукты и технологии вам нужны?

Вы можете получить доступ к витрине данных, используя командную строку или графический интерфейс. Предпочтителен графический интерфейс, поскольку он позволяет легко создавать графики и удобен для пользователя по сравнению с командной строкой.

Управление

Это последний шаг процесса внедрения витрины данных. Этот шаг охватывает такие задачи управления, как:

  • Постоянное управление доступом пользователей.
  • Оптимизация системы и тонкая настройка для достижения повышенной производительности.
  • Добавление и управление свежими данными в витрину данных.
  • Планирование сценариев восстановления и обеспечение доступности системы в случае сбоя системы.

Какие продукты и технологии вам нужны?

Вы можете использовать графический интерфейс или командную строку для управления витриной данных.

лучшие практики внедрения витрин данных

Ниже приведены рекомендации, которым необходимо следовать в процессе внедрения витрины данных:

  • Источник витрины данных должен иметь ведомственную структуру.
  • Цикл внедрения витрины данных должен измеряться короткими периодами времени, т. е. неделями, а не месяцами или годами.
  • Важно привлечь все заинтересованные стороны на этапе планирования и проектирования, поскольку реализация витрины данных может быть сложной.
  • Затраты на оборудование/программное обеспечение, сеть и внедрение витрины данных должны быть точно предусмотрены в вашем плане.
  • Даже если витрина данных создана на одном и том же оборудовании, для обработки запросов пользователей может потребоваться другое программное обеспечение. Дополнительные требования к вычислительной мощности и дисковому пространству должны быть оценены для быстрого реагирования пользователя.
  • Витрина данных может находиться в другом месте, чем хранилище данных. Вот почему важно убедиться, что у них достаточно сетевых мощностей для обработки объемов данных, необходимых для передачи данных в киоск данных..
  • Стоимость реализации должна учитывать время, необходимое для процесса загрузки Datamart. Время загрузки увеличивается с увеличением сложности преобразований.

Преимущества и недостатки витрины данных

Наши преимущества

  • Витрины данных содержат подмножество данных всей организации. Эти данные ценны для определенной группы людей в организации.
  • Это экономичная альтернатива информационное хранилище, строительство которого может потребовать больших затрат.
  • Data Mart обеспечивает более быстрый доступ к данным.
  • Data Mart прост в использовании, поскольку он специально разработан с учетом потребностей пользователей. Таким образом, витрина данных может ускорить бизнес-процессы.
  • Витрины данных требуют меньше времени на внедрение по сравнению с системами хранилищ данных. Внедрить киоск данных быстрее, поскольку вам нужно сконцентрировать только единственное подмножество данных.
  • Он содержит исторические данные, которые позволяют аналитику определять тенденции данных.

Недостатки бонуса без депозита

  • Зачастую предприятия создают слишком много разрозненных и несвязанных между собой витрин данных, не принося особой пользы. Это может стать большим препятствием для поддержания.
  • Data Mart не может обеспечить всю компанию анализ данных поскольку их набор данных ограничен.

Резюме

  • Определите витрину данных. Витрина данных определяется как подмножество хранилищ данных, ориентированное на одну функциональную область организации.
  • Data Mart помогает увеличить время отклика пользователя за счет сокращения объема данных.
  • Три типа витрин данных: 1) Зависимые 2) Независимые 3) Гибридные
  • Важными этапами реализации витрины данных являются 1) Проектирование 2) Создание 3 Заполнение 4) Доступ и 5) Управление
  • Цикл внедрения витрины данных должен измеряться короткими периодами времени, т. е. неделями, а не месяцами или годами.
  • Витрина данных — это экономически эффективная альтернатива хранилищу данных, создание которого может потребовать больших затрат.
  • Data Mart не может обеспечить анализ данных в масштабах всей компании, поскольку набор данных ограничен.