Хранилище данных Archiтектура, компоненты и диаграмма Concepts

Хранилище данных Concepts

Основная концепция хранилища данных заключается в предоставлении компании единой версии истины для принятия решений и прогнозирования. Хранилище данных — это информационная система, которая содержит исторические и коммутативные данные из одного или нескольких источников. Хранилище данных Concepts упростить процесс отчетности и анализа организаций.

Характеристики хранилища данных

Хранилище данных Concepts есть фоллоwing характеристики:

  • Предметно-ориентированный
  • Интегрированные
  • Временной вариант
  • Нелетучий

Предметно-ориентированный

Хранилище данных является предметно-ориентированным, поскольку оно предлагает информацию по теме, а не текущую информацию о компании. operaции. Этими предметами могут быть продажи, маркетинг, дистрибуция и т. д.

Хранилище данных никогда не фокусируется на текущих operaции. Вместо этого он сделал упор на моделирование и анализ данных для принятия решений. Он также обеспечивает простое и краткое представление о конкретном предмете, исключая данные, которые бесполезны для поддержки процесса принятия решения.

Интегрированные

В хранилище данных интеграция означает установление общей единицы измерения для всех схожих данных из разнородной базы данных. Данные также должны храниться в хранилище данных общепринятым и общеприемлемым способом.

Хранилище данных разрабатывается путем интеграции данных из различных источников, таких как мэйнфрейм, реляционные базы данных, плоские файлы и т. д. Более того, оно должно соблюдать согласованные соглашения об именах, формате и кодировании.

Эта интеграция помогает эффективно анализировать данные. Необходимо обеспечить единообразие в соглашениях об именах, мерах атрибутов, структуре кодирования и т. д. Рассмотрим следующееwing пример:

Характеристики хранилища данных

В приведенном выше примере есть три разных приложения, обозначенных A, B и C. В этих приложениях хранится информация: «Пол», «Дата» и «Баланс». Однако данные каждого приложения хранятся по-разному.

  • В приложении поле пола хранит логические значения, такие как M или F.
  • В Приложении Б поле пола представляет собой числовое значение,
  • В приложении C поле пола хранится в виде символьного значения.
  • То же самое и с датой и балансом.

Однако после процесса преобразования и очистки все эти данные сохраняются в общем формате в Хранилище данных.

Вариант времени

Временной горизонт для хранилища данных довольно обширен по сравнению с operaционные системы. Данные, собранные в хранилище данных, распознаются за определенный период и предоставляют информацию с исторической точки зрения. Он явно или неявно содержит элемент времени.

Одним из таких мест, где данные Datawarehouse отображают разницу во времени, является структура ключа записи. Каждый первичный ключ, содержащийся в DW, должен явно или неявно содержать элемент времени. Например, день недели, месяц и т. д.

Другой аспект временных отклонений заключается в том, что после добавления данных в хранилище их невозможно обновить или изменить.

Нелетучий

Хранилище данных также является энергонезависимым, что означает, что предыдущие данные не стираются при вводе в него новых данных.

Данные доступны только для чтения и периодически обновляются. Это также помогает проанализировать исторические данные и понять, что и когда произошло. Он не требует процесса транзакций, механизмов восстановления и управления параллелизмом.

Такие действия, как удаление, обновление и вставка, которые выполняются в operaсреда приложения опущены в среде хранилища данных. Только два типа данных operaоперации, выполняемые в хранилище данных,

  1. Загрузка данных
  2. Доступ к данным

Вот некоторые основные различия между приложением и хранилищем данных.

Operaциональное применение Хранилище данных
сplex программа должна быть закодирована так, чтобы гарантировать, что данные upgrade процессы поддерживают высокую целостность конечного продукта. Такого рода проблем не возникает, поскольку обновление данных не выполняется.
Данные размещаются в нормализованной форме, чтобы обеспечить минимальную избыточность. Данные не сохраняются в нормализованной форме.
Технология, необходимая для поддержки проблем транзакций, восстановления данных, отката и разрешения по мере необходимости.adlock это вполне удобноplex. Он предлагает относительную простоту технологии.

Хранилище данных Archiтекстура

Хранилище данных Archiтекстура комplex поскольку это информационная система, содержащая исторические и коммутативные данные из нескольких источников. Существует три подхода к построению слоев хранилища данных: одноуровневый, двухуровневый и трехуровневый. Это 3 уровень archiСтруктура хранилища данных объясняется ниже.

Одноуровневый archiтекстура

Целью одного уровня является минимизация объема хранимых данных. Эта цель — устранить избыточность данных. Этот archiНа практике эта технология применяется нечасто.

Двухуровневый archiтекстура

Двухслойное architecture — это один из слоев хранилища данных, который разделяет физически доступные источники и хранилище данных. Этот archiтектура не расширяема, а также не поддерживает большое количество конечных пользователей. У него также есть проблемы с подключением из-за сетевых ограничений.

Трехуровневое хранилище данных Archiтекстура

Это наиболее широко используемый Archiструктура хранилища данных.

Он состоит из верхнего, среднего и нижнего уровней.

  1. Нижний уровень: База данных серверов Datawarehouse как нижний уровень. Обычно это система реляционных баз данных. Данные очищаются, преобразуются и загружаются на этот уровень с помощью серверных инструментов.
  2. Средний уровень: Средний уровень хранилища данных — это сервер OLAP, реализованный с использованием модели ROLAP или MOLAP. Для пользователя этот уровень приложений представляет собой абстрактное представление базы данных. Этот уровень также действует как посредник между конечным пользователем и базой данных.
  3. Высококласный: Верхний уровень — это уровень внешнего клиента. Верхний уровень — это инструменты и API, которые вы подключаете и получаете данные из хранилища данных. Это могут быть инструменты запросов, инструменты отчетности, инструменты управляемых запросов, инструменты анализа и инструменты интеллектуального анализа данных.

Компоненты хранилища данных

Мы узнаем о компонентах хранилища данных и ArchiСтруктура хранилища данных с диаграммой, как показано ниже:

Хранилище данных Archiтекстура
Хранилище данных Archiтекстура

Хранилище данных основано на сервере РСУБД, который представляет собой центральное хранилище информации, окруженное некоторыми ключевыми компонентами хранилища данных, которые делают всю среду функциональной, управляемой и доступной.

В основном существует пять компонентов хранилища данных:

База данных хранилища данных

Центральная база данных – это foundation среды хранилища данных. Эта база данных реализована на RDBMS технологии. Однако такая реализация ограничена тем фактом, что традиционная система РСУБД оптимизирована для обработки транзакционных баз данных, а не для хранения данных. Например, специальные запросы, соединения нескольких таблиц, агрегаты требуют больших ресурсов и снижают производительность.

Следовательно, используются альтернативные подходы к базе данных, перечисленные ниже:

  • В хранилище данных реляционные базы данных развертываются.yed параллельно, чтобы обеспечить масштабируемость. Параллельные реляционные базы данных также допускают использование модели с общей памятью или без совместного использования в различных многопроцессорных конфигурациях или процессорах с массовым параллелизмом.
  • Новые структуры индексов используются для обхода сканирования реляционных таблиц и повышения скорости.
  • Использование многомерных баз данных (MDDB) для преодоления любых ограничений, налагаемых реляционными моделями хранилищ данных. Пример: Essbase из Oracle.

Инструменты поиска, приобретения, очистки и преобразования (ETL)

Инструменты поиска, преобразования и миграции данных используются для выполнения всех преобразований.mariизменений и всех изменений, необходимых для преобразования данных в единый формат в хранилище данных. Их также называют инструментами извлечения, преобразования и загрузки (ETL).

В их функционал входит:

  • Анонимизация данных в соответствии с нормативными положениями.
  • Удаление ненужных данных в operaционные базы данных от загрузки в Хранилище данных.
  • Поиск и замена общих имен и определений для данных, поступающих из разных источников.
  • Расчет суммыmaries и производные данные
  • В случае отсутствия данных заполните их значениями по умолчанию.
  • Дедуплицированные повторяющиеся данные, поступающие из нескольких источников данных.

Эти инструменты извлечения, преобразования и загрузки могут создавать задания cron, фоновые задания, Кобольские программы, сценарии оболочки и т. д., которые регулярно обновляют данные в хранилище данных. Эти инструменты также полезны для поддержания метаданных.

Эти Инструменты ETL приходится иметь дело с проблемами неоднородности баз данных и данных.

Метаданные

Название «Метаданные» предполагает некоторое технологическое хранилище данных высокого уровня. Concepts. Однако это довольно просто. Метаданные — это данные о данных, которые определяют хранилище данных. Он используется для создания, обслуживания и управления хранилищем данных.

В хранилище данных ArchiВ то же время метаданные играют важную роль, поскольку они определяют источник, использование, значения и характеристики данных хранилища данных. Он также определяет, как данные могут быть изменены и обработаны. Он тесно связан с хранилищем данных.

Например, строка в базе данных продаж может содержать:

4030 KJ732 299.90

Это бессмысленные данные, пока мы не обратимся к Мета, которые говорят нам, что это было так.

  • Номер модели: 4030
  • ID агента по продажам: KJ732
  • Общая сумма продаж $ 299.90

Таким образом, метаданные являются важными компонентами преобразования данных в знания.

Метаданные помогают ответить на следующие вопросыwing вопросов

  • Какие таблицы, атрибуты и ключи содержит хранилище данных?
  • Откуда взялись данные?
  • Сколько раз данные перезагружаются?
  • Какие преобразования были применены при очищении?

Метаданные можно разделить на следующиеwing Категории:

  1. Технические метаданные: метаданные этого типа содержат информацию о хранилище, которая используется проектировщиками и администраторами хранилища данных.
  2. Бизнес-метаданные: Метаданные этого типа содержат детали, которые позволяют конечным пользователям легко понять информацию, хранящуюся в хранилище данных.

Инструменты запросов

Одной из основных задач хранилищ данных является предоставление предприятиям информации для принятия стратегических решений. Инструменты запросов позволяют пользователям взаимодействовать с системой хранилища данных.

Эти инструменты делятся на четыре категории:

  1. Инструменты запросов и отчетов
  2. Инструменты разработки приложений
  3. Инструменты интеллектуального анализа данных
  4. OLAP-инструменты

1. Инструменты запросов и отчетов

Инструменты запросов и отчетов можно разделить на

  • Инструменты отчетности
  • Инструменты управляемых запросов

Инструменты отчетности:

Инструменты отчетности можно разделить на инструменты производственной отчетности и средство создания настольных отчетов.

  1. Составители отчетов: этот вид инструментов отчетности представляет собой инструменты, предназначенные для анализа конечными пользователями.
  2. Производственная отчетность: этот вид инструментов позволяет организациям генерировать регулярные operaционные отчеты. Он также поддерживает большие объемы пакетных заданий, таких как печать и вычисления. Некоторые популярные инструменты отчетности: Brio, Business Objects, Oracle, PowerSoft, Институт SAS.

Инструменты управляемых запросов:

Этот вид инструментов доступа помогает конечным пользователям устранять препятствия в базе данных, SQL и структуре базы данных путем вставки метаслоя между пользователями и базой данных.

2. Инструменты разработки приложений

Иногда встроенные графические и аналитические инструменты не удовлетворяют аналитические потребности организации. В таких случаях пользовательские отчеты разрабатываются с использованием инструментов разработки приложений.

3. Инструменты интеллектуального анализа данных

Интеллектуальный анализ данных — это процесс обнаружения значимых новых корреляций, закономерностей и тенденций путем анализа больших объемов данных. Инструменты интеллектуального анализа данных используются для автоматизации этого процесса.

4. Инструменты OLAP

Эти инструменты основаны на concepts многомерной базы данных. Это позволяет пользователям анализировать данные, используя сложные и удобные методы.plex многомерные представления.

Хранилище данных Автобус Archiтекстура

Шина хранилища данных определяет поток данных в вашем хранилище. Поток данных в хранилище данных можно разделить на приток, восходящий поток, нисходящий поток, исходящий поток и метапоток.

При проектировании шины данных необходимо учитывать общие измерения и факты в витринах данных.

Витрины данных

A витрина данных — это уровень доступа, который используется для передачи данных пользователям. Он представлен как вариант хранилища данных большого размера, поскольку его создание требует меньше времени и денег. Однако стандартного определения витрины данных не существует, оно варьируется от человека к человеку.

Проще говоря, витрина данных — это дочернее предприятие хранилища данных. Витрина данных используется для разделения данных, созданных для определенной группы пользователей.

Витрины данных могут быть созданы в той же базе данных, что и хранилище данных, или в физически отдельной базе данных.

Хранилище данных ArchiЛучшие практики

Спроектировать хранилище данных Archiтектуры, вам необходимо следовать приведенным ниже рекомендациям:

  • Используйте модели хранилищ данных, оптимизированные для поиска информации, что может быть многомерным, денормализованным или гибридным подходом.
  • Выберите подходящий подход к проектированию: «сверху вниз» и «снизу вверх» в хранилище данных.
  • Необходимо гарантировать, что Данные обрабатываются быстро и точно. В то же время вам следует использовать подход, который объединяет данные в единую правдивую версию.
  • Тщательно спланируйте процесс сбора и очистки данных для хранилища данных.
  • Проектирование метаданных archiтехнология, которая позволяет обмениваться метаданными между компонентами хранилища данных.
  • Рассмотрите возможность реализации модели ODS, когда потребность в поиске информации находится в нижней части пирамиды абстракции данных или когда имеется несколько operaдополнительные источники, к которым требуется доступ.
  • Следует убедиться, что модель данных интегрирована, а не просто консолидирована. В этом случае вам следует рассмотреть модель данных 3NF. Он также идеально подходит для приобретения инструментов ETL и очистки данных.

Итого

  • Хранилище данных — это информационная система, которая содержит исторические и коммутативные данные из одного или нескольких источников. Этими источниками могут быть традиционное хранилище данных, облачное хранилище данных или виртуальное хранилище данных.
  • Хранилище данных является предметно-ориентированным, поскольку оно предлагает информацию о предмете, а не о текущей деятельности организации. operaЦИИ.
  • В хранилище данных интеграция означает установление общей единицы измерения для всех аналогичных данных из разных баз данных.
  • Хранилище данных также является энергонезависимым, что означает, что предыдущие данные не стираются при вводе в него новых данных.
  • Хранилище данных зависит от времени, поскольку данные в хранилище данных имеют длительный срок хранения.
  • В основном существует 5 компонентов хранилища данных. Archiтектура: 1) База данных 2) Инструменты ETL 3) Метаданные 4) Инструменты запросов 5) Витрины данных
  • Это четыре основные категории инструментов запросов: 1. Инструменты запросов и отчетов. 2. Инструменты разработки приложений. 3. Инструменты интеллектуального анализа данных. 4. Инструменты OLAP.
  • Инструменты поиска, преобразования и миграции данных используются для выполнения всех преобразований и суммирования.mariации.
  • В хранилище данных ArchiВ то же время метаданные играют важную роль, поскольку они определяют источник, использование, значения и характеристики данных хранилища данных.