Что такое хранилище данных? Типы, определение и пример

Что такое хранилище данных?

A Хранилище данных (DW) — это процесс сбора и управления данными из различных источников для получения значимой бизнес-информации. Хранилище данных обычно используется для соединения и анализа бизнес-данных из разнородных источников. Хранилище данных — это ядро ​​системы BI, созданное для анализа данных и составления отчетов.

Это сочетание технологий и компонентов, которое помогает стратегическому использованию данных. Это электронное хранение большого объема информации в компании, предназначенное для запросов и анализа, а не для обработки транзакций. Это процесс преобразования данных в информацию и своевременного предоставления ее пользователям, чтобы изменить ситуацию.

База данных поддержки принятия решений (Хранилище данных) ведется отдельно от оперативной базы данных организации. Однако хранилище данных — это не продукт, а среда. Это архитектурная конструкция информационной системы, которая предоставляет пользователям текущую и историческую информацию для поддержки принятия решений, к которой трудно получить доступ или представить ее в традиционном хранилище операционных данных.

Многие знают, что в базе данных, разработанной 3NF для системы инвентаризации, есть множество таблиц, связанных друг с другом. Например, отчет о текущей инвентарной информации может включать более 12 объединенных условий. Это может быстро замедлить время ответа запроса и отчета. Хранилище данных имеет новый дизайн, который может помочь сократить время ответа и повысить производительность запросов к отчетам и аналитике.

Система хранилища данных также известна под следующим названием:

  • Система поддержки принятия решений (СППР)
  • Исполнительная информационная система
  • Информационная система управления
  • Решение для бизнес-аналитики
  • Аналитическое приложение
  • Хранилище данных

Хранилище данных

История хранилища данных

Datawarehouse помогает пользователям понять и улучшить производительность своей организации. Потребность в хранении данных возникла по мере того, как компьютерные системы становились более сложными и требовали обработки растущих объемов информации. Однако хранилище данных — вещь не новая.

Вот некоторые ключевые события в эволюции хранилищ данных:

  • 1960 – Дартмут и Дженерал Миллс в совместном исследовательском проекте разрабатывают аспекты и факты терминов.
  • 1970 – Nielsen и IRI представляют витрины многомерных данных для розничных продаж.
  • 1983 – Tera Data Corporation представляет систему управления базами данных, специально разработанную для поддержки принятия решений.
  • Хранилища данных появились в конце 1980-х годов, когда IBM работник Пол Мерфи и Барри Девлин разработали хранилище бизнес-данных.
  • Однако настоящую концепцию дал Инмон. Bill. Его считали отцом хранилища данных. Он писал о различных темах, касающихся строительства, использования и обслуживания склада и Фабрики корпоративной информации.

Как работает хранилище данных?

Хранилище данных работает как центральное хранилище, куда информация поступает из одного или нескольких источников данных. Данные поступают в хранилище данных из транзакционной системы и других реляционных баз данных.

Данные могут быть:

  1. Структурированный
  2. Полуструктурированный
  3. Неструктурированные данные

Данные обрабатываются, преобразуются и принимаются, чтобы пользователи могли получить доступ к обработанным данным в хранилище данных с помощью инструментов бизнес-аналитики, клиентов SQL и электронных таблиц. Хранилище данных объединяет информацию, поступающую из разных источников, в одну комплексную базу данных.

Объединив всю эту информацию в одном месте, организация может более целостно анализировать своих клиентов. Это помогает гарантировать, что была учтена вся имеющаяся информация. Хранилища данных делают возможным интеллектуальный анализ данных. Интеллектуальный анализ данных ищет закономерности в данных, которые могут привести к увеличению продаж и прибыли.

Типы хранилищ данных

Три основных типа хранилищ данных (DWH):

1. Хранилище корпоративных данных (EDW):

Хранилище корпоративных данных (EDW) — это централизованное хранилище. Он предоставляет услуги поддержки принятия решений по всему предприятию. Он предлагает унифицированный подход к организации и представлению данных. Он также предоставляет возможность классифицировать данные по предметам и предоставлять доступ в соответствии с этими подразделениями.

2. OperaНациональное хранилище данных:

OperaНациональное хранилище данных, которое также называется ODS, представляет собой не что иное, как хранилище данных, необходимое, когда ни хранилище данных, ни OLTP-системы не поддерживают потребности организаций в отчетности. В ODS хранилище данных обновляется в режиме реального времени. Следовательно, он широко предпочтителен для рутинных действий, таких как хранение записей сотрудников.

3. Витрина данных:

A витрина данных является подмножеством хранилища данных. Он специально разработан для определенного направления бизнеса, такого как продажи, финансы, продажи или финансы. В независимой витрине данных данные могут собираться непосредственно из источников.

Общие этапы создания хранилища данных

Ранее организации начали относительно просто использовать хранилища данных. Однако со временем началось более сложное использование хранилищ данных.

Ниже приведены общие этапы использования хранилища данных (DWH):

оффлайн OperaНациональная база данных:

На этом этапе данные просто копируются из операционной системы на другой сервер. Таким образом, загрузка, обработка и отчет о скопированных данных не влияют на производительность операционной системы.

Автономное хранилище данных:

Данные в хранилище данных регулярно обновляются OperaНациональная база данных. Данные в Datawarehouse сопоставляются и преобразуются для достижения целей Datawarehouse.

Хранилище данных в реальном времени:

На этом этапе хранилища данных обновляются всякий раз, когда в оперативной базе данных происходит какая-либо транзакция. Например, система бронирования авиакомпаний или ж/д.

Интегрированное хранилище данных:

На этом этапе хранилища данных постоянно обновляются, когда операционная система выполняет транзакцию. Затем хранилище данных генерирует транзакции, которые передаются обратно в операционную систему.

Компоненты хранилища данных

Четыре компонента хранилищ данных:

Менеджер загрузки: Диспетчер нагрузки также называется передним компонентом. Он выполняет все операции, связанные с извлечением и загрузкой данных в хранилище. Эти операции включают в себя преобразования для подготовки данных к вводу в Хранилище данных.

Заведующий складом: Менеджер склада выполняет операции, связанные с управлением данными на складе. Он выполняет такие операции, как анализ данных для обеспечения согласованности, создание индексов и представлений, генерацию денормализации и агрегирования, преобразование и объединение исходных данных, а также архивирование и сохранение данных.

Менеджер запросов: Менеджер запросов также известен как серверный компонент. Он выполняет все рабочие операции, связанные с управлением запросами пользователей. Операции этих компонентов хранилища данных представляют собой прямые запросы к соответствующим таблицам для планирования выполнения запросов.

Инструменты доступа для конечных пользователей:

Это подразделяется на пять различных групп, таких как 1. Отчеты о данных 2. Инструменты запросов 3. Инструменты разработки приложений 4. Инструменты EIS, 5. Инструменты OLAP и инструменты интеллектуального анализа данных.

Кому нужно хранилище данных?

DWH (хранилище данных) необходимо для всех типов пользователей, таких как:

  • Лица, принимающие решения, которые полагаются на большие объемы данных
  • Пользователи, которые используют настраиваемые сложные процессы для получения информации из нескольких источников данных.
  • Он также используется людьми, которым нужна простая технология доступа к данным.
  • Это также важно для тех людей, которые хотят системного подхода к принятию решений.
  • Если пользователю нужна быстрая производительность при работе с огромными объемами данных, что необходимо для отчетов, таблиц или диаграмм, то хранилище данных окажется полезным.
  • Хранилище данных — это первый шаг, если вы хотите обнаружить «скрытые закономерности» потоков и группировок данных.

Для чего используется хранилище данных?

Вот наиболее распространенные отрасли, в которых используется хранилище данных:

Авиакомпания:

В системе авиакомпании он используется для операционных целей, таких как назначение экипажа, анализ рентабельности маршрутов, продвижение программ для часто летающих пассажиров и т. д.

Банковское дело:

Он широко используется в банковском секторе для эффективного управления ресурсами, имеющимися на счетах. Лишь немногие банки также использовали его для исследования рынка, анализа эффективности продукта и операций.

Здравоохранение:

Сектор здравоохранения также использовал хранилище данных для разработки стратегии и прогнозирования результатов, создания отчетов о лечении пациентов, обмена данными со связанными страховыми компаниями, службами медицинской помощи и т. д.

Государственный сектор:

В государственном секторе хранилища данных используются для сбора разведывательной информации. Это помогает государственным учреждениям вести и анализировать налоговую отчетность и отчеты о политике здравоохранения для каждого человека.

Инвестиционно-страховой сектор:

В этом секторе склады в основном используются для анализа закономерностей данных, тенденций клиентов и отслеживания движений рынка.

Удержать цепь:

В розничных сетях Хранилище данных широко используется для распространения и маркетинга. Это также помогает отслеживать товары, структуру покупок клиентов, рекламные акции, а также используется для определения ценовой политики.

Телекоммуникации:

Хранилище данных используется в этом секторе для продвижения продукции, принятия решений о продажах и распределения.

Индустрия гостеприимства:

Эта отрасль использует складские услуги для разработки, а также оценки своих рекламных и рекламных кампаний, в которых они хотят ориентироваться на клиентов на основе их отзывов и моделей поездок.

Шаги по внедрению хранилища данных

Лучший способ справиться с бизнес-рисками, связанными с внедрением хранилища данных, — использовать трехстороннюю стратегию, как показано ниже.

  1. Стратегия предприятия: Здесь мы определяем технические аспекты, включая текущую архитектуру и инструменты. Мы также определяем факты, измерения и атрибуты. Также выполняется сопоставление и преобразование данных.
  2. Поэтапная доставка: Внедрение хранилища данных должно осуществляться поэтапно в зависимости от предметных областей. Связанные бизнес-объекты, такие как бронирование и выставление счетов, должны быть сначала реализованы, а затем интегрированы друг с другом.
  3. Итеративное прототипирование: Вместо подхода «большого взрыва» к реализации хранилище данных следует разрабатывать и тестировать итеративно.

Здесь представлены ключевые этапы внедрения хранилища данных и его результаты.

Шаг Задач Результат
1 Необходимо определить масштаб проекта Определение объема
2 Необходимо определить потребности бизнеса Логическая модель данных
3 определять Operaтребования к хранилищу данных OperaМодель хранилища данных
4 Приобретите или разработайте инструменты извлечения Инструменты и программное обеспечение для извлечения
5 Определить требования к данным хранилища данных Модель данных перехода
6 Документирование недостающих данных Список проектов, которые нужно сделать
7 Карты Operaиз хранилища данных в хранилище данных Карта интеграции данных D/W
8 Разработка дизайна базы данных хранилища данных Проектирование базы данных D/W
9 Извлечь данные из OperaНациональное хранилище данных Интегрированные извлечения данных D/W
10 Загрузить хранилище данных Начальная загрузка данных
11 Поддерживать хранилище данных Непрерывный доступ к данным и последующая загрузка

лучшие практики по внедрению хранилища данных

  • Придумайте план проверки согласованности, точности и целостности данных.
  • Хранилище данных должно быть хорошо интегрированным, четко определенным и иметь отметку времени.
  • При разработке хранилища данных убедитесь, что вы используете правильный инструмент, придерживаетесь жизненного цикла, заботитесь о конфликтах данных и готовы учиться на своих ошибках.
  • Никогда не заменяйте операционные системы и отчеты.
  • Не тратьте слишком много времени на извлечение, очистку и загрузку данных.
  • Обеспечьте вовлечение всех заинтересованных сторон, включая бизнес-персонал, в процесс внедрения хранилища данных. Установите, что хранилище данных является совместным/командным проектом. Вы не хотите создавать хранилище данных, которое бесполезно для конечных пользователей.
  • Подготовьте план обучения для конечных пользователей.

Зачем нам нужно хранилище данных? Преимущества недостатки

Преимущества хранилища данных (DWH):

  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.
  • Хранилище данных предоставляет согласованную информацию о различных межфункциональных действиях. Он также поддерживает специальные отчеты и запросы.
  • Хранилище данных помогает интегрировать множество источников данных, чтобы снизить нагрузку на производственную систему.
  • Хранилище данных помогает сократить общее время выполнения анализа и составления отчетов.
  • Реструктуризация и интеграция упрощают использование пользователем отчетов и анализа.
  • Хранилище данных позволяет пользователям получать доступ к критически важным данным из нескольких источников в одном месте. Таким образом, это экономит время пользователя на получение данных из нескольких источников.
  • Хранилище данных хранит большой объем исторических данных. Это помогает пользователям анализировать различные периоды времени и тенденции, чтобы делать прогнозы на будущее.

Недостатки хранилища данных:

  • Не идеальный вариант для неструктурированных данных.
  • Создание и внедрение хранилища данных, безусловно, занимает много времени.
  • Хранилище данных может устареть относительно быстро
  • Сложно вносить изменения в типы и диапазоны данных, схему источника данных, индексы и запросы.
  • Хранилище данных может показаться простым, но на самом деле оно слишком сложно для среднестатистического пользователя.
  • Несмотря на все усилия по управлению проектами, масштабы проектов по хранению данных всегда будут увеличиваться.
  • Иногда пользователи склада будут разрабатывать другие бизнес-правила.
  • Организациям необходимо тратить много своих ресурсов на обучение и внедрение.

Будущее хранилищ данных

  • изменение Нормативные ограничения может ограничить возможность объединения источников разрозненных данных. Эти разрозненные источники могут включать неструктурированные данные, которые трудно хранить.
  • Как размер баз данных растет, оценки того, что представляет собой очень большую базу данных, продолжают расти. Сложно создавать и запускать системы хранилищ данных, размер которых постоянно увеличивается. Имеющиеся сегодня аппаратные и программные ресурсы не позволяют хранить большие объемы данных в режиме онлайн.
  • Мультимедийные данные с текстовыми данными нелегко манипулировать, тогда как текстовую информацию можно получить с помощью доступного сегодня реляционного программного обеспечения. Это могло бы стать предметом исследования.

Инструменты хранилища данных

На рынке доступно множество инструментов хранения данных. Вот некоторые наиболее известные из них:

1. МаркЛогик:

MarkLogic — это полезное решение для хранения данных, которое упрощает и ускоряет интеграцию данных с помощью множества корпоративных функций. Этот инструмент помогает выполнять очень сложные поисковые операции. Он может запрашивать различные типы данных, такие как документы, отношения и метаданные.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle это ведущая в отрасли база данных. Он предлагает широкий выбор решений для хранения данных как локально, так и в облаке. Это помогает оптимизировать качество обслуживания клиентов за счет повышения операционной эффективности.

https://www.oracle.com/index.html

3. Amazon RedShift:

Amazon Redshift — инструмент хранилища данных. Это простой и экономичный инструмент для анализа всех типов данных с использованием стандартных SQL и существующие инструменты BI. Он также позволяет выполнять сложные запросы к петабайтам структурированных данных, используя технику оптимизации запросов.

https://aws.amazon.com/redshift/?nc2=h_m1

Вот полный список полезных Инструменты хранилища данных.

КЛЮЧ ОБУЧЕНИЯ

  • Хранилище данных (DWH) также известно как хранилище данных предприятия (EDW).
  • Хранилище данных определяется как центральное хранилище, куда информация поступает из одного или нескольких источников данных.
  • Три основных типа хранилищ данных: корпоративное хранилище данных (EDW), Operaциональное хранилище данных и витрина данных.
  • Общее состояние хранилища данных: офлайн. OperaНациональная база данных, автономное хранилище данных, хранилище данных в реальном времени и интегрированное хранилище данных.
  • Четыре основных компонента Datawarehouse: диспетчер загрузки, диспетчер хранилища, диспетчер запросов и инструменты доступа для конечных пользователей.
  • Datawarehouse используется в различных отраслях, таких как авиаперевозки, банковское дело, здравоохранение, страхование, розничная торговля и т. д.
  • Внедрение Datawarehosue представляет собой трехкомпонентную стратегию, а именно: корпоративную стратегию, поэтапную поставку и итеративное прототипирование.
  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.