Что такое хранилище данных? Типы, определение и пример

Что такое хранилище данных?

A Хранилище данных (DW) — это процесс сбора и управления данными из различных источников для получения значимой бизнес-информации. Хранилище данных обычно используется для соединения и анализа бизнес-данных из разнородных источников.neoнаши источники. Хранилище данных — это ядро ​​системы BI, созданное для анализа данных и составления отчетов.

Это сочетание технологий и компонентов, которое помогает стратегическому использованию данных. Это электроtronic хранение большого объема информации в бизнесе, предназначенное для запросов и анализа, а не обработки транзакций. Это процесс преобразования данных в информацию и своевременного предоставления ее пользователям, чтобы изменить ситуацию.

База данных поддержки принятия решений (Хранилище данных) хранится отдельно от базы данных организации. operaциональная база данных. Однако хранилище данных — это не продукт, а среда. Это archiструктурная конструкция информационной системы, которая предоставляет пользователям текущую и историческую информацию для поддержки принятия решений, к которой трудно получить доступ или которую трудно представить в традиционных системах. operaциональное хранилище данных.

Многие знают, что в базе данных, разработанной 3NF для системы инвентаризации, есть множество таблиц, связанных друг с другом. Например, отчет о текущей инвентарной информации может включать более 12 объединенных условий. Это может быстро замедлить время ответа запроса и отчета. Хранилище данных имеет новый дизайн, который может помочь сократить время ответа и повысить производительность запросов к отчетам и аналитике.

Система хранилища данных также известна подwing Название:

  • Система поддержки принятия решений (СППР)
  • Исполнительная информационная система
  • Информационная система управления
  • Решение для бизнес-аналитики
  • Аналитическое приложение
  • Хранилище данных

Хранилище данных

История хранилища данных

Datawarehouse помогает пользователям понять и улучшить производительность своей организации. Потребность в хранении данных возникла по мере того, как компьютерные системы становились все более распространенными.plex и необходим для обработки растущих объемов информации. Однако хранилище данных — вещь не новая.

Вот некоторые ключевые события в эволюции хранилищ данных:

  • 1960 – Дартмут и Дженерал Миллс в совместном исследовательском проекте разрабатывают аспекты и факты терминов.
  • 1970 – Nielsen и IRI представляют витрины многомерных данных для розничных продаж.
  • 1983 – Tera Data Corporation представляет систему управления базами данных, специально разработанную для поддержки принятия решений.
  • Хранилища данных появились в конце 1980-х годов, когда IBM работник Пол Мерфи и Барри Девлин разработали хранилище бизнес-данных.
  • Однако настоящую концепцию дал Инмон. Bill. Его считали отцом хранилища данных. Он писал о различных темах, касающихся строительства, использования и обслуживания склада и Фабрики корпоративной информации.

Как работает хранилище данных?

Хранилище данных работает как центральное хранилище, куда информация поступает из одного или нескольких источников данных. Данные поступают в хранилище данных из транзакционной системы и других реляционных баз данных.

Данные могут быть:

  1. Структурированный
  2. Полуструктурированный
  3. Неструктурированные данные

Данные обрабатываются, преобразуются и принимаются, чтобы пользователи могли получить доступ к обработанным данным в хранилище данных с помощью инструментов бизнес-аналитики, клиентов SQL и электронных таблиц. Хранилище данных объединяет информацию, поступающую из разных источников, в одну комплексную базу данных.

Объединив всю эту информацию в одном месте, организация может более целостно анализировать своих клиентов. Это помогает гарантировать, что была учтена вся имеющаяся информация. Хранилища данных делают возможным интеллектуальный анализ данных. Интеллектуальный анализ данных ищет закономерности в данных, которые могут привести к увеличению продаж и прибыли.

Типы хранилищ данных

Три основных типа хранилищ данных (DWH):

1. Хранилище корпоративных данных (EDW):

Хранилище корпоративных данных (EDW) — это централизованное хранилище. Он предоставляет услуги поддержки принятия решений по всему предприятию. Он предлагает унифицированный подход к организации и представлению данных. Он также предоставляет возможность классифицировать данные по предметам и предоставлять доступ в соответствии с этими подразделениями.

2. OperaНациональное хранилище данных:

OperaНациональное хранилище данных, которое также называется ODS, представляет собой не что иное, как хранилище данных, необходимое, когда ни хранилище данных, ни OLTP-системы не поддерживают потребности организаций в отчетности. В ODS хранилище данных обновляется в режиме реального времени. Следовательно, он широко предпочтителен для рутинных действий, таких как хранение записей сотрудников.

3. Витрина данных:

A витрина данных является подмножеством хранилища данных. Он специально разработан для определенного направления бизнеса, такого как продажи, финансы, продажи или финансы. В независимой витрине данных данные могут собираться непосредственно из источников.

Общие этапы создания хранилища данных

Ранее организации начали относительно просто использовать хранилища данных. Однако со временем началось более сложное использование хранилищ данных.

Следующееwing общие этапы использования хранилища данных (СХД):

Не в сети OperaНациональная база данных:

На этом этапе данные просто копируются из operaциональную систему на другой сервер. Таким образом, загрузка, обработка и отчет о скопированных данных не влияют на operaпроизводительность национальной системы.

Автономное хранилище данных:

Данные в хранилище данных регулярно обновляются OperaНациональная база данных. Данные в Datawarehouse сопоставляются и преобразуются для достижения целей Datawarehouse.

Хранилище данных в реальном времени:

На этом этапе хранилища данных обновляются всякий раз, когда происходит какая-либо транзакция. operaциональная база данных. Например, система бронирования авиакомпаний или ж/д.

Интегрированное хранилище данных:

На этом этапе хранилища данных постоянно обновляются, когда operaНациональная система выполняет транзакцию. Затем хранилище данных генерирует транзакции, которые передаются обратно в operaциональная система.

Компоненты хранилища данных

Четыре компонента хранилищ данных:

Менеджер загрузки: Диспетчер нагрузки также называется передним компонентом. Он работает со всеми operaоперации, связанные с извлечением и загрузкой данных в хранилище. Эти operaВ их число входят преобразования для подготовки данных к вводу в Хранилище данных.

Заведующий складом: Заведующий складом выполняет operaоперации, связанные с управлением данными в хранилище. Он выполняет operaтакие функции, как анализ данных для обеспечения согласованности, создание индексов и представлений, генерация денормализации и агрегирования, преобразование и объединение исходных данных и archiсбор и сохранение данных.

Менеджер запросов: Менеджер запросов также известен как серверный компонент. Он выполняет все operaпроизводство operaфункции, связанные с управлением запросами пользователей. operaФункции этого компонента хранилища данных — это прямые запросы к соответствующим таблицам для планирования выполнения запросов.

Инструменты доступа для конечных пользователей:

Это подразделяется на пять различных групп, таких как 1. Отчеты о данных 2. Инструменты запросов 3. Инструменты разработки приложений 4. Инструменты EIS, 5. Инструменты OLAP и инструменты интеллектуального анализа данных.

Кому нужно хранилище данных?

DWH (хранилище данных) необходимо для всех типов пользователей, таких как:

  • Лица, принимающие решения, которые полагаются на большие объемы данных
  • Пользователи, использующие индивидуальные, complex процессы получения информации из нескольких источников данных.
  • Он также используется людьми, которым нужна простая технология доступа к данным.
  • Это также важно для тех людей, которые хотят системного подхода к принятию решений.
  • Если пользователю нужна быстрая производительность при работе с огромными объемами данных, что необходимо для отчетов, таблиц или диаграмм, то хранилище данных окажется полезным.
  • Хранилище данных — это первый шаг, если вы хотите обнаружить «скрытые закономерности» потоков и группировок данных.

Для чего используется хранилище данных?

Вот наиболее распространенные отрасли, в которых используется хранилище данных:

Авиакомпания:

В системе авиакомпании он используется для operaцели, такие как назначение экипажа, анализ рентабельности маршрута, программа для часто летающих пассажиров. promoции и т. д.

Банковское дело:

Он широко используется в банковском секторе для эффективного управления ресурсами, имеющимися на счетах. Лишь немногие банки также использовали его для исследования рынка, анализа эффективности продукта и operaЦИИ.

Здравоохранение:

Сектор здравоохранения также использовал хранилище данных для разработки стратегии и прогнозирования результатов, создания отчетов о лечении пациентов, обмена данными со связанными страховыми компаниями, службами медицинской помощи и т. д.

Государственный сектор:

В государственном секторе хранилища данных используются для сбора разведывательной информации. Это помогает государственным учреждениям вести и анализировать налоговую отчетность и отчеты о политике здравоохранения для каждого человека.

Инвестиционно-страховой сектор:

В этом секторе склады являются привилегированными.mariОбычно используется для анализа закономерностей данных, тенденций среди клиентов и отслеживания движений рынка.

Удержать цепь:

В розничных сетях Хранилище данных широко используется для распространения и маркетинга. Это также помогает отслеживать товары, структуру покупок клиентов, promoа также используются для определения ценовой политики.

Телекоммуникации:

Хранилище данных используется в этом секторе для хранения продуктов. promoрешений о продажах и принятии решений о сбыте.

Индустрия гостеприимства:

Эта отрасль использует складские услуги для проектирования, а также оценки своей рекламы и promoкампании, в которых они хотят ориентироваться на клиентов на основе их отзывов и моделей путешествий.

Шаги по внедрению хранилища данных

Лучший способ справиться с бизнес-рисками, связанными с внедрением хранилища данных, — использовать трехстороннюю стратегию, как показано ниже.

  1. Стратегия предприятия: Здесь мы определяем технические, в том числе текущие archiтектура и инструменты. Мы также определяем факты, измерения и атрибуты. Также выполняется сопоставление и преобразование данных.
  2. Поэтапная доставка: Внедрение хранилища данных должно осуществляться поэтапно в зависимости от предметных областей. Связанные бизнес-объекты, такие как бронирование и billing следует сначала реализовать, а затем интегрировать друг с другом.
  3. Итеративное прототипирование: Вместо подхода «большого взрыва» к реализации хранилище данных следует разрабатывать и тестировать итеративно.

Здесь представлены ключевые этапы внедрения хранилища данных и его результаты.

Шаг Задач Ожидаемые результаты
1 Необходимо определить масштаб проекта Определение объема
2 Необходимо определить потребности бизнеса Логическая модель данных
3 определять Operaтребования к хранилищу данных OperaМодель хранилища данных
4 Приобретите или разработайте инструменты извлечения Инструменты и программное обеспечение для извлечения
5 Определить требования к данным хранилища данных Модель данных перехода
6 Документирование недостающих данных Список проектов, которые нужно сделать
7 Карты Operaиз хранилища данных в хранилище данных Карта интеграции данных D/W
8 Разработка дизайна базы данных хранилища данных Проектирование базы данных D/W
9 Извлечь данные из OperaНациональное хранилище данных Интегрированные извлечения данных D/W
10 Загрузить хранилище данных Начальная загрузка данных
11 Поддерживать хранилище данных Непрерывный доступ к данным и последующая загрузка

Лучшие практики по внедрению хранилища данных

  • Придумайте план проверки согласованности, точности и целостности данных.
  • Хранилище данных должно быть хорошо интегрированным, четко определенным и иметь отметку времени.
  • При разработке хранилища данных убедитесь, что вы используете правильный инструмент, придерживаетесь жизненного цикла, заботитесь о конфликтах данных и готовы учиться на своих ошибках.
  • Никогда не заменяйте operaционные системы и отчеты
  • Не тратьте слишком много времени на извлечение, очистку и загрузку данных.
  • Обеспечьте вовлечение всех заинтересованных сторон, включая бизнес-персонал, в процесс внедрения хранилища данных. Установите, что хранилище данных является совместным/командным проектом. Вы не хотите создавать хранилище данных, которое бесполезно для конечных пользователей.
  • Подготовьте план обучения для конечных пользователей.

Зачем нам нужно хранилище данных? Преимущества недостатки

Преимущества хранилища данных (DWH):

  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.
  • Хранилище данных предоставляет согласованную информацию о различных межфункциональных действиях. Он также поддерживает специальные отчеты и запросы.
  • Хранилище данных помогает интегрировать множество источников данных, чтобы снизить нагрузку на производственную систему.
  • Хранилище данных помогает сократить общее время выполнения анализа и составления отчетов.
  • Реструктуризация и интеграция упрощают использование пользователем отчетов и анализа.
  • Хранилище данных позволяет пользователям получать доступ к критически важным данным из нескольких источников в одном месте. Таким образом, это экономит время пользователя на получение данных из нескольких источников.
  • Хранилище данных хранит большой объем исторических данных. Это помогает пользователям анализировать различные периоды времени и тенденции, чтобы делать прогнозы на будущее.

Недостатки хранилища данных:

  • Не идеальный вариант для неструктурированных данных.
  • Создание и внедрение хранилища данных, безусловно, занимает много времени.
  • Хранилище данных может устареть относительно быстро
  • Сложно вносить изменения в типы и диапазоны данных, схему источника данных, индексы и запросы.
  • Хранилище данных может показаться простым, но на самом деле оно слишком удобно.plex для обычных пользователей.
  • Несмотря на все усилия по управлению проектами, масштабы проектов по хранению данных всегда будут увеличиваться.
  • Иногда пользователи склада будут разрабатывать другие бизнес-правила.
  • Организациям необходимо тратить много своих ресурсов на обучение и внедрение.

Будущее хранилищ данных

  • изменение Нормативные ограничения может ограничить возможность объединения источников разрозненных данных. Эти разрозненные источники могут включать неструктурированные данные, которые трудно хранить.
  • Как размер баз данных растет, оценки того, что представляет собой очень большую базу данных, продолжают расти. Это комplex создавать и запускать системы хранилищ данных, размер которых постоянно увеличивается. Имеющиеся сегодня аппаратные и программные ресурсы не позволяют хранить большие объемы данных в режиме онлайн.
  • Мультимедийные данные с текстовыми данными нелегко манипулировать, тогда как текстовую информацию можно получить с помощью доступного сегодня реляционного программного обеспечения. Это могло бы стать предметом исследования.

Инструменты хранилища данных

На рынке доступно множество инструментов хранения данных. Вот некоторые наиболее известные из них:

1. МаркЛогик:

MarkLogic — это полезное решение для хранения данных, которое упрощает и ускоряет интеграцию данных с помощью множества корпоративных функций. Этот инструмент помогает выполнять очень удобныеplex по области применения operaции. Он может запрашивать различные типы данных, такие как документы, отношения и метаданные.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle это ведущая в отрасли база данных. Он предлагает широкий выбор решений для хранения данных как локально, так и в облаке. Это помогает оптимизировать качество обслуживания клиентов за счет увеличения operaциональная эффективность.

https://www.oracle.com/index.html

3. Amazon RedShift:

Amazon Redshift это инструмент хранилища данных. Это простой и экономичный инструмент для анализа всех типов данных с использованием стандартных SQL и существующие инструменты BI. Это также позволяет запускать complex запросы к петабайтам структурированных данных с использованием техники оптимизации запросов.

https://aws.amazon.com/redshift/?nc2=h_m1

Вот полный список полезных Инструменты хранилища данных.

КЛЮЧ ОБУЧЕНИЯ

  • Хранилище данных (DWH) также известно как хранилище данных предприятия (EDW).
  • Хранилище данных определяется как центральное хранилище, куда информация поступает из одного или нескольких источников данных.
  • Три основных типа хранилищ данных: корпоративное хранилище данных (EDW), Operaциональное хранилище данных и витрина данных.
  • Общее состояние хранилища данных: офлайн. OperaНациональная база данных, автономное хранилище данных, хранилище данных в реальном времени и интегрированное хранилище данных.
  • Четыре основных компонента Datawarehouse: диспетчер загрузки, диспетчер хранилища, диспетчер запросов и инструменты доступа для конечных пользователей.
  • Datawarehouse используется в различных отраслях, таких как авиаперевозки, банковское дело, здравоохранение, страхование, розничная торговля и т. д.
  • Внедрение Datawarehosue — это трехкомпонентная стратегия. viz. Стратегия предприятия, поэтапная доставка и итеративное прототипирование.
  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.