Що таке сховище даних? Типи, визначення та приклад
Що таке сховище даних?
A Склад даних (DW) — це процес збору та керування даними з різноманітних джерел для надання значущої інформації про бізнес. Сховище даних зазвичай використовується для підключення та аналізу бізнес-даних із різнорідних джерел. Сховище даних є ядром системи BI, створеної для аналізу даних і звітності.
Це суміш технологій і компонентів, яка допомагає стратегічно використовувати дані. Це електронне зберігання великої кількості інформації бізнесом, призначене для запитів та аналізу замість обробки транзакцій. Це процес перетворення даних в інформацію та своєчасного надання її користувачам, щоб змінити ситуацію.
База даних підтримки прийняття рішень (Data Warehouse) ведеться окремо від оперативної бази даних організації. Однак сховище даних — це не продукт, а середовище. Це архітектурна конструкція інформаційної системи, яка надає користувачам поточну та історичну інформацію для підтримки прийняття рішень, до якої важко отримати доступ або яку важко представити в традиційному сховищі операційних даних.
Ви багато знаєте, що розроблена 3NF база даних для системи інвентаризації містить таблиці, пов’язані одна з одною. Наприклад, звіт про поточну інвентаризаційну інформацію може містити більше 12 об’єднаних умов. Це може швидко сповільнити час відповіді на запит і звіт. Сховище даних пропонує новий дизайн, який може допомогти скоротити час відповіді та покращити продуктивність запитів для звітів і аналітики.
Система сховищ даних також відома під такою назвою:
- Система підтримки прийняття рішень (DSS)
- Виконавча інформаційна система
- Інформаційна система управління
- Рішення бізнес-аналітики
- Аналітичний додаток
- Інформаційне сховище
Історія Datawarehouse
Datawarehouse допомагає користувачам зрозуміти та підвищити продуктивність своєї організації. Потреба в зберіганні даних виникла в міру того, як комп’ютерні системи ставали все складнішими та потребували обробки все більшої кількості інформації. Однак Data Warehousing — річ не нова.
Ось деякі ключові події в еволюції Data Warehouse-
- 1960 - Дартмут і Дженерал Міллс у спільному дослідницькому проекті розробляють терміни вимірювання та факти.
- 1970 - Nielsen і IRI представляють вітрини розмірних даних для роздрібних продажів.
- 1983 – Tera Data Corporation представляє систему керування базами даних, яка спеціально розроблена для підтримки прийняття рішень
- Сховища даних почалися наприкінці 1980-х років, коли IBM Пол Мерфі та Баррі Девлін розробили сховище бізнес-даних.
- Однак справжню концепцію дав Інмон Bill. Його вважали батьком сховища даних. Він писав про різноманітні теми щодо будівництва, використання та обслуговування складу та Фабрики корпоративної інформації.
Як працює Datawarehouse?
Сховище даних працює як центральне сховище, куди надходить інформація з одного або кількох джерел даних. Дані надходять у сховище даних із транзакційної системи та інших реляційних баз даних.
Дані можуть бути:
- Структурований
- Напівструктурований
- Неструктуровані дані
Дані обробляються, перетворюються та приймаються, щоб користувачі могли отримати доступ до оброблених даних у сховищі даних за допомогою інструментів бізнес-аналітики, клієнтів SQL та електронних таблиць. Сховище даних об’єднує інформацію, що надходить з різних джерел, в одну комплексну базу даних.
Зібравши всю цю інформацію в одному місці, організація може більш цілісно аналізувати своїх клієнтів. Це допомагає переконатися, що враховано всю доступну інформацію. Сховища даних роблять можливим видобуток даних. Інтелектуальний аналіз даних шукає закономірності в даних, які можуть призвести до збільшення продажів і прибутку.
Типи сховищ даних
Три основні типи сховищ даних (DWH):
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) — централізоване сховище. Він надає послуги підтримки прийняття рішень у масштабах підприємства. Він пропонує уніфікований підхід до організації та представлення даних. Він також надає можливість класифікувати дані відповідно до теми та надавати доступ відповідно до цих підрозділів.
2. Operaнаціональне сховище даних:
OperaНаціональне сховище даних, яке також називають ODS, є нічим іншим, як необхідним сховищем даних, коли ні сховище даних, ні системи OLTP не підтримують потреби організацій у звітності. В ODS сховище даних оновлюється в режимі реального часу. Таким чином, він широко переважний для рутинних дій, таких як зберігання записів про співробітників.
3. Data Mart:
A март даних є підмножиною сховища даних. Він спеціально розроблений для певного напрямку бізнесу, наприклад продажів, фінансів, продажів або фінансів. У незалежній вітрині даних дані можна збирати безпосередньо з джерел.
Загальні етапи Data Warehouse
Раніше організації почали відносно просто використовувати сховища даних. Однак з часом почалося більш складне використання сховищ даних.
Нижче наведені загальні етапи використання сховища даних (DWH):
Offline Operaнаціональна база даних:
На цьому етапі дані просто копіюються з операційної системи на інший сервер. Таким чином, завантаження, обробка та звіт про скопійовані дані не впливають на продуктивність операційної системи.
Офлайн-сховище даних:
Дані в Datawarehouse регулярно оновлюються з Operaнаціональна база даних. Дані в Datawarehouse відображаються та трансформуються відповідно до цілей Datawarehouse.
Сховище даних у реальному часі:
На цьому етапі сховища даних оновлюються щоразу, коли в операційній базі даних відбувається будь-яка транзакція. Наприклад, система бронювання авіакомпаній або залізниць.
Інтегроване сховище даних:
На цьому етапі сховища даних постійно оновлюються, коли операційна система виконує транзакцію. Потім Datawarehouse генерує транзакції, які передаються назад в операційну систему.
Компоненти сховища даних
Чотири компоненти сховищ даних:
Менеджер навантаження: Диспетчер навантаження також називають переднім компонентом. Він виконує всі операції, пов’язані з вилученням і завантаженням даних у сховище. Ці операції включають перетворення для підготовки даних для введення в сховище даних.
Завідуючий складом: Керуючий складом виконує операції, пов'язані з керуванням даними в сховищі. Він виконує такі операції, як аналіз даних для забезпечення узгодженості, створення індексів і представлень, генерація денормалізації та агрегування, перетворення та злиття вихідних даних, а також архівування та зберігання даних.
Менеджер запитів: Менеджер запитів також відомий як серверний компонент. Він виконує всі операційні операції, пов’язані з керуванням запитами користувачів. Операції цього компонента сховища даних є прямими запитами до відповідних таблиць для планування виконання запитів.
Інструменти доступу кінцевого користувача:
Це розділено на п’ять різних груп, наприклад 1. Звітування даних 2. Інструменти запитів 3. Інструменти розробки додатків 4. Інструменти EIS, 5. Інструменти OLAP та інструменти інтелекту даних.
Кому потрібне сховище даних?
DWH (сховище даних) потрібне для всіх типів користувачів, таких як:
- Особи, які приймають рішення, які покладаються на велику кількість даних
- Користувачі, які використовують індивідуальні складні процеси для отримання інформації з багатьох джерел даних.
- Його також використовують люди, яким потрібна проста технологія для доступу до даних
- Це також важливо для тих людей, які хочуть системного підходу до прийняття рішень.
- Якщо користувач бажає швидкої роботи з величезним обсягом даних, що є необхідністю для звітів, сіток або діаграм, то сховище даних виявиться корисним.
- Сховище даних — це перший крок, якщо ви хочете виявити «приховані шаблони» потоків даних і груп.
Для чого використовується сховище даних?
Ось найбільш поширені сектори, де використовується сховище даних:
Авіакомпанія:
У системі авіакомпанії він використовується для операційних цілей, таких як розподіл екіпажів, аналіз рентабельності маршрутів, просування програм для часто літаючих пасажирів тощо.
Банківські послуги:
Він широко використовується в банківському секторі для ефективного управління наявними на робочому місці ресурсами. Деякі банки також використовували для дослідження ринку, аналізу ефективності продукту та операцій.
Охорона здоров'я:
Сектор охорони здоров’я також використовував сховище даних для розробки стратегії та прогнозування результатів, створення звітів про лікування пацієнтів, обміну даними зі зв’язаними страховими компаніями, службами медичної допомоги тощо.
Державний сектор:
У державному секторі сховище даних використовується для збору розвідувальної інформації. Це допомагає державним установам вести та аналізувати податкові записи, записи про політику охорони здоров’я для кожної особи.
Сектор інвестицій та страхування:
У цьому секторі склади в основному використовуються для аналізу моделей даних, тенденцій клієнтів і відстеження ринкових змін.
Утримувати ланцюг:
У роздрібних мережах Data warehouse широко використовується для дистрибуції та маркетингу. Це також допомагає відстежувати товари, модель купівлі клієнтів, акції, а також використовується для визначення цінової політики.
Телекомунікації:
Сховище даних використовується в цьому секторі для просування продуктів, рішень щодо продажу та прийняття рішень щодо розподілу.
Індустрія гостинності:
Ця галузь використовує складські послуги, щоб розробити, а також оцінити свої рекламні та рекламні кампанії, на які вони хочуть націлити клієнтів на основі їхніх відгуків і моделей подорожей.
Кроки для впровадження сховища даних
Найкращий спосіб усунути бізнес-ризик, пов’язаний із впровадженням Datawarehouse, — це застосувати тристоронню стратегію, наведену нижче
- Стратегія підприємства: тут ми визначаємо технічні, включаючи поточну архітектуру та інструменти. Ми також визначаємо факти, розміри та атрибути. Відображення та перетворення даних також пройдено.
- Поетапна доставка: Впровадження сховища даних має бути поетапним на основі предметних областей. Пов’язані бізнес-об’єкти, такі як бронювання та виставлення рахунків, слід спочатку впровадити, а потім інтегрувати один з одним.
- Ітеративне прототипування: Замість підходу великого вибуху до реалізації, Datawarehouse слід розробляти та тестувати ітераційно.
Ось ключові кроки впровадження Datawarehouse разом із його результатами.
Крок | Завдання | Очікувані результати |
---|---|---|
1 | Необхідно визначити обсяг проекту | Визначення сфери застосування |
2 | Потрібно визначити потреби бізнесу | Логічна модель даних |
3 | Визначте Operaвимоги до сховища даних | Operaнаціональна модель сховища даних |
4 | Придбати або розробити інструменти видобутку | Інструменти вилучення та програмне забезпечення |
5 | Визначте вимоги до даних сховища даних | Перехідна модель даних |
6 | У документі відсутні дані | Список завдань |
7 | карти Operational Data Store до Data Warehouse | Карта інтеграції даних D/W |
8 | Розробка дизайну бази даних сховища даних | D/W Дизайн бази даних |
9 | Видобути дані з Operaнаціональне сховище даних | Інтегровані екстракти даних D/W |
10 | Завантажити сховище даних | Початкове завантаження даних |
11 | Підтримувати сховище даних | Постійний доступ до даних і подальші завантаження |
Найкращі практики впровадження сховища даних
- Визначте план перевірки узгодженості, точності та цілісності даних.
- Сховище даних має бути добре інтегроване, чітко визначене та з міткою часу.
- Розробляючи Datawarehouse, переконайтеся, що ви використовуєте правильний інструмент, дотримуєтеся життєвого циклу, дбаєте про конфлікти даних і готові вчитися на своїх помилках.
- Ніколи не замінюйте операційні системи та звіти
- Не витрачайте надто багато часу на вилучення, очищення та завантаження даних.
- Забезпечте залучення всіх зацікавлених сторін, включаючи бізнес-персонал, до процесу впровадження Datawarehouse. Встановіть, що сховище даних є спільним/командним проектом. Ви не хочете створювати сховище даних, яке не буде корисним для кінцевих користувачів.
- Підготуйте план навчання для кінцевих користувачів.
Навіщо нам сховище даних? Переваги та недоліки
Переваги Data Warehouse (DWH):
- Сховище даних дозволяє бізнес-користувачам швидко отримувати доступ до критично важливих даних з деяких джерел в одному місці.
- Сховище даних надає послідовну інформацію про різні міжфункціональні дії. Він також підтримує спеціальні звіти та запити.
- Data Warehouse допомагає інтегрувати багато джерел даних, щоб зменшити навантаження на виробничу систему.
- Сховище даних допомагає скоротити загальний час для аналізу та звітності.
- Реструктуризація та інтеграція спрощують використання для звітів та аналізу.
- Сховище даних дозволяє користувачам отримувати доступ до критично важливих даних із кількох джерел в одному місці. Таким чином, це економить час користувача на отримання даних із багатьох джерел.
- Сховище даних зберігає велику кількість історичних даних. Це допомагає користувачам аналізувати різні періоди часу та тенденції, щоб робити прогнози на майбутнє.
Недоліки Data Warehouse:
- Не ідеальний варіант для неструктурованих даних.
- Створення та впровадження сховища даних, безумовно, заплутана справа.
- Data Warehouse може відносно швидко застаріти
- Важко вносити зміни в типи та діапазони даних, схему джерела даних, індекси та запити.
- Сховище даних може здатися легким, але насправді воно надто складне для пересічних користувачів.
- Незважаючи на всі зусилля в управлінні проектом, обсяг проекту сховища даних завжди буде збільшуватися.
- Іноді користувачі складів розроблятимуть інші бізнес-правила.
- Організаціям потрібно витрачати багато своїх ресурсів на навчання та впровадження.
Майбутнє сховищ даних
- Зміна Нормативні обмеження може обмежити можливість поєднання джерела різнорідних даних. Ці різнорідні джерела можуть містити неструктуровані дані, які важко зберігати.
- Як розмір зростає кількість баз даних, оцінки того, що є дуже великою базою даних, продовжують зростати. Складно створювати та запускати системи сховищ даних, розмір яких постійно збільшується. Наявні сьогодні апаратні та програмні ресурси не дозволяють зберігати велику кількість даних в режимі онлайн.
- Мультимедійні дані не можна легко маніпулювати як текстовими даними, тоді як текстову інформацію можна отримати за допомогою доступного сьогодні реляційного програмного забезпечення. Це може бути предметом дослідження.
Інструменти сховища даних
На ринку доступно багато інструментів для зберігання даних. Ось деякі з найвідоміших:
1. MarkLogic:
MarkLogic — це корисне рішення для зберігання даних, яке робить інтеграцію даних легшою та швидшою за допомогою низки корпоративних функцій. Цей інструмент допомагає виконувати дуже складні пошукові операції. Він може запитувати різні типи даних, наприклад документи, зв’язки та метадані.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle є провідною базою даних галузі. Він пропонує широкий вибір рішень для сховищ даних як локальних, так і хмарних. Це допомагає оптимізувати взаємодію з клієнтами, підвищуючи ефективність роботи.
https://www.oracle.com/index.html
3. Amazon червонийShift:
Amazon Redshift — інструмент сховища даних. Це простий і економічно ефективний інструмент для аналізу всіх типів даних за стандартом SQL і існуючі інструменти BI. Він також дозволяє виконувати складні запити до петабайтів структурованих даних, використовуючи техніку оптимізації запитів.
https://aws.amazon.com/redshift/?nc2=h_m1
Ось повний список корисного Інструменти сховища даних.
КЛЮЧОВЕ НАВЧАННЯ
- Сховище даних (DWH), також відоме як Enterprise Data Warehouse (EDW).
- Сховище даних визначається як центральне сховище, куди надходить інформація з одного або кількох джерел даних.
- Три основні типи сховищ даних: Enterprise Data Warehouse (EDW), Operational Data Store і Data Mart.
- Загальний стан сховища даних Offline Operaнаціональна база даних, автономне сховище даних, сховище даних у реальному часі та інтегроване сховище даних.
- Чотири основні компоненти Datawarehouse: менеджер завантаження, диспетчер сховища, менеджер запитів, інструменти доступу кінцевого користувача
- Datawarehouse використовується в різних галузях, таких як авіакомпанії, банківська справа, охорона здоров’я, страхування, роздрібна торгівля тощо.
- Впровадження Datawarehosue — це стратегія з трьох частин, а саме: Стратегія підприємства, поетапне постачання та ітераційне прототипування.
- Сховище даних дозволяє бізнес-користувачам швидко отримувати доступ до критично важливих даних з деяких джерел в одному місці.