Інформаційне сховище Archiтектура, компоненти та діаграма Concepts
Інформаційне сховище Concepts
Основна концепція сховища даних полягає в тому, щоб полегшити єдину версію правди для компанії для прийняття рішень і прогнозування. Сховище даних — це інформаційна система, яка містить історичні та комутативні дані з одного чи кількох джерел. Інформаційне сховище Concepts спростити процес звітності та аналізу організацій.
Характеристика сховища даних
Інформаційне сховище Concepts мають такі характеристики:
- Предметно-орієнтований
- Інтегрований
- Часовий варіант
- Нелетучі
Предметно-орієнтований
Сховище даних є предметно-орієнтованим, оскільки пропонує інформацію щодо теми замість поточних операцій компаній. Такими предметами можуть бути продажі, маркетинг, дистрибуція тощо.
Сховище даних ніколи не фокусується на поточних операціях. Натомість він зробив акцент на моделюванні та аналізі даних для прийняття рішень. Він також забезпечує просте та стисле уявлення про конкретну тему, виключаючи дані, які не допомагають підтримати процес прийняття рішення.
Інтегрований
У сховищі даних інтеграція означає встановлення спільної одиниці вимірювання для всіх подібних даних із різнорідної бази даних. Дані також повинні зберігатися в сховищі даних загальноприйнятим способом.
Сховище даних розробляється шляхом інтеграції даних із різноманітних джерел, таких як мейнфрейм, реляційні бази даних, плоскі файли тощо. Крім того, воно має підтримувати узгоджені угоди про іменування, формат і кодування.
Ця інтеграція допомагає в ефективному аналізі даних. Має бути забезпечена узгодженість умов іменування, мір атрибутів, структури кодування тощо. Розглянемо такий приклад:
У наведеному вище прикладі є три різні програми з позначками A, B і C. У цих програмах зберігається інформація про стать, дату та баланс. Однак дані кожної програми зберігаються по-різному.
- У полі Application A gender зберігаються такі логічні значення, як M або F
- У додатку B поле статі є числовим значенням,
- У програмі Application C поле статі зберігається у вигляді символьного значення.
- Те саме стосується дати та балансу
Однак після процесу трансформації та очищення всі ці дані зберігаються в загальному форматі в Інформаційне сховище.
Варіант часу
Часовий горизонт для сховища даних досить великий порівняно з операційними системами. Дані, зібрані в сховищі даних, розпізнаються за певний період і пропонують інформацію з історичної точки зору. Він містить елемент часу, явно чи неявно.
Одне з таких місць, де дисперсія часу відображення даних Datawarehouse знаходиться в структурі ключа запису. Кожен первинний ключ, що міститься в DW, повинен мати неявно або явно елемент часу. Наприклад, день, тиждень, місяць тощо.
Іншим аспектом дисперсії в часі є те, що коли дані вставлено в сховище, їх неможливо оновити чи змінити.
Нелетучі
Сховище даних також є енергонезалежним, тобто попередні дані не стираються, коли в нього вводяться нові дані.
Дані доступні лише для читання та періодично оновлюються. Це також допомагає проаналізувати історичні дані та зрозуміти, що та коли сталося. Він не потребує процесу транзакцій, механізмів відновлення та керування паралелізмом.
Такі дії, як видалення, оновлення та вставлення, які виконуються в середовищі операційної програми, опущені в середовищі сховища даних. У сховищі даних виконуються лише два типи операцій із даними
- Завантаження даних
- Доступ до даних
Ось деякі основні відмінності між додатком і сховищем даних
Operational Application | Інформаційне сховище |
---|---|
Необхідно закодувати складну програму, щоб гарантувати, що процеси оновлення даних підтримують високу цілісність кінцевого продукту. | Такого роду проблеми не виникають, оскільки оновлення даних не виконується. |
Дані розміщуються в нормалізованій формі, щоб забезпечити мінімальну надмірність. | Дані не зберігаються в нормалізованому вигляді. |
Технологія, необхідна для підтримки транзакцій, відновлення даних, відкату та вирішення, оскільки її тупикова ситуація досить складна. | Він пропонує відносну простоту технології. |
Інформаційне сховище Archiтектура
Інформаційне сховище Archiтектура є складною, оскільки це інформаційна система, яка містить історичні та комутативні дані з багатьох джерел. Існує 3 підходи для побудови рівнів сховища даних: однорівневий, дворівневий і трирівневий. Ця 3-рівнева архітектура сховища даних пояснюється нижче.
Однорівнева архітектура
Метою єдиного рівня є мінімізація обсягу даних, що зберігаються. Ця мета полягає у видаленні надмірності даних. Ця архітектура не часто використовується на практиці.
Дворівнева архітектура
Дворівнева архітектура є одним із рівнів сховища даних, який розділяє фізично доступні джерела та сховище даних. Ця архітектура не розширюється, а також не підтримує велику кількість кінцевих користувачів. Він також має проблеми з підключенням через мережеві обмеження.
Трирівневе сховище даних Archiтектура
Це найбільш широко використовуваний Archiструктура сховища даних.
Він складається з верхнього, середнього та нижнього ярусів.
- Нижній рівень: База даних серверів Datawarehouse як нижнього рівня. Зазвичай це реляційна система баз даних. Дані очищаються, трансформуються та завантажуються на цей рівень за допомогою внутрішніх інструментів.
- Середній рівень: Середній рівень у сховищі даних — це сервер OLAP, який реалізовано за допомогою моделі ROLAP або MOLAP. Для користувача цей рівень програми представляє абстрактне уявлення про базу даних. Цей рівень також діє як посередник між кінцевим користувачем і базою даних.
- Верхній ярус: Верхній рівень — це інтерфейсний клієнтський рівень. Верхній рівень — це інструменти та API, які ви підключаєте та отримуєте дані зі сховища даних. Це можуть бути інструменти запитів, інструменти звітності, керовані інструменти запитів, інструменти аналізу та інструменти інтелектуального аналізу даних.
Компоненти сховища даних
Ми дізнаємось про компоненти Datawarehouse та Archiструктура сховища даних із схемою, як показано нижче:
Сховище даних базується на сервері RDBMS, який є центральним сховищем інформації, яке оточене деякими ключовими компонентами сховища даних, щоб зробити все середовище функціональним, керованим і доступним.
В основному є п’ять компонентів сховища даних:
База даних сховища даних
Центральна база даних є основою середовища сховища даних. Ця база даних реалізована на СУБД технології. Хоча така реалізація обмежена тим фактом, що традиційна система RDBMS оптимізована для транзакційної обробки бази даних, а не для сховища даних. Наприклад, спеціальні запити, об’єднання кількох таблиць, агрегати потребують ресурсів і сповільнюють продуктивність.
Отже, альтернативні підходи до бази даних використовуються, як зазначено нижче:
- У сховищі даних реляційні бази даних розгортаються паралельно, щоб забезпечити масштабованість. Паралельні реляційні бази даних також допускають спільну пам’ять або модель без спільної пам’яті на різних багатопроцесорних конфігураціях або масивних паралельних процесорах.
- Нові структури індексів використовуються для обходу сканування реляційної таблиці та підвищення швидкості.
- Використання багатовимірної бази даних (MDDB) для подолання будь-яких обмежень, які накладаються через реляційні моделі сховищ даних. Приклад: Essbase від Oracle.
Інструменти пошуку, придбання, очищення та трансформації (ETL)
Інструменти пошуку, перетворення та міграції даних використовуються для виконання всіх перетворень, узагальнень і всіх змін, необхідних для перетворення даних в уніфікований формат у сховищі даних. Їх також називають інструментами вилучення, перетворення та завантаження (ETL).
Їх функціональність включає:
- Анонімізувати дані відповідно до нормативних положень.
- Усунення непотрібних даних в оперативних базах даних від завантаження в сховище даних.
- Пошук і заміна загальних імен і визначень для даних, що надходять з різних джерел.
- Обчислення зведених і похідних даних
- У разі відсутності даних заповніть їх стандартними.
- Дедупліковані повторювані дані, що надходять із кількох джерел даних.
Ці інструменти видобування, перетворення та завантаження можуть створювати завдання cron, фонові завдання, Програми Cobol, сценарії оболонки тощо, які регулярно оновлюють дані в сховищі даних. Ці інструменти також корисні для підтримки метаданих.
Ці Інструменти ETL доводиться мати справу з проблемами неоднорідності баз даних і даних.
метадані
Назва «Метадані» означає високорівневе технологічне сховище даних Concepts. Однак це досить просто. Метадані - це дані про дані, які визначають сховище даних. Він використовується для створення, підтримки та управління сховищем даних.
У сховищі даних ArchiУ структурі метадані відіграють важливу роль, оскільки вони визначають джерело, використання, значення та особливості даних сховища даних. Він також визначає, як дані можуть бути змінені та оброблені. Він тісно пов'язаний зі сховищем даних.
Наприклад, рядок у базі даних продажів може містити:
4030 KJ732 299.90
Це безглузді дані, поки ми не звернемося до Мета, яка нам це підтвердить
- Номер моделі: 4030
- ID торгового агента: KJ732
- Загальна сума продажів $299.90
Таким чином, метадані є важливими складовими для перетворення даних у знання.
Метадані допомагають відповісти на наступні запитання
- Які таблиці, атрибути та ключі містить сховище даних?
- Звідки дані?
- Скільки разів дані перезавантажуються?
- Які перетворення були застосовані з очищенням?
Метадані можна класифікувати за такими категоріями:
- Технічні метадані: Цей тип метаданих містить інформацію про сховище, яке використовується розробниками та адміністраторами сховищ даних.
- Бізнес-метадані: Цей тип метаданих містить деталі, які дають кінцевим користувачам можливість легко зрозуміти інформацію, що зберігається в сховищі даних.
Інструменти запитів
Одним із основних об’єктів сховищ даних є надання інформації компаніям для прийняття стратегічних рішень. Інструменти запитів дозволяють користувачам взаємодіяти з системою сховища даних.
Ці інструменти поділяються на чотири різні категорії:
- Інструменти запитів і звітів
- Інструменти розробки додатків
- Інструменти інтелектуального аналізу даних
- Інструменти OLAP
1. Інструменти запитів і звітів
Інструменти запитів і звітів можна далі поділити на
- Інструменти звітності
- Інструменти керованих запитів
Інструменти звітності:
Інструменти звітності можна далі розділити на засоби створення звітів про виробництво та інструмент для створення звітів для робочого столу.
- Створювачі звітів: інструменти такого типу для звітування призначені для аналізу кінцевими користувачами.
- Виробнича звітність: такі інструменти дозволяють організаціям створювати регулярні оперативні звіти. Він також підтримує великі обсяги пакетних завдань, як-от друк і обчислення. Серед популярних інструментів звітності Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Інструменти керованих запитів:
Цей вид інструментів доступу допомагає кінцевим користувачам вирішувати проблеми в базі даних, SQL і структурі бази даних, вставляючи мета-рівень між користувачами та базою даних.
2. Засоби розробки додатків
Іноді вбудовані графічні та аналітичні інструменти не задовольняють аналітичні потреби організації. У таких випадках спеціальні звіти розробляються за допомогою інструментів розробки програм.
3. Інструменти інтелектуального аналізу даних
Інтелектуальний аналіз даних — це процес виявлення нових значущих кореляцій, закономірностей і тенденцій шляхом видобутку великої кількості даних. Інструменти інтелектуального аналізу даних використовуються, щоб зробити цей процес автоматичним.
4. Засоби OLAP
Ці інструменти базуються на концепціях багатовимірної бази даних. Це дозволяє користувачам аналізувати дані за допомогою детальних і складних багатовимірних представлень.
Шина сховища даних Archiтектура
Шина сховища даних визначає потік даних у вашому сховищі. Потік даних у сховищі даних можна класифікувати як вхідний, висхідний, низхідний, вихідний і метапотік.
Розробляючи шину даних, потрібно враховувати спільні параметри, факти в різних вітринах даних.
Витримки даних
A март даних це рівень доступу, який використовується для передачі даних користувачам. Він представлений як варіант для сховища даних великого розміру, оскільки для створення потрібно менше часу та грошей. Однак не існує стандартного визначення вітрини даних, яка відрізняється від людини до людини.
Простими словами Data mart – це дочірня компанія сховища даних. Вітрина даних використовується для розділення даних, які створюються для певної групи користувачів.
Вітрини даних можуть бути створені в тій самій базі даних, що й Datawarehouse, або фізично окремій базі даних.
Інформаційне сховище Archiнайкращі практики tecture
Розробити Data Warehouse Architecture, вам потрібно дотримуватися наведених нижче найкращих практик:
- Використовуйте моделі сховищ даних, які оптимізовані для пошуку інформації, яка може бути розмірним режимом, денормализованим або гібридним підходом.
- Виберіть відповідний підхід до проектування як підхід зверху вниз і знизу вгору в Data Warehouse
- Потрібно переконатися, що Дані обробляються швидко й точно. У той же час ви повинні застосувати підхід, який об’єднує дані в єдину версію істини.
- Ретельно сплануйте процес отримання та очищення даних для сховища даних.
- Створіть архітектуру MetaData, яка дозволяє обмінюватися метаданими між компонентами Data Warehouse
- Розгляньте можливість реалізації моделі ODS, коли потреба в пошуку інформації знаходиться біля нижньої частини піраміди абстракції даних або коли потрібно отримати доступ до кількох оперативних джерел.
- Потрібно переконатися, що модель даних інтегрована, а не просто консолідована. У такому випадку вам слід розглянути модель даних 3NF. Він також ідеально підходить для придбання інструментів ETL і очищення даних
Підсумки
- Сховище даних — це інформаційна система, яка містить історичні та комутативні дані з одного або кількох джерел. Такими джерелами можуть бути традиційне сховище даних, хмарне сховище даних або віртуальне сховище даних.
- Сховище даних є предметно-орієнтованим, оскільки пропонує інформацію щодо предмета, а не поточних операцій організації.
- У сховищі даних інтеграція означає встановлення спільної одиниці вимірювання для всіх схожих даних із різних баз даних
- Сховище даних також є енергонезалежним, тобто попередні дані не стираються, коли в нього вводяться нові дані.
- Datawarehouse залежить від часу, оскільки дані в DW мають тривалий термін зберігання.
- Існує в основному 5 компонентів Data Warehouse Archiтектура: 1) База даних 2) Інструменти ETL 3) Метадані 4) Інструменти запитів 5) DataMarts
- Це чотири основні категорії інструментів запитів: 1. Запити та звіти, інструменти 2. Інструменти розробки додатків, 3. Інструменти аналізу даних 4. Інструменти OLAP
- Інструменти пошуку, перетворення та міграції даних використовуються для виконання всіх перетворень і узагальнень.
- У сховищі даних ArchiУ структурі метадані відіграють важливу роль, оскільки вони визначають джерело, використання, значення та особливості даних сховища даних.