Склад за данни Archiструктура, компоненти и диаграма Concepts

Склад за данни Concepts

Основната концепция на Data Warehouse е да улесни една единствена версия на истината за една компания за вземане на решения и прогнозиране. Data warehouse е информационна система, която съдържа исторически и комутативни данни от един или множество източници. Data Warehouse Concepts опростете процеса на отчитане и анализ на организациите.

Характеристики на Data warehouse

Склад за данни Concepts имат следните характеристики:

  • Предметно ориентиран
  • Интегрирана
  • Времеви вариант
  • Енергонезависима

Предметно ориентиран

Складът за данни е предметно ориентиран, тъй като предлага информация относно дадена тема вместо текущите операции на компаниите. Тези предмети могат да бъдат продажби, маркетинг, дистрибуция и др.

Складът за данни никога не се фокусира върху текущите операции. Вместо това, той постави акцент върху моделирането и анализа на данните за вземане на решение. Той също така предоставя прост и кратък изглед около конкретната тема, като изключва данни, които не са полезни в подкрепа на процеса на вземане на решения.

Интегрирана

В Data Warehouse интеграцията означава установяването на обща мерна единица за всички подобни данни от различната база данни. Данните също трябва да се съхраняват в Datawarehouse по общ и универсално приемлив начин.

Складът за данни се разработва чрез интегриране на данни от различни източници като мейнфрейм, релационни бази данни, плоски файлове и т.н. Освен това трябва да поддържа последователни конвенции за именуване, формат и кодиране.

Тази интеграция помага за ефективен анализ на данни. Трябва да се осигури последователност в конвенциите за именуване, мерките на атрибутите, структурата на кодиране и т.н. Разгледайте следния пример:

Характеристики на Data warehouse

В горния пример има три различни приложения, обозначени с A, B и C. Информацията, съхранявана в тези приложения, е пол, дата и баланс. Данните на всяко приложение обаче се съхраняват по различен начин.

  • В полето за пол на приложението се съхраняват логически стойности като M или F
  • В приложение B полето за пол е числова стойност,
  • В приложението Application C полето за пол се съхранява под формата на стойност на символ.
  • Същото е и с Дата и баланс

Въпреки това, след процес на трансформация и почистване, всички тези данни се съхраняват в общ формат в Склад за данни.

Времеви вариант

Времевият хоризонт за хранилището на данни е доста обширен в сравнение с операционните системи. Данните, събрани в хранилището на данни, се разпознават с определен период и предлагат информация от историческа гледна точка. Съдържа елемент на време, изрично или имплицитно.

Едно такова място, където дисперсията във времето за показване на данни на Datawarehouse е в структурата на ключа за запис. Всеки първичен ключ, съдържащ се в DW, трябва да има имплицитно или изрично елемент на време. Като ден, седмица месец и т.н.

Друг аспект на дисперсията във времето е, че след като данните бъдат вмъкнати в склада, те не могат да бъдат актуализирани или променени.

Енергонезависима

Хранилището на данни също е енергонезависимо, което означава, че предишните данни не се изтриват, когато в него се въвеждат нови данни.

Данните са само за четене и периодично се опресняват. Това също помага да се анализират исторически данни и да се разбере какво и кога се е случило. Не изисква процес на транзакция, възстановяване и механизми за контрол на паралелността.

Дейности като изтриване, актуализиране и вмъкване, които се извършват в операционна среда на приложение, са пропуснати в среда на хранилище на данни. Има само два типа операции с данни, извършвани в Data Warehousing

  1. Зареждане на данни
  2. Достъп до данни

Ето някои основни разлики между Application и Data Warehouse

Operaционно приложение Склад за данни
Сложната програма трябва да бъде кодирана, за да се гарантира, че процесите на надграждане на данни поддържат висока цялост на крайния продукт. Този тип проблеми не се случват, защото не се извършва актуализация на данните.
Данните се поставят в нормализирана форма, за да се осигури минимален излишък. Данните не се съхраняват в нормализирана форма.
Технологията, необходима за поддържане на проблеми с транзакции, възстановяване на данни, връщане назад и разрешаване, тъй като нейната безизходица е доста сложна. Той предлага относителна простота в технологията.

Склад за данни Archiтекстура

Склад за данни Archiтекстура е сложна, тъй като е информационна система, която съдържа исторически и комутативни данни от множество източници. Има 3 подхода за изграждане на слоеве на Data Warehouse: едно ниво, две нива и три нива. Тази 3-степенна архитектура на Data Warehouse е обяснена по-долу.

Еднослойна архитектура

Целта на един слой е да се сведе до минимум количеството съхранявани данни. Тази цел е да се премахне излишъкът от данни. Тази архитектура не се използва често на практика.

Двустепенна архитектура

Двуслойната архитектура е един от слоевете на Data Warehouse, който разделя физически наличните източници и хранилището на данни. Тази архитектура не може да се разширява и също така не поддържа голям брой крайни потребители. Освен това има проблеми със свързването поради мрежови ограничения.

Тристепенно хранилище на данни Archiтекстура

Това е най-широко използваното Archiструктура на Data Warehouse.

Състои се от горния, средния и долния слой.

  1. Долно ниво: Базата данни на сървърите на Datawarehouse като най-долното ниво. Обикновено това е релационна система от бази данни. Данните се почистват, трансформират и зареждат в този слой с помощта на бек-енд инструменти.
  2. Средно ниво: Средното ниво в Data warehouse е OLAP сървър, който се реализира с помощта на ROLAP или MOLAP модел. За потребител това ниво на приложение представя абстрактен изглед на базата данни. Този слой също действа като посредник между крайния потребител и базата данни.
  3. Най-високо ниво: Горното ниво е клиентски слой от предния край. Най-високото ниво са инструментите и API, които свързвате и извличате данни от хранилището на данни. Това могат да бъдат инструменти за заявки, инструменти за отчитане, инструменти за управлявани заявки, инструменти за анализ и инструменти за извличане на данни.

Компоненти на Datawarehouse

Ще научим за компонентите на Datawarehouse и Archiструктура на Data Warehouse с диаграма, както е показано по-долу:

Склад за данни Archiтекстура
Склад за данни Archiтекстура

Data Warehouse се основава на RDBMS сървър, който е централно хранилище на информация, което е заобиколено от някои ключови компоненти на Data Warehouse, за да направи цялата среда функционална, управляема и достъпна.

Има основно пет компонента на Data Warehouse:

Data Warehouse База данни

Централната база данни е в основата на средата за съхранение на данни. Тази база данни е внедрена на RDBMS технология. Въпреки това, този вид внедряване е ограничено от факта, че традиционната RDBMS система е оптимизирана за транзакционна обработка на база данни, а не за съхранение на данни. Например ad-hoc заявката, обединяването на множество таблици, агрегатите изискват много ресурси и забавят производителността.

Следователно се използват алтернативни подходи към базата данни, както е изброено по-долу-

  • В склад за данни релационните бази данни се разполагат паралелно, за да се даде възможност за мащабируемост. Паралелните релационни бази данни също така позволяват споделена памет или споделен модел без споделяне на различни многопроцесорни конфигурации или масово паралелни процесори.
  • Нови структури на индекси се използват за заобикаляне на сканирането на релационни таблици и подобряване на скоростта.
  • Използване на многомерна база данни (MDDBs) за преодоляване на всички ограничения, които са поставени поради релационните модели на складове за данни. Пример: Essbase от Oracle.

Инструменти за снабдяване, придобиване, почистване и трансформация (ETL)

Инструментите за източник на данни, трансформация и миграция се използват за извършване на всички преобразувания, обобщения и всички промени, необходими за трансформиране на данните в унифициран формат в хранилището за данни. Те се наричат ​​още инструменти за извличане, трансформиране и зареждане (ETL).

Тяхната функционалност включва:

  • Анонимизирайте данните според нормативните разпоредби.
  • Елиминиране на нежелани данни в оперативни бази данни от зареждане в Data warehouse.
  • Търсене и замяна на общи имена и дефиниции за данни, пристигащи от различни източници.
  • Изчисляване на обобщения и производни данни
  • В случай на липсващи данни, попълнете ги със стойности по подразбиране.
  • Дедупликирани повтарящи се данни, пристигащи от множество източници на данни.

Тези инструменти за извличане, трансформиране и зареждане могат да генерират cron задания, фонови задания, Кобол програми, shell скриптове и т.н., които редовно актуализират данните в хранилището на данни. Тези инструменти също са полезни за поддържане на метаданните.

тези ETL инструменти трябва да се справят с предизвикателствата на базата данни и хетерогенността на данните.

Metadata

Името Meta Data предполага някакво технологично съхранение на данни на високо ниво Concepts. Въпреки това е доста просто. Метаданните са данни за данни, които определят хранилището на данни. Използва се за изграждане, поддържане и управление на хранилището на данни.

В Data Warehouse Archiструктура, метаданните играят важна роля, тъй като определят източника, употребата, стойностите и характеристиките на данните от хранилището на данни. Той също така определя как данните могат да бъдат променяни и обработвани. Тя е тясно свързана със склада за данни.

Например ред в база данни за продажби може да съдържа:

4030 KJ732 299.90

Това са безсмислени данни, докато не се консултираме с мета, които ни казват, че е така

  • Номер на модела: 4030
  • ID на агент по продажбите: KJ732
  • Общата сума на продажбите е $299.90

Следователно мета данните са основни съставки в трансформирането на данните в знания.

Метаданните помагат да се отговори на следните въпроси

  • Какви таблици, атрибути и ключове съдържа Data Warehouse?
  • Откъде идват данните?
  • Колко пъти се презареждат данните?
  • Какви трансформации бяха приложени с почистването?

Метаданните могат да бъдат класифицирани в следните категории:

  1. Технически метаданни: Този вид метаданни съдържа информация за хранилището, което се използва от дизайнерите и администраторите на хранилището на данни.
  2. Бизнес мета данни: Този вид метаданни съдържа подробности, които дават на крайните потребители лесен начин за разбиране на информацията, съхранявана в хранилището на данни.

Инструменти за заявки

Един от основните обекти на съхранението на данни е да предоставя информация на бизнеса за вземане на стратегически решения. Инструментите за заявки позволяват на потребителите да взаимодействат със системата за съхранение на данни.

Тези инструменти попадат в четири различни категории:

  1. Инструменти за заявки и отчети
  2. Инструменти за разработка на приложения
  3. Инструменти за извличане на данни
  4. OLAP инструменти

1. Инструменти за заявки и отчети

Инструментите за заявки и отчети могат да бъдат допълнително разделени на

  • Инструменти за отчитане
  • Инструменти за управлявани заявки

Инструменти за отчитане:

Инструменти за отчитане могат допълнително да бъдат разделени на инструменти за отчитане на производството и писател на настолни отчети.

  1. Автори на отчети: Този вид инструменти за докладване са инструменти, предназначени за крайни потребители за техния анализ.
  2. Отчитане на производството: Този вид инструменти позволяват на организациите да генерират редовни оперативни отчети. Той също така поддържа партидни задачи с голям обем, като печат и изчисления. Някои популярни инструменти за отчитане са Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Инструменти за управлявани заявки:

Този вид инструменти за достъп помагат на крайните потребители да разрешават проблеми в базата данни и SQL и структурата на базата данни чрез вмъкване на мета-слой между потребителите и базата данни.

2. Инструменти за разработка на приложения

Понякога вградените графични и аналитични инструменти не задоволяват аналитичните нужди на една организация. В такива случаи персонализираните отчети се разработват с помощта на инструменти за разработка на приложения.

3. Инструменти за извличане на данни

Извличането на данни е процес на откриване на значима нова корелация, модели и тенденции чрез извличане на голямо количество данни. Инструменти за извличане на данни се използват, за да направят този процес автоматичен.

4. OLAP инструменти

Тези инструменти се основават на концепции за многоизмерна база данни. Той позволява на потребителите да анализират данните, използвайки сложни и сложни многоизмерни изгледи.

Шина за съхранение на данни Archiтекстура

Data warehouse Bus определя потока от данни във вашия склад. Потокът от данни в склад за данни може да бъде категоризиран като входящ, възходящ, низходящ, изходящ и метапоток.

При проектирането на шина за данни трябва да се вземат предвид споделените измерения, фактите в борсовете за данни.

Мартове за данни

A данни март е слой за достъп, който се използва за извеждане на данни до потребителите. Представен е като опция за хранилище за данни с голям размер, тъй като изграждането му отнема по-малко време и пари. Въпреки това, няма стандартна дефиниция на база данни, която се различава от човек на човек.

С една проста дума Data mart е дъщерно дружество на хранилище за данни. Data mart се използва за разделяне на данни, които се създават за конкретна група потребители.

Витрините с данни могат да бъдат създадени в същата база данни като Datawarehouse или физически отделна база данни.

Склад за данни ArchiНай-добри практики на tecture

Да проектирам Data Warehouse Architecture, трябва да следвате дадените по-долу най-добри практики:

  • Използвайте модели за съхранение на данни, които са оптимизирани за извличане на информация, което може да бъде дименсионален режим, денормализиран или хибриден подход.
  • Изберете подходящия подход за проектиране като подход отгоре надолу и отдолу нагоре в Data Warehouse
  • Необходимо е да се гарантира, че данните се обработват бързо и точно. В същото време трябва да възприемете подход, който консолидира данните в една единствена версия на истината.
  • Внимателно проектирайте процеса на събиране и почистване на данни за Data warehouse.
  • Проектирайте архитектура на MetaData, която позволява споделяне на метаданни между компонентите на Data Warehouse
  • Помислете за прилагане на ODS модел, когато необходимостта от извличане на информация е близо до дъното на пирамидата за абстракция на данни или когато има множество оперативни източници, които трябва да бъдат достъпени.
  • Трябва да се уверите, че моделът на данните е интегриран, а не просто консолидиран. В такъв случай трябва да обмислите 3NF модел на данни. Също така е идеален за придобиване на ETL и инструменти за почистване на данни

Oбобщение

  • Data warehouse е информационна система, която съдържа исторически и комутативни данни от един или множество източници. Тези източници могат да бъдат традиционни Data Warehouse, Cloud Data Warehouse или Virtual Data Warehouse.
  • Складът за данни е ориентиран към предмета, тъй като предлага информация относно предмета, вместо текущите операции на организацията.
  • В Data Warehouse интеграцията означава установяване на обща мерна единица за всички подобни данни от различните бази данни
  • Хранилището на данни също е енергонезависимо, което означава, че предишните данни не се изтриват, когато в него се въвеждат нови данни.
  • Datawarehouse е времеви вариант, тъй като данните в DW имат дълъг срок на годност.
  • Съществуват основно 5 компонента на Data Warehouse Archiструктура: 1) База данни 2) ETL инструменти 3) Мета данни 4) Инструменти за заявки 5) DataMarts
  • Това са четири основни категории инструменти за заявки: 1. Заявки и отчети, инструменти 2. Инструменти за разработка на приложения, 3. Инструменти за извличане на данни 4. OLAP инструменти
  • Инструментите за източник на данни, трансформация и миграция се използват за извършване на всички преобразувания и обобщения.
  • В Data Warehouse Archiструктура, метаданните играят важна роля, тъй като определят източника, употребата, стойностите и характеристиките на данните от хранилището на данни.