Какво е Data Warehouse? Типове, определение и пример

Какво е съхранение на данни?

A Съхранение на данни (DW) е процес за събиране и управление на данни от различни източници, за да се предоставят значими бизнес прозрения. Data warehouse обикновено се използва за свързване и анализ на бизнес данни от разнородни източници. Складът за данни е ядрото на BI системата, която е изградена за анализ на данни и отчитане.

Това е комбинация от технологии и компоненти, които подпомагат стратегическото използване на данни. Това е електронно съхранение на голямо количество информация от бизнес, което е предназначено за заявки и анализи вместо за обработка на транзакции. Това е процес на трансформиране на данните в информация и предоставянето им на потребителите своевременно, за да се направи разлика.

Базата данни за подпомагане на вземането на решения (Data Warehouse) се поддържа отделно от оперативната база данни на организацията. Въпреки това, хранилището на данни не е продукт, а среда. Това е архитектурна конструкция на информационна система, която предоставя на потребителите текуща и историческа информация за подпомагане на вземането на решения, която е трудна за достъп или представена в традиционното оперативно хранилище на данни.

Много от вас знаят, че проектираната от 3NF база данни за система за инвентаризация има много таблици, свързани една с друга. Например отчет за текуща информация за инвентара може да включва повече от 12 свързани условия. Това може бързо да забави времето за отговор на заявката и доклада. Складът на данни предоставя нов дизайн, който може да помогне за намаляване на времето за отговор и спомага за подобряване на производителността на заявките за отчети и анализи.

Системата за съхранение на данни е известна още със следното име:

  • Система за подпомагане на вземането на решения (DSS)
  • Изпълнителна информационна система
  • Информационна система за управление
  • Решение за бизнес разузнаване
  • Аналитично приложение
  • Склад за данни

Съхранение на данни

История на Datawarehouse

Datawarehouse помага на потребителите да разберат и подобрят ефективността на своята организация. Необходимостта от съхраняване на данни се разви, тъй като компютърните системи станаха по-сложни и трябваше да обработват нарастващи количества информация. Въпреки това, Data Warehousing не е нещо ново.

Ето някои ключови събития в еволюцията на Data Warehouse-

  • 1960 г. - Дартмут и Дженерал Милс в съвместен изследователски проект разработват термините измерения и факти.
  • 1970 – Nielsen и IRI въвеждат витрини с размерни данни за продажби на дребно.
  • 1983 - Tera Data Corporation представя система за управление на бази данни, която е специално проектирана за подпомагане на вземането на решения
  • Складирането на данни започна в края на 1980-те години, когато IBM работникът Пол Мърфи и Бари Девлин разработиха Склада за бизнес данни.
  • Истинската концепция обаче е дадена от Inmon Bill. Той беше смятан за баща на хранилището на данни. Той беше писал по различни теми за изграждане, използване и поддръжка на склада и Фабриката за корпоративна информация.

Как работи Datawarehouse?

Data Warehouse работи като централно хранилище, където информацията пристига от един или повече източници на данни. Данните се вливат в хранилище на данни от транзакционната система и други релационни бази данни.

Данните могат да бъдат:

  1. Структуриран
  2. Полуструктуриран
  3. Неструктурирани данни

Данните се обработват, трансформират и поглъщат, така че потребителите да имат достъп до обработените данни в Data Warehouse чрез инструменти за бизнес разузнаване, SQL клиенти и електронни таблици. Складът за данни обединява информация, идваща от различни източници, в една цялостна база данни.

Чрез обединяването на цялата тази информация на едно място, една организация може да анализира своите клиенти по-холистично. Това помага да се гарантира, че е взето предвид цялата налична информация. Съхранението на данни прави възможно извличането на данни. Извличането на данни търси модели в данните, които могат да доведат до по-високи продажби и печалби.

Видове Data Warehouse

Три основни типа Data Warehouses (DWH) са:

1. Enterprise Data Warehouse (EDW):

Enterprise Data Warehouse (EDW) е централизиран склад. Той предоставя услуга за подпомагане на вземането на решения в цялото предприятие. Предлага унифициран подход за организиране и представяне на данни. Той също така предоставя възможност за класифициране на данни според темата и предоставяне на достъп според тези разделения.

2. Operaнационално хранилище на данни:

Operational Data Store, което също се нарича ODS, не е нищо друго освен необходимо хранилище на данни, когато нито Data warehouse, нито OLTP системите поддържат нуждите на организациите за отчитане. В ODS, Data warehouse се обновява в реално време. Следователно, той е широко предпочитан за рутинни дейности като съхраняване на записи на служителите.

3. Data Mart:

A данни март е подмножество от хранилището на данни. Той е специално проектиран за определен бизнес, като продажби, финанси, продажби или финанси. В независима витрина за данни данните могат да се събират директно от източници.

Общи етапи на Data Warehouse

По-рано организациите започнаха сравнително лесно да използват съхранение на данни. С течение на времето обаче започна по-усъвършенствано използване на съхранение на данни.

Следват общи етапи на използване на хранилището на данни (DWH):

Извън линия Operaнационална база данни:

На този етап данните просто се копират от операционна система на друг сървър. По този начин зареждането, обработката и отчитането на копираните данни не оказват влияние върху производителността на операционната система.

Офлайн хранилище за данни:

Данните в Datawarehouse се актуализират редовно от Operaционална база данни. Данните в Datawarehouse се картографират и трансформират, за да изпълнят целите на Datawarehouse.

Data Warehouse в реално време:

На този етап хранилищата за данни се актуализират всеки път, когато се извършва транзакция в оперативната база данни. Например система за резервации на авиокомпания или железопътен транспорт.

Интегрирано хранилище на данни:

На този етап Data Warehouses се актуализират непрекъснато, когато операционната система извършва транзакция. След това Datawarehouse генерира транзакции, които се предават обратно на операционната система.

Компоненти на Data warehouse

Четири компонента на Data Warehouses са:

Мениджър на зареждането: Мениджърът на натоварването се нарича още преден компонент. Той изпълнява всички операции, свързани с извличането и зареждането на данни в склада. Тези операции включват трансформации за подготовка на данните за въвеждане в Data warehouse.

Началник склад: Мениджърът на склада извършва операции, свързани с управлението на данните в склада. Той извършва операции като анализ на данни, за да осигури съгласуваност, създаване на индекси и изгледи, генериране на денормализиране и агрегиране, трансформиране и сливане на изходни данни и архивиране и архивиране на данни.

Мениджър на заявки: Мениджърът на заявки е известен също като бекенд компонент. Той изпълнява всички оперативни операции, свързани с управлението на потребителските заявки. Операциите на тези компоненти на хранилището на данни са директни заявки към съответните таблици за планиране на изпълнението на заявки.

Инструменти за достъп на крайния потребител:

Това е категоризирано в пет различни групи като 1. Отчитане на данни 2. Инструменти за заявки 3. Инструменти за разработка на приложения 4. EIS инструменти, 5. OLAP инструменти и инструменти за извличане на данни.

Кой има нужда от Data warehouse?

DWH (склад за данни) е необходим за всички типове потребители като:

  • Вземащи решения, които разчитат на огромно количество данни
  • Потребители, които използват персонализирани, сложни процеси за получаване на информация от множество източници на данни.
  • Използва се и от хора, които искат проста технология за достъп до данните
  • Също така е от съществено значение за тези хора, които искат систематичен подход за вземане на решения.
  • Ако потребителят иска бърза производителност на огромно количество данни, което е необходимост за отчети, мрежи или диаграми, тогава Data warehouse се оказва полезен.
  • Складът на данни е първата стъпка, ако искате да откриете „скрити модели“ на потоци от данни и групи.

За какво се използва Data Warehouse?

Ето най-често срещаните сектори, в които се използва Data warehouse:

Авиокомпания:

В системата на авиокомпанията се използва за оперативни цели като назначаване на екипаж, анализи на рентабилността на маршрута, промоции на програма за чести пътници и др.

банков:

Той се използва широко в банковия сектор за ефективно управление на наличните ресурси на бюрото. Малко банки също са използвали за проучване на пазара, анализ на ефективността на продукта и операциите.

Здравеопазване:

Секторът на здравеопазването също използва Data warehouse за стратегизиране и прогнозиране на резултатите, генериране на доклади за лечение на пациенти, споделяне на данни със свързани застрахователни компании, услуги за медицинска помощ и др.

Публичен сектор:

В публичния сектор складът за данни се използва за събиране на разузнавателна информация. Той помага на държавните агенции да поддържат и анализират данъчни записи, записи на здравни политики за всеки индивид.

Инвестиционен и застрахователен сектор:

В този сектор складовете се използват предимно за анализиране на модели на данни, клиентски тенденции и за проследяване на движенията на пазара.

Задържане на веригата:

В търговските вериги Data warehouse се използва широко за дистрибуция и маркетинг. Той също така помага за проследяване на артикули, модел на покупка на клиенти, промоции и също така се използва за определяне на ценова политика.

телекомуникации:

В този сектор се използва хранилище за данни за промоции на продукти, решения за продажба и за вземане на решения за разпространение.

Хотелиерска индустрия:

Тази индустрия използва складови услуги, за да проектира, както и да оцени своите рекламни и промоционални кампании, където искат да насочат клиенти въз основа на тяхната обратна връзка и модели на пътуване.

Стъпки за внедряване на Data Warehouse

Най-добрият начин за справяне с бизнес риска, свързан с внедряването на Datawarehouse, е да се използва тристранна стратегия, както е показано по-долу

  1. Стратегия на предприятието: Тук идентифицираме технически, включително текущата архитектура и инструменти. Ние също така идентифицираме факти, измерения и атрибути. Картографирането и трансформирането на данни също се предава.
  2. Поетапна доставка: Внедряването на Datawarehouse трябва да бъде поетапно въз основа на предметни области. Свързани бизнес субекти като резервация и фактуриране трябва първо да бъдат внедрени и след това да бъдат интегрирани един с друг.
  3. Итеративно прототипиране: Вместо подход на голям взрив за внедряване, Datawarehouse трябва да се разработва и тества итеративно.

Ето основните стъпки в внедряването на Datawarehouse заедно с неговите резултати.

Стъпка Задачи Deliverables
1 Необходимо е да се определи обхватът на проекта Определение на обхвата
2 Необходимост от определяне на бизнес нуждите Логически модел на данни
3 Определяне Operaционни изисквания за хранилище на данни Operaционален модел за съхранение на данни
4 Придобийте или разработете инструменти за извличане Инструменти и софтуер за извличане
5 Дефиниране на изискванията за Data Warehouse Data Преходен модел на данни
6 В документа липсват данни Списък на проекти за изпълнение
7 Карти Operaционно хранилище на данни към хранилище на данни D/W карта за интегриране на данни
8 Разработете дизайн на Data Warehouse Database D/W Дизайн на база данни
9 Извличане на данни от Operaнационално хранилище на данни Интегрирани D/W екстракти на данни
10 Заредете Data Warehouse Първоначално зареждане на данни
11 Поддържайте Data Warehouse Текущ достъп до данни и последващи зареждания

Най-добри практики за внедряване на Data Warehouse

  • Решете план за тестване на последователността, точността и целостта на данните.
  • Хранилището на данни трябва да бъде добре интегрирано, добре дефинирано и с времеви печат.
  • Докато проектирате Datawarehouse, уверете се, че използвате правилния инструмент, придържате се към жизнения цикъл, внимавате за конфликтите на данни и сте готови да научите, че вие ​​сте вашите грешки.
  • Никога не подменяйте операционни системи и отчети
  • Не отделяйте твърде много време за извличане, почистване и зареждане на данни.
  • Уверете се, че включвате всички заинтересовани страни, включително бизнес персонала, в процеса на внедряване на Datawarehouse. Установете, че съхранението на данни е съвместен/екипен проект. Не искате да създавате хранилище за данни, което да не е полезно за крайните потребители.
  • Подгответе план за обучение на крайните потребители.

Защо имаме нужда от Data Warehouse? Предимства и недостатъци

Предимства на Data Warehouse (DWH):

  • Складът за данни позволява на бизнес потребителите бърз достъп до критични данни от някои източници на едно място.
  • Хранилището на данни предоставя последователна информация за различни междуфункционални дейности. Той също така поддържа ad hoc докладване и заявка.
  • Data Warehouse помага да се интегрират много източници на данни, за да се намали напрежението върху производствената система.
  • Складът на данни помага да се намали общото време за обработка на анализ и докладване.
  • Преструктурирането и интегрирането улесняват употребата от потребителя за докладване и анализ.
  • Складът на данни позволява на потребителите достъп до критични данни от редица източници на едно място. Следователно спестява време на потребителя за извличане на данни от множество източници.
  • Data warehouse съхранява голямо количество исторически данни. Това помага на потребителите да анализират различни периоди от време и тенденции, за да направят бъдещи прогнози.

Недостатъци на Data Warehouse:

  • Не е идеален вариант за неструктурирани данни.
  • Създаването и внедряването на Data Warehouse със сигурност е объркваща работа.
  • Data Warehouse може да остарее относително бързо
  • Трудно се правят промени в типове данни и диапазони, схема на източник на данни, индекси и заявки.
  • Складът за данни може да изглежда лесен, но всъщност е твърде сложен за обикновените потребители.
  • Въпреки най-добрите усилия за управление на проекти, обхватът на проекта за съхранение на данни винаги ще се увеличава.
  • Понякога потребителите на склада ще разработят различни бизнес правила.
  • Организациите трябва да изразходват много от своите ресурси за обучение и внедряване.

Бъдещето на съхранението на данни

  • Промяна в Регулаторни ограничения може да ограничи възможността за комбиниране на източник на различни данни. Тези различни източници може да включват неструктурирани данни, които трудно се съхраняват.
  • Тъй като размер на базите данни расте, оценките за това какво представлява една много голяма база данни продължават да растат. Сложно е да се изграждат и управляват системи за съхранение на данни, които винаги се увеличават по размер. Наличните днес хардуерни и софтуерни ресурси не позволяват да се поддържа голямо количество данни онлайн.
  • Мултимедийни данни не може лесно да се манипулира като текстови данни, докато текстовата информация може да бъде извлечена от наличния днес релационен софтуер. Това може да бъде обект на изследване.

Инструменти за съхранение на данни

На пазара има много инструменти за съхранение на данни. Ето някои от най-известните:

1. MarkLogic:

MarkLogic е полезно решение за съхранение на данни, което прави интегрирането на данни по-лесно и по-бързо с помощта на набор от корпоративни функции. Този инструмент помага за извършване на много сложни операции за търсене. Може да прави заявки за различни типове данни като документи, връзки и метаданни.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle е водещата в индустрията база данни. Той предлага широка гама от решения за съхранение на данни както на място, така и в облака. Помага за оптимизиране на изживяването на клиентите чрез повишаване на оперативната ефективност.

https://www.oracle.com/index.html

3. Amazon червенShift:

Amazon Redshift е инструмент за съхранение на данни. Това е прост и рентабилен инструмент за анализиране на всички видове данни, използвайки стандарт SQL и съществуващи BI инструменти. Той също така позволява изпълнение на сложни заявки срещу петабайти структурирани данни, като се използва техниката на оптимизиране на заявките.

https://aws.amazon.com/redshift/?nc2=h_m1

Ето пълен списък с полезни Инструменти за съхранение на данни.

КЛЮЧОВО УЧЕНЕ

  • Data Warehouse (DWH) е известен също като Enterprise Data Warehouse (EDW).
  • Data Warehouse се определя като централно хранилище, където информацията идва от един или повече източници на данни.
  • Три основни типа хранилища за данни са Enterprise Data Warehouse (EDW), Operational Data Store и Data Mart.
  • Общото състояние на хранилището за данни е офлайн Operaционна база данни, офлайн хранилище на данни, хранилище на данни в реално време и интегрирано хранилище на данни.
  • Четири основни компонента на Datawarehouse са Load Manager, Warehouse Manager, Query Manager, инструменти за достъп на крайния потребител
  • Datawarehouse се използва в различни индустрии като авиокомпания, банкиране, здравеопазване, застраховане, търговия на дребно и др.
  • Внедряването на Datawarehosue е стратегия с 3 части, а именно. Корпоративна стратегия, поетапна доставка и итеративно създаване на прототипи.
  • Складът за данни позволява на бизнес потребителите бърз достъп до критични данни от някои източници на едно място.