Co to jest hurtownia danych? Typy, definicja i przykład

Co to jest hurtownia danych?

A Magazyn danych (DW) to proces gromadzenia i zarządzania danymi z różnych źródeł w celu zapewnienia istotnych spostrzeżeń biznesowych. Magazyn danych jest zazwyczaj używany do łączenia i analizowania danych biznesowych z heterogenicznych źródeł. Magazyn danych jest rdzeniem systemu BI, który jest zbudowany do analizy danych i raportowania.

Jest to połączenie technologii i komponentów, które wspomagają strategiczne wykorzystanie danych. Jest to elektroniczne przechowywanie dużej ilości informacji przez firmę, które jest przeznaczone do zapytań i analiz zamiast przetwarzania transakcji. Jest to proces przekształcania danych w informacje i udostępniania ich użytkownikom w odpowiednim czasie, aby dokonać zmiany.

Baza danych wspomagania decyzji (Data Warehouse) jest utrzymywana oddzielnie od operacyjnej bazy danych organizacji. Jednak data warehouse nie jest produktem, ale środowiskiem. Jest to architektoniczna konstrukcja systemu informacyjnego, która zapewnia użytkownikom bieżące i historyczne informacje wspomagające podejmowanie decyzji, do których trudno uzyskać dostęp lub które trudno jest przedstawić w tradycyjnym operacyjnym magazynie danych.

Wielu z Was wie, że wiele baz danych zaprojektowanych przez 3NF dla systemu inwentaryzacji zawiera powiązane ze sobą tabele. Na przykład raport dotyczący bieżących informacji o zasobach może zawierać więcej niż 12 połączonych warunków. Może to szybko spowolnić czas odpowiedzi na zapytanie i raport. Hurtownia danych zapewnia nowy projekt, który może pomóc skrócić czas odpowiedzi i pomóc zwiększyć wydajność zapytań na potrzeby raportów i analiz.

System hurtowni danych znany jest również pod następującą nazwą:

  • System wspomagania decyzji (DSS)
  • System Informacji Wykonawczej
  • System informacji zarządczej
  • Rozwiązanie analityki biznesowej
  • Aplikacja analityczna
  • Hurtownia danych

Magazyn danych

Historia hurtowni danych

Datawarehouse pomaga użytkownikom zrozumieć i zwiększyć wydajność ich organizacji. Potrzeba magazynowania danych ewoluowała, ponieważ systemy komputerowe stawały się bardziej złożone i musiały obsługiwać coraz większą ilość informacji. Jednak Data Warehousing nie jest niczym nowym.

Oto kilka kluczowych wydarzeń w ewolucji hurtowni danych:

  • 1960 — Dartmouth i General Mills we wspólnym projekcie badawczym opracowują terminy wymiary i fakty.
  • 1970 — Nielsen i IRI wprowadzają trójwymiarowe zbiory danych do sprzedaży detalicznej.
  • 1983 — Tera Data Corporation wprowadza system zarządzania bazami danych, zaprojektowany specjalnie do wspomagania decyzji
  • Hurtownie danych rozpoczęły się pod koniec lat 1980 IBM pracownicy Paul Murphy i Barry Devlin opracowali hurtownię danych biznesowych.
  • Jednak prawdziwą koncepcję przedstawił Inmon Bill. Uważany był za ojca hurtowni danych. Pisał na różne tematy dotyczące budowy, użytkowania i konserwacji magazynu i Fabryki Informacji Korporacyjnej.

Jak działa hurtownia danych?

Hurtownia danych działa jako centralne repozytorium, do którego docierają informacje z jednego lub większej liczby źródeł danych. Dane do hurtowni danych napływają z systemu transakcyjnego i innych relacyjnych baz danych.

Dane mogą być:

  1. Zbudowany
  2. Częściowo ustrukturyzowane
  3. Dane nieustrukturyzowane

Dane są przetwarzane, przekształcane i pozyskiwane, dzięki czemu użytkownicy mogą uzyskać dostęp do przetworzonych danych w hurtowni danych za pośrednictwem narzędzi Business Intelligence, klientów SQL i arkuszy kalkulacyjnych. Hurtownia danych łączy informacje pochodzące z różnych źródeł w jedną kompleksową bazę danych.

Łącząc wszystkie te informacje w jednym miejscu, organizacja może bardziej całościowo analizować swoich klientów. Pomaga to mieć pewność, że uwzględniono wszystkie dostępne informacje. Hurtownia danych umożliwia eksplorację danych. Eksploracja danych polega na poszukiwaniu wzorców w danych, które mogą prowadzić do wyższej sprzedaży i zysków.

Rodzaje hurtowni danych

Trzy główne typy hurtowni danych (DWH) to:

1. Hurtownia danych przedsiębiorstwa (EDW):

Enterprise Data Warehouse (EDW) to scentralizowany magazyn. Zapewnia usługę wspomagania decyzji w całym przedsiębiorstwie. Oferuje ujednolicone podejście do organizowania i reprezentowania danych. Daje także możliwość klasyfikacji danych tematycznych i udostępniania według tych podziałów.

2. Operalokalny magazyn danych:

Operacjonalne Data Store, zwane także ODS, to nic innego jak magazyn danych wymagany, gdy ani hurtownia danych, ani systemy OLTP nie wspierają organizacji zgłaszających potrzeby. W ODS hurtownia danych odświeżana jest w czasie rzeczywistym. Dlatego jest powszechnie preferowany do rutynowych czynności, takich jak przechowywanie dokumentacji pracowników.

3. Magazyn danych:

A Data Mart jest podzbiorem hurtowni danych. Jest specjalnie zaprojektowany dla konkretnej branży, takiej jak sprzedaż, finanse, sprzedaż lub finanse. W niezależnym zbiorze danych dane mogą być zbierane bezpośrednio ze źródeł.

Ogólne etapy Hurtowni Danych

Wcześniej organizacje rozpoczęły stosunkowo proste korzystanie z hurtowni danych. Jednak z biegiem czasu zaczęto bardziej wyrafinowane wykorzystanie hurtowni danych.

Poniżej przedstawiono ogólne etapy korzystania z magazynu danych (DWH):

Niekatywne Operacjonalna baza danych:

Na tym etapie dane są po prostu kopiowane z systemu operacyjnego na inny serwer. W ten sposób ładowanie, przetwarzanie i raportowanie skopiowanych danych nie wpływa na wydajność systemu operacyjnego.

Hurtownia danych offline:

Dane w hurtowni danych są regularnie aktualizowane z poziomu Operacjonalna baza danych. Dane w Datawarehouse są mapowane i przekształcane w celu spełnienia celów Datawarehouse.

Hurtownia danych w czasie rzeczywistym:

Na tym etapie magazyny danych są aktualizowane za każdym razem, gdy w bazie danych operacyjnych ma miejsce jakakolwiek transakcja. Na przykład system rezerwacji linii lotniczych lub kolei.

Zintegrowana hurtownia danych:

Na tym etapie Data Warehouse są stale aktualizowane, gdy system operacyjny wykonuje transakcję. Data Warehouse generuje następnie transakcje, które są przekazywane z powrotem do systemu operacyjnego.

Elementy hurtowni danych

Cztery komponenty hurtowni danych to:

Menedżer obciążenia: Menedżer obciążenia jest również nazywany komponentem frontowym. Wykonuje wszystkie operacje związane z ekstrakcją i ładowaniem danych do magazynu. Operacje te obejmują transformacje w celu przygotowania danych do wprowadzenia do magazynu danych.

Kierownik magazynu: Menedżer magazynu wykonuje operacje związane z zarządzaniem danymi w magazynie. Wykonuje operacje takie jak analiza danych w celu zapewnienia spójności, tworzenie indeksów i widoków, generowanie denormalizacji i agregacji, transformacja i scalanie danych źródłowych oraz archiwizacja i wypiekanie danych.

Menedżer zapytań: Menedżer zapytań jest również znany jako komponent zaplecza. Wykonuje wszystkie operacje operacyjne związane z zarządzaniem zapytaniami użytkowników. Operacje tych komponentów magazynu danych to bezpośrednie zapytania do odpowiednich tabel w celu zaplanowania wykonania zapytań.

Narzędzia dostępu dla użytkownika końcowego:

Podzielono je na pięć różnych grup, np. 1. Raportowanie danych 2. Narzędzia do wysyłania zapytań 3. Narzędzia do tworzenia aplikacji 4. Narzędzia EIS, 5. Narzędzia OLAP i narzędzia eksploracji danych.

Komu potrzebna hurtownia danych?

DWH (hurtownia danych) jest potrzebna wszystkim typom użytkowników, takim jak:

  • Decydenci, którzy opierają się na masowej ilości danych
  • Użytkownicy wykorzystujący niestandardowe, złożone procesy w celu uzyskania informacji z wielu źródeł danych.
  • Korzystają z niego także osoby, którym zależy na prostej technologii dostępu do danych
  • Jest to również niezbędne dla osób, które chcą systematycznego podejścia do podejmowania decyzji.
  • Jeśli użytkownikowi zależy na szybkim działaniu na dużej ilości danych, co jest niezbędne w przypadku raportów, tabel czy wykresów, hurtownia danych okaże się przydatna.
  • Hurtownia danych to pierwszy krok, jeśli chcesz odkryć „ukryte wzorce” przepływów i grupowania danych.

Do czego służy hurtownia danych?

Oto najczęstsze sektory, w których wykorzystywana jest hurtownia danych:

Linia lotnicza:

W systemie linii lotniczych wykorzystuje się go do celów operacyjnych, takich jak przydzielanie załóg, analiza rentowności tras, promocje programów lojalnościowych itp.

Bankowość:

Jest szeroko stosowany w sektorze bankowym do efektywnego zarządzania zasobami dostępnymi na biurku. Kilka banków używa go również do badań rynku, analizy wydajności produktu i operacji.

Opieka zdrowotna:

Sektor opieki zdrowotnej korzystał również z hurtowni danych do planowania strategii i przewidywania wyników, generowania raportów leczenia pacjentów, udostępniania danych powiązanym firmom ubezpieczeniowym, usługom pomocy medycznej itp.

Sektor publiczny:

W sektorze publicznym hurtownia danych służy do gromadzenia informacji wywiadowczych. Pomaga agencjom rządowym w prowadzeniu i analizowaniu dokumentacji podatkowej i dokumentacji dotyczącej polityki zdrowotnej dla każdej osoby.

Sektor Inwestycji i Ubezpieczeń:

W tym sektorze magazyny wykorzystuje się przede wszystkim do analizy wzorców danych, trendów konsumenckich i śledzenia zmian na rynku.

Zachowaj łańcuch:

W sieciach handlowych Data warehouse jest szeroko stosowany do dystrybucji i marketingu. Pomaga również śledzić produkty, wzorce zakupów klientów, promocje, a także służy do określania polityki cenowej.

Telekomunikacja:

W tym sektorze magazyn danych jest wykorzystywany do promocji produktów, podejmowania decyzji sprzedażowych i dystrybucyjnych.

Przemysł hotelarski:

Branża ta wykorzystuje usługi magazynowe do projektowania i szacowania kampanii reklamowych i promocyjnych, które mają dotrzeć do klientów w oparciu o ich opinie i wzorce podróży.

Kroki wdrożenia hurtowni danych

Najlepszym sposobem poradzenia sobie z ryzykiem biznesowym związanym z wdrożeniem hurtowni danych jest zastosowanie trójstopniowej strategii opisanej poniżej

  1. Strategia przedsiębiorstwa: Tutaj identyfikujemy techniczne, w tym obecną architekturę i narzędzia. Identyfikujemy również fakty, wymiary i atrybuty. Mapowanie i transformacja danych są również przekazywane.
  2. Dostawa etapowa: Implementacja Datawarehouse powinna być etapowana w oparciu o obszary tematyczne. Powiązane jednostki biznesowe, takie jak rezerwacje i fakturowanie, powinny być najpierw wdrożone, a następnie zintegrowane ze sobą.
  3. Iteracyjne prototypowanie: Zamiast wdrażać podejście oparte na wielkim wybuchu, hurtownię danych należy rozwijać i testować iteracyjnie.

Poniżej znajdują się kluczowe etapy wdrażania hurtowni danych wraz z jej produktami.

Krok Zadania Dostarczane
1 Należy określić zakres projektu Definicji zakresu
2 Trzeba określić potrzeby biznesowe Logiczny model danych
3 określić Operawymagania dotyczące Datastore Operanarodowy model magazynu danych
4 Zdobądź lub rozwijaj narzędzia do ekstrakcji Wyodrębnij narzędzia i oprogramowanie
5 Zdefiniuj wymagania dotyczące danych hurtowni danych Przejściowy model danych
6 Dokumentuj brakujące dane Lista projektów do zrobienia
7 Mapy Operaz lokalnego magazynu danych do hurtowni danych Mapa integracji danych D/W
8 Opracuj projekt bazy danych hurtowni danych Projekt bazy danych D/W
9 Wyodrębnij dane z Operanarodowy magazyn danych Zintegrowane ekstrakty danych D/W
10 Załaduj hurtownię danych Początkowe ładowanie danych
11 Utrzymuj hurtownię danych Bieżący dostęp do danych i późniejsze ładowanie

Najlepsze praktyki wdrażania hurtowni danych

  • Zdecyduj się na plan przetestowania spójności, dokładności i integralności danych.
  • Hurtownia danych musi być dobrze zintegrowana, dobrze zdefiniowana i oznaczona czasem.
  • Projektując Datawarehouse, upewnij się, że korzystasz z odpowiedniego narzędzia, trzymaj się cyklu życia, uważaj na konflikty danych i bądź gotowy na poznanie swoich błędów.
  • Nigdy nie wymieniaj systemów operacyjnych i raportów
  • Nie spędzaj zbyt wiele czasu na wyodrębnianiu, czyszczeniu i ładowaniu danych.
  • Zadbaj o zaangażowanie wszystkich interesariuszy, w tym personelu biznesowego, w proces wdrażania hurtowni danych. Ustal, że hurtownia danych jest projektem wspólnym/zespołowym. Nie chcesz tworzyć hurtowni danych, która nie będzie przydatna dla użytkowników końcowych.
  • Przygotuj plan szkoleń dla użytkowników końcowych.

Dlaczego potrzebujemy hurtowni danych? Zalety wady

Zalety hurtowni danych (DWH):

  • Hurtownia danych umożliwia użytkownikom biznesowym szybki dostęp do krytycznych danych z niektórych źródeł w jednym miejscu.
  • Hurtownia danych dostarcza spójnych informacji na temat różnych działań interdyscyplinarnych. Obsługuje także raportowanie i zapytania ad hoc.
  • Hurtownia danych pomaga integrować wiele źródeł danych w celu zmniejszenia obciążenia systemu produkcyjnego.
  • Hurtownia danych pomaga skrócić całkowity czas realizacji analiz i raportowania.
  • Restrukturyzacja i integracja ułatwiają użytkownikowi korzystanie z raportów i analiz.
  • Hurtownia danych umożliwia użytkownikom dostęp do krytycznych danych z wielu źródeł w jednym miejscu. Dzięki temu oszczędza czas użytkownika związany z pobieraniem danych z wielu źródeł.
  • Hurtownia danych przechowuje dużą ilość danych historycznych. Pomaga to użytkownikom analizować różne okresy i trendy w celu przewidywania przyszłości.

Wady hurtowni danych:

  • Nie jest to idealna opcja w przypadku danych nieustrukturyzowanych.
  • Tworzenie i wdrażanie hurtowni danych to z pewnością zajęcie czasochłonne.
  • Hurtownia danych może stosunkowo szybko stać się przestarzała
  • Trudno jest wprowadzać zmiany w typach i zakresach danych, schemacie źródła danych, indeksach i zapytaniach.
  • Magazyn danych może wydawać się prosty, ale w rzeczywistości jest zbyt skomplikowany dla przeciętnego użytkownika.
  • Pomimo największych wysiłków w zarządzaniu projektami, zakres projektów związanych z hurtownią danych będzie zawsze wzrastał.
  • Czasami użytkownicy magazynu opracują inne reguły biznesowe.
  • Organizacje muszą wydawać dużo swoich zasobów na cele szkoleniowe i wdrożeniowe.

Przyszłość hurtowni danych

  • Zmiana Ograniczenia regulacyjne może ograniczać możliwość łączenia źródeł różnych danych. Te różne źródła mogą obejmować dane nieustrukturyzowane, które są trudne do przechowywania.
  • Jak rozmiar baz danych rośnie, szacunki tego, co stanowi bardzo dużą bazę danych, nadal rosną. Budowanie i prowadzenie systemów magazynów danych, których rozmiar stale rośnie, jest skomplikowane. Dostępne dziś zasoby sprzętowe i programowe nie pozwalają na przechowywanie dużej ilości danych online.
  • Dane multimedialne nie można łatwo manipulować tak jak danymi tekstowymi, podczas gdy informacje tekstowe można odzyskać za pomocą dostępnego obecnie oprogramowania relacyjnego. To mógłby być temat badawczy.

Narzędzia hurtowni danych

Na rynku dostępnych jest wiele narzędzi do hurtowni danych. Oto kilka najbardziej znanych:

1. Logika znaku:

MarkLogic to przydatne rozwiązanie do magazynowania danych, które ułatwia i przyspiesza integrację danych, wykorzystując szereg funkcji przedsiębiorstwa. To narzędzie pomaga wykonywać bardzo złożone operacje wyszukiwania. Może ono wykonywać zapytania dotyczące różnych typów danych, takich jak dokumenty, relacje i metadane.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle jest wiodącą w branży bazą danych. Oferuje szeroki wybór rozwiązań magazynów danych zarówno na miejscu, jak i w chmurze. Pomaga optymalizować doświadczenia klientów poprzez zwiększanie wydajności operacyjnej.

https://www.oracle.com/index.html

3. Amazon CzerwonyShift:

Amazon Redshift to narzędzie Data warehouse. Jest to proste i niedrogie narzędzie do analizy wszystkich typów danych przy użyciu standardowych SQL i istniejących narzędzi BI. Umożliwia również uruchamianie złożonych zapytań na petabajtach ustrukturyzowanych danych, wykorzystując technikę optymalizacji zapytań.

https://aws.amazon.com/redshift/?nc2=h_m1

Oto pełna lista przydatnych Narzędzia hurtowni danych.

KLUCZOWA NAUKA

  • Hurtownia danych (DWH) jest również znana jako hurtownia danych przedsiębiorstwa (EDW).
  • Hurtownię danych definiuje się jako centralne repozytorium, w którym informacje pochodzą z jednego lub większej liczby źródeł danych.
  • Trzy główne typy hurtowni danych to Enterprise Data Warehouse (EDW), Operacjonalnego Data Store i Data Mart.
  • Ogólny stan hurtowni danych to Offline Operacjonalna baza danych, hurtownia danych offline, hurtownia danych w czasie rzeczywistym i zintegrowana hurtownia danych.
  • Cztery główne komponenty Datawarehouse to menedżer obciążenia, menedżer hurtowni, menedżer zapytań i narzędzia dostępu użytkownika końcowego
  • Hurtownia danych jest wykorzystywana w różnych branżach, takich jak linie lotnicze, bankowość, opieka zdrowotna, ubezpieczenia, handel detaliczny itp.
  • Wdrażanie Datawarehosue to strategia 3-elementowa, tj. strategia przedsiębiorstwa, fazowe dostarczanie i iteracyjne prototypowanie.
  • Hurtownia danych umożliwia użytkownikom biznesowym szybki dostęp do krytycznych danych z niektórych źródeł w jednym miejscu.