Hurtownia danych Architecture, komponenty i schemat Concepts
Hurtownia danych Concepts
Podstawową koncepcją hurtowni danych jest udostępnienie firmie jednej wersji prawdy na potrzeby podejmowania decyzji i prognozowania. Hurtownia danych to system informacyjny, który zawiera dane historyczne i zmienne z jednego lub wielu źródeł. Hurtownia danych Concepts uprościć proces raportowania i analiz organizacji.
Charakterystyka hurtowni danych
Hurtownia danych Concepts mają następujące cechy:
- Tematycznie
- Zintegrowany
- Wariant czasowy
- Nielotny
Tematycznie
Magazyn danych jest zorientowany tematycznie, ponieważ oferuje informacje dotyczące tematu zamiast bieżących operacji firm. Tematami tymi mogą być sprzedaż, marketing, dystrybucja itp.
Magazyn danych nigdy nie koncentruje się na bieżących operacjach. Zamiast tego kładzie nacisk na modelowanie i analizę danych dla podejmowania decyzji. Zapewnia także prosty i zwięzły pogląd na konkretny temat poprzez wykluczenie danych, które nie są pomocne w procesie decyzyjnym.
Zintegrowany
W hurtowni danych integracja oznacza ustalenie wspólnej jednostki miary dla wszystkich podobnych danych z różnej bazy danych. Dane muszą być także przechowywane w hurtowni danych w sposób powszechny i powszechnie akceptowalny.
Hurtownię danych tworzy się poprzez integrację danych z różnych źródeł, takich jak komputery mainframe, relacyjne bazy danych, pliki płaskie itp. Ponadto musi zachować spójne konwencje nazewnictwa, formatu i kodowania.
Ta integracja pomaga w efektywnej analizie danych. Należy zapewnić spójność konwencji nazewnictwa, miar atrybutów, struktury kodowania itp. Rozważmy następujący przykład:
W powyższym przykładzie istnieją trzy różne aplikacje oznaczone A, B i C. Informacje przechowywane w tych aplikacjach to Płeć, Data i Saldo. Jednak dane każdej aplikacji są przechowywane w inny sposób.
- W aplikacji Pole płci przechowuje wartości logiczne, takie jak M lub F
- W aplikacji B pole płci jest wartością liczbową,
- W aplikacji C pole płci przechowywane w postaci wartości znakowej.
- To samo dotyczy daty i salda
Jednak po procesie transformacji i czyszczenia wszystkie te dane są przechowywane we wspólnym formacie w pliku Hurtownia danych.
Wariant czasowy
Horyzont czasowy dla magazynu danych jest dość rozległy w porównaniu z systemami operacyjnymi. Dane zebrane w magazynie danych są rozpoznawane z określonym okresem i oferują informacje z historycznego punktu widzenia. Zawierają element czasu, jawnie lub niejawnie.
Jednym z takich miejsc, w którym wariancja czasu wyświetlania danych hurtowni danych jest struktura klucza rekordu. Każdy klucz podstawowy zawarty w DW powinien mieć pośrednio lub jawnie element czasu. Podobnie jak dzień, tydzień, miesiąc itp.
Innym aspektem wariancji czasu jest to, że raz wstawione dane do magazynu nie mogą być aktualizowane ani zmieniane.
Nielotny
Hurtownia danych jest także nieulotna, co oznacza, że poprzednie dane nie są usuwane w momencie wprowadzenia do niej nowych.
Dane są tylko do odczytu i okresowo odświeżane. Pomaga to również analizować dane historyczne i zrozumieć, co i kiedy się wydarzyło. Nie wymaga mechanizmów procesu transakcyjnego, odtwarzania i kontroli współbieżności.
Działania takie jak usuwanie, aktualizowanie i wstawianie, które są wykonywane w środowisku aplikacji operacyjnej, są pomijane w środowisku Data Warehousing. Tylko dwa typy operacji na danych wykonywanych w Data Warehousing są
- Ładowanie danych
- Dostęp do danych
Oto kilka głównych różnic między aplikacją a hurtownią danych
Operaaplikacji | Hurtownia danych |
---|---|
Złożony program musi zostać zakodowany w celu zagwarantowania, że procesy aktualizacji danych zachowają wysoką integralność produktu końcowego. | Tego rodzaju problemy nie występują, ponieważ nie jest wykonywana aktualizacja danych. |
Dane są umieszczane w znormalizowanej formie, aby zapewnić minimalną redundancję. | Dane nie są przechowywane w znormalizowanej formie. |
Technologia potrzebna do obsługi transakcji, odzyskiwania danych, wycofywania i rozwiązywania problemów, gdyż impas jest dość złożony. | Oferuje względną prostotę technologii. |
Hurtownia danych Architektura
Hurtownia danych Architektura jest złożony, ponieważ jest systemem informacyjnym, który zawiera dane historyczne i przemienne z wielu źródeł. Istnieją 3 podejścia do konstruowania warstw Data Warehouse: Single Tier, Two tier i Three tier. Ta 3-warstwowa architektura Data Warehouse jest wyjaśniona poniżej.
Architektura jednowarstwowa
Celem pojedynczej warstwy jest zminimalizowanie ilości przechowywanych danych. Celem jest usunięcie redundancji danych. Ta architektura nie jest często stosowana w praktyce.
Architektura dwuwarstwowa
Architektura dwuwarstwowa jest jedną z warstw Data Warehouse, która oddziela fizycznie dostępne źródła i magazyn danych. Ta architektura nie jest rozszerzalna i nie obsługuje dużej liczby użytkowników końcowych. Ma również problemy z łącznością z powodu ograniczeń sieciowych.
Trójpoziomowa hurtownia danych Architektura
Jest to najczęściej używane Architecture Hurtowni Danych.
Składa się z warstwy górnej, środkowej i dolnej.
- Dolny poziom: Baza danych serwerów Datawarehouse jako dolna warstwa. Zwykle jest to system relacyjnej bazy danych. Dane są czyszczone, przekształcane i ładowane do tej warstwy za pomocą narzędzi zaplecza.
- Środkowy poziom: Środkową warstwę hurtowni danych stanowi serwer OLAP zaimplementowany w modelu ROLAP lub MOLAP. Dla użytkownika ta warstwa aplikacji przedstawia abstrakcyjny widok bazy danych. Warstwa ta pełni także rolę pośrednika pomiędzy użytkownikiem końcowym a bazą danych.
- Najwyższej klasy: Najwyższa warstwa to warstwa klienta front-end. Najwyższy poziom to narzędzia i API, z którymi się łączysz i pobierasz dane z hurtowni danych. Mogą to być narzędzia do zapytań, narzędzia do raportowania, narzędzia do zapytań zarządzanych, narzędzia do analizy i narzędzia do eksploracji danych.
Komponenty hurtowni danych
Dowiemy się o komponentach Datawarehouse i Architecture Hurtowni Danych ze schematem jak pokazano poniżej:
Hurtownia Danych opiera się na serwerze RDBMS będącym centralnym repozytorium informacji otoczonym kilkoma kluczowymi komponentami Hurtowni Danych, aby całe środowisko było funkcjonalne, łatwe w zarządzaniu i dostępne.
Istnieje pięć głównych komponentów hurtowni danych:
Baza danych hurtowni danych
Centralna baza danych jest podstawą środowiska magazynowania danych. Baza ta jest implementowana na RDBMS technologia. Ograniczeniem tego rodzaju implementacji jest jednak fakt, że tradycyjny system RDBMS jest zoptymalizowany pod kątem transakcyjnego przetwarzania baz danych, a nie hurtowni danych. Na przykład zapytania ad hoc, złączenia wielu tabel i agregacje wymagają dużej ilości zasobów i spowalniają wydajność.
Dlatego stosowane są alternatywne podejścia do bazy danych, jak wymieniono poniżej:
- W magazynie danych relacyjne bazy danych są wdrażane równolegle, aby umożliwić skalowalność. Równoległe relacyjne bazy danych umożliwiają również współużytkowaną pamięć lub model „nic wspólnego” w różnych konfiguracjach wieloprocesorowych lub masowo równoległych procesorach.
- Nowe struktury indeksów pozwalają ominąć skanowanie tabel relacyjnych i poprawić szybkość.
- Wykorzystanie wielowymiarowych baz danych (MDDB) w celu przezwyciężenia wszelkich ograniczeń narzuconych przez relacyjne modele hurtowni danych. Przykład: Essbase z Oracle.
Narzędzia do pozyskiwania, przejmowania, oczyszczania i transformacji (ETL)
Narzędzia do pozyskiwania, transformacji i migracji danych służą do wykonywania wszystkich konwersji, podsumowań i wszystkich zmian potrzebnych do przekształcenia danych w ujednolicony format w magazynie danych. Są one również nazywane narzędziami do ekstrakcji, transformacji i ładowania (ETL).
Ich funkcjonalność obejmuje:
- Anonimizuj dane zgodnie z przepisami prawa.
- Eliminowanie niepożądanych danych z baz danych operacyjnych przed załadowaniem do magazynu danych.
- Wyszukaj i zamień popularne nazwy i definicje danych pochodzących z różnych źródeł.
- Obliczanie podsumowań i danych pochodnych
- W przypadku brakujących danych uzupełnij je wartościami domyślnymi.
- Deduplikacja powtarzających się danych pochodzących z wielu źródeł danych.
Te narzędzia wyodrębniania, przekształcania i ładowania mogą generować zadania cron, zadania w tle, Programy w Cobolu, skrypty powłoki itp., które regularnie aktualizują dane w hurtowni danych. Narzędzia te są również pomocne w utrzymaniu metadanych.
Te Narzędzia ETL muszą stawić czoła wyzwaniom związanym z heterogenicznością baz danych i danych.
Metadane
Nazwa Meta Data sugeruje, że jest to hurtownia danych wysokiego poziomu technologicznego Concepts. Jest to jednak dość proste. Metadane to dane o danych, które definiują hurtownię danych. Służy do budowania, utrzymywania i zarządzania hurtownią danych.
W hurtowni danych ArchiW swojej architekturze metadane odgrywają ważną rolę, ponieważ określają źródło, wykorzystanie, wartości i cechy danych hurtowni danych. Określa również, w jaki sposób dane mogą być zmieniane i przetwarzane. Jest ściśle powiązany z hurtownią danych.
Na przykład linia w bazie danych sprzedaży może zawierać:
4030 KJ732 299.90
Są to dane bez znaczenia, dopóki nie skonsultujemy się z Meta, która powie nam, że tak było
- Numer modelu: 4030
- Identyfikator agenta sprzedaży: KJ732
- Łączna kwota sprzedaży 299.90 USD
Dlatego Metadane są niezbędnymi składnikami w przekształcaniu danych w wiedzę.
Metadane pomagają odpowiedzieć na następujące pytania
- Jakie tabele, atrybuty i klucze zawiera hurtownia danych?
- Skąd wzięły się dane?
- Ile razy dane są ładowane ponownie?
- Jakie przemiany zastosowano przy oczyszczaniu?
Metadane można podzielić na następujące kategorie:
- Metadane techniczne: Ten rodzaj metadanych zawiera informacje o hurtowni, z których korzystają projektanci i administratorzy hurtowni danych.
- Metadane biznesowe: Ten rodzaj metadanych zawiera szczegóły, które umożliwiają użytkownikom końcowym łatwe zrozumienie informacji przechowywanych w hurtowni danych.
Narzędzia zapytań
Jednym z głównych celów hurtowni danych jest dostarczanie przedsiębiorstwom informacji umożliwiających im podejmowanie strategicznych decyzji. Narzędzia do wysyłania zapytań umożliwiają użytkownikom interakcję z systemem hurtowni danych.
Narzędzia te dzielą się na cztery różne kategorie:
- Narzędzia do wysyłania zapytań i raportowania
- Narzędzia do tworzenia aplikacji
- Narzędzia do eksploracji danych
- Narzędzia OLAP
1. Narzędzia do zapytań i raportowania
Narzędzia do wysyłania zapytań i raportowania można dalej podzielić na
- Narzędzia do raportowania
- Narzędzia do zarządzania zapytaniami
Narzędzia sprawozdawcze:
Narzędzia do raportowania można dalej podzielić na narzędzia do raportowania produkcji i narzędzia do tworzenia raportów na komputery stacjonarne.
- Twórcy raportów: tego rodzaju narzędzia do raportowania to narzędzia przeznaczone dla użytkowników końcowych w celu przeprowadzania analiz.
- Raportowanie produkcji: Tego rodzaju narzędzia umożliwiają organizacjom generowanie regularnych raportów operacyjnych. Obsługuje również zadania wsadowe o dużej objętości, takie jak drukowanie i obliczanie. Niektóre popularne narzędzia do raportowania to Brio, Business Objects, Oracle, PowerSoft, Instytut SAS.
Narzędzia do zarządzania zapytaniami:
Tego rodzaju narzędzia dostępu pomagają użytkownikom końcowym rozwiązywać problemy w bazie danych, SQL i strukturze bazy danych poprzez wstawienie metawarstwy pomiędzy użytkownikami a bazą danych.
2. Narzędzia do tworzenia aplikacji
Czasami wbudowane narzędzia graficzne i analityczne nie odpowiadają potrzebom analitycznym organizacji. W takich przypadkach niestandardowe raporty są opracowywane przy użyciu narzędzi do tworzenia aplikacji.
3. Narzędzia eksploracji danych
Eksploracja danych to proces odkrywania nowych, znaczących korelacji, wzorców i trendów poprzez eksplorację dużych ilości danych. Narzędzia do eksploracji danych służą do automatyzacji tego procesu.
4. Narzędzia OLAP
Narzędzia te opierają się na koncepcjach wielowymiarowej bazy danych. Umożliwiają użytkownikom analizowanie danych przy użyciu rozbudowanych i złożonych wielowymiarowych widoków.
Magistrala hurtowni danych Architektura
Magistrala hurtowni danych określa przepływ danych w Twojej hurtowni. Przepływ danych w hurtowni danych można podzielić na napływ, przepływ w górę, przepływ w dół, odpływ i metaprzepływ.
Projektując magistralę danych, należy wziąć pod uwagę wspólne wymiary i fakty w zbiorach danych.
Targi danych
A Data Mart to warstwa dostępu służąca do przekazywania danych użytkownikom. Jest przedstawiana jako opcja dla hurtowni danych o dużych rozmiarach, ponieważ jej zbudowanie zajmuje mniej czasu i pieniędzy. Nie ma jednak standardowej definicji hurtowni danych, która różni się w zależności od osoby.
Krótko mówiąc Data mart jest spółką zależną hurtowni danych. Hurtownia danych służy do partycjonowania danych, które tworzone są dla określonej grupy użytkowników.
Zestawienia danych można tworzyć w tej samej bazie danych co hurtownia danych lub w fizycznie oddzielnej bazie danych.
Hurtownia danych ArchiNajlepsze praktyki technologiczne
Projektowanie hurtowni danych Architecture, należy postępować zgodnie z poniższymi najlepszymi praktykami:
- Korzystaj z modeli hurtowni danych zoptymalizowanych pod kątem wyszukiwania informacji, co może odbywać się w trybie wymiarowym, podejściu zdenormalizowanym lub hybrydowym.
- Wybierz odpowiednie podejście do projektowania jako podejście odgórne i oddolne w hurtowni danych
- Należy mieć pewność, że Dane są przetwarzane szybko i dokładnie. Jednocześnie należy przyjąć podejście konsolidujące dane w jedną wersję prawdy.
- Starannie zaprojektuj proces pozyskiwania i oczyszczania danych dla hurtowni danych.
- Zaprojektuj architekturę MetaData, która umożliwia współdzielenie metadanych pomiędzy komponentami Data Warehouse
- Warto rozważyć wdrożenie modelu ODS, gdy potrzeba wyszukiwania informacji znajduje się blisko dolnej części piramidy abstrakcji danych lub gdy wymagany jest dostęp do wielu źródeł operacyjnych.
- Należy upewnić się, że model danych jest zintegrowany, a nie tylko skonsolidowany. W takim przypadku powinieneś rozważyć model danych 3NF. Jest również idealny do pozyskiwania narzędzi ETL i czyszczenia danych
Podsumowanie
- Hurtownia danych to system informacyjny, który zawiera dane historyczne i zmienne pochodzące z jednego lub wielu źródeł. Źródłami tymi mogą być tradycyjna hurtownia danych, chmurowa hurtownia danych lub wirtualna hurtownia danych.
- Magazyn danych jest zorientowany tematycznie, ponieważ oferuje informacje dotyczące danego podmiotu, a nie bieżących operacji organizacji.
- W hurtowni danych integracja oznacza ustalenie wspólnej jednostki miary dla wszystkich podobnych danych z różnych baz danych
- Hurtownia danych jest także nieulotna, co oznacza, że poprzednie dane nie są usuwane w momencie wprowadzenia do niej nowych.
- Hurtownia danych jest zmienna w czasie, ponieważ dane w DW mają długi okres trwałości.
- Hurtownia danych składa się głównie z 5 komponentów Architecture: 1) Baza danych 2) Narzędzia ETL 3) Metadane 4) Narzędzia zapytań 5) DataMarts
- Oto cztery główne kategorie narzędzi do tworzenia zapytań: 1. Narzędzia do tworzenia zapytań i raportowania 2. Narzędzia do tworzenia aplikacji 3. Narzędzia do eksploracji danych 4. Narzędzia OLAP
- Narzędzia do pozyskiwania, transformacji i migracji danych służą do przeprowadzania wszystkich konwersji i podsumowań.
- W hurtowni danych ArchiW swojej architekturze metadane odgrywają ważną rolę, ponieważ określają źródło, wykorzystanie, wartości i cechy danych hurtowni danych.