Datový sklad Architecture, Components & Diagram Concepts

Datový sklad Concepts

Základním konceptem datového skladu je usnadnit společnosti jedinou verzi pravdy pro rozhodování a prognózování. Datový sklad je informační systém, který obsahuje historická a komutativní data z jednoho nebo více zdrojů. Datový sklad Concepts zjednodušit proces podávání zpráv a analýz organizací.

Charakteristika datového skladu

Datový sklad Concepts mají následující vlastnosti:

  • Předmětově orientované
  • Integrovaný
  • Časová varianta
  • Energeticky nezávislé

Předmětově orientované

Datový sklad je předmětově orientovaný, protože nabízí informace týkající se tématu namísto probíhajících operací společností. Těmito subjekty mohou být prodej, marketing, distribuce atd.

Datový sklad se nikdy nezaměřuje na probíhající operace. Místo toho klade důraz na modelování a analýzu dat pro rozhodování. Poskytuje také jednoduchý a výstižný pohled na konkrétní předmět vyloučením údajů, které nejsou užitečné pro podporu rozhodovacího procesu.

Integrovaný

V Data Warehouse integrace znamená vytvoření společné měrné jednotky pro všechna podobná data z odlišné databáze. Data musí být také uložena v Datawarehouse běžným a univerzálně přijatelným způsobem.

Datový sklad je vyvíjen integrací dat z různých zdrojů, jako je sálový počítač, relační databáze, ploché soubory atd. Navíc musí zachovávat konzistentní konvence pojmenování, formát a kódování.

Tato integrace pomáhá při efektivní analýze dat. Musí být zajištěna jednotnost v konvencích pojmenování, opatření atributů, struktuře kódování atd. Zvažte následující příklad:

Charakteristika datového skladu

Ve výše uvedeném příkladu jsou tři různé aplikace označené A, B a C. Informace uložené v těchto aplikacích jsou Pohlaví, Datum a Zůstatek. Data každé aplikace jsou však uložena jiným způsobem.

  • V poli Pohlaví aplikace A jsou uloženy logické hodnoty jako M nebo F
  • V aplikaci B je pole pohlaví číselnou hodnotou,
  • V aplikaci C aplikace je pole pohlaví uloženo ve formě hodnoty znaku.
  • Totéž platí pro Datum a zůstatek

Po procesu transformace a čištění jsou však všechna tato data uložena v běžném formátu v Datový sklad.

Časová varianta

Časový horizont datového skladu je ve srovnání s operačními systémy poměrně rozsáhlý. Data shromážděná v datovém skladu jsou rozpoznána s konkrétním obdobím a nabízí informace z historického hlediska. Obsahuje prvek času, explicitně nebo implicitně.

Jedním z takových míst, kde se časová odchylka zobrazení dat Datawarehouse nachází, je ve struktuře klíče záznamu. Každý primární klíč obsažený v DW by měl mít buď implicitně nebo explicitně prvek času. Jako den, týden, měsíc atd.

Dalším aspektem časové odchylky je, že jakmile jsou data vložena do skladu, nelze je aktualizovat ani měnit.

Energeticky nezávislé

Datový sklad je také energeticky nezávislý, což znamená, že předchozí data nejsou vymazána, když jsou do něj vložena nová data.

Data jsou pouze pro čtení a pravidelně se obnovují. To také pomáhá analyzovat historická data a pochopit, co a kdy se stalo. Nevyžaduje transakční proces, obnovu a kontrolní mechanismy souběžnosti.

Činnosti jako odstranění, aktualizace a vložení, které se provádějí v prostředí provozní aplikace, jsou v prostředí datového skladu vynechány. V datovém skladu jsou prováděny pouze dva typy datových operací

  1. Načítání dat
  2. Přístup k datům

Zde jsou některé hlavní rozdíly mezi aplikací a datovým skladem

Operanárodní aplikace Datový sklad
Složitý program musí být nakódován, aby se zajistilo, že procesy upgradu dat udrží vysokou integritu konečného produktu. K tomuto druhu problémů nedochází, protože se neprovádí aktualizace dat.
Data jsou umístěna v normalizované podobě, aby byla zajištěna minimální redundance. Data se neukládají v normalizované podobě.
Technologie potřebná k podpoře problémů s transakcemi, obnovou dat, vrácením zpět a řešením je poměrně složitá. Nabízí relativní jednoduchost v technologii.

Datový sklad Architecture

Datový sklad Architecture je komplexní, protože jde o informační systém, který obsahuje historická a komutativní data z více zdrojů. Existují 3 přístupy pro vytváření vrstev datového skladu: Single Tier, Two tier a Three tier. Tato 3vrstvá architektura Data Warehouse je vysvětlena níže.

Jednovrstvá architektura

Cílem jedné vrstvy je minimalizovat množství uložených dat. Tímto cílem je odstranit redundanci dat. Tato architektura není v praxi často používána.

Dvouvrstvá architektura

Dvouvrstvá architektura je jednou z vrstev Data Warehouse, která odděluje fyzicky dostupné zdroje a datový sklad. Tato architektura není rozšiřitelná a také nepodporuje velký počet koncových uživatelů. Má také problémy s připojením kvůli omezením sítě.

Třívrstvý datový sklad Architecture

Toto je nejpoužívanější Architecture Data Warehouse.

Skládá se z horní, střední a spodní vrstvy.

  1. Spodní úroveň: Databáze serverů Datawarehouse jako spodní vrstva. Obvykle se jedná o relační databázový systém. Data se čistí, transformují a načítají do této vrstvy pomocí back-endových nástrojů.
  2. Střední úroveň: Střední vrstva v datovém skladu je server OLAP, který je implementován pomocí modelu ROLAP nebo MOLAP. Pro uživatele tato aplikační vrstva představuje abstraktní pohled na databázi. Tato vrstva také funguje jako prostředník mezi koncovým uživatelem a databází.
  3. Nejvyšší úroveň: Nejvyšší vrstva je vrstva front-end klienta. Nejvyšší úrovní jsou nástroje a API, které připojíte a získáte data z datového skladu. Mohou to být nástroje pro dotazy, nástroje pro vytváření sestav, nástroje pro správu dotazů, nástroje pro analýzu a nástroje pro dolování dat.

Komponenty datového skladu

Dozvíme se o komponentách Datawarehouse a Archistruktura datového skladu s diagramem, jak je znázorněno níže:

Datový sklad Architecture
Datový sklad Architecture

Datový sklad je založen na serveru RDBMS, což je centrální úložiště informací, které je obklopeno některými klíčovými komponentami datového skladu, aby bylo celé prostředí funkční, spravovatelné a dostupné.

Existuje hlavně pět komponent datového skladu:

Databáze datového skladu

Centrální databáze je základem prostředí datového skladu. Tato databáze je implementována na RDBMS technika. Tento druh implementace je však omezen skutečností, že tradiční systém RDBMS je optimalizován pro transakční databázové zpracování a nikoli pro datové sklady. Například ad-hoc dotaz, vícetabulkové spojení, agregace jsou náročné na zdroje a zpomalují výkon.

Proto se používají alternativní přístupy k databázi, jak je uvedeno níže -

  • V datovém skladu jsou relační databáze nasazeny paralelně, aby byla umožněna škálovatelnost. Paralelní relační databáze také umožňují model sdílené paměti nebo sdíleného nic na různých víceprocesorových konfiguracích nebo masivně paralelních procesorech.
  • Nové indexové struktury se používají k obejití skenování relačních tabulek a ke zvýšení rychlosti.
  • Použití multidimenzionálních databází (MDDB) k překonání jakýchkoli omezení, která jsou dána kvůli relačním modelům datových skladů. Příklad: Essbase from Oracle.

Nástroje pro získávání, akvizici, čištění a transformaci (ETL)

Nástroje pro získávání, transformaci a migraci dat se používají k provádění všech konverzí, sumarizací a všech změn potřebných k transformaci dat do jednotného formátu v datovém skladu. Nazývají se také nástroje pro extrakci, transformaci a načtení (ETL).

Mezi jejich funkce patří:

  • Anonymizovat data podle regulačních ustanovení.
  • Eliminace nechtěných dat v provozních databázích z načítání do datového skladu.
  • Vyhledávejte a nahrazujte běžné názvy a definice pro data přicházející z různých zdrojů.
  • Výpočet souhrnů a odvozených dat
  • V případě chybějících dat je vyplňte výchozími hodnotami.
  • Deduplikovaná opakovaná data přicházející z více zdrojů dat.

Tyto nástroje Extrahovat, Transformovat a Načíst mohou generovat úlohy cron, úlohy na pozadí, programy Cobol, shell skripty atd., které pravidelně aktualizují data v datovém skladu. Tyto nástroje jsou také užitečné pro údržbu metadat.

Tyto ETL nástroje se musí vypořádat s problémy databáze a heterogenity dat.

Metadata

Název Meta Data naznačuje určité technologické Data Warehousing na vysoké úrovni Concepts. Je to však docela jednoduché. Metadata jsou data o datech, která definují datový sklad. Slouží k budování, údržbě a správě datového skladu.

V datovém skladu ArchiMetadata hrají důležitou roli, protože určují zdroj, použití, hodnoty a vlastnosti dat datového skladu. Také definuje, jak lze data měnit a zpracovávat. Je úzce propojen s datovým skladem.

Řádek v prodejní databázi může například obsahovat:

4030 KJ732 299.90

Toto jsou bezvýznamná data, dokud se neobrátíme na Meta, která nám řekne, že to bylo

  • Číslo modelu: 4030
  • ID obchodního zástupce: KJ732
  • Celková prodejní částka 299.90 $

Metadata jsou proto základními složkami při transformaci dat na znalosti.

Metadata pomáhají odpovědět na následující otázky

  • Jaké tabulky, atributy a klíče datový sklad obsahuje?
  • Odkud data pocházejí?
  • Kolikrát se data znovu načtou?
  • Jaké proměny byly aplikovány při čištění?

Metadata lze rozdělit do následujících kategorií:

  1. Technická metadata: Tento druh metadat obsahuje informace o skladu, které používají návrháři a správci datových skladů.
  2. Obchodní metadata: Tento druh metadat obsahuje podrobnosti, které poskytují koncovým uživatelům způsob, jak snadno porozumět informacím uloženým v datovém skladu.

Dotazovací nástroje

Jedním z primárních cílů datových skladů je poskytovat informace podnikům, aby mohly přijímat strategická rozhodnutí. Dotazovací nástroje umožňují uživatelům interakci se systémem datového skladu.

Tyto nástroje spadají do čtyř různých kategorií:

  1. Dotazovací a reportovací nástroje
  2. Nástroje pro vývoj aplikací
  3. Nástroje pro dolování dat
  4. OLAP nástroje

1. Dotazovací a reportovací nástroje

Dotazovací a reportovací nástroje lze dále rozdělit na

  • Nástroje pro podávání zpráv
  • Spravované dotazovací nástroje

Nástroje pro vytváření přehledů:

Nástroje pro podávání zpráv lze dále rozdělit na nástroje pro vytváření zpráv o produkci a vytváření zpráv pro stolní počítače.

  1. Tvůrci zpráv: Tento druh nástroje pro vytváření zpráv jsou nástroje určené pro koncové uživatele pro jejich analýzu.
  2. Výrobní výkazy: Tento druh nástrojů umožňuje organizacím vytvářet pravidelné provozní výkazy. Podporuje také velkoobjemové dávkové úlohy, jako je tisk a výpočty. Některé populární reportovací nástroje jsou Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Nástroje pro spravované dotazy:

Tento druh přístupových nástrojů pomáhá koncovým uživatelům řešit problémy v databázi a SQL a databázové struktuře vložením metavrstvy mezi uživatele a databázi.

2. Nástroje pro vývoj aplikací

Někdy vestavěné grafické a analytické nástroje nesplňují analytické potřeby organizace. V takových případech jsou vlastní sestavy vyvíjeny pomocí nástrojů pro vývoj aplikací.

3. Nástroje pro dolování dat

Dolování dat je proces objevování nových smysluplných korelací, vzorů a trendů těžením velkého množství dat. Nástroje pro dolování dat se používají k tomu, aby byl tento proces automatický.

4. Nástroje OLAP

Tyto nástroje jsou založeny na konceptech vícerozměrné databáze. Umožňuje uživatelům analyzovat data pomocí propracovaných a komplexních vícerozměrných pohledů.

Datový sklad Bus Architecture

Datový sklad Sběrnice určuje tok dat ve vašem skladu. Datový tok v datovém skladu lze kategorizovat jako Inflow, Upflow, Downflow, Outflow a Meta flow.

Při navrhování datové sběrnice je třeba vzít v úvahu sdílené dimenze, fakta napříč datovými tržišti.

Data Marts

A datový server je přístupová vrstva, která se používá k předávání dat uživatelům. Představuje se jako možnost pro velké datové sklady, protože jeho vybudování zabere méně času a peněz. Neexistuje však žádná standardní definice datového trhu, která se liší člověk od člověka.

Jednoduše řečeno, Data mart je dceřinou společností datového skladu. Datový trh slouží k rozdělení dat, která jsou vytvořena pro konkrétní skupinu uživatelů.

Datové tržiště lze vytvořit ve stejné databázi jako Datawarehouse nebo fyzicky oddělenou databázi.

Datový sklad Archinejlepší praxe

Navrhnout datový sklad Architecture, musíte postupovat podle níže uvedených osvědčených postupů:

  • Používejte modely datových skladů, které jsou optimalizovány pro získávání informací, což může být dimenzionální režim, denormalizovaný nebo hybridní přístup.
  • Vyberte si vhodný přístup k návrhu jako přístup shora dolů a zdola nahoru v Data Warehouse
  • Je třeba zajistit, aby byly údaje zpracovány rychle a přesně. Zároveň byste měli zaujmout přístup, který konsoliduje data do jediné verze pravdy.
  • Pečlivě navrhněte proces získávání a čištění dat pro datový sklad.
  • Navrhněte architekturu MetaData, která umožňuje sdílení metadat mezi komponentami Data Warehouse
  • Zvažte implementaci modelu ODS, když je potřeba vyhledání informací blízko dna pyramidy abstrakce dat nebo když je vyžadován přístup k více provozním zdrojům.
  • Měli bychom se ujistit, že datový model je integrovaný a ne pouze konsolidovaný. V takovém případě byste měli zvážit datový model 3NF. Je také ideální pro pořízení nástrojů pro čištění ETL a dat

Shrnutí

  • Datový sklad je informační systém, který obsahuje historická a komutativní data z jednoho nebo více zdrojů. Těmito zdroji mohou být tradiční datový sklad, cloudový datový sklad nebo virtuální datový sklad.
  • Datový sklad je předmětově orientovaný, protože nabízí informace o předmětu namísto probíhajících operací organizace.
  • V Data Warehouse integrace znamená vytvoření společné měrné jednotky pro všechna podobná data z různých databází
  • Datový sklad je také energeticky nezávislý, což znamená, že předchozí data nejsou vymazána, když jsou do něj vložena nová data.
  • Datový sklad je časově závislý, protože data v DW mají vysokou skladovatelnost.
  • Datového skladu se skládá především z 5 komponent Architecture: 1) Databáze 2) Nástroje ETL 3) Metadata 4) Dotazovací nástroje 5) DataMarts
  • Jedná se o čtyři hlavní kategorie dotazovacích nástrojů 1. Dotazování a vytváření sestav, nástroje 2. Nástroje pro vývoj aplikací, 3. Nástroje pro dolování dat 4. Nástroje OLAP
  • Pro provádění všech konverzí a sumarizací se používají nástroje pro získávání, transformaci a migraci dat.
  • V datovém skladu ArchiMetadata hrají důležitou roli, protože určují zdroj, použití, hodnoty a vlastnosti dat datového skladu.