Co je to Data Warehouse? Typy, definice a příklady
Co je to Data Warehousing?
A Skladování dat (DW) je proces pro shromažďování a správu dat z různých zdrojů s cílem poskytnout smysluplné obchodní poznatky. Datový sklad se obvykle používá k připojení a analýze obchodních dat z heterogenních zdrojů. Datový sklad je jádrem BI systému, který je vytvořen pro analýzu dat a reporting.
Jedná se o směs technologií a komponent, která napomáhá strategickému využití dat. Jedná se o elektronické ukládání velkého množství informací podnikem, které je navrženo pro dotazování a analýzu namísto zpracování transakcí. Jde o proces přeměny dat na informace a jejich včasné zpřístupnění uživatelům, aby se změnil.
Databáze pro podporu rozhodování (Data Warehouse) je udržována odděleně od provozní databáze organizace. Datový sklad však není produkt, ale prostředí. Je to architektonický konstrukt informačního systému, který poskytuje uživatelům aktuální a historické informace pro podporu rozhodování, které jsou obtížně dostupné nebo jsou přítomné v tradičním úložišti provozních dat.
Mnozí víte, že databáze navržená 3NF pro inventární systém má mnoho vzájemně propojených tabulek. Například zpráva o aktuálních informacích o zásobách může obsahovat více než 12 spojených podmínek. To může rychle zpomalit dobu odezvy dotazu a sestavy. Datový sklad poskytuje nový design, který může pomoci zkrátit dobu odezvy a pomáhá zlepšit výkon dotazů pro sestavy a analýzy.
Systém datového skladu je také známý pod tímto názvem:
- Systém podpory rozhodování (DSS)
- Výkonný informační systém
- Manažerský informační systém
- Řešení Business Intelligence
- Analytická aplikace
- Datový sklad
Historie datového skladu
Datawarehouse přináší uživatelům výhody, aby pochopili a zlepšili výkon své organizace. Potřeba skladovat data se vyvíjela s tím, jak se počítačové systémy stávaly složitějšími a potřebovaly zvládat rostoucí množství informací. Datové sklady však nejsou žádnou novinkou.
Zde jsou některé klíčové události ve vývoji Data Warehouse –
- 1960 – Dartmouth a General Mills ve společném výzkumném projektu vyvinuli pojmy dimenze a fakta.
- 1970 – Společnosti Nielsen a IRI zavádějí trh s rozměrovými daty pro maloobchodní prodej.
- 1983 – Společnost Tera Data Corporation představuje systém správy databází, který je speciálně navržen pro podporu rozhodování
- Datové sklady začaly na konci 1980. let, kdy IBM dělník Paul Murphy a Barry Devlin vyvinuli Business Data Warehouse.
- Skutečný koncept však dal Inmon Bill. Byl považován za otce datového skladu. Napsal o různých tématech výstavby, použití a údržby skladu a podnikové informační továrny.
Jak Datawarehouse funguje?
Datový sklad funguje jako centrální úložiště, kam přicházejí informace z jednoho nebo více zdrojů dat. Data proudí do datového skladu z transakčního systému a dalších relačních databází.
Údaje mohou být:
- Strukturované
- Polostrukturované
- Nestrukturovaná data
Data jsou zpracovávána, transformována a přijímána tak, aby uživatelé měli přístup ke zpracovaným datům v Data Warehouse prostřednictvím nástrojů Business Intelligence, klientů SQL a tabulek. Datový sklad spojuje informace pocházející z různých zdrojů do jedné komplexní databáze.
Sloučením všech těchto informací na jednom místě může organizace analyzovat své zákazníky komplexněji. To pomáhá zajistit, aby zvážila všechny dostupné informace. Datové sklady umožňují dolování dat. Data mining hledá vzory v datech, které mohou vést k vyšším tržbám a ziskům.
Typy datových skladů
Tři hlavní typy datových skladů (DWH) jsou:
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) je centralizovaný sklad. Poskytuje služby podpory rozhodování v celém podniku. Nabízí jednotný přístup k organizaci a reprezentaci dat. Poskytuje také možnost klasifikovat data podle předmětu a poskytnout přístup podle těchto rozdělení.
2. Operanárodní úložiště dat:
OperaNárodní úložiště dat, které se také nazývá ODS, není ničím jiným, než úložištěm dat, které je vyžadováno v případě, že systémy datového skladu ani OLTP nepodporují potřeby organizací hlásit. V ODS se datový sklad obnovuje v reálném čase. Proto je široce preferován pro rutinní činnosti, jako je ukládání záznamů o zaměstnancích.
3. Data Mart:
A datový server je podmnožinou datového skladu. Je speciálně navržen pro konkrétní obor podnikání, jako je prodej, finance, prodej nebo finance. V nezávislém datovém trhu lze data shromažďovat přímo ze zdrojů.
Obecné fáze datového skladu
Dříve organizace začaly s relativně jednoduchým používáním datových skladů. Postupem času však začalo sofistikovanější využívání datových skladů.
Následují obecné fáze použití datového skladu (DWH):
Offline Operanárodní databáze:
V této fázi jsou data pouze zkopírována z operačního systému na jiný server. Tímto způsobem načítání, zpracování a hlášení zkopírovaných dat neovlivní výkon operačního systému.
Offline datový sklad:
Data v Datawarehouse jsou pravidelně aktualizována z Operanárodní databáze. Data v Datawarehouse jsou mapována a transformována tak, aby splňovala cíle Datawarehouse.
Datový sklad v reálném čase:
V této fázi jsou datové sklady aktualizovány vždy, když v provozní databázi proběhne jakákoliv transakce. Například letecký nebo železniční rezervační systém.
Integrovaný datový sklad:
V této fázi jsou datové sklady průběžně aktualizovány, když operační systém provádí transakci. Datový sklad pak generuje transakce, které jsou předány zpět do operačního systému.
Komponenty datového skladu
Čtyři součásti datových skladů jsou:
Správce zatížení: Správce zatížení se také nazývá přední komponenta. Provádí všechny operace spojené s vytěžováním a načítáním dat do skladu. Tyto operace zahrnují transformace pro přípravu dat pro vstup do datového skladu.
Manažer skladu: Správce skladu provádí operace spojené se správou dat ve skladu. Provádí operace, jako je analýza dat pro zajištění konzistence, vytváření indexů a pohledů, generování denormalizace a agregací, transformace a slučování zdrojových dat a archivace a pečení dat.
Správce dotazů: Správce dotazů je také známý jako backend komponenta. Provádí všechny operace související se správou uživatelských dotazů. Operace těchto komponent datového skladu jsou přímé dotazy do příslušných tabulek pro plánování provádění dotazů.
Nástroje pro přístup koncových uživatelů:
To je kategorizováno do pěti různých skupin jako 1. Vykazování dat 2. Dotazovací nástroje 3. Nástroje pro vývoj aplikací 4. Nástroje EIS, 5. Nástroje OLAP a nástroje pro dolování dat.
Kdo potřebuje datový sklad?
DWH (Datový sklad) je potřeba pro všechny typy uživatelů, jako jsou:
- Tvůrci rozhodnutí, kteří se spoléhají na velké množství dat
- Uživatelé, kteří používají přizpůsobené složité procesy k získávání informací z více zdrojů dat.
- Používají ho také lidé, kteří chtějí jednoduchou technologii pro přístup k datům
- Je také nezbytné pro lidi, kteří chtějí systematický přístup k rozhodování.
- Pokud chce uživatel rychlý výkon na obrovském množství dat, což je nutností pro sestavy, mřížky nebo grafy, pak se Datový sklad osvědčuje.
- Datový sklad je prvním krokem, pokud chcete objevit „skryté vzorce“ datových toků a seskupení.
K čemu slouží datový sklad?
Zde jsou nejčastější sektory, kde se datový sklad používá:
Letecká linka:
V systému Airline se používá pro provozní účely, jako je přidělení posádky, analýzy ziskovosti trasy, propagace věrnostních programů atd.
Bankovnictví:
Je široce používán v bankovním sektoru k efektivnímu řízení zdrojů dostupných na stole. Málokterá banka využívá také pro průzkum trhu, analýzu výkonnosti produktu a operace.
Zdravotní péče:
Zdravotní sektor také používal datový sklad ke strategii a předpovídání výsledků, generování zpráv o léčbě pacientů, sdílení dat s pojišťovnami, službami lékařské pomoci atd.
Veřejný sektor:
Ve veřejném sektoru se datový sklad používá pro shromažďování zpravodajských informací. Pomáhá vládním agenturám udržovat a analyzovat daňové záznamy, záznamy o zdravotní politice pro každého jednotlivce.
Investice a pojišťovnictví:
V tomto sektoru se sklady primárně používají k analýze datových vzorců, zákaznických trendů a ke sledování pohybů trhu.
Zadržovací řetěz:
V obchodních řetězcích je Datový sklad hojně využíván pro distribuci a marketing. Pomáhá také sledovat položky, nákupní vzor zákazníků, propagační akce a také se používá pro stanovení cenové politiky.
Telekomunikace:
Datový sklad se v tomto sektoru používá pro propagaci produktů, rozhodování o prodeji a rozhodování o distribuci.
Pohostinství:
Toto odvětví využívá skladové služby k navrhování a odhadu svých reklamních a propagačních kampaní, kde chtějí cílit na klienty na základě jejich zpětné vazby a vzorců cestování.
Kroky k implementaci datového skladu
Nejlepším způsobem, jak se vypořádat s obchodním rizikem spojeným s implementací Datawarehouse, je použít tříbodovou strategii, jak je uvedeno níže
- Podniková strategie: Zde identifikujeme technické včetně současné architektury a nástrojů. Identifikujeme také fakta, dimenze a atributy. Prochází se také mapování a transformace dat.
- Fázované dodání: Implementace datového skladu by měla být rozfázována na základě tematických oblastí. Související obchodní subjekty, jako je rezervace a fakturace, by měly být nejprve implementovány a poté vzájemně integrovány.
- Iterativní prototypování: Spíše než přístup velkého třesku k implementaci by měl být Datawarehouse vyvíjen a testován iterativně.
Zde jsou klíčové kroky v implementaci Datawarehouse spolu s jeho výstupy.
Krok | Úkoly | Dodávky |
---|---|---|
1 | Je třeba definovat rozsah projektu | Definice rozsahu |
2 | Je třeba určit obchodní potřeby | Logický datový model |
3 | Definovat Operanárodní požadavky na úložiště dat | Operamodel národního úložiště dat |
4 | Získejte nebo vyvíjejte extrakční nástroje | Extrahovat nástroje a software |
5 | Definujte požadavky na data datového skladu | Přechodový datový model |
6 | V dokumentu chybí data | Seznam úkolů |
7 | Mapy Operaz národního úložiště dat do datového skladu | Mapa integrace D/W dat |
8 | Vyvinout návrh databáze datového skladu | Návrh D/W databáze |
9 | Extrahovat data z Operanárodní úložiště dat | Integrované D/W datové extrakty |
10 | Načíst datový sklad | Počáteční načtení dat |
11 | Udržujte datový sklad | Průběžný přístup k datům a následné načítání |
Doporučené postupy pro implementaci datového skladu
- Rozhodněte se o plánu testování konzistence, přesnosti a integrity dat.
- Datový sklad musí být dobře integrovaný, dobře definovaný a opatřený časovým razítkem.
- Při navrhování datového skladu se ujistěte, že používáte správný nástroj, držte se životního cyklu, postarejte se o konflikty dat a buďte připraveni se naučit, že děláte své chyby.
- Nikdy nenahrazujte operační systémy a sestavy
- Neztrácejte příliš mnoho času extrahováním, čištěním a načítáním dat.
- Zajistěte zapojení všech zúčastněných stran včetně obchodního personálu do procesu implementace Datawarehouse. Zjistěte, že datové sklady jsou společným/týmovým projektem. Nechcete vytvářet datový sklad, který není užitečný pro koncové uživatele.
- Připravte tréninkový plán pro koncové uživatele.
Proč potřebujeme datový sklad? Výhody nevýhody
Výhody datového skladu (DWH):
- Datový sklad umožňuje podnikovým uživatelům rychlý přístup k důležitým datům z některých zdrojů na jednom místě.
- Datový sklad poskytuje konzistentní informace o různých mezifunkčních aktivitách. Podporuje také ad-hoc hlášení a dotazy.
- Data Warehouse pomáhá integrovat mnoho zdrojů dat, aby se snížilo zatížení produkčního systému.
- Datový sklad pomáhá zkrátit celkovou dobu zpracování analýzy a sestavování.
- Restrukturalizace a integrace usnadňují uživateli použití pro vytváření sestav a analýzy.
- Datový sklad umožňuje uživatelům přístup k důležitým datům z mnoha zdrojů na jednom místě. Proto šetří čas uživatele při získávání dat z více zdrojů.
- Datový sklad uchovává velké množství historických dat. To pomáhá uživatelům analyzovat různá časová období a trendy, aby mohli předpovídat budoucnost.
Nevýhody datového skladu:
- Není to ideální volba pro nestrukturovaná data.
- Tvorba a implementace datového skladu je jistě časově matoucí záležitost.
- Datový sklad může být poměrně rychle zastaralý
- Je obtížné provádět změny v datových typech a rozsazích, schématu zdroje dat, indexech a dotazech.
- Datový sklad se může zdát jednoduchý, ale ve skutečnosti je pro běžné uživatele příliš složitý.
- Navzdory maximálnímu úsilí při řízení projektu se rozsah projektu datového skladu bude vždy zvyšovat.
- Uživatelé skladu někdy vyvinou jiná obchodní pravidla.
- Organizace musí utratit spoustu svých zdrojů na školení a účely implementace.
Budoucnost datových skladů
- Změna v Regulační omezení může omezit schopnost kombinovat zdroje nesourodých dat. Tyto různorodé zdroje mohou zahrnovat nestrukturovaná data, která se obtížně ukládají.
- Vzhledem k tomu, velikost databází roste, odhady toho, co tvoří velmi rozsáhlou databázi, stále rostou. Je složité budovat a provozovat systémy datových skladů, jejichž velikost neustále narůstá. Hardwarové a softwarové prostředky, které jsou dnes k dispozici, neumožňují udržovat velké množství dat online.
- Multimediální data nelze snadno manipulovat jako s textovými daty, zatímco textové informace lze získat pomocí relačního softwaru, který je dnes k dispozici. To by mohl být předmět výzkumu.
Nástroje datového skladu
Na trhu je k dispozici mnoho nástrojů pro datové sklady. Zde jsou některé z nejvýznamnějších:
1. MarkLogic:
MarkLogic je užitečné řešení pro datové sklady, které usnadňuje a urychluje integraci dat pomocí řady podnikových funkcí. Tento nástroj pomáhá provádět velmi složité vyhledávací operace. Může se dotazovat na různé typy dat, jako jsou dokumenty, vztahy a metadata.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle je špičková databáze. Nabízí širokou škálu řešení datových skladů jak pro místní, tak pro cloud. Pomáhá optimalizovat zákaznickou zkušenost zvýšením provozní efektivity.
https://www.oracle.com/index.html
3. Amazon červenáShift:
Amazon Redshift je nástroj datového skladu. Je to jednoduchý a cenově výhodný nástroj pro analýzu všech typů dat pomocí standardu SQL a stávající nástroje BI. Umožňuje také spouštění složitých dotazů proti petabajtům strukturovaných dat pomocí techniky optimalizace dotazů.
https://aws.amazon.com/redshift/?nc2=h_m1
Zde je kompletní seznam užitečných Nástroje pro datové sklady.
KLÍČOVÉ UČENÍ
- Datový sklad (DWH) je také známý jako podnikový datový sklad (EDW).
- Datový sklad je definován jako centrální úložiště, kde informace pocházejí z jednoho nebo více zdrojů dat.
- Tři hlavní typy datových skladů jsou Enterprise Data Warehouse (EDW), Operanárodní úložiště dat a Data Mart.
- Obecný stav datového skladu je Offline Operanárodní databáze, offline datový sklad, datový sklad v reálném čase a integrovaný datový sklad.
- Čtyři hlavní součásti Datawarehouse jsou Load manager, Warehouse Manager, Query Manager, nástroje pro přístup koncových uživatelů
- Datawarehouse se používá v různých odvětvích, jako je letecká společnost, bankovnictví, zdravotnictví, pojišťovnictví, maloobchod atd.
- Implementace Datawarehosue je tříbodová strategie viz. Podniková strategie, postupné doručování a iterativní prototypování.
- Datový sklad umožňuje podnikovým uživatelům rychlý přístup k důležitým datům z některých zdrojů na jednom místě.