Co je rozměrové modelování v datovém skladu? Naučte se typy
Rozměrové modelování
Rozměrové modelování (DM) je technika datové struktury optimalizovaná pro ukládání dat v datovém skladu. Účelem rozměrového modelování je optimalizace databáze pro rychlejší získávání dat. Koncept dimenzionálního modelování vyvinul Ralph Kimball a skládá se z tabulek „fakt“ a „rozměry“.
Dimenzionální model v datovém skladu je navržen tak, aby četl, sumarizoval a analyzoval číselné informace, jako jsou hodnoty, zůstatky, počty, hmotnosti atd. v datovém skladu. Naproti tomu relační modely jsou optimalizovány pro přidávání, aktualizaci a mazání dat v online transakčním systému v reálném čase.
Tyto dimenzionální a relační modely mají svůj jedinečný způsob ukládání dat, který má specifické výhody.
Například v relačním režimu normalizace a modely ER snižují redundanci v datech. Naopak, dimenzionální model v datovém skladu uspořádává data tak, aby bylo snazší získávat informace a generovat sestavy.
Proto se používají rozměrové modely systémy datových skladů a nehodí se pro relační systémy.
Prvky dimenzionálního datového modelu
Skutečnost
Fakta jsou měření/metriky nebo fakta z vašeho obchodního procesu. Pro obchodní proces prodeje by měřením bylo čtvrtletní číslo prodeje
Dimenze
Dimension poskytuje kontext obklopující událost obchodního procesu. Jednoduše řečeno, uvádějí, kdo, co, kde o skutečnosti. V obchodním procesu prodeje by pro čtvrtletní číslo prodeje byly dimenze
- Kdo – jména zákazníků
- Kde – Místo
- Co – Název produktu
Jinými slovy, dimenze je okno pro zobrazení informací ve faktech.
Atributy
Atributy jsou různé charakteristiky dimenze v modelování dimenzionálních dat.
V dimenzi Umístění mohou být atributy
- Stát
- Země
- PSČ atd.
Atributy se používají k vyhledávání, filtrování nebo klasifikaci faktů. Tabulky dimenzí obsahují atributy
Tabulka faktů
Tabulka faktů je primární tabulkou v modelování dimenzí.
Tabulka faktů obsahuje
- Měření/fakta
- Cizí klíč k tabulce rozměrů
Tabulka rozměrů
- Tabulka rozměrů obsahuje rozměry skutečnosti.
- Jsou připojeny k tabulce faktů pomocí cizího klíče.
- Tabulky dimenzí jsou denormalizované tabulky.
- Atributy dimenze jsou různé sloupce v tabulce dimenzí
- Dimenze nabízí popisné charakteristiky faktů pomocí jejich atributů
- Pro daný počet rozměrů není nastaven žádný limit
- Dimenze může také obsahovat jeden nebo více hierarchických vztahů
Typy dimenzí v datovém skladu
Následující jsou Typy dimenzí v datovém skladu:
- Přizpůsobený rozměr
- Rozměr výložníku
- Zmenšený rozměr
- Dimenze hraní rolí
- Dimension to Dimension Table
- Nevyžádaná dimenze
- Degenerovaná dimenze
- Vyměnitelný rozměr
- Krok Dimenze
Kroky rozměrového modelování
Přesnost při vytváření vašeho rozměrového modelování určuje úspěch implementace vašeho datového skladu. Zde jsou kroky k vytvoření kótovacího modelu
- Identifikujte obchodní proces
- Identifikujte zrno (úroveň podrobností)
- Identifikujte rozměry
- Identifikujte fakta
- Sestavte hvězdu
Model by měl popisovat proč, kolik, kdy/kde/kdo a co vašeho obchodního procesu
Krok 1) Identifikujte obchodní proces
Identifikace skutečného obchodního procesu, který by měl datarehouse pokrývat. To by mohlo být marketing, prodej, HR atd. podle analýza dat potřeby organizace. Výběr obchodního procesu také závisí na kvalitě dat dostupných pro tento proces. Je to nejdůležitější krok procesu datového modelování a selhání by zde mělo kaskádové a neopravitelné vady.
K popisu obchodního procesu můžete použít prostý text nebo použít základní notaci modelování obchodních procesů (BPMN) nebo Unified Modeling Language (UML).
Krok 2) Identifikujte zrno
Zrno popisuje úroveň podrobností pro obchodní problém/řešení. Je to proces identifikace nejnižší úrovně informací pro jakoukoli tabulku ve vašem datovém skladu. Pokud tabulka obsahuje údaje o prodeji za každý den, pak by měla být denní granularita. Pokud tabulka obsahuje údaje o celkovém prodeji za každý měsíc, má měsíční podrobnosti.
Během této fáze odpovídáte na otázky jako
- Potřebujeme skladovat všechny dostupné produkty nebo jen několik druhů produktů? Toto rozhodnutí je založeno na obchodních procesech vybraných pro Datawarehouse
- Ukládáme informace o prodeji produktů na měsíční, týdenní, denní nebo hodinové bázi? Toto rozhodnutí závisí na povaze zpráv požadovaných vedoucími pracovníky
- Jak výše uvedené dvě možnosti ovlivní velikost databáze?
Příklad obilí:
Generální ředitel nadnárodní společnosti chce denně zjišťovat prodeje konkrétních produktů na různých místech.
Zrno je tedy „informace o prodeji produktů podle místa za den“.
Krok 3) Určete rozměry
Dimenze jsou podstatná jména jako datum, sklad, inventář atd. V těchto dimenzích by měla být uložena všechna data. Dimenze data může například obsahovat data jako rok, měsíc a den v týdnu.
Příklad dimenzí:
Generální ředitel nadnárodní společnosti chce denně zjišťovat prodeje konkrétních produktů na různých místech.
Rozměry: Produkt, Místo a Čas
Atributy: Pro produkt: Produktový klíč (cizí klíč), název, typ, specifikace
Hierarchie: Pro umístění: Země, Stát, Město, Ulice, Jméno
Krok 4) Identifikujte skutečnost
Tento krok je spojen s firemními uživateli systému, protože zde získají přístup k datům uloženým v datovém skladu. Většina řádků tabulky faktů jsou číselné hodnoty, jako je cena nebo cena za jednotku atd.
Příklad faktů:
Generální ředitel nadnárodní společnosti chce denně zjišťovat prodeje konkrétních produktů na různých místech.
Faktem je zde součet prodejů podle produktu podle místa a času.
Krok 5) Vytvořte schéma
V tomto kroku implementujete kótovací model. Schéma není nic jiného než struktura databáze (uspořádání tabulek). Existují dvě populární schémata
- Hvězdné schéma
Architektura hvězdného schématu se snadno navrhuje. Říká se tomu hvězdné schéma, protože diagram připomíná hvězdu s body vyzařujícími ze středu. Střed hvězdy tvoří tabulka faktů a body hvězdy jsou tabulky dimenzí.
Tabulky faktů ve hvězdicovém schématu, které je třetí normální formou, zatímco rozměrové tabulky jsou denormalizované.
- Schéma sněhové vločky
Schéma sněhové vločky je rozšířením hvězdného schématu. Ve schématu sněhové vločky jsou všechny dimenze normalizovány a připojeny k více tabulkám dimenzí.
Zkontrolujte také: - Schéma hvězdy a sněhové vločky v datovém skladu s příklady modelů
Pravidla pro rozměrové modelování
Níže jsou uvedena pravidla a principy rozměrového modelování:
- Načtení atomových dat do rozměrových struktur.
- Vytvářejte dimenzionální modely kolem obchodních procesů.
- Je třeba zajistit, aby každá tabulka faktů měla přidruženou tabulku dimenze data.
- Zajistěte, aby všechna fakta v jedné tabulce faktů měla stejnou zrnitost nebo úroveň podrobností.
- Je nezbytné ukládat štítky přehledů a filtrovat hodnoty domén v tabulkách dimenzí
- Je třeba zajistit, aby tabulky dimenzí používaly náhradní klíč
- Průběžně vyvažujte požadavky a realitu, abyste dodali obchodní řešení na podporu jejich rozhodování
Výhody rozměrového modelování
- Standardizace dimenzí umožňuje snadné vykazování napříč oblastmi podnikání.
- Tabulky rozměrů ukládají historii rozměrových informací.
- Umožňuje zavést zcela novou dimenzi bez většího narušení tabulky faktů.
- Dimenzionální také pro ukládání dat takovým způsobem, aby bylo snazší získat informace z dat, jakmile jsou data uložena v databázi.
- Ve srovnání s normalizovaným modelem jsou rozměrové tabulky srozumitelnější.
- Informace jsou seskupeny do přehledných a jednoduchých obchodních kategorií.
- Rozměrový model je pro obchod velmi srozumitelný. Tento model je založen na obchodních podmínkách, takže podnik ví, co která skutečnost, dimenze nebo atribut znamená.
- Rozměrové modely jsou deformovány a optimalizovány pro rychlé dotazování na data. Mnoho platforem relačních databází tento model rozpoznává a optimalizuje plány provádění dotazů tak, aby napomáhaly výkonu.
- Rozměrové modelování v datovém skladu vytváří schéma, které je optimalizováno pro vysoký výkon. Znamená to méně spojení a pomáhá s minimalizací redundance dat.
- Dimenzionální model také pomáhá zvýšit výkon dotazů. Je více denormalizovaný, proto je optimalizován pro dotazování.
- Rozměrové modely se pohodlně přizpůsobí změnám. K tabulkám dimenzí lze přidat více sloupců, aniž by to ovlivnilo existující aplikace business intelligence, které tyto tabulky používají.
Co je vícerozměrný datový model v datovém skladu?
Vícerozměrný datový model v datovém skladu je model, který představuje data ve formě datových kostek. Umožňuje modelovat a prohlížet data ve více dimenzích a je definována dimenzemi a fakty. Vícerozměrný datový model je obecně kategorizován podle ústředního tématu a reprezentován tabulkou faktů.
Shrnutí
- Dimenzionální model je technika datové struktury optimalizovaná pro Nástroje pro ukládání dat.
- Fakta jsou měření/metriky nebo fakta z vašeho obchodního procesu.
- Dimension poskytuje kontext obklopující událost obchodního procesu.
- Atributy jsou různé charakteristiky modelování rozměrů.
- Tabulka faktů je primární tabulkou v dimenzionálním modelu.
- Tabulka rozměrů obsahuje rozměry skutečnosti.
- Existují tři typy skutečností 1. Aditivní 2. Neaditivní 3. Poloaditivní.
- Typy dimenzí jsou Přizpůsobené, Výložníkové, Smrštěné, Role-playing, Dimension to Dimension Table, Junk, Degenerate, Swappable a Step Dimension.
- Pět kroků rozměrového modelování je 1. Identifikace obchodního procesu 2. Identifikace zrnitosti (úroveň detailů) 3. Identifikace dimenzí 4. Identifikace faktů 5. Sestavení hvězdy
- Pro dimenzionální modelování v datovém skladu je potřeba zajistit, aby každá tabulka faktů měla přidruženou tabulku dimenze data.