Mi az a dimenziós modellezés az adattárházban? Ismerje meg a típusokat
Dimenziós modellezés
Dimenziós modellezés (DM) egy adatszerkezeti technika, amelyet adattárházban való adattárolásra optimalizáltak. A dimenziós modellezés célja az adatbázis optimalizálása az adatok gyorsabb visszakeresése érdekében. A dimenziós modellezés koncepcióját Ralph Kimball dolgozta ki, és „tény” és „dimenzió” táblázatokból áll.
Az adattárházban lévő dimenziós modellt úgy tervezték, hogy numerikus információkat, például értékeket, egyenlegeket, számokat, súlyokat stb. olvasson, összegezzen és elemezzen egy adattárházban. Ezzel szemben a relációs modellek az adatok hozzáadására, frissítésére és törlésére vannak optimalizálva egy valós idejű online tranzakciós rendszerben.
Ezek a dimenziós és relációs modellek egyedi adattárolási móddal rendelkeznek, amely sajátos előnyökkel jár.
Például a relációs módban a normalizálás és az ER modellek csökkentik az adatok redundanciáját. Éppen ellenkezőleg, a dimenziós modell az adattárházban úgy rendezi el az adatokat, hogy könnyebben lehessen lekérdezni és jelentéseket készíteni.
Ezért a dimenziós modelleket használják adattárház rendszerek és nem illik jól a relációs rendszerekhez.
A dimenziós adatmodell elemei
Tény
A tények az üzleti folyamat mérései/mérőszámai vagy tények. Az értékesítési üzleti folyamatok esetében a mérés negyedéves értékesítési szám lenne
Dimenzió
A dimenzió biztosítja az üzleti folyamat eseményeit körülvevő kontextust. Leegyszerűsítve azt a tényt adják meg, hogy ki, mit, hol. Az értékesítési üzleti folyamatban a negyedéves értékesítési szám esetében a dimenziók lennének
- Ki – Ügyfelek nevei
- Hol – Helyszín
- Mi – Terméknév
Más szóval, a dimenzió egy ablak a tények információinak megtekintéséhez.
Attribútumok
Az attribútumok a dimenzió különböző jellemzői a dimenziós adatmodellezésben.
A Hely dimenzióban az attribútumok lehetnek
- Állami
- Ország
- Irányítószám stb.
Az attribútumok a tények keresésére, szűrésére vagy osztályozására szolgálnak. A dimenziótáblázatok attribútumokat tartalmaznak
Tények táblázat
A ténytábla a dimenziómodellezés elsődleges táblázata.
Egy ténytáblázat tartalmaz
- Mérések/tények
- Idegen kulcs a mérettáblázathoz
Mérettáblázat
- A dimenziótáblázat egy tény dimenzióit tartalmazza.
- Idegen kulccsal kapcsolódnak a ténytáblához.
- A mérettáblázatok denormalizált táblázatok.
- A dimenzióattribútumok a dimenziótáblázat különböző oszlopai
- A Dimensions a tények leíró jellemzőit kínálja tulajdonságaik segítségével
- Nincs beállított határérték megadva a méretek számára
- A dimenzió egy vagy több hierarchikus kapcsolatot is tartalmazhat
Dimenziók típusai az adattárházban
Következik a Dimenziók típusai az adattárházban:
- Megfelelő dimenzió
- Kitámasztó dimenzió
- Zsugorított dimenzió
- Szerepjáték dimenzió
- Méret méret táblázat
- Junk Dimenzió
- Degenerált dimenzió
- Cserélhető méret
- Lépés dimenzió
A dimenziós modellezés lépései
A dimenziós modellezés létrehozásának pontossága határozza meg az adattárház megvalósításának sikerét. Itt vannak a lépések a dimenziómodell létrehozásához
- Az üzleti folyamat azonosítása
- Szemcse azonosítása (részletesség szintje)
- A méretek azonosítása
- Azonosítsa a tényeket
- Csillag építése
A modellnek le kell írnia az üzleti folyamat Miért, Mennyi, Mikor/Hol/Ki és Mit paramétereit
1. lépés) Azonosítsa az üzleti folyamatot
A tényleges üzleti folyamat azonosítása, amelyet egy adattárháznak le kell fednie. Ez lehet marketing, értékesítés, HR stb adatelemzés a szervezet igényeit. Az Üzleti folyamat kiválasztása az adott folyamathoz rendelkezésre álló adatok minőségétől is függ. Ez az adatmodellezési folyamat legfontosabb lépése, és egy itt bekövetkező hiba lépcsőzetes és helyrehozhatatlan hibákkal járna.
Az üzleti folyamat leírásához használhat egyszerű szöveget, vagy használhatja az alapvető üzleti folyamatmodellezési jelölést (BPMN) vagy az egységes modellezési nyelvet (UML).
2. lépés) Azonosítsa a gabonát
A Grain az üzleti probléma/megoldás részletességi szintjét írja le. Ez az adattárházában lévő táblák legalacsonyabb információszintjének azonosításának folyamata. Ha egy táblázat minden nap értékesítési adatait tartalmazza, akkor napi részletességűnek kell lennie. Ha egy táblázat minden hónapra vonatkozóan tartalmazza a teljes értékesítési adatokat, akkor havi részletességgel rendelkezik.
Ebben a szakaszban olyan kérdésekre válaszol, mint pl
- Az összes elérhető terméket kell tárolnunk, vagy csak néhány terméket? Ez a döntés a Datawarehouse számára kiválasztott üzleti folyamatokon alapul
- Havi, heti, napi vagy óránkénti bontásban tároljuk a termékértékesítési információkat? Ez a döntés a vezetők által kért jelentések jellegétől függ
- Hogyan befolyásolja a fenti két választás az adatbázis méretét?
Példa a gabonára:
Az MNC vezérigazgatója napi szinten szeretné megkeresni az egyes termékek értékesítését különböző helyeken.
Tehát a gabona a „termékeladási információk hely szerint napi bontásban”.
3. lépés) Határozza meg a méreteket
A dimenziók olyan főnevek, mint a dátum, bolt, készlet stb. Ezek a dimenziók azok, ahol az összes adatot tárolni kell. Például a dátum dimenzió olyan adatokat tartalmazhat, mint egy év, hónap és hét.
Példa a méretekre:
Az MNC vezérigazgatója napi szinten szeretné megkeresni az egyes termékek értékesítését különböző helyeken.
Méretek: Termék, hely és idő
Attribútumok: Termékhez: Termékkulcs (idegen kulcs), név, típus, specifikációk
Hierarchiák: Helyszínhez: Ország, állam, város, utcanév, név
4. lépés) Azonosítsa a tényt
Ez a lépés a rendszer üzleti felhasználóihoz van társítva, mert itt férnek hozzá az adattárházban tárolt adatokhoz. A ténytáblázat legtöbb sora numerikus érték, például ár vagy egységenkénti költség stb.
Példa tényekre:
Az MNC vezérigazgatója napi szinten szeretné megkeresni az egyes termékek értékesítését különböző helyeken.
A tény itt az értékesítések összege termékenként, idő szerint.
5. lépés) Séma létrehozása
Ebben a lépésben implementálja a Dimenziómodellt. A séma nem más, mint az adatbázis-struktúra (táblázatok elrendezése). Két népszerű séma létezik
- Csillag séma
A csillagséma architektúra könnyen megtervezhető. Azért hívják csillagsémának, mert a diagram egy csillagra hasonlít, amelynek pontjai egy középpontból sugároznak. A csillag középpontja a ténytáblázatból áll, a csillag pontjai pedig a mérettáblázatokból állnak.
A ténytáblázatok egy csillagsémában, amely a harmadik normálforma, míg a mérettáblázatok denormalizáltak.
- Hópehely séma
A hópehelyséma a csillagséma kiterjesztése. A hópehely sémában minden dimenzió normalizálva van, és több dimenziótáblázathoz kapcsolódik.
Ellenőrizze még:- Csillag és hópehely séma az adattárházban modellpéldákkal
A dimenziós modellezés szabályai
A dimenziós modellezés szabályai és alapelvei a következők:
- Az atomi adatok betöltése dimenziós struktúrákba.
- Építsen dimenziós modelleket az üzleti folyamatok köré.
- Gondoskodni kell arról, hogy minden ténytáblázathoz legyen társított dátumdimenziós táblázat.
- Győződjön meg arról, hogy egyetlen ténytáblázatban szereplő összes tény azonos részletezésű vagy részletezettségű.
- Elengedhetetlen, hogy a jelentéscímkéket és a szűrési tartományértékeket dimenziótáblázatokban tárolja
- Biztosítani kell, hogy a mérettáblázatok helyettesítő kulcsot használjanak
- Folyamatosan egyensúlyozza ki a követelményeket és a valóságot, hogy üzleti megoldást nyújtson a döntéshozatal támogatására
A dimenziós modellezés előnyei
- A dimenziók szabványosítása lehetővé teszi az egyszerű jelentéskészítést az üzleti területeken.
- A mérettáblázatok tárolják a méretinformációk történetét.
- Lehetővé teszi teljesen új dimenzió bevezetését a ténytáblázat jelentős megszakítása nélkül.
- Dimenziós az adatok olyan módon történő tárolására is, hogy könnyebben lehessen lekérni az információkat az adatokból, miután az adatokat tárolták az adatbázisban.
- A normalizált modellhez képest a mérettáblázat könnyebben érthető.
- Az információk világos és egyszerű üzleti kategóriákba vannak csoportosítva.
- A dimenziós modell nagyon érthető a vállalkozás számára. Ez a modell üzleti feltételeken alapul, így a vállalkozás tudja, mit jelentenek az egyes tények, dimenziók vagy attribútumok.
- A dimenziós modellek deformáltak és optimalizáltak a gyors adatlekérdezéshez. Sok relációs adatbázis-platform felismeri ezt a modellt, és optimalizálja a lekérdezés-végrehajtási terveket a teljesítmény elősegítése érdekében.
- Az adattárházban végzett dimenziós modellezés egy nagy teljesítményre optimalizált sémát hoz létre. Ez kevesebb csatlakozást jelent, és segít minimalizálni az adatredundanciát.
- A dimenziós modell a lekérdezés teljesítményének növelésében is segít. Denormalizáltabb, ezért lekérdezésre van optimalizálva.
- A dimenziós modellek kényelmesen alkalmazkodnak a változáshoz. A dimenziótáblákhoz több oszlop is hozzáadható anélkül, hogy ez befolyásolná az ezeket a táblákat használó meglévő üzleti intelligencia-alkalmazásokat.
Mi az a többdimenziós adatmodell az adattárházban?
Többdimenziós adatmodell Az adattárház egy olyan modell, amely az adatokat adatkockák formájában ábrázolja. Lehetővé teszi az adatok több dimenzióban való modellezését és megtekintését, és dimenziók és tények határozzák meg. A többdimenziós adatmodellt általában egy központi téma köré csoportosítják, és ténytáblázattal ábrázolják.
Összegzésként
- A dimenziós modell egy adatszerkezeti technika, amelyre optimalizálták Adattárolási eszközök.
- A tények az üzleti folyamat mérései/mérőszámai vagy tények.
- A dimenzió biztosítja az üzleti folyamat eseményeit körülvevő kontextust.
- Az attribútumok a dimenziómodellezés különféle jellemzői.
- A ténytábla a dimenziós modell elsődleges táblája.
- A dimenziótáblázat egy tény dimenzióit tartalmazza.
- Háromféle tény létezik: 1. Additív 2. Nem additív 3. Félig additív.
- A dimenziók típusai: megfelelt, kitámasztó, zsugorított, szerepjáték, dimenziótól méretre táblázat, szemét, degenerált, cserélhető és lépcsős dimenziók.
- A dimenziós modellezés öt lépése: 1. Üzleti folyamat azonosítása 2. Szemcsék azonosítása (részletesség szintje) 3. Dimenziók azonosítása 4. Tények azonosítása 5. Csillag építése
- Az adattárházban történő dimenziós modellezéshez biztosítani kell, hogy minden ténytáblához legyen társított dátumdimenziós tábla.