Ce este modelarea dimensională în Data Warehouse? Învață tipuri
Modelare dimensională
Modelare dimensională (DM) este o tehnică de structură a datelor optimizată pentru stocarea datelor într-un depozit de date. Scopul modelării dimensionale este de a optimiza baza de date pentru o recuperare mai rapidă a datelor. Conceptul de modelare dimensională a fost dezvoltat de Ralph Kimball și constă din tabele „de fapte” și „dimensiuni”.
Un model dimensional în depozitul de date este conceput pentru a citi, rezuma, analiza informații numerice precum valori, solduri, numărări, greutăți etc. într-un depozit de date. În schimb, modelele de relații sunt optimizate pentru adăugarea, actualizarea și ștergerea datelor într-un sistem de tranzacții online în timp real.
Aceste modele dimensionale și relaționale au modul lor unic de stocare a datelor care are avantaje specifice.
De exemplu, în modul relațional, modelele de normalizare și ER reduc redundanța datelor. Dimpotrivă, modelul dimensional din depozitul de date aranjează datele în așa fel încât să fie mai ușor să regăsești informații și să generezi rapoarte.
Prin urmare, modelele dimensionale sunt utilizate în sisteme de depozit de date și nu este potrivit pentru sistemele relaționale.
Elemente ale modelului de date dimensionale
Fapt
Faptele sunt măsurătorile/metricele sau faptele din procesul dvs. de afaceri. Pentru un proces de afaceri de vânzări, o măsurătoare ar fi numărul de vânzări trimestrial
Dimensiune
Dimension oferă contextul în jurul unui eveniment de proces de afaceri. În termeni simpli, ele dau cine, ce, unde dintr-un fapt. În procesul de afaceri de vânzări, pentru numărul de vânzări trimestrial, dimensiunile ar fi
- Cine – Numele clienților
- Unde – Locație
- Ce – Numele produsului
Cu alte cuvinte, o dimensiune este o fereastră pentru a vizualiza informații în fapte.
Atribute
Atributele sunt diferitele caracteristici ale dimensiunii în modelarea datelor dimensionale.
În dimensiunea Locație, atributele pot fi
- Stat
- Țară
- Cod poștal etc.
Atributele sunt folosite pentru a căuta, filtra sau clasifica fapte. Tabelele de dimensiuni conțin atribute
Tabel de fapte
Un tabel de fapte este un tabel principal în modelarea dimensiunilor.
Un tabel de fapte conține
- Măsurători/fapte
- Cheie străină pentru tabelul de dimensiuni
Tabel de dimensiuni
- Un tabel de dimensiuni conține dimensiunile unui fapt.
- Ele sunt conectate la tabelul de fapte printr-o cheie străină.
- Tabelele de dimensiuni sunt tabele denormalizate.
- Atributele dimensiunilor sunt diferitele coloane dintr-un tabel de dimensiuni
- Dimensiunile oferă caracteristici descriptive ale faptelor cu ajutorul atributelor acestora
- Nu există o limită stabilită pentru numărul de dimensiuni
- Dimensiunea poate conține și una sau mai multe relații ierarhice
Tipuri de dimensiuni în depozitul de date
Următoarele sunt Tipuri de dimensiuni în depozitul de date:
- Dimensiune conformată
- Dimensiunea stabilizatorului
- Dimensiunea restrânsă
- Dimensiunea jocului de rol
- Tabel de dimensiuni la dimensiuni
- Dimensiunea Junk
- Dimensiunea degenerată
- Dimensiune schimbabilă
- Dimensiunea pasului
Etapele modelării dimensionale
Precizia în crearea modelării dvs. dimensionale determină succesul implementării depozitului dvs. de date. Iată pașii pentru a crea un model de dimensiune
- Identificarea procesului de afaceri
- Identificați cereale (nivel de detaliu)
- Identificați dimensiunile
- Identificarea faptelor
- Construiește Steaua
Modelul ar trebui să descrie de ce, cât, când/unde/cine și ce din procesul dvs. de afaceri
Pasul 1) Identificați procesul de afaceri
Identificarea procesului real de afaceri pe care ar trebui să-l acopere un depozit de date. Acesta ar putea fi marketing, vânzări, resurse umane etc., conform analiza datelor nevoile organizatiei. Selecția procesului de afaceri depinde și de calitatea datelor disponibile pentru acel proces. Este cel mai important pas al procesului de modelare a datelor, iar un eșec aici ar avea defecte în cascadă și ireparabile.
Pentru a descrie procesul de afaceri, puteți folosi text simplu sau utilizați notația de bază pentru modelarea proceselor de afaceri (BPMN) sau limbajul de modelare unificat (UML).
Pasul 2) Identificați boabele
Grainul descrie nivelul de detaliu al problemei/soluției de afaceri. Este procesul de identificare a celui mai scăzut nivel de informații pentru orice tabel din depozitul dvs. de date. Dacă un tabel conține date despre vânzări pentru fiecare zi, atunci ar trebui să fie granularitate zilnică. Dacă un tabel conține date totale de vânzări pentru fiecare lună, atunci are o granularitate lunară.
În această etapă, răspunzi la întrebări precum
- Trebuie să stocăm toate produsele disponibile sau doar câteva tipuri de produse? Această decizie se bazează pe procesele de afaceri selectate pentru Datawarehouse
- Stocăm informațiile despre vânzarea produsului lunar, săptămânal, zilnic sau orar? Această decizie depinde de natura rapoartelor solicitate de directori
- Cum afectează cele două opțiuni de mai sus dimensiunea bazei de date?
Exemplu de cereale:
CEO-ul unui MNC vrea să găsească zilnic vânzările pentru anumite produse în diferite locații.
Deci, cerealele sunt „informații despre vânzarea produselor în funcție de locație, pe zi”.
Pasul 3) Identificați dimensiunile
Dimensiunile sunt substantive precum data, magazinul, inventarul etc. Aceste dimensiuni sunt locul unde trebuie stocate toate datele. De exemplu, parametrul dată poate conține date precum un an, o lună și o zi a săptămânii.
Exemplu de dimensiuni:
CEO-ul unui MNC vrea să găsească zilnic vânzările pentru anumite produse în diferite locații.
Dimensiuni: produs, locație și timp
Atribute: Pentru produs: cheie de produs (cheie străină), nume, tip, specificații
Ierarhii: Pentru Locație: Țară, Stat, Oraș, Adresă, Nume
Pasul 4) Identificați Faptul
Acest pas este co-asociat cu utilizatorii de afaceri ai sistemului, deoarece aici au acces la datele stocate în depozitul de date. Majoritatea rândurilor din tabelul de fapte sunt valori numerice, cum ar fi prețul sau costul pe unitate etc.
Exemplu de fapte:
CEO-ul unui MNC vrea să găsească zilnic vânzările pentru anumite produse în diferite locații.
Faptul aici este Suma vânzărilor pe produs, după locație, în funcție de timp.
Pasul 5) Construiți schema
În acest pas, implementați modelul de dimensiune. O schemă nu este altceva decât structura bazei de date (aranjarea tabelelor). Există două scheme populare
- Schema stelelor
Arhitectura schema stea este ușor de proiectat. Se numește o schemă stea deoarece diagrama seamănă cu o stea, cu puncte care radiază de la un centru. Centrul stelei este format din tabelul de fapte, iar punctele stelei sunt tabelele de dimensiuni.
Tabelele de fapte într-o schemă stea care este a treia formă normală, în timp ce tabelele dimensionale sunt denormalizate.
- Schema fulgilor de nea
Schema fulgului de zăpadă este o extensie a schemei stelare. Într-o schemă fulg de zăpadă, fiecare dimensiune este normalizată și conectată la mai multe tabele de dimensiuni.
Verificați și: - Schema stelelor și fulgilor de zăpadă în depozitul de date cu exemple de model
Reguli pentru modelarea dimensională
Următoarele sunt regulile și principiile modelării dimensionale:
- Încărcați datele atomice în structuri dimensionale.
- Construiți modele dimensionale în jurul proceselor de afaceri.
- Trebuie să vă asigurați că fiecare tabel de fapte are asociat un tabel de dimensiuni date.
- Asigurați-vă că toate faptele dintr-un singur tabel de fapte sunt la aceeași granulă sau nivel de detaliu.
- Este esențial să stocați etichetele rapoartelor și să filtrați valorile domeniului în tabelele cu dimensiuni
- Trebuie să vă asigurați că tabelele de dimensiuni folosesc o cheie surogat
- Echilibrează în mod continuu cerințele și realitățile pentru a oferi soluții de afaceri care să le sprijine luarea deciziilor
Beneficiile modelării dimensionale
- Standardizarea dimensiunilor permite raportarea ușoară în diferite domenii ale afacerii.
- Tabelele de dimensiuni stochează istoricul informațiilor dimensionale.
- Permite introducerea unei dimensiuni complet noi, fără întreruperi majore în tabelul de fapte.
- Dimensional, de asemenea, pentru a stoca date în așa fel încât să fie mai ușor de preluat informațiile din date odată ce datele sunt stocate în baza de date.
- În comparație cu modelul normalizat, tabelul dimensional este mai ușor de înțeles.
- Informațiile sunt grupate în categorii de afaceri clare și simple.
- Modelul dimensional este foarte ușor de înțeles de către business. Acest model se bazează pe termeni de afaceri, astfel încât afacerea să știe ce înseamnă fiecare fapt, dimensiune sau atribut.
- Modelele dimensionale sunt deformate și optimizate pentru interogare rapidă a datelor. Multe platforme de baze de date relaționale recunosc acest model și optimizează planurile de execuție a interogărilor pentru a ajuta la performanță.
- Modelarea dimensională în depozitul de date creează o schemă care este optimizată pentru performanță ridicată. Înseamnă mai puține conexiuni și ajută la minimizarea redundanței datelor.
- Modelul dimensional ajută, de asemenea, la creșterea performanței interogărilor. Este mai denormalizat, prin urmare, este optimizat pentru interogare.
- Modelele dimensionale se pot adapta confortabil la schimbare. Tabelele de dimensiuni pot avea mai multe coloane adăugate fără a afecta aplicațiile de business intelligence existente care utilizează aceste tabele.
Ce este modelul de date multidimensional în depozitul de date?
Model de date multidimensionale în depozitul de date este un model care reprezintă datele sub formă de cuburi de date. Permite modelarea și vizualizarea datelor în mai multe dimensiuni și este definită de dimensiuni și fapte. Modelul de date multidimensional este, în general, clasificat în jurul unei teme centrale și reprezentat printr-un tabel de fapte.
Rezumat
- Un model dimensional este o tehnică de structură a datelor optimizată pentru Instrumente de depozitare a datelor.
- Faptele sunt măsurătorile/metricele sau faptele din procesul dvs. de afaceri.
- Dimension oferă contextul în jurul unui eveniment de proces de afaceri.
- Atributele sunt diferitele caracteristici ale modelării dimensiunilor.
- Un tabel de fapte este un tabel primar într-un model dimensional.
- Un tabel de dimensiuni conține dimensiunile unui fapt.
- Există trei tipuri de fapte 1. Aditiv 2. Neaditiv 3. Semi-aditiv.
- Tipurile de dimensiuni sunt Conformed, Outrigger, Shrunken, Role-playing, Dimension to Dimension Table, Junk, Degenerate, Swappable and Step Dimensions.
- Cinci pași ai modelării dimensionale sunt: 1. Identificarea procesului de afaceri 2. Identificarea granulelor (nivel de detaliu) 3. Identificarea dimensiunilor 4. Identificarea faptelor 5. Construirea unei stele
- Pentru modelarea dimensională în depozitul de date, este necesar să se asigure că fiecare tabel de fapte are asociat un tabel de dimensiuni de dată.