Što je dimenzionalno modeliranje u skladištu podataka? Naučite vrste
Dimenzionalno modeliranje
Dimenzionalno modeliranje (DM) je tehnika strukture podataka optimizirana za pohranu podataka u skladištu podataka. Svrha dimenzionalnog modeliranja je optimizirati bazu podataka za brže dohvaćanje podataka. Koncept dimenzionalnog modeliranja razvio je Ralph Kimball i sastoji se od tablica "činjenica" i "dimenzija".
Dimenzionalni model u skladištu podataka osmišljen je za čitanje, sažimanje, analizu numeričkih informacija kao što su vrijednosti, stanja, brojevi, težine itd. u skladištu podataka. Nasuprot tome, relacijski modeli optimizirani su za dodavanje, ažuriranje i brisanje podataka u online transakcijskom sustavu u stvarnom vremenu.
Ovi dimenzionalni i relacijski modeli imaju svoj jedinstveni način pohrane podataka koji ima određene prednosti.
Na primjer, u relacijskom načinu rada normalizacija i ER modeli smanjuju redundantnost podataka. Naprotiv, dimenzionalni model u skladištu podataka raspoređuje podatke na takav način da je lakše dohvaćati informacije i generirati izvješća.
Stoga se koriste dimenzionalni modeli sustavi skladišta podataka i nije dobro za relacijske sustave.
Elementi dimenzionalnog podatkovnog modela
Činjenica
Činjenice su mjere/metrike ili činjenice iz vašeg poslovnog procesa. Za poslovni proces prodaje, mjerenje bi bio kvartalni broj prodaje
Dimenzija
Dimenzija pruža kontekst koji okružuje događaj poslovnog procesa. Jednostavno rečeno, oni daju tko, što, gdje od činjenice. U poslovnom procesu Prodaja, za tromjesečni broj prodaje, dimenzije bi bile
- Tko – Imena kupaca
- Gdje – Lokacija
- Što – Naziv proizvoda
Drugim riječima, dimenzija je prozor za pregled informacija u činjenicama.
Značajke
Atributi su različite karakteristike dimenzije u modeliranju dimenzionalnih podataka.
U dimenziji Lokacija, atributi mogu biti
- Država
- Zemlja
- Poštanski broj itd.
Atributi se koriste za pretraživanje, filtriranje ili klasificiranje činjenica. Tablice dimenzija sadrže atribute
Tablica činjenica
Tablica činjenica je primarna tablica u dimenzijskom modeliranju.
Tablica činjenica sadrži
- Mjerenja/činjenice
- Vanjski ključ za dimenzijsku tablicu
Tablica dimenzija
- Tablica dimenzija sadrži dimenzije činjenice.
- Pridruženi su tablici činjenica preko stranog ključa.
- Dimenzijske tablice su denormalizirane tablice.
- Atributi dimenzije su različiti stupci u tablici dimenzija
- Dimenzije nude opisne karakteristike činjenica uz pomoć njihovih atributa
- Nije postavljeno ograničenje za broj dimenzija
- Dimenzija također može sadržavati jedan ili više hijerarhijskih odnosa
Vrste dimenzija u skladištu podataka
Slijede Vrste dimenzija u skladištu podataka:
- Usklađena dimenzija
- Dimenzija potpora
- Shrunken Dimension
- Dimenzija igranja uloga
- Tablica od dimenzija do dimenzija
- Dimenzija smeća
- Degenerirana dimenzija
- Zamjenjiva dimenzija
- Dimenzija koraka
Koraci dimenzionalnog modeliranja
Točnost u stvaranju vašeg dimenzionalnog modeliranja određuje uspjeh vaše implementacije skladišta podataka. Evo koraka za stvaranje modela dimenzija
- Identificirajte poslovni proces
- Identificiraj zrno (razina detalja)
- Prepoznajte dimenzije
- Prepoznajte činjenice
- Gradi zvijezdu
Model bi trebao opisati zašto, koliko, kada/gdje/tko i što vašeg poslovnog procesa
Korak 1) Identificirajte poslovni proces
Identificiranje stvarnog poslovnog procesa koje bi skladište podataka trebalo pokrivati. To može biti marketing, prodaja, HR, itd. prema Analiza podataka potrebama organizacije. Odabir poslovnog procesa također ovisi o kvaliteti podataka dostupnih za taj proces. To je najvažniji korak u procesu modeliranja podataka, a neuspjeh bi ovdje imao kaskadne i nepopravljive nedostatke.
Za opis poslovnog procesa možete koristiti običan tekst ili upotrijebiti osnovnu notaciju modeliranja poslovnih procesa (BPMN) ili Unified Modeling Language (UML).
Korak 2) Identificirajte zrno
Grain opisuje razinu detalja za poslovni problem/rješenje. To je proces identificiranja najniže razine informacija za bilo koju tablicu u vašem skladištu podataka. Ako tablica sadrži podatke o prodaji za svaki dan, tada bi to trebala biti dnevna granularnost. Ako tablica sadrži podatke o ukupnoj prodaji za svaki mjesec, tada ima mjesečnu granularnost.
Tijekom ove faze odgovarate na pitanja poput
- Trebamo li skladištiti sve dostupne proizvode ili samo nekoliko vrsta proizvoda? Ova se odluka temelji na poslovnim procesima odabranim za Datawarehouse
- Pohranjujemo li informacije o prodaji proizvoda na mjesečnoj, tjednoj, dnevnoj ili satnoj osnovi? Ova odluka ovisi o prirodi izvješća koje traže rukovoditelji
- Kako gornja dva izbora utječu na veličinu baze podataka?
Primjer zrna:
Izvršni direktor u MNC-u želi pronaći prodaju za određene proizvode na različitim lokacijama na dnevnoj bazi.
Dakle, zrno je "informacije o prodaji proizvoda po lokaciji po danu."
Korak 3) Odredite dimenzije
Dimenzije su imenice poput datuma, trgovine, inventara, itd. Ove dimenzije su mjesto gdje bi svi podaci trebali biti pohranjeni. Na primjer, dimenzija datuma može sadržavati podatke poput godine, mjeseca i dana u tjednu.
Primjer dimenzija:
Izvršni direktor u MNC-u želi pronaći prodaju za određene proizvode na različitim lokacijama na dnevnoj bazi.
Dimenzije: proizvod, mjesto i vrijeme
Atributi: Za proizvod: ključ proizvoda (strani ključ), naziv, tip, specifikacije
Hijerarhije: Za lokaciju: država, država, grad, adresa, ime
Korak 4) Identificirajte činjenicu
Ovaj korak je povezan s poslovnim korisnicima sustava jer oni ovdje dobivaju pristup podacima pohranjenim u skladištu podataka. Većina redaka tablice činjenica su numeričke vrijednosti poput cijene ili cijene po jedinici itd.
Primjer činjenica:
Izvršni direktor u MNC-u želi pronaći prodaju za određene proizvode na različitim lokacijama na dnevnoj bazi.
Ovdje je činjenica zbroj prodaje po proizvodu po lokaciji po vremenu.
Korak 5) Izradite shemu
U ovom koraku implementirate model dimenzija. Shema nije ništa drugo nego struktura baze podataka (raspored tablica). Postoje dvije popularne sheme
- Shema zvijezda
Arhitekturu zvjezdane sheme jednostavno je dizajnirati. Naziva se zvjezdanom shemom jer dijagram nalikuje zvijezdi s točkama koje zrače iz središta. Središte zvijezde sastoji se od tablice činjenica, a vrhovi zvijezde su tablice dimenzija.
Tablice činjenica u zvjezdastoj shemi koja je treća normalna forma, dok su dimenzionalne tablice denormalizirane.
- Shema snježne pahulje
Shema snježne pahulje proširenje je sheme zvijezde. U shemi snježne pahulje svaka je dimenzija normalizirana i povezana s više tablica dimenzija.
Također provjerite: - Shema zvijezda i pahuljica u skladištu podataka s primjerima modela
Pravila za dimenzionalno modeliranje
Slijede pravila i principi dimenzionalnog modeliranja:
- Učitavanje atomskih podataka u dimenzionalne strukture.
- Izgradite dimenzionalne modele oko poslovnih procesa.
- Potrebno je osigurati da svaka tablica činjenica ima pridruženu tablicu dimenzija datuma.
- Osigurajte da su sve činjenice u jednoj tablici činjenica iste zrnatosti ili razine detalja.
- Neophodno je pohraniti oznake izvješća i vrijednosti domene filtriranja u tablicama dimenzija
- Potrebno je osigurati da tablice dimenzija koriste zamjenski ključ
- Kontinuirano balansirajte zahtjeve i realnost kako biste isporučili poslovno rješenje koje će podržati njihovo donošenje odluka
Prednosti dimenzionalnog modeliranja
- Standardizacija dimenzija omogućuje jednostavno izvješćivanje u svim područjima poslovanja.
- Dimenzijske tablice pohranjuju povijest dimenzijskih informacija.
- Omogućuje uvođenje potpuno nove dimenzije bez većih poremećaja u tablici činjenica.
- Dimenzionalni također za pohranu podataka na takav način da je lakše dohvatiti informacije iz podataka nakon što su podaci pohranjeni u bazi podataka.
- U usporedbi s normaliziranim modelom, tablicu dimenzija lakše je razumjeti.
- Informacije su grupirane u jasne i jednostavne poslovne kategorije.
- Dimenzionalni model vrlo je razumljiv za poslovanje. Ovaj se model temelji na poslovnim uvjetima, tako da tvrtka zna što svaka činjenica, dimenzija ili atribut znači.
- Dimenzionalni modeli su deformalizirani i optimizirani za brzo upite podataka. Mnoge platforme relacijskih baza podataka prepoznaju ovaj model i optimiziraju planove izvršenja upita kako bi pomogle u izvedbi.
- Dimenzionalno modeliranje u skladištu podataka stvara shemu koja je optimizirana za visoke performanse. To znači manje pridruživanja i pomaže kod smanjene redundantnosti podataka.
- Dimenzionalni model također pomaže u poboljšanju izvedbe upita. Više je denormaliziran pa je optimiziran za upite.
- Dimenzionalni modeli mogu udobno primiti promjenu. Dimenzijskim tablicama može se dodati više stupaca bez utjecaja na postojeće aplikacije poslovne inteligencije koje koriste ove tablice.
Što je višedimenzionalni podatkovni model u skladištu podataka?
Višedimenzionalni model podataka in data warehouse je model koji podatke predstavlja u obliku podatkovnih kocki. Omogućuje modeliranje i pregled podataka u više dimenzija, a definiran je dimenzijama i činjenicama. Višedimenzionalni podatkovni model općenito je kategoriziran oko središnje teme i predstavljen tablicom činjenica.
rezime
- Dimenzionalni model je tehnika strukture podataka optimizirana za Alati za skladištenje podataka.
- Činjenice su mjere/metrike ili činjenice iz vašeg poslovnog procesa.
- Dimenzija pruža kontekst koji okružuje događaj poslovnog procesa.
- Atributi su različite karakteristike dimenzijskog modeliranja.
- Tablica činjenica je primarna tablica u dimenzionalnom modelu.
- Tablica dimenzija sadrži dimenzije činjenice.
- Postoje tri vrste činjenica 1. aditivne 2. neaditivne 3. poluaditivne.
- Vrste dimenzija su usklađene, vanjske, skupljene, igranje uloga, dimenzija u tablicu dimenzija, smeće, degenerirane, zamjenjive i stepenaste dimenzije.
- Pet koraka dimenzionalnog modeliranja su 1. Identifikacija poslovnog procesa 2. Identifikacija zrna (razina detalja) 3. Identifikacija dimenzija 4. Identifikacija činjenica 5. Izgradnja zvijezde
- Za dimenzionalno modeliranje u skladištu podataka, potrebno je osigurati da svaka tablica činjenica ima pridruženu tablicu dimenzija datuma.