Hvad er dimensionsmodellering i datavarehus? Lær typer

Dimensionel modellering

Dimensional Modeling (DM) er en datastrukturteknik optimeret til datalagring i et datavarehus. Formålet med dimensionsmodellering er at optimere databasen til hurtigere genfinding af data. Konceptet Dimensional Modeling er udviklet af Ralph Kimball og består af "fakta" og "dimension" tabeller.

En dimensionel model i datavarehus er designet til at læse, opsummere, analysere numerisk information som værdier, balancer, tællinger, vægte osv. i et datavarehus. I modsætning hertil er relationsmodeller optimeret til tilføjelse, opdatering og sletning af data i et online-transaktionssystem i realtid.

Disse dimensionelle og relationelle modeller har deres unikke måde at lagre data på, som har specifikke fordele.

I relationstilstand reducerer normalisering og ER-modeller f.eks. redundans i data. Tværtimod arrangerer dimensionsmodel i datavarehus data på en sådan måde, at det er nemmere at hente information og generere rapporter.

Derfor bruges dimensionsmodeller i data warehouse systemer og passer ikke godt til relationelle systemer.

Elementer af dimensionsdatamodel

Faktum

Fakta er målinger/metrics eller fakta fra din forretningsproces. For en salgsforretningsproces vil en måling være et kvartalsvis salgstal

Dimension

Dimension giver konteksten omkring en forretningsprocesbegivenhed. Enkelt sagt giver de hvem, hvad, hvor af et faktum. I salgs-forretningsprocessen, for det faktum, at kvartalsvise salgstal, ville dimensioner være

  • Hvem – Kundenavne
  • Hvor - Beliggenhed
  • Hvad – Produktnavn

Med andre ord er en dimension et vindue til at se oplysninger i fakta.

Attributter

Attributterne er de forskellige karakteristika for dimensionen i dimensionsdatamodellering.

I dimensionen Placering kan attributterne være

  • Tilstand
  • Land
  • Postnummer osv.

Attributter bruges til at søge, filtrere eller klassificere fakta. Dimensionstabeller indeholder attributter

Faktatabel

En faktatabel er en primær tabel i dimensionsmodellering.

En faktatabel indeholder

  1. Mål/fakta
  2. Fremmednøgle til dimensionstabel

Dimensionstabel

  • En dimensionstabel indeholder dimensioner af et faktum.
  • De er forbundet til faktatabellen via en fremmednøgle.
  • Dimensionstabeller er de-normaliserede tabeller.
  • Dimensionsattributterne er de forskellige kolonner i en dimensionstabel
  • Dimensioner tilbyder beskrivende karakteristika af fakta ved hjælp af deres egenskaber
  • Der er ikke angivet nogen grænse for antal dimensioner
  • Dimensionen kan også indeholde en eller flere hierarkiske relationer

Typer af dimensioner i datavarehus

Følgende er Typer af dimensioner i datavarehus:

  • Afstemt Dimension
  • Udrigger Dimension
  • Krympet Dimension
  • Rollespilsdimension
  • Dimension til dimensionstabel
  • Junk Dimension
  • Degenereret Dimension
  • Udskiftelig dimension
  • Trin dimension

Trin af dimensionsmodellering

Nøjagtigheden i at skabe din dimensionsmodellering bestemmer succesen af ​​din datavarehusimplementering. Her er trinene til at oprette Dimension Model

  1. Identificer forretningsproces
  2. Identificer korn (detaljeringsgrad)
  3. Identificer dimensioner
  4. Identificer fakta
  5. Byg stjerne

Modellen skal beskrive hvorfor, hvor meget, hvornår/hvor/hvem og hvad i din forretningsproces

Trin af dimensionsmodellering

Trin 1) Identificer forretningsprocessen

Identifikation af den faktiske forretningsproces et datalager skal dække. Dette kunne være Marketing, Salg, HR osv. som pr dataanalyse organisationens behov. Valget af Forretningsprocessen afhænger også af kvaliteten af ​​de data, der er tilgængelige for denne proces. Det er det vigtigste trin i datamodelleringsprocessen, og en fejl her ville have kaskadende og uoprettelige defekter.

For at beskrive forretningsprocessen kan du bruge almindelig tekst eller bruge grundlæggende Business Process Modeling Notation (BPMN) eller Unified Modeling Language (UML).

Trin 2) Identificer kornet

Kornet beskriver detaljeringsgraden for forretningsproblemet/løsningen. Det er processen med at identificere det laveste informationsniveau for enhver tabel i dit datavarehus. Hvis en tabel indeholder salgsdata for hver dag, skal det være daglig granularitet. Hvis en tabel indeholder samlede salgsdata for hver måned, har den månedlig granularitet.

I denne fase svarer du på spørgsmål som f.eks

  1. Skal vi opbevare alle de tilgængelige produkter eller kun nogle få typer produkter? Denne beslutning er baseret på de forretningsprocesser, der er valgt til Datawarehouse
  2. Gemmer vi produktsalgsoplysningerne på månedlig, ugentlig, daglig eller timebasis? Denne beslutning afhænger af arten af ​​de rapporter, som lederne anmoder om
  3. Hvordan påvirker de to ovenstående valg databasestørrelsen?

Eksempel på korn:

Den administrerende direktør i en MNC ønsker at finde salget for specifikke produkter forskellige steder på daglig basis.

Så kornet er "information om produktsalg efter lokation pr. dag."

Trin 3) Identificer dimensionerne

Dimensioner er navneord som dato, butik, inventar osv. Disse dimensioner er hvor alle data skal gemmes. For eksempel kan datodimensionen indeholde data som år, måned og ugedag.

Eksempel på dimensioner:

Den administrerende direktør i en MNC ønsker at finde salget for specifikke produkter forskellige steder på daglig basis.

Dimensioner: Produkt, Sted og Tid

Attributter: For produkt: Produktnøgle (fremmednøgle), navn, type, specifikationer

Hierarkier: For sted: Land, stat, by, gade, navn

Trin 4) Identificer kendsgerningen

Dette trin er co-associeret med systemets forretningsbrugere, fordi det er her, de får adgang til data, der er gemt i datavarehuset. De fleste af faktatabelrækkerne er numeriske værdier som pris eller pris pr. enhed osv.

Eksempel på fakta:

Den administrerende direktør i en MNC ønsker at finde salget for specifikke produkter forskellige steder på daglig basis.

Faktum her er Sum of Sales efter produkt efter lokation efter tid.

Trin 5) Byg skema

I dette trin implementerer du Dimensionsmodellen. Et skema er intet andet end databasestrukturen (arrangement af tabeller). Der er to populære skemaer

  1. Stjerneskema

Stjerneskemaarkitekturen er nem at designe. Det kaldes et stjerneskema, fordi diagrammet ligner en stjerne med punkter, der udstråler fra et centrum. Stjernens centrum består af faktatabellen, og stjernens punkter er dimensionstabeller.

Faktatabellerne i et stjerneskema, som er tredje normalform, mens dimensionelle tabeller er denormaliserede.

  1. Snefnugskema

Snefnugskemaet er en forlængelse af stjerneskemaet. I et snefnugskema er hver dimension normaliseret og forbundet med flere dimensionstabeller.

Tjek også:- Stjerne- og snefnugskema i datavarehus med modeleksempler

Regler for dimensionsmodellering

Følgende er reglerne og principperne for dimensionsmodellering:

  • Indlæs atomare data i dimensionelle strukturer.
  • Byg dimensionelle modeller omkring forretningsprocesser.
  • Skal sikre, at hver faktatabel har en tilknyttet datodimensionstabel.
  • Sørg for, at alle fakta i en enkelt faktatabel er på samme kerne eller detaljeringsniveau.
  • Det er vigtigt at gemme rapportetiketter og filtrere domæneværdier i dimensionstabeller
  • Skal sikre, at dimensionstabeller bruger en surrogatnøgle
  • Løbende balance mellem krav og realiteter for at levere forretningsløsninger, der understøtter deres beslutningstagning

Fordele ved dimensionsmodellering

  • Standardisering af dimensioner giver nem rapportering på tværs af forretningsområder.
  • Dimensionstabeller gemmer historikken for dimensionsinformationen.
  • Det giver mulighed for at introducere en helt ny dimension uden større forstyrrelser i faktatabellen.
  • Dimensional også til at gemme data på en sådan måde, at det er nemmere at hente informationen fra dataene, når først dataene er lagret i databasen.
  • Sammenlignet med den normaliserede model er dimensionstabellen lettere at forstå.
  • Information er grupperet i klare og enkle forretningskategorier.
  • Den dimensionelle model er meget forståelig for virksomheden. Denne model er baseret på forretningsbetingelser, så virksomheden ved, hvad hver kendsgerning, dimension eller egenskab betyder.
  • Dimensionsmodeller er deformaliserede og optimeret til hurtig dataforespørgsel. Mange relationelle databaseplatforme genkender denne model og optimerer forespørgselsudførelsesplaner for at hjælpe med ydeevnen.
  • Dimensionsmodellering i datavarehus skaber et skema, som er optimeret til høj ydeevne. Det betyder færre joinforbindelser og hjælper med minimeret dataredundans.
  • Den dimensionelle model hjælper også med at øge forespørgselsydeevnen. Det er mere denormaliseret, derfor er det optimeret til forespørgsler.
  • Dimensionsmodeller kan komfortabelt rumme forandringer. Dimensionstabeller kan have flere kolonner tilføjet uden at påvirke eksisterende business intelligence-applikationer, der bruger disse tabeller.

Hvad er multidimensionel datamodel i datavarehus?

Multidimensionel datamodel i data warehouse er en model, som repræsenterer data i form af datakuber. Det giver mulighed for at modellere og se data i flere dimensioner, og det er defineret af dimensioner og fakta. Multidimensionel datamodel er generelt kategoriseret omkring et centralt tema og repræsenteret af en faktatabel.

Resumé

  • En dimensionel model er en datastrukturteknik optimeret til Data warehousing værktøjer.
  • Fakta er målinger/metrics eller fakta fra din forretningsproces.
  • Dimension giver konteksten omkring en forretningsprocesbegivenhed.
  • Attributter er de forskellige karakteristika ved dimensionsmodelleringen.
  • En faktatabel er en primær tabel i en dimensionel model.
  • En dimensionstabel indeholder dimensioner af et faktum.
  • Der er tre typer fakta 1. Additiv 2. Ikke-additiv 3. Semi-additiv.
  • Typer af dimensioner er tilpasset, udrigger, krympet, rollespil, dimension til dimensionstabel, uønsket, degenereret, udskiftelig og trindimensioner.
  • Fem trin af dimensionsmodellering er 1. Identificer forretningsproces 2. Identificer korn (detaljeringsniveau) 3. Identificer dimensioner 4. Identificer fakta 5. Byg stjerne
  • Til dimensionsmodellering i datavarehus er der behov for at sikre, at hver faktatabel har en tilknyttet datodimensionstabel.