Wat is dimensionaal modelleren in datawarehouse? Leer typen

Dimensionale modellering

Dimensionale modellering (DM) is een datastructuurtechniek die is geoptimaliseerd voor dataopslag in een datawarehouse. Het doel van dimensionale modellering is om de database te optimaliseren voor het sneller ophalen van gegevens. Het concept van Dimensional Modeling is ontwikkeld door Ralph Kimball en bestaat uit “feiten” en “dimensie” tabellen.

Een dimensionaal model in datawarehouse is ontworpen om numerieke informatie zoals waarden, balansen, tellingen, gewichten, etc. in een datawarehouse te lezen, samenvatten en analyseren. Relatiemodellen daarentegen zijn geoptimaliseerd voor het toevoegen, bijwerken en verwijderen van gegevens in een realtime Online Transaction System.

Deze dimensionale en relationele modellen hebben hun unieke manier van dataopslag die specifieke voordelen biedt.

In de relationele modus verminderen normalisatie- en ER-modellen bijvoorbeeld de redundantie in gegevens. Integendeel, een dimensionaal model in een datawarehouse rangschikt gegevens zo dat het gemakkelijker is om informatie op te halen en rapporten te genereren.

Daarom worden dimensionale modellen gebruikt datawarehouse-systemen en niet goed geschikt voor relationele systemen.

Elementen van een dimensionaal gegevensmodel

Feit

Feiten zijn de metingen/statistieken of feiten uit uw bedrijfsproces. Voor een bedrijfsproces Verkoop zou een meting het omzetcijfer op kwartaalbasis zijn

Afmeting

Dimension biedt de context rondom een ​​bedrijfsprocesgebeurtenis. In eenvoudige bewoordingen geven ze wie, wat, waar een feit weer. In het bedrijfsproces Verkoop zouden de dimensies voor het kwartaalomzetaantal zijn

  • Wie – Klantnamen
  • Waar – Locatie
  • Wat – Productnaam

Met andere woorden: een dimensie is een venster waarin u informatie in de feiten kunt bekijken.

Attributen

De attributen zijn de verschillende kenmerken van de dimensie bij dimensionale gegevensmodellering.

In de dimensie Locatie kunnen de attributen zijn

  • Land
  • Land
  • Postcode enz.

Attributen worden gebruikt om feiten te zoeken, filteren of classificeren. Dimensietabellen bevatten attributen

Feitentabel

Een feitentabel is een primaire tabel bij het modelleren van dimensies.

Een feitentabel bevat

  1. Metingen/feiten
  2. Externe sleutel naar dimensietabel

Maattabel

  • Een dimensietabel bevat dimensies van een feit.
  • Ze worden via een externe sleutel aan de feitentabel gekoppeld.
  • Dimensietabellen zijn gedenormaliseerde tabellen.
  • De dimensieattributen zijn de verschillende kolommen in een dimensietabel
  • Dimensies bieden beschrijvende kenmerken van de feiten met behulp van hun attributen
  • Er is geen vaste limiet ingesteld voor het aantal dimensies
  • De dimensie kan ook een of meer hiërarchische relaties bevatten

Soorten dimensies in Data Warehouse

Hieronder volgen de Soorten dimensies in Data Warehouse:

  • Conforme dimensie
  • Afmetingen stempel
  • Gekrompen dimensie
  • Rollenspeldimensie
  • Afmeting tot afmetingstabel
  • Junk-dimensie
  • gedegenereerde dimensie
  • Verwisselbare dimensie
  • Stap afmeting

Stappen van dimensionale modellering

De nauwkeurigheid bij het maken van uw Dimensionale modellering bepaalt het succes van uw datawarehouse-implementatie. Hier volgen de stappen om een ​​dimensiemodel te maken

  1. Identificeer bedrijfsproces
  2. Identificeer graan (detailniveau)
  3. Identificeer afmetingen
  4. Identificeer feiten
  5. Bouw een ster

Het model moet het Waarom, Hoeveel, Wanneer/Waar/Wie en Wat van uw bedrijfsproces beschrijven

Stappen van dimensionale modellering

Stap 1) Identificeer het bedrijfsproces

Het identificeren van het daadwerkelijke bedrijfsproces dat een datarehouse zou moeten omvatten. Dit kan marketing, verkoop, HR, enz. zijn, volgens de gegevensanalyse behoeften van de organisatie. De selectie van het bedrijfsproces hangt ook af van de kwaliteit van de gegevens die voor dat proces beschikbaar zijn. Het is de belangrijkste stap van het datamodelleringsproces, en een mislukking hier zou opeenvolgende en onherstelbare defecten met zich meebrengen.

Om het bedrijfsproces te beschrijven, kunt u platte tekst gebruiken of de standaard Business Process Modeling Notation (BPMN) of Unified Modeling Language (UML).

Stap 2) Identificeer het graan

The Grain beschrijft het detailniveau van het bedrijfsprobleem/de oplossing. Het is het proces waarbij het laagste informatieniveau voor elke tabel in uw datawarehouse wordt geïdentificeerd. Als een tabel verkoopgegevens voor elke dag bevat, moet het om dagelijkse granulariteit gaan. Als een tabel de totale verkoopgegevens voor elke maand bevat, heeft deze een maandelijkse granulariteit.

Tijdens deze fase beantwoord je vragen als

  1. Moeten we alle beschikbare producten opslaan of slechts een paar soorten producten? Deze beslissing is gebaseerd op de voor Datawarehouse geselecteerde bedrijfsprocessen
  2. Slaan we de verkoopinformatie van producten op maand-, week-, dag- of uurbasis op? Deze beslissing is afhankelijk van de aard van de door leidinggevenden gevraagde rapportages
  3. Welke invloed hebben de twee bovenstaande keuzes op de databasegrootte?

Voorbeeld van graan:

De CEO van een multinational wil dagelijks de verkopen van specifieke producten op verschillende locaties achterhalen.

De kern is dus ‘informatie over de verkoop van producten per locatie per dag’.

Stap 3) Identificeer de afmetingen

Dimensies zijn zelfstandige naamwoorden zoals datum, winkel, inventaris, enz. In deze dimensies moeten alle gegevens worden opgeslagen. De datumdimensie kan bijvoorbeeld gegevens bevatten zoals een jaar, maand en weekdag.

Voorbeeld van afmetingen:

De CEO van een multinational wil dagelijks de verkopen van specifieke producten op verschillende locaties achterhalen.

Afmetingen: product, locatie en tijd

Kenmerken: Voor product: productsleutel (buitenlandse sleutel), naam, type, specificaties

Hiërarchieën: Voor locatie: land, staat, stad, straatadres, naam

Stap 4) Identificeer het feit

Deze stap is gekoppeld aan de zakelijke gebruikers van het systeem, omdat zij hier toegang krijgen tot gegevens die zijn opgeslagen in het datawarehouse. De meeste feitentabelrijen zijn numerieke waarden zoals prijs of kosten per eenheid, enz.

Voorbeeld van feiten:

De CEO van een multinational wil dagelijks de verkopen van specifieke producten op verschillende locaties achterhalen.

Het feit hier is de som van de verkopen per product, per locatie en per tijd.

Stap 5) Bouw een schema

In deze stap implementeert u het Dimensiemodel. Een schema is niets anders dan de databasestructuur (rangschikking van tabellen). Er zijn twee populaire schema's

  1. Sterrenschema

De architectuur van het sterschema is eenvoudig te ontwerpen. Het wordt een sterschema genoemd omdat het diagram op een ster lijkt, met punten die uitstralen vanuit een centrum. Het centrum van de ster bestaat uit de feitentabel en de punten van de ster zijn dimensietabellen.

De feitentabellen in een sterschema zijn de derde normale vorm, terwijl dimensionale tabellen zijn gedenormaliseerd.

  1. Sneeuwvlokschema

Het sneeuwvlokschema is een uitbreiding van het sterrenschema. In een sneeuwvlokschema wordt elke dimensie genormaliseerd en verbonden met meer dimensietabellen.

Controleer ook: - Ster- en sneeuwvlokschema in datawarehouse met modelvoorbeelden

Regels voor dimensionaal modelleren

Hieronder volgen de regels en principes van dimensionaal modelleren:

  • Laad atomaire gegevens in dimensionale structuren.
  • Bouw dimensionale modellen rond bedrijfsprocessen.
  • Zorg ervoor dat elke feitentabel een bijbehorende datumdimensietabel heeft.
  • Zorg ervoor dat alle feiten in één feitentabel dezelfde korrelgrootte of hetzelfde detailniveau hebben.
  • Het is essentieel om rapportlabels op te slaan en domeinwaarden te filteren in dimensietabellen
  • Zorg ervoor dat dimensietabellen een surrogaatsleutel gebruiken
  • Zorg voor een voortdurend evenwicht tussen vereisten en realiteit om zakelijke oplossingen te bieden ter ondersteuning van hun besluitvorming

Voordelen van dimensionaal modelleren

  • Standaardisatie van dimensies maakt eenvoudige rapportage over alle bedrijfsonderdelen mogelijk.
  • Dimensietabellen slaan de geschiedenis van de dimensionale informatie op.
  • Het maakt het mogelijk een geheel nieuwe dimensie te introduceren zonder grote verstoringen van de feitentabel.
  • Dimensionaal ook om gegevens zo op te slaan dat het gemakkelijker is om de informatie uit de gegevens te halen zodra de gegevens in de database zijn opgeslagen.
  • Vergeleken met het genormaliseerde model zijn de dimensionale tabellen gemakkelijker te begrijpen.
  • Informatie is gegroepeerd in duidelijke en eenvoudige bedrijfscategorieën.
  • Het dimensionale model is zeer begrijpelijk voor het bedrijf. Dit model is gebaseerd op zakelijke termen, zodat het bedrijf weet wat elk feit, elke dimensie of elk attribuut betekent.
  • Dimensionale modellen zijn gedeformaliseerd en geoptimaliseerd voor snelle dataquery's. Veel relationele databaseplatforms herkennen dit model en optimaliseren de uitvoeringsplannen van query's om de prestaties te verbeteren.
  • Dimensionale modellering in het datawarehouse creëert een schema dat is geoptimaliseerd voor hoge prestaties. Het betekent minder joins en helpt bij minimale gegevensredundantie.
  • Het dimensionale model helpt ook om de queryprestaties te verbeteren. Het is meer gedenormaliseerd en daarom geoptimaliseerd voor query's.
  • Dimensionale modellen kunnen gemakkelijk veranderingen opvangen. Er kunnen aan dimensietabellen meer kolommen worden toegevoegd zonder dat dit gevolgen heeft voor bestaande business intelligence-toepassingen die deze tabellen gebruiken.

Wat is een multidimensionaal gegevensmodel in datawarehouse?

Multidimensionaal datamodel in datawarehouse is een model dat gegevens weergeeft in de vorm van datakubussen. Het maakt het mogelijk om de gegevens in meerdere dimensies te modelleren en te bekijken en wordt gedefinieerd door dimensies en feiten. Multidimensionaal datamodel wordt doorgaans gecategoriseerd rond een centraal thema en weergegeven door een feitentabel.

Samenvatting

  • Een dimensionaal model is een datastructuurtechniek waarvoor geoptimaliseerd is Hulpmiddelen voor datawarehousing.
  • Feiten zijn de metingen/statistieken of feiten uit uw bedrijfsproces.
  • Dimension biedt de context rondom een ​​bedrijfsprocesgebeurtenis.
  • Attributen zijn de verschillende kenmerken van de dimensiemodellering.
  • Een feitentabel is een primaire tabel in een dimensionaal model.
  • Een dimensietabel bevat dimensies van een feit.
  • Er zijn drie soorten feiten: 1. Additief 2. Niet-additief 3. Semi-additief.
  • Soorten dimensies zijn Conformed, Outrigger, Shrunken, Rollenspel, Dimension to Dimension Table, Junk, Degenerate, Swappable en Step Dimensions.
  • De vijf stappen van dimensioneel modelleren zijn: 1. Bedrijfsproces identificeren 2. Korrel identificeren (detailniveau) 3. Dimensies identificeren 4. Feiten identificeren 5. Ster bouwen
  • Voor dimensionale modellering in een datawarehouse moet ervoor worden gezorgd dat elke feitentabel een bijbehorende datumdimensietabel heeft.