Was ist dimensionale Modellierung im Data Warehouse? Typen lernen
Dimensionsmodellierung
Dimensionsmodellierung (DM) ist eine Datenstrukturtechnik, die fรผr die Datenspeicherung in einem Data Warehouse optimiert ist. Der Zweck der dimensionalen Modellierung besteht darin, die Datenbank fรผr einen schnelleren Abruf von Daten zu optimieren. Das Konzept der Dimensionsmodellierung wurde von Ralph Kimball entwickelt und besteht aus โFaktenโ- und โDimensionsโ-Tabellen.
Ein dimensionales Modell in einem Data Warehouse dient zum Lesen, Zusammenfassen und Analysieren numerischer Informationen wie Werte, Salden, Zรคhlungen, Gewichte usw. in einem Data Warehouse. Im Gegensatz dazu sind relationale Modelle fรผr das Hinzufรผgen, Aktualisieren und Lรถschen von Daten in einem Echtzeit-Online-Transaktionssystem optimiert.
Diese dimensionalen und relationalen Modelle verfรผgen รผber eine einzigartige Art der Datenspeicherung, die spezifische Vorteile bietet.
Im relationalen Modus reduzieren beispielsweise Normalisierung und ER-Modelle die Redundanz in den Daten. Im Gegenteil, das Dimensionsmodell im Data Warehouse ordnet Daten so an, dass es einfacher ist, Informationen abzurufen und Berichte zu erstellen.
Daher werden Dimensionsmodelle verwendet Data-Warehouse-Systeme und nicht gut fรผr relationale Systeme geeignet.
Elemente des dimensionalen Datenmodells
Tatsache
Fakten sind die Messwerte/Metriken oder Fakten aus Ihrem Geschรคftsprozess. Fรผr einen Vertriebsgeschรคftsprozess wรคre eine Messung die vierteljรคhrliche Verkaufszahl
Abmessungen
Dimension stellt den Kontext rund um ein Geschรคftsprozessereignis bereit. In einfachen Worten geben sie das Wer, Was, Wo einer Tatsache an. Im Geschรคftsprozess โVerkรคufeโ wรคren Dimensionen fรผr die vierteljรคhrliche Umsatzzahl erforderlich
- Wer โ Kundennamen
- Wo โ Standort
- Was โ Produktname
Mit anderen Worten: Eine Dimension ist ein Fenster zum Anzeigen von Fakteninformationen.
Attribute
Die Attribute sind die verschiedenen Merkmale der Dimension in der dimensionalen Datenmodellierung.
In der Standortdimension kรถnnen die Attribute sein
- Staat
- Land
- Postleitzahl usw.
Attribute werden zum Suchen, Filtern oder Klassifizieren von Fakten verwendet. Dimensionstabellen enthalten Attribute
Faktentabelle
Eine Faktentabelle ist eine Primรคrtabelle in der Dimensionsmodellierung.
Eine Faktentabelle enthรคlt
- Messungen/Fakten
- Fremdschlรผssel zur Dimensionstabelle
Dimensionstabelle
- Eine Dimensionstabelle enthรคlt Dimensionen eines Fakts.
- Sie werden รผber einen Fremdschlรผssel mit der Faktentabelle verknรผpft.
- Dimensionstabellen sind denormalisierte Tabellen.
- Die Dimensionsattribute sind die verschiedenen Spalten in einer Dimensionstabelle
- Dimensionen bieten mithilfe ihrer Attribute beschreibende Merkmale der Fakten
- Fรผr die Anzahl der Dimensionen ist kein Grenzwert festgelegt
- Die Dimension kann auch eine oder mehrere hierarchische Beziehungen enthalten
Arten von Dimensionen im Data Warehouse
Es folgen die Arten von Dimensionen im Data Warehouse:
- Angepasste Dimension
- Auslegerabmessung
- Geschrumpfte Dimension
- Rollenspiel-Dimension
- Dimension-zu-Dimension-Tabelle
- Junk-Dimension
- Entartete Dimension
- Austauschbare Dimension
- Schrittmaร
Schritte der dimensionalen Modellierung
Die Genauigkeit bei der Erstellung Ihrer dimensionalen Modellierung bestimmt den Erfolg Ihrer Data Warehouse-Implementierung. Hier sind die Schritte zum Erstellen eines Dimensionsmodells
- Geschรคftsprozess identifizieren
- Getreide identifizieren (Detaillierungsgrad)
- Dimensionen identifizieren
- Identifizieren Sie Fakten
- Stern bauen
Das Modell sollte das Warum, Wie viel, Wann/Wo/Wer und Was Ihres Geschรคftsprozesses beschreiben
Schritt 1) โโIdentifizieren Sie den Geschรคftsprozess
Identifizieren des tatsรคchlichen Geschรคftsprozesses, den ein Datenspeicher abdecken sollte. Dies kรถnnen Marketing, Vertrieb, HR usw. sein Datenanalyse Bedรผrfnisse der Organisation. Die Auswahl des Geschรคftsprozesses hรคngt auch von der Qualitรคt der fรผr diesen Prozess verfรผgbaren Daten ab. Dies ist der wichtigste Schritt des Datenmodellierungsprozesses, und ein Fehler hier hรคtte kaskadierende und irreparable Fehler zur Folge.
Um den Geschรคftsprozess zu beschreiben, kรถnnen Sie Klartext verwenden oder die grundlegende Business Process Modeling Notation (BPMN) oder die Unified Modeling Language (UML).
Schritt 2) Identifizieren Sie das Korn
Das Grain beschreibt den Detaillierungsgrad des Geschรคftsproblems/der Geschรคftslรถsung. Dabei handelt es sich um den Prozess der Ermittlung der niedrigsten Informationsebene fรผr jede Tabelle in Ihrem Data Warehouse. Wenn eine Tabelle Verkaufsdaten fรผr jeden Tag enthรคlt, sollte es sich um eine tรคgliche Granularitรคt handeln. Wenn eine Tabelle Gesamtverkaufsdaten fรผr jeden Monat enthรคlt, weist sie eine monatliche Granularitรคt auf.
In dieser Phase beantworten Sie Fragen wie
- Mรผssen wir alle verfรผgbaren Produkte lagern oder nur einige Produkttypen? Diese Entscheidung basiert auf den fรผr Datawarehouse ausgewรคhlten Geschรคftsprozessen
- Speichern wir die Produktverkaufsinformationen monatlich, wรถchentlich, tรคglich oder stรผndlich? Diese Entscheidung hรคngt von der Art der von den Fรผhrungskrรคften angeforderten Berichte ab
- Wie wirken sich die beiden oben genannten Optionen auf die Datenbankgrรถรe aus?
Beispiel fรผr Getreide:
Der CEO eines MNC mรถchte tรคglich die Umsรคtze fรผr bestimmte Produkte an verschiedenen Standorten ermitteln.
Das Getreide ist also โProduktverkaufsinformationen nach Standort pro Tagโ.
Schritt 3) Identifizieren Sie die Abmessungen
Dimensionen sind Substantive wie Datum, Geschรคft, Inventar usw. In diesen Dimensionen sollten alle Daten gespeichert werden. Beispielsweise kann die Datumsdimension Daten wie Jahr, Monat und Wochentag enthalten.
Beispiel fรผr Abmessungen:
Der CEO eines MNC mรถchte tรคglich die Umsรคtze fรผr bestimmte Produkte an verschiedenen Standorten ermitteln.
Dimensionen: Produkt, Ort und Zeit
Attribute: Fรผr Produkt: Produktschlรผssel (Fremdschlรผssel), Name, Typ, Spezifikationen
Hierarchien: Fรผr Standort: Land, Staat, Stadt, Straรe und Hausnummer, Name
Schritt 4) Identifizieren Sie die Tatsache
Dieser Schritt ist mit den Geschรคftsbenutzern des Systems verbunden, da sie hier Zugriff auf die im Data Warehouse gespeicherten Daten erhalten. Die meisten Zeilen der Faktentabelle enthalten numerische Werte wie Preis oder Kosten pro Einheit usw.
Beispiel fรผr Fakten:
Der CEO eines MNC mรถchte tรคglich die Umsรคtze fรผr bestimmte Produkte an verschiedenen Standorten ermitteln.
Fakt ist hier die Summe der Verkรคufe nach Produkt, Standort und Zeit.
Schritt 5) Schema erstellen
In diesem Schritt implementieren Sie das Dimensionsmodell. Ein Schema ist nichts anderes als die Datenbankstruktur (Anordnung von Tabellen). Es gibt zwei beliebte Schemata
- Sternschema
Die Sternschemaarchitektur ist einfach zu entwerfen. Es wird Sternschema genannt, weil das Diagramm einem Stern รคhnelt, dessen Punkte von einem Mittelpunkt ausgehen. Der Mittelpunkt des Sterns besteht aus der Faktentabelle und die Punkte des Sterns sind Dimensionstabellen.
Die Faktentabellen in einem Sternschema, das die dritte Normalform darstellt, wรคhrend Dimensionstabellen denormalisiert sind.
- Schneeflockenschema
Das Schneeflockenschema ist eine Erweiterung des Sternschemas. In einem Snowflake-Schema wird jede Dimension normalisiert und mit mehreren Dimensionstabellen verbunden.
รberprรผfen Sie auch: - Stern- und Schneeflockenschema im Data Warehouse mit Modellbeispielen
Regeln fรผr die dimensionale Modellierung
Im Folgenden sind die Regeln und Prinzipien der dimensionalen Modellierung aufgefรผhrt:
- Laden Sie atomare Daten in dimensionale Strukturen.
- Erstellen Sie dimensionale Modelle rund um Geschรคftsprozesse.
- Es muss sichergestellt werden, dass jeder Faktentabelle eine Datumsdimensionstabelle zugeordnet ist.
- Stellen Sie sicher, dass alle Fakten in einer einzelnen Faktentabelle die gleiche Kรถrnung oder Detailebene aufweisen.
- Es ist wichtig, Berichtsbezeichnungen und Filterdomรคnenwerte in Dimensionstabellen zu speichern
- Es muss sichergestellt werden, dass Dimensionstabellen einen Ersatzschlรผssel verwenden
- Gleichen Sie kontinuierlich Anforderungen und Realitรคten ab, um Geschรคftslรถsungen bereitzustellen, die Ihre Entscheidungsfindung unterstรผtzen
Vorteile der Dimensionsmodellierung
- Die Standardisierung der Dimensionen ermรถglicht eine einfache Berichterstattung รผber alle Unternehmensbereiche hinweg.
- Dimensionstabellen speichern den Verlauf der Dimensionsinformationen.
- Es ermรถglicht die Einfรผhrung vรถllig neuer Dimensionen ohne grรถรere Stรถrungen der Faktentabelle.
- Dimensional dient auch dazu, Daten so zu speichern, dass es einfacher ist, die Informationen aus den Daten abzurufen, sobald die Daten in der Datenbank gespeichert sind.
- Im Vergleich zum normalisierten Modell sind Dimensionstabellen einfacher zu verstehen.
- Die Informationen sind in klare und einfache Geschรคftskategorien gruppiert.
- Das Dimensionsmodell ist fรผr das Unternehmen sehr verstรคndlich. Dieses Modell basiert auf Geschรคftsbegriffen, sodass das Unternehmen weiร, was jeder Fakt, jede Dimension oder jedes Attribut bedeutet.
- Dimensionsmodelle werden deformalisiert und fรผr eine schnelle Datenabfrage optimiert. Viele relationale Datenbankplattformen erkennen dieses Modell und optimieren Abfrageausfรผhrungsplรคne, um die Leistung zu steigern.
- Durch die dimensionale Modellierung im Data Warehouse wird ein Schema erstellt, das fรผr hohe Leistung optimiert ist. Dies bedeutet weniger Verknรผpfungen und trรคgt zu einer Minimierung der Datenredundanz bei.
- Das Dimensionsmodell trรคgt auch dazu bei, die Abfrageleistung zu steigern. Es ist stรคrker denormalisiert und daher fรผr Abfragen optimiert.
- Dimensionsmodelle kรถnnen รnderungen bequem berรผcksichtigen. Den Dimensionstabellen kรถnnen weitere Spalten hinzugefรผgt werden, ohne dass sich dies auf bestehende Business-Intelligence-Anwendungen auswirkt, die diese Tabellen verwenden.
Was ist ein mehrdimensionales Datenmodell im Data Warehouse?
Mehrdimensionales Datenmodell Im Data Warehouse handelt es sich um ein Modell, das Daten in Form von Datenwรผrfeln darstellt. Es ermรถglicht die Modellierung und Anzeige der Daten in mehreren Dimensionen und wird durch Dimensionen und Fakten definiert. Mehrdimensionale Datenmodelle werden im Allgemeinen nach einem zentralen Thema kategorisiert und durch eine Faktentabelle dargestellt.
Zusammenfassung
- Ein dimensionales Modell ist eine Datenstrukturtechnik, die fรผr optimiert ist Data-Warehousing-Tools.
- Fakten sind die Messwerte/Metriken oder Fakten aus Ihrem Geschรคftsprozess.
- Dimension stellt den Kontext rund um ein Geschรคftsprozessereignis bereit.
- Attribute sind die verschiedenen Merkmale der Dimensionsmodellierung.
- Eine Faktentabelle ist eine Primรคrtabelle in einem dimensionalen Modell.
- Eine Dimensionstabelle enthรคlt Dimensionen eines Fakts.
- Es gibt drei Arten von Fakten: 1. Additiv, 2. Nicht-additiv und 3. Semi-additiv.
- Zu den Bemaรungstypen gehรถren โAngepasstโ, โAuslegerโ, โGeschrumpftโ, โRollenspielโ, โBemaรung zu Bemaรungstabelleโ, โJunkโ, โEntartetโ, โAustauschbarโ und โSchrittbemaรungenโ.
- Fรผnf Schritte der dimensionalen Modellierung sind 1. Geschรคftsprozess identifizieren, 2. Kรถrnung (Detaillierungsgrad) identifizieren, 3. Dimensionen identifizieren, 4. Fakten identifizieren und 5. Stern erstellen
- Fรผr die dimensionale Modellierung im Data Warehouse muss sichergestellt werden, dass jeder Faktentabelle eine Datumsdimensionstabelle zugeordnet ist.

