Was ist dimensionale Modellierung im Data Warehouse? Typen lernen

Dimensionsmodellierung

Dimensionsmodellierung (DM) ist eine Datenstrukturtechnik, die für die Datenspeicherung in einem Data Warehouse optimiert ist. Der Zweck der dimensionalen Modellierung besteht darin, die Datenbank für einen schnelleren Abruf von Daten zu optimieren. Das Konzept der Dimensionsmodellierung wurde von Ralph Kimball entwickelt und besteht aus „Fakten“- und „Dimensions“-Tabellen.

Ein dimensionales Modell in einem Data Warehouse dient zum Lesen, Zusammenfassen und Analysieren numerischer Informationen wie Werte, Salden, Zählungen, Gewichte usw. in einem Data Warehouse. Im Gegensatz dazu sind relationale Modelle für das Hinzufügen, Aktualisieren und Löschen von Daten in einem Echtzeit-Online-Transaktionssystem optimiert.

Diese dimensionalen und relationalen Modelle verfügen über eine einzigartige Art der Datenspeicherung, die spezifische Vorteile bietet.

Im relationalen Modus reduzieren beispielsweise Normalisierung und ER-Modelle die Redundanz in den Daten. Im Gegenteil, das Dimensionsmodell im Data Warehouse ordnet Daten so an, dass es einfacher ist, Informationen abzurufen und Berichte zu erstellen.

Daher werden Dimensionsmodelle verwendet Data-Warehouse-Systeme und nicht gut für relationale Systeme geeignet.

Elemente des dimensionalen Datenmodells

Tatsache

Fakten sind die Messwerte/Metriken oder Fakten aus Ihrem Geschäftsprozess. Für einen Vertriebsgeschäftsprozess wäre eine Messung die vierteljährliche Verkaufszahl

Abmessungen

Dimension stellt den Kontext rund um ein Geschäftsprozessereignis bereit. In einfachen Worten geben sie das Wer, Was, Wo einer Tatsache an. Im Geschäftsprozess „Verkäufe“ wären Dimensionen für die vierteljährliche Umsatzzahl erforderlich

  • Wer – Kundennamen
  • Wo – Standort
  • Was – Produktname

Mit anderen Worten: Eine Dimension ist ein Fenster zum Anzeigen von Fakteninformationen.

Attribute

Die Attribute sind die verschiedenen Merkmale der Dimension in der dimensionalen Datenmodellierung.

In der Standortdimension können die Attribute sein

  • Staat
  • Land
  • Postleitzahl usw.

Attribute werden zum Suchen, Filtern oder Klassifizieren von Fakten verwendet. Dimensionstabellen enthalten Attribute

Faktentabelle

Eine Faktentabelle ist eine Primärtabelle in der Dimensionsmodellierung.

Eine Faktentabelle enthält

  1. Messungen/Fakten
  2. Fremdschlüssel zur Dimensionstabelle

Dimensionstabelle

  • Eine Dimensionstabelle enthält Dimensionen eines Fakts.
  • Sie werden über einen Fremdschlüssel mit der Faktentabelle verknüpft.
  • Dimensionstabellen sind denormalisierte Tabellen.
  • Die Dimensionsattribute sind die verschiedenen Spalten in einer Dimensionstabelle
  • Dimensionen bieten mithilfe ihrer Attribute beschreibende Merkmale der Fakten
  • Für die Anzahl der Dimensionen ist kein Grenzwert festgelegt
  • Die Dimension kann auch eine oder mehrere hierarchische Beziehungen enthalten

Arten von Dimensionen im Data Warehouse

Es folgen die Arten von Dimensionen im Data Warehouse:

  • Angepasste Dimension
  • Auslegerabmessung
  • Geschrumpfte Dimension
  • Rollenspiel-Dimension
  • Dimension-zu-Dimension-Tabelle
  • Junk-Dimension
  • Entartete Dimension
  • Austauschbare Dimension
  • Schrittmaß

Schritte der dimensionalen Modellierung

Die Genauigkeit bei der Erstellung Ihrer dimensionalen Modellierung bestimmt den Erfolg Ihrer Data Warehouse-Implementierung. Hier sind die Schritte zum Erstellen eines Dimensionsmodells

  1. Geschäftsprozess identifizieren
  2. Getreide identifizieren (Detaillierungsgrad)
  3. Dimensionen identifizieren
  4. Identifizieren Sie Fakten
  5. Stern bauen

Das Modell sollte das Warum, Wie viel, Wann/Wo/Wer und Was Ihres Geschäftsprozesses beschreiben

Schritte der dimensionalen Modellierung

Schritt 1) ​​Identifizieren Sie den Geschäftsprozess

Identifizieren des tatsächlichen Geschäftsprozesses, den ein Datenspeicher abdecken sollte. Dies können Marketing, Vertrieb, HR usw. sein Datenanalyse Bedürfnisse der Organisation. Die Auswahl des Geschäftsprozesses hängt auch von der Qualität der für diesen Prozess verfügbaren Daten ab. Dies ist der wichtigste Schritt des Datenmodellierungsprozesses, und ein Fehler hier hätte kaskadierende und irreparable Fehler zur Folge.

Um den Geschäftsprozess zu beschreiben, können Sie Klartext verwenden oder die grundlegende Business Process Modeling Notation (BPMN) oder die Unified Modeling Language (UML).

Schritt 2) Identifizieren Sie das Korn

Das Grain beschreibt den Detaillierungsgrad des Geschäftsproblems/der Geschäftslösung. Dabei handelt es sich um den Prozess der Ermittlung der niedrigsten Informationsebene für jede Tabelle in Ihrem Data Warehouse. Wenn eine Tabelle Verkaufsdaten für jeden Tag enthält, sollte es sich um eine tägliche Granularität handeln. Wenn eine Tabelle Gesamtverkaufsdaten für jeden Monat enthält, weist sie eine monatliche Granularität auf.

In dieser Phase beantworten Sie Fragen wie

  1. Müssen wir alle verfügbaren Produkte lagern oder nur einige Produkttypen? Diese Entscheidung basiert auf den für Datawarehouse ausgewählten Geschäftsprozessen
  2. Speichern wir die Produktverkaufsinformationen monatlich, wöchentlich, täglich oder stündlich? Diese Entscheidung hängt von der Art der von den Führungskräften angeforderten Berichte ab
  3. Wie wirken sich die beiden oben genannten Optionen auf die Datenbankgröße aus?

Beispiel für Getreide:

Der CEO eines MNC möchte täglich die Umsätze für bestimmte Produkte an verschiedenen Standorten ermitteln.

Das Getreide ist also „Produktverkaufsinformationen nach Standort pro Tag“.

Schritt 3) Identifizieren Sie die Abmessungen

Dimensionen sind Substantive wie Datum, Geschäft, Inventar usw. In diesen Dimensionen sollten alle Daten gespeichert werden. Beispielsweise kann die Datumsdimension Daten wie Jahr, Monat und Wochentag enthalten.

Beispiel für Abmessungen:

Der CEO eines MNC möchte täglich die Umsätze für bestimmte Produkte an verschiedenen Standorten ermitteln.

Dimensionen: Produkt, Ort und Zeit

Attribute: Für Produkt: Produktschlüssel (Fremdschlüssel), Name, Typ, Spezifikationen

Hierarchien: Für Standort: Land, Staat, Stadt, Straße und Hausnummer, Name

Schritt 4) Identifizieren Sie die Tatsache

Dieser Schritt ist mit den Geschäftsbenutzern des Systems verbunden, da sie hier Zugriff auf die im Data Warehouse gespeicherten Daten erhalten. Die meisten Zeilen der Faktentabelle enthalten numerische Werte wie Preis oder Kosten pro Einheit usw.

Beispiel für Fakten:

Der CEO eines MNC möchte täglich die Umsätze für bestimmte Produkte an verschiedenen Standorten ermitteln.

Fakt ist hier die Summe der Verkäufe nach Produkt, Standort und Zeit.

Schritt 5) Schema erstellen

In diesem Schritt implementieren Sie das Dimensionsmodell. Ein Schema ist nichts anderes als die Datenbankstruktur (Anordnung von Tabellen). Es gibt zwei beliebte Schemata

  1. Sternschema

Die Sternschemaarchitektur ist einfach zu entwerfen. Es wird Sternschema genannt, weil das Diagramm einem Stern ähnelt, dessen Punkte von einem Mittelpunkt ausgehen. Der Mittelpunkt des Sterns besteht aus der Faktentabelle und die Punkte des Sterns sind Dimensionstabellen.

Die Faktentabellen in einem Sternschema, das die dritte Normalform darstellt, während Dimensionstabellen denormalisiert sind.

  1. Schneeflockenschema

Das Schneeflockenschema ist eine Erweiterung des Sternschemas. In einem Snowflake-Schema wird jede Dimension normalisiert und mit mehreren Dimensionstabellen verbunden.

Überprüfen Sie auch: - Stern- und Schneeflockenschema im Data Warehouse mit Modellbeispielen

Regeln für die dimensionale Modellierung

Im Folgenden sind die Regeln und Prinzipien der dimensionalen Modellierung aufgeführt:

  • Laden Sie atomare Daten in dimensionale Strukturen.
  • Erstellen Sie dimensionale Modelle rund um Geschäftsprozesse.
  • Es muss sichergestellt werden, dass jeder Faktentabelle eine Datumsdimensionstabelle zugeordnet ist.
  • Stellen Sie sicher, dass alle Fakten in einer einzelnen Faktentabelle die gleiche Körnung oder Detailebene aufweisen.
  • Es ist wichtig, Berichtsbezeichnungen und Filterdomänenwerte in Dimensionstabellen zu speichern
  • Es muss sichergestellt werden, dass Dimensionstabellen einen Ersatzschlüssel verwenden
  • Gleichen Sie kontinuierlich Anforderungen und Realitäten ab, um Geschäftslösungen bereitzustellen, die Ihre Entscheidungsfindung unterstützen

Vorteile der Dimensionsmodellierung

  • Die Standardisierung der Dimensionen ermöglicht eine einfache Berichterstattung über alle Unternehmensbereiche hinweg.
  • Dimensionstabellen speichern den Verlauf der Dimensionsinformationen.
  • Es ermöglicht die Einführung völlig neuer Dimensionen ohne größere Störungen der Faktentabelle.
  • Dimensional dient auch dazu, Daten so zu speichern, dass es einfacher ist, die Informationen aus den Daten abzurufen, sobald die Daten in der Datenbank gespeichert sind.
  • Im Vergleich zum normalisierten Modell sind Dimensionstabellen einfacher zu verstehen.
  • Die Informationen sind in klare und einfache Geschäftskategorien gruppiert.
  • Das Dimensionsmodell ist für das Unternehmen sehr verständlich. Dieses Modell basiert auf Geschäftsbegriffen, sodass das Unternehmen weiß, was jeder Fakt, jede Dimension oder jedes Attribut bedeutet.
  • Dimensionsmodelle werden deformalisiert und für eine schnelle Datenabfrage optimiert. Viele relationale Datenbankplattformen erkennen dieses Modell und optimieren Abfrageausführungspläne, um die Leistung zu steigern.
  • Durch die dimensionale Modellierung im Data Warehouse wird ein Schema erstellt, das für hohe Leistung optimiert ist. Dies bedeutet weniger Verknüpfungen und trägt zu einer Minimierung der Datenredundanz bei.
  • Das Dimensionsmodell trägt auch dazu bei, die Abfrageleistung zu steigern. Es ist stärker denormalisiert und daher für Abfragen optimiert.
  • Dimensionsmodelle können Änderungen bequem berücksichtigen. Den Dimensionstabellen können weitere Spalten hinzugefügt werden, ohne dass sich dies auf bestehende Business-Intelligence-Anwendungen auswirkt, die diese Tabellen verwenden.

Was ist ein mehrdimensionales Datenmodell im Data Warehouse?

Mehrdimensionales Datenmodell Im Data Warehouse handelt es sich um ein Modell, das Daten in Form von Datenwürfeln darstellt. Es ermöglicht die Modellierung und Anzeige der Daten in mehreren Dimensionen und wird durch Dimensionen und Fakten definiert. Mehrdimensionale Datenmodelle werden im Allgemeinen nach einem zentralen Thema kategorisiert und durch eine Faktentabelle dargestellt.

Zusammenfassung

  • Ein dimensionales Modell ist eine Datenstrukturtechnik, die für optimiert ist Data-Warehousing-Tools.
  • Fakten sind die Messwerte/Metriken oder Fakten aus Ihrem Geschäftsprozess.
  • Dimension stellt den Kontext rund um ein Geschäftsprozessereignis bereit.
  • Attribute sind die verschiedenen Merkmale der Dimensionsmodellierung.
  • Eine Faktentabelle ist eine Primärtabelle in einem dimensionalen Modell.
  • Eine Dimensionstabelle enthält Dimensionen eines Fakts.
  • Es gibt drei Arten von Fakten: 1. Additiv, 2. Nicht-additiv und 3. Semi-additiv.
  • Zu den Bemaßungstypen gehören „Angepasst“, „Ausleger“, „Geschrumpft“, „Rollenspiel“, „Bemaßung zu Bemaßungstabelle“, „Junk“, „Entartet“, „Austauschbar“ und „Schrittbemaßungen“.
  • Fünf Schritte der dimensionalen Modellierung sind 1. Geschäftsprozess identifizieren, 2. Körnung (Detaillierungsgrad) identifizieren, 3. Dimensionen identifizieren, 4. Fakten identifizieren und 5. Stern erstellen
  • Für die dimensionale Modellierung im Data Warehouse muss sichergestellt werden, dass jeder Faktentabelle eine Datumsdimensionstabelle zugeordnet ist.