Data Warehousing ArchiStruktur, Komponenten und Diagramm Concepts
Data Warehousing Concepts
Das Grundkonzept eines Data Warehouse besteht darin, einem Unternehmen eine einzige Version der Wahrheit für die Entscheidungsfindung und Prognose bereitzustellen. Ein Data Warehouse ist ein Informationssystem, das historische und kommutative Daten aus einer oder mehreren Quellen enthält. Data Warehouse Concepts Vereinfachen Sie den Berichts- und Analyseprozess von Organisationen.
Merkmale des Data Warehouse
Data Warehousing Concepts haben folgende Eigenschaften:
- Subjektorientiert
- Integriert
- Zeitunterschied
- Nicht flüchtig
Subjektorientiert
Ein Data Warehouse ist themenorientiert, da es Informationen zu einem Thema und nicht zu den laufenden Geschäftstätigkeiten eines Unternehmens bietet. Diese Themen können Verkauf, Marketing, Vertrieb usw. sein.
Ein Data Warehouse konzentriert sich nie auf den laufenden Betrieb. Stattdessen legt es den Schwerpunkt auf die Modellierung und Analyse von Daten für Entscheidungsfindung. Es bietet außerdem einen einfachen und prägnanten Überblick über das spezifische Thema, indem Daten ausgeschlossen werden, die zur Unterstützung des Entscheidungsprozesses nicht hilfreich sind.
Integriert
Im Data Warehouse bedeutet Integration die Festlegung einer gemeinsamen Maßeinheit für alle ähnlichen Daten aus der unterschiedlichen Datenbank. Darüber hinaus müssen die Daten im Datawarehouse auf übliche und allgemein akzeptable Weise gespeichert werden.
Ein Data Warehouse wird durch die Integration von Daten aus verschiedenen Quellen wie einem Mainframe, relationalen Datenbanken, Flatfiles usw. entwickelt. Darüber hinaus müssen konsistente Namenskonventionen, Formate und Codierungen eingehalten werden.
Diese Integration hilft bei der effektiven Analyse von Daten. Konsistenz bei Namenskonventionen, Attributmaßen, Kodierungsstruktur usw. muss sichergestellt werden. Betrachten Sie das folgende Beispiel:
Im obigen Beispiel gibt es drei verschiedene Anwendungen mit den Bezeichnungen A, B und C. Die in diesen Anwendungen gespeicherten Informationen sind Geschlecht, Datum und Kontostand. Allerdings werden die Daten jeder Anwendung auf unterschiedliche Weise gespeichert.
- In der Anwendung speichert ein Geschlechtsfeld logische Werte wie M oder F
- In Anwendung B ist das Feld „Geschlecht“ ein numerischer Wert.
- In der Anwendung C wird das Feld „Geschlecht“ in Form eines Zeichenwerts gespeichert.
- Das Gleiche gilt für Datum und Kontostand
Nach dem Transformations- und Bereinigungsprozess werden alle diese Daten jedoch im gemeinsamen Format gespeichert Data Warehousing.
Zeitunterschied
Der Zeithorizont eines Data Warehouse ist im Vergleich zu operativen Systemen recht umfangreich. Die in einem Data Warehouse gesammelten Daten werden mit einem bestimmten Zeitraum erfasst und bieten Informationen aus historischer Sicht. Sie enthalten explizit oder implizit ein Zeitelement.
Eine solche Stelle, an der die Zeitabweichung der Datawarehouse-Datenanzeige auftritt, liegt in der Struktur des Datensatzschlüssels. Jeder im DW enthaltene Primärschlüssel sollte entweder implizit oder explizit ein Zeitelement enthalten. Wie der Tag, die Woche, der Monat usw.
Ein weiterer Aspekt der Zeitabweichung besteht darin, dass Daten, sobald sie in das Warehouse eingefügt wurden, nicht mehr aktualisiert oder geändert werden können.
Nicht flüchtig
Das Data Warehouse ist außerdem nichtflüchtig, d. h. die vorherigen Daten werden nicht gelöscht, wenn neue Daten darin eingegeben werden.
Die Daten sind schreibgeschützt und werden regelmäßig aktualisiert. Dies hilft auch dabei, historische Daten zu analysieren und zu verstehen, was und wann passiert ist. Es sind keine Transaktionsprozess-, Wiederherstellungs- und Parallelitätskontrollmechanismen erforderlich.
Aktivitäten wie Löschen, Aktualisieren und Einfügen, die in einer operativen Anwendungsumgebung ausgeführt werden, werden in der Data Warehouse-Umgebung weggelassen. Nur zwei Arten von Datenoperationen, die im Data Warehousing ausgeführt werden, sind
- Daten werden geladen
- Datenzugriff
Hier sind einige wesentliche Unterschiede zwischen Anwendung und Data Warehouse
Operationelle Anwendung | Data Warehousing |
---|---|
Um sicherzustellen, dass die Datenaktualisierungsprozesse die hohe Integrität des Endprodukts gewährleisten, müssen komplexe Programme codiert werden. | Probleme dieser Art treten nicht auf, da keine Datenaktualisierung durchgeführt wird. |
Die Daten werden in normalisierter Form abgelegt, um minimale Redundanz zu gewährleisten. | Die Daten werden nicht in normalisierter Form gespeichert. |
Zur Unterstützung von Transaktionsproblemen, Datenwiederherstellung, Rollback und Lösung ist eine Technologie erforderlich, da es bei Deadlocks zu relativ großen Komplexitäten kommt. | Es bietet eine relativ einfache Technologie. |
Data Warehousing Architektur
Data Warehousing Architektur ist komplex, da es sich um ein Informationssystem handelt, das historische und kommutative Daten aus mehreren Quellen enthält. Es gibt drei Ansätze zum Erstellen von Data-Warehouse-Ebenen: einstufig, zweistufig und dreistufig. Diese dreistufige Architektur des Data Warehouse wird im Folgenden erläutert.
Einschichtige Architektur
Das Ziel einer einzelnen Schicht besteht darin, die gespeicherte Datenmenge zu minimieren. Ziel ist es, Datenredundanz zu beseitigen. Diese Architektur wird in der Praxis nicht häufig verwendet.
Zweischichtige Architektur
Die Zwei-Schichten-Architektur ist eine der Data-Warehouse-Schichten, die physisch verfügbare Quellen und Data Warehouse trennt. Diese Architektur ist nicht erweiterbar und unterstützt auch keine große Anzahl von Endbenutzern. Aufgrund von Netzwerkeinschränkungen treten auch Verbindungsprobleme auf.
Dreistufiges Data Warehouse Architektur
Dies ist die am weitesten verbreitete ArchiStruktur des Data Warehouse.
Es besteht aus der oberen, mittleren und unteren Ebene.
- Untere Stufe: Die Datenbank der Datawarehouse-Server als unterste Ebene. Es handelt sich in der Regel um ein relationales Datenbanksystem. Daten werden mithilfe von Back-End-Tools bereinigt, transformiert und in diese Ebene geladen.
- Mittlere Stufe: Die mittlere Ebene im Data Warehouse ist ein OLAP-Server, der entweder mit dem ROLAP- oder MOLAP-Modell implementiert wird. Für einen Benutzer stellt diese Anwendungsschicht eine abstrahierte Ansicht der Datenbank dar. Diese Schicht fungiert auch als Vermittler zwischen dem Endbenutzer und der Datenbank.
- Spitzengruppe: Die oberste Ebene ist eine Front-End-Client-Ebene. Die oberste Ebene sind die Tools und die API, mit denen Sie eine Verbindung herstellen und Daten aus dem Data Warehouse abrufen können. Dabei kann es sich um Abfragetools, Berichtstools, verwaltete Abfragetools, Analysetools und Data-Mining-Tools handeln.
Datawarehouse-Komponenten
Wir lernen die Datawarehouse-Komponenten kennen und ArchiStruktur des Data Warehouse mit Diagramm wie unten gezeigt:
Das Data Warehouse basiert auf einem RDBMS-Server, einem zentralen Informationsspeicher, der von einigen wichtigen Data Warehousing-Komponenten umgeben ist, um die gesamte Umgebung funktionsfähig, verwaltbar und zugänglich zu machen.
Es gibt hauptsächlich fünf Data Warehouse-Komponenten:
Data Warehouse-Datenbank
Die zentrale Datenbank ist die Grundlage der Data Warehousing-Umgebung. Diese Datenbank wird auf dem RDBMS Technologie. Allerdings ist diese Art der Implementierung durch die Tatsache eingeschränkt, dass herkömmliche RDBMS-Systeme für die transaktionale Datenbankverarbeitung und nicht für Data Warehousing optimiert sind. Beispielsweise sind Ad-hoc-Abfragen, Multi-Table-Joins und Aggregate ressourcenintensiv und verlangsamen die Leistung.
Daher werden alternative Datenbankansätze verwendet, wie unten aufgeführt:
- In einem Data Warehouse werden relationale Datenbanken parallel eingesetzt, um Skalierbarkeit zu ermöglichen. Parallele relationale Datenbanken ermöglichen auch Shared Memory oder Shared Nothing-Modelle auf verschiedenen Multiprozessorkonfigurationen oder massiv parallelen Prozessoren.
- Neue Indexstrukturen werden verwendet, um das Scannen relationaler Tabellen zu umgehen und die Geschwindigkeit zu verbessern.
- Verwendung mehrdimensionaler Datenbanken (MDDBs), um alle Einschränkungen zu überwinden, die durch relationale Data Warehouse-Modelle entstehen. Beispiel: Essbase von Oracle.
Beschaffungs-, Akquisitions-, Bereinigungs- und Transformationstools (ETL)
Die Tools für Datenbeschaffung, -transformation und -migration werden verwendet, um alle Konvertierungen, Zusammenfassungen und Änderungen durchzuführen, die erforderlich sind, um Daten in ein einheitliches Format im Data Warehouse zu transformieren. Sie werden auch als Extrahieren, Transformieren und Laden (ETL)-Tools bezeichnet.
Ihre Funktionalität umfasst:
- Anonymisieren von Daten nach regulatorischen Vorgaben.
- Eliminieren des Ladens unerwünschter Daten in Betriebsdatenbanken in das Data Warehouse.
- Suchen und ersetzen Sie gebräuchliche Namen und Definitionen für Daten aus verschiedenen Quellen.
- Berechnung von Zusammenfassungen und abgeleiteten Daten
- Falls Daten fehlen, füllen Sie sie mit Standardwerten aus.
- Deduplizierte wiederholte Daten, die aus mehreren Datenquellen stammen.
Diese Tools zum Extrahieren, Transformieren und Laden können Cron-Jobs, Hintergrundjobs usw. generieren. Cobol-Programme, Shell-Skripte usw., die regelmäßig Daten im Data Warehouse aktualisieren. Diese Tools sind auch hilfreich, um die Metadaten zu pflegen.
Diese ETL-Tools müssen sich mit den Herausforderungen der Datenbank- und Datenheterogenität auseinandersetzen.
Metadaten
Der Name Meta Data deutet auf ein hochtechnologisches Data Warehousing hin Concepts. Allerdings ist es ganz einfach. Metadaten sind Daten über Daten, die das Data Warehouse definieren. Es dient dem Aufbau, der Pflege und der Verwaltung des Data Warehouse.
Im Data Warehouse ArchiIn der Struktur spielen Metadaten eine wichtige Rolle, da sie die Quelle, Verwendung, Werte und Merkmale von Data Warehouse-Daten angeben. Es definiert auch, wie Daten geändert und verarbeitet werden können. Es ist eng mit dem Data Warehouse verbunden.
Beispielsweise kann eine Zeile in der Verkaufsdatenbank Folgendes enthalten:
4030 KJ732 299.90
Dies sind bedeutungslose Daten, bis wir die Metadaten konsultieren, die uns sagen, dass es so war
- Modellnummer: 4030
- Handelsvertreter-ID: KJ732
- Gesamtverkaufsbetrag von 299.90 $
Daher sind Metadaten wesentliche Bestandteile bei der Umwandlung von Daten in Wissen.
Metadaten helfen bei der Beantwortung folgender Fragen
- Welche Tabellen, Attribute und Schlüssel enthält das Data Warehouse?
- Woher kamen die Daten?
- Wie oft werden Daten neu geladen?
- Welche Transformationen wurden bei der Reinigung vorgenommen?
Metadaten können in folgende Kategorien eingeteilt werden:
- Technische Metadaten: Diese Art von Metadaten enthält Informationen über das Warehouse, die von Data Warehouse-Designern und -Administratoren verwendet werden.
- Geschäftsmetadaten: Diese Art von Metadaten enthält Details, die es Endbenutzern ermöglichen, die im Data Warehouse gespeicherten Informationen leicht zu verstehen.
Abfragetools
Eines der Hauptziele des Data Warehousing besteht darin, Unternehmen Informationen zur Verfügung zu stellen, damit sie strategische Entscheidungen treffen können. Abfragetools ermöglichen Benutzern die Interaktion mit dem Data Warehouse-System.
Diese Tools lassen sich in vier verschiedene Kategorien einteilen:
- Abfrage- und Berichterstellungstools
- Anwendungsentwicklungstools
- Data-Mining-Tools
- OLAP-Tools
1. Abfrage- und Berichtstools
Abfrage- und Berichtstools können weiter unterteilt werden in:
- Berichterstellungstools
- Verwaltete Abfragetools
Berichterstellungstools:
Berichterstellungstools kann weiter in Produktionsberichtstools und Desktop-Berichtsschreiber unterteilt werden.
- Berichtsersteller: Bei dieser Art von Berichtstools handelt es sich um Tools, die für Endbenutzer zur Analyse entwickelt wurden.
- Produktionsberichte: Mit dieser Art von Tools können Organisationen regelmäßige Betriebsberichte erstellen. Es unterstützt auch Stapelverarbeitungsaufträge mit hohem Volumen wie Drucken und Berechnen. Einige beliebte Berichtstools sind Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Verwaltete Abfragetools:
Diese Art von Zugriffstools hilft Endbenutzern, Probleme in der Datenbank, in SQL und in der Datenbankstruktur zu beheben, indem eine Metaschicht zwischen Benutzern und Datenbank eingefügt wird.
2. Anwendungsentwicklungstools
Manchmal erfüllen integrierte grafische und analytische Tools nicht die analytischen Anforderungen einer Organisation. In solchen Fällen werden benutzerdefinierte Berichte mithilfe von Anwendungsentwicklungstools entwickelt.
3. Data-Mining-Tools
Beim Data Mining handelt es sich um einen Prozess zur Entdeckung bedeutungsvoller neuer Korrelationen, Muster und Trends durch das Mining großer Datenmengen. Data-Mining-Tools werden verwendet, um diesen Prozess zu automatisieren.
4. OLAP-Tools
Diese Tools basieren auf Konzepten einer multidimensionalen Datenbank. Sie ermöglichen Benutzern die Analyse der Daten mithilfe ausgefeilter und komplexer multidimensionaler Ansichten.
Data-Warehouse-Bus Architektur
Der Data Warehouse Bus bestimmt den Datenfluss in Ihrem Warehouse. Der Datenfluss in einem Data Warehouse kann in Inflow, Upflow, Downflow, Outflow und Metaflow kategorisiert werden.
Beim Entwerfen eines Datenbusses müssen die gemeinsamen Dimensionen und Fakten aller Data Marts berücksichtigt werden.
Datamarts
A Datamart ist eine Zugriffsschicht, die verwendet wird, um Daten an die Benutzer weiterzugeben. Es wird als Option für ein großes Data Warehouse vorgestellt, da der Aufbau weniger Zeit und Geld erfordert. Es gibt jedoch keine Standarddefinition für einen Data Mart, die von Person zu Person unterschiedlich ist.
Vereinfacht gesagt ist Data Mart eine Tochtergesellschaft eines Data Warehouse. Der Data Mart wird zur Partitionierung von Daten verwendet, die für eine bestimmte Benutzergruppe erstellt werden.
Data Marts können in derselben Datenbank wie das Datawarehouse oder einer physisch separaten Datenbank erstellt werden.
Data Warehouse Archistruktur Best Practices
Um ein Data Warehouse zu entwerfen ArchiUm die Struktur zu verbessern, müssen Sie die unten aufgeführten Best Practices befolgen:
- Verwenden Sie Data Warehouse-Modelle, die für den Informationsabruf optimiert sind. Dies kann der dimensionale Modus, der denormalisierte oder der Hybridansatz sein.
- Wählen Sie im Data Warehouse den geeigneten Designansatz als Top-Down- und Bottom-Up-Ansatz
- Es muss sichergestellt werden, dass die Daten schnell und korrekt verarbeitet werden. Gleichzeitig sollten Sie einen Ansatz verfolgen, der die Daten zu einer einzigen Version der Wahrheit zusammenfasst.
- Entwerfen Sie den Datenerfassungs- und -bereinigungsprozess für das Data Warehouse sorgfältig.
- Entwerfen Sie eine Metadatenarchitektur, die den Austausch von Metadaten zwischen Data Warehouse-Komponenten ermöglicht
- Erwägen Sie die Implementierung eines ODS-Modells, wenn der Informationsabrufbedarf eher am unteren Ende der Datenabstraktionspyramide liegt oder wenn auf mehrere Betriebsquellen zugegriffen werden muss.
- Dabei sollte darauf geachtet werden, dass das Datenmodell integriert und nicht nur konsolidiert wird. In diesem Fall sollten Sie das 3NF-Datenmodell in Betracht ziehen. Es ist auch ideal für den Erwerb von ETL- und Datenbereinigungstools
Zusammenfassung
- Data Warehouse ist ein Informationssystem, das historische und kommutative Daten aus einzelnen oder mehreren Quellen enthält. Diese Quellen können herkömmliches Data Warehouse, Cloud Data Warehouse oder Virtual Data Warehouse sein.
- Ein Data Warehouse ist themenorientiert, da es Informationen zu einem Thema und nicht zu den laufenden Vorgängen der Organisation bietet.
- Im Data Warehouse bedeutet Integration die Festlegung einer gemeinsamen Maßeinheit für alle ähnlichen Daten aus den verschiedenen Datenbanken
- Das Data Warehouse ist außerdem nichtflüchtig, d. h. die vorherigen Daten werden nicht gelöscht, wenn neue Daten darin eingegeben werden.
- Ein Datawarehouse ist zeitvariant, da die Daten in einem DW eine lange Haltbarkeit haben.
- Es gibt hauptsächlich 5 Komponenten des Data Warehouse ArchiStruktur: 1) Datenbank 2) ETL-Tools 3) Metadaten 4) Abfragetools 5) DataMarts
- Dies sind vier Hauptkategorien von Abfragetools: 1. Abfrage- und Berichtstools, 2. Anwendungsentwicklungstools, 3. Data-Mining-Tools, 4. OLAP-Tools
- Die Tools zur Datenbeschaffung, -transformation und -migration werden zum Durchführen sämtlicher Konvertierungen und -zusammenfassungen verwendet.
- Im Data Warehouse ArchiIn der Struktur spielen Metadaten eine wichtige Rolle, da sie die Quelle, Verwendung, Werte und Merkmale von Data Warehouse-Daten angeben.