Was ist Data Warehouse? Typen, Definition und Beispiel
Was ist Data Warehousing?
A Data Warehousing (DW) ist ein Prozess zum Sammeln und Verwalten von Daten aus verschiedenen Quellen, um aussagekräftige Geschäftseinblicke zu liefern. Ein Data Warehouse wird normalerweise verwendet, um Geschäftsdaten aus heterogenen Quellen zu verbinden und zu analysieren. Das Data Warehouse ist der Kern des BI-Systems, das für die Datenanalyse und Berichterstattung entwickelt wurde.
Es handelt sich um eine Mischung aus Technologien und Komponenten, die die strategische Nutzung von Daten unterstützt. Es handelt sich um die elektronische Speicherung einer großen Menge an Informationen durch ein Unternehmen, die für Abfragen und Analysen statt für die Transaktionsverarbeitung konzipiert ist. Es handelt sich um einen Prozess, bei dem Daten in Informationen umgewandelt und den Benutzern zeitnah zur Verfügung gestellt werden, um einen Unterschied zu machen.
Die Datenbank zur Entscheidungsunterstützung (Data Warehouse) wird getrennt von der Betriebsdatenbank der Organisation verwaltet. Das Data Warehouse ist jedoch kein Produkt, sondern eine Umgebung. Es ist eine architektonische Konstruktion eines Informationssystems, das Benutzern aktuelle und historische Informationen zur Entscheidungsunterstützung bereitstellt, die im herkömmlichen Betriebsdatenspeicher nur schwer zugänglich oder vorhanden sind.
Sie wissen viele, dass eine von 3NF entworfene Datenbank für ein Inventarsystem viele Tabellen enthält, die miteinander verknüpft sind. Beispielsweise kann ein Bericht über aktuelle Bestandsinformationen mehr als 12 verbundene Bedingungen umfassen. Dies kann die Antwortzeit der Abfrage und des Berichts schnell verlangsamen. Ein Data Warehouse bietet ein neues Design, das dazu beitragen kann, die Antwortzeit zu verkürzen und die Leistung von Abfragen für Berichte und Analysen zu verbessern.
Data-Warehouse-Systeme sind auch unter folgenden Namen bekannt:
- Entscheidungsunterstützungssystem (DSS)
- Führungskräfteinformationssystem
- Management Informationssystem
- Business-Intelligence-Lösung
- Analytische Anwendung
- Data Warehousing
Geschichte des Datawarehouse
Das Datawarehouse hilft Benutzern, die Leistung ihrer Organisation zu verstehen und zu verbessern. Die Notwendigkeit, Daten zu speichern, entwickelte sich, als Computersysteme komplexer wurden und immer mehr Informationen verarbeiten mussten. Data Warehousing ist jedoch nichts Neues.
Hier sind einige wichtige Ereignisse in der Entwicklung von Data Warehouse:
- 1960 – Dartmouth und General Mills entwickeln in einem gemeinsamen Forschungsprojekt die Begriffe Dimensionen und Fakten.
- 1970 – A Nielsen und IRI führen dimensionale Data Marts für den Einzelhandel ein.
- 1983 – Tera Data Corporation führt ein Datenbankverwaltungssystem ein, das speziell für die Entscheidungsunterstützung entwickelt wurde
- Data Warehousing begann in den späten 1980er Jahren IBM Die Mitarbeiter Paul Murphy und Barry Devlin entwickelten das Business Data Warehouse.
- Das eigentliche Konzept wurde jedoch von Inmon vorgegeben Bill. Er galt als Vater des Data Warehouse. Er hatte über eine Vielzahl von Themen zum Bau, zur Nutzung und zur Wartung des Lagers und der Corporate Information Factory geschrieben.
Wie funktioniert Datawarehouse?
Ein Data Warehouse fungiert als zentrales Repository, in dem Informationen aus einer oder mehreren Datenquellen eingehen. Daten fließen vom Transaktionssystem und anderen relationalen Datenbanken in ein Data Warehouse.
Daten können sein:
- Strukturierte
- Halbstrukturiert
- Unstrukturierte Daten
Die Daten werden verarbeitet, transformiert und erfasst, sodass Benutzer über Business Intelligence-Tools, SQL-Clients und Tabellenkalkulationen auf die verarbeiteten Daten im Data Warehouse zugreifen können. Ein Data Warehouse führt Informationen aus unterschiedlichen Quellen in einer umfassenden Datenbank zusammen.
Durch die Zusammenführung all dieser Informationen an einem Ort kann ein Unternehmen seine Kunden ganzheitlicher analysieren. Dies trägt dazu bei, sicherzustellen, dass alle verfügbaren Informationen berücksichtigt wurden. Data Warehousing ermöglicht Data Mining. Beim Data Mining wird nach Mustern in den Daten gesucht, die zu höheren Umsätzen und Gewinnen führen können.
Arten von Data Warehouse
Drei Haupttypen von Data Warehouses (DWH) sind:
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) ist ein zentralisiertes Warehouse. Es bietet Entscheidungsunterstützungsdienste im gesamten Unternehmen. Es bietet einen einheitlichen Ansatz zum Organisieren und Darstellen von Daten. Es bietet auch die Möglichkeit, Daten nach Themen zu klassifizieren und den Zugriff entsprechend diesen Unterteilungen zu ermöglichen.
2. OperaNationaler Datenspeicher:
OperaNationale Datenspeicher, auch ODS genannt, sind nichts anderes als Datenspeicher, die erforderlich sind, wenn weder Data Warehouse noch OLTP-Systeme die Berichtsanforderungen von Unternehmen unterstützen. In ODS wird das Data Warehouse in Echtzeit aktualisiert. Daher wird es häufig für Routinetätigkeiten wie das Speichern von Mitarbeiterdaten verwendet.
3. Data Mart:
A Datamart ist eine Teilmenge des Data Warehouse. Es wurde speziell für einen bestimmten Geschäftsbereich entwickelt, z. B. Vertrieb, Finanzen, Vertrieb oder Finanzen. In einem unabhängigen Data Mart können Daten direkt aus Quellen gesammelt werden.
Allgemeine Phasen des Data Warehouse
Früher begannen Unternehmen mit der relativ einfachen Nutzung von Data Warehousing. Im Laufe der Zeit begann jedoch ein ausgefeilterer Einsatz von Data Warehousing.
Im Folgenden sind die allgemeinen Nutzungsphasen des Data Warehouse (DWH) aufgeführt:
Offline OperaNationale Datenbank:
In dieser Phase werden Daten lediglich von einem Betriebssystem auf einen anderen Server kopiert. Auf diese Weise wirken sich das Laden, Verarbeiten und Melden der kopierten Daten nicht auf die Leistung des Betriebssystems aus.
Offline-Data Warehouse:
Die Daten im Datawarehouse werden regelmäßig aktualisiert Operationale Datenbank. Die Daten in Datawarehouse werden zugeordnet und transformiert, um die Datawarehouse-Ziele zu erreichen.
Echtzeit-Data Warehouse:
In dieser Phase werden Data Warehouses immer dann aktualisiert, wenn eine Transaktion in der Betriebsdatenbank stattfindet. Beispielsweise Buchungssysteme von Fluggesellschaften oder Bahnen.
Integriertes Data Warehouse:
In dieser Phase werden Data Warehouses kontinuierlich aktualisiert, wenn das Betriebssystem eine Transaktion ausführt. Das Data Warehouse generiert dann Transaktionen, die an das Betriebssystem zurückgegeben werden.
Komponenten des Data Warehouse
Vier Komponenten von Data Warehouses sind:
Lademanager: Der Lademanager wird auch als Frontkomponente bezeichnet. Er führt alle Vorgänge aus, die mit der Extraktion und dem Laden von Daten in das Data Warehouse verbunden sind. Zu diesen Vorgängen gehören Transformationen, um die Daten für die Eingabe in das Data Warehouse vorzubereiten.
Lagerhausmanager: Der Warehouse Manager führt Vorgänge im Zusammenhang mit der Verwaltung der Daten im Warehouse aus. Er führt Vorgänge wie die Analyse von Daten durch, um Konsistenz sicherzustellen, die Erstellung von Indizes und Ansichten, die Generierung von Denormalisierungen und Aggregationen, die Transformation und Zusammenführung von Quelldaten sowie die Archivierung und Sicherung von Daten.
Abfragemanager: Der Abfragemanager wird auch als Backend-Komponente bezeichnet. Er führt alle Operationen im Zusammenhang mit der Verwaltung von Benutzerabfragen aus. Die Operationen dieser Data Warehouse-Komponenten sind direkte Abfragen an die entsprechenden Tabellen zur Planung der Ausführung von Abfragen.
Tools für den Endbenutzerzugriff:
Dies ist in fünf verschiedene Gruppen eingeteilt: 1. Datenberichte, 2. Abfragetools, 3. Anwendungsentwicklungstools, 4. EIS-Tools, 5. OLAP-Tools und Data Mining-Tools.
Wer braucht Data Warehouse?
DWH (Data Warehouse) wird für alle Arten von Benutzern benötigt, wie zum Beispiel:
- Entscheidungsträger, die auf große Datenmengen angewiesen sind
- Benutzer, die angepasste, komplexe Prozesse verwenden, um Informationen aus mehreren Datenquellen zu erhalten.
- Es wird auch von Personen verwendet, die eine einfache Technologie für den Zugriff auf die Daten wünschen
- Es ist auch wichtig für diejenigen, die einen systematischen Ansatz für die Entscheidungsfindung wünschen.
- Wenn der Benutzer eine schnelle Leistung bei großen Datenmengen wünscht, die für Berichte, Tabellen oder Diagramme erforderlich sind, erweist sich Data Warehouse als nützlich.
- Data Warehouse ist ein erster Schritt, wenn Sie „verborgene Muster“ von Datenflüssen und -gruppierungen entdecken möchten.
Wofür wird ein Data Warehouse verwendet?
Hier sind die häufigsten Bereiche, in denen Data Warehouse verwendet wird:
Fluggesellschaft:
Im Airline-System wird es für betriebliche Zwecke wie etwa die Crew-Zuweisung, Analysen der Streckenrentabilität, Werbeaktionen für Vielfliegerprogramme usw. verwendet.
Banking:
Es wird im Bankensektor häufig verwendet, um die am Schreibtisch verfügbaren Ressourcen effektiv zu verwalten. Einige Banken verwenden es auch für Marktforschung, Leistungsanalysen des Produkts und des Betriebs.
Gesundheitswesen:
Der Gesundheitssektor nutzte Data Warehouse auch, um Strategien zu entwickeln und Ergebnisse vorherzusagen, Behandlungsberichte für Patienten zu erstellen, Daten mit angeschlossenen Versicherungsunternehmen, medizinischen Hilfsdiensten usw. auszutauschen.
Öffentlicher Sektor:
Im öffentlichen Sektor wird das Data Warehouse zur Informationsbeschaffung genutzt. Es unterstützt Regierungsbehörden bei der Pflege und Analyse von Steuerunterlagen und Krankenakten für jeden Einzelnen.
Investment- und Versicherungssektor:
In diesem Sektor werden die Warehouses hauptsächlich zur Analyse von Datenmustern und Kundentrends sowie zur Verfolgung von Marktbewegungen verwendet.
Kette festhalten:
In Einzelhandelsketten wird Data Warehouse häufig für Vertrieb und Marketing eingesetzt. Es hilft auch bei der Verfolgung von Artikeln, Kaufverhalten der Kunden, Werbeaktionen und wird auch zur Festlegung der Preispolitik verwendet.
Telekommunikation:
In diesem Sektor wird ein Data Warehouse für Produktwerbung, Verkaufsentscheidungen und Vertriebsentscheidungen verwendet.
Gastgewerbe:
Diese Branche nutzt Lagerdienste zur Gestaltung und Kostenschätzung von Werbe- und Verkaufsförderungskampagnen, mit denen sie Kunden auf der Grundlage ihres Feedbacks und ihrer Reisemuster ansprechen möchte.
Schritte zur Implementierung eines Data Warehouse
Der beste Weg, das mit einer Datawarehouse-Implementierung verbundene Geschäftsrisiko zu bewältigen, besteht darin, die unten aufgeführte dreistufige Strategie anzuwenden
- Unternehmensstrategie: Hier identifizieren wir technische Aspekte, einschließlich der aktuellen Architektur und Tools. Wir identifizieren auch Fakten, Dimensionen und Attribute. Datenmapping und -transformation werden ebenfalls übergeben.
- Gestaffelte Lieferung: Die Implementierung des Datawarehouse sollte stufenweise und nach Themenbereichen erfolgen. Zugehörige Geschäftseinheiten wie Buchung und Abrechnung sollten zuerst implementiert und dann miteinander integriert werden.
- Iteratives Prototyping: Anstelle eines Big-Bang-Ansatzes bei der Implementierung sollte das Datawarehouse iterativ entwickelt und getestet werden.
Hier sind die wichtigsten Schritte bei der Datawarehouse-Implementierung sowie deren Ergebnisse aufgeführt.
Schritt | Aufgaben | Leistungen |
---|---|---|
1 | Der Projektumfang muss definiert werden | Bereich Definition |
2 | Es müssen die Geschäftsanforderungen ermittelt werden | Logisches Datenmodell |
3 | Festlegung OperaAnforderungen an den Datenspeicher | OperaNationales Datenspeichermodell |
4 | Erwerben oder entwickeln Sie Extraktionswerkzeuge | Extrahieren Sie Tools und Software |
5 | Definieren Sie die Datenanforderungen für das Data Warehouse | Übergangsdatenmodell |
6 | Dokumentieren Sie fehlende Daten | Zu erledigende Projektliste |
7 | Landkarten Operanationalen Datenspeicher zum Data Warehouse | D/W-Datenintegrationskarte |
8 | Entwickeln Sie das Design einer Data Warehouse-Datenbank | D/W-Datenbankdesign |
9 | Daten extrahieren aus Operationaler Datenspeicher | Integrierte D/W-Datenextrakte |
10 | Data Warehouse laden | Erstmaliges Laden der Daten |
11 | Pflegen Sie das Data Warehouse | Laufender Datenzugriff und nachfolgende Ladevorgänge |
Best Practices zur Implementierung eines Data Warehouse
- Legen Sie einen Plan fest, um die Konsistenz, Genauigkeit und Integrität der Daten zu testen.
- Das Data Warehouse muss gut integriert, klar definiert und mit einem Zeitstempel versehen sein.
- Stellen Sie beim Entwerfen von Datawarehouse sicher, dass Sie das richtige Tool verwenden, sich an den Lebenszyklus halten, auf Datenkonflikte achten und bereit sind, Ihre Fehler zu erkennen.
- Ersetzen Sie niemals operative Systeme und Berichte
- Verbringen Sie nicht zu viel Zeit mit dem Extrahieren, Bereinigen und Laden von Daten.
- Stellen Sie sicher, dass alle Beteiligten, einschließlich des Geschäftspersonals, in den Datawarehouse-Implementierungsprozess einbezogen werden. Stellen Sie fest, dass Data Warehousing ein Gemeinschafts-/Teamprojekt ist. Sie möchten kein Data Warehouse erstellen, das für die Endbenutzer nicht nützlich ist.
- Bereiten Sie einen Schulungsplan für die Endbenutzer vor.
Warum brauchen wir Data Warehouse? Vorteile Nachteile
Vorteile von Data Warehouse (DWH):
- Mit dem Data Warehouse können Geschäftsanwender an einem Ort schnell auf wichtige Daten aus einigen Quellen zugreifen.
- Das Data Warehouse stellt konsistente Informationen zu verschiedenen funktionsübergreifenden Aktivitäten bereit. Es unterstützt auch Ad-hoc-Berichte und -Abfragen.
- Data Warehouse hilft bei der Integration vieler Datenquellen, um die Belastung des Produktionssystems zu reduzieren.
- Data Warehouse trägt dazu bei, die Gesamtdurchlaufzeit für Analyse und Berichterstellung zu verkürzen.
- Umstrukturierung und Integration erleichtern dem Benutzer die Verwendung für Berichte und Analysen.
- Mit dem Data Warehouse können Benutzer an einem einzigen Ort auf wichtige Daten aus einer Vielzahl von Quellen zugreifen. Daher spart der Benutzer Zeit beim Abrufen von Daten aus mehreren Quellen.
- Data Warehouse speichert eine große Menge historischer Daten. Dies hilft Benutzern, verschiedene Zeiträume und Trends zu analysieren, um zukünftige Vorhersagen zu treffen.
Nachteile von Data Warehouse:
- Keine ideale Option für unstrukturierte Daten.
- Die Erstellung und Implementierung eines Data Warehouse ist sicherlich eine zeitraubende Angelegenheit.
- Data Warehouse kann relativ schnell veraltet sein
- Es ist schwierig, Änderungen an Datentypen und -bereichen, Datenquellenschema, Indizes und Abfragen vorzunehmen.
- Das Data Warehouse scheint zwar einfach zu sein, ist für den durchschnittlichen Benutzer jedoch tatsächlich zu komplex.
- Trotz aller Bemühungen im Projektmanagement wird der Umfang von Data-Warehousing-Projekten immer größer.
- Manchmal entwickeln Lagerbenutzer unterschiedliche Geschäftsregeln.
- Organisationen müssen einen Großteil ihrer Ressourcen für Schulungs- und Implementierungszwecke aufwenden.
Die Zukunft des Data Warehousing
- Verändern in Regulatorische Einschränkungen kann die Möglichkeit einschränken, Quellen unterschiedlicher Daten zu kombinieren. Diese unterschiedlichen Quellen können unstrukturierte Daten enthalten, die schwer zu speichern sind.
- Da die Größe der Datenbanken wächst, steigen die Schätzungen darüber, was eine sehr große Datenbank ausmacht, weiter an. Der Aufbau und Betrieb von Data Warehouse-Systemen, die immer größer werden, ist komplex. Die heute verfügbaren Hardware- und Softwareressourcen erlauben es nicht, große Datenmengen online zu halten.
- Multimediale Daten können nicht einfach als Textdaten manipuliert werden, wohingegen Textinformationen mit der heute verfügbaren relationalen Software abgerufen werden können. Dies könnte ein Forschungsthema sein.
Data Warehouse-Tools
Es gibt viele Data Warehousing-Tools auf dem Markt. Hier sind einige der bekanntesten:
1. MarkLogic:
MarkLogic ist eine nützliche Data-Warehousing-Lösung, die die Datenintegration mithilfe einer Reihe von Unternehmensfunktionen einfacher und schneller macht. Dieses Tool hilft bei der Durchführung sehr komplexer Suchvorgänge. Es kann verschiedene Datentypen wie Dokumente, Beziehungen und Metadaten abfragen.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle ist die branchenführende Datenbank. Sie bietet eine große Auswahl an Data Warehouse-Lösungen sowohl vor Ort als auch in der Cloud. Sie trägt zur Optimierung des Kundenerlebnisses bei, indem sie die betriebliche Effizienz steigert.
https://www.oracle.com/index.html
3. Amazon RotShift:
Amazon Redshift ist ein Data Warehouse-Tool. Es ist ein einfaches und kostengünstiges Tool zur Analyse aller Arten von Daten mit Standard SQL und vorhandene BI-Tools. Es ermöglicht außerdem die Ausführung komplexer Abfragen für Petabyte an strukturierten Daten mithilfe der Technik der Abfrageoptimierung.
https://aws.amazon.com/redshift/?nc2=h_m1
Hier ist eine vollständige Liste nützlicher Datawarehouse-Tools.
SCHLÜSSELLERNEN
- Data Warehouse (DWH) wird auch als Enterprise Data Warehouse (EDW) bezeichnet.
- Ein Data Warehouse ist als zentrales Repository definiert, in dem Informationen aus einer oder mehreren Datenquellen stammen.
- Drei Haupttypen von Data Warehouses sind Enterprise Data Warehouse (EDW), Operanationaler Datenspeicher und Data Mart.
- Der allgemeine Status eines Datawarehouses ist „Offline“. OperaNationale Datenbank, Offline-Data-Warehouse, Echtzeit-Data-Warehouse und integriertes Data-Warehouse.
- Die vier Hauptkomponenten von Datawarehouse sind Load Manager, Warehouse Manager, Query Manager und Endbenutzer-Zugriffstools
- Datawarehouse wird in verschiedenen Branchen wie Fluggesellschaften, Banken, Gesundheitswesen, Versicherungen, Einzelhandel usw. eingesetzt.
- Die Implementierung eines Datawarehouses ist eine dreigleisige Strategie, nämlich Unternehmensstrategie, phasenweise Bereitstellung und iteratives Prototyping.
- Mit dem Data Warehouse können Geschäftsanwender an einem Ort schnell auf wichtige Daten aus einigen Quellen zugreifen.