Was ist Datenabgleich? Definition, Prozess, Werkzeuge
Was ist Datenabgleich?
Unter Datenabgleich (DR) versteht man einen Prozess zur Überprüfung von Daten während der Datenmigration. Dabei werden Zieldaten mit Quelldaten verglichen, um sicherzustellen, dass die Migrationsarchitektur Daten überträgt. Unter Datenvalidierung und -abgleich (DVR) versteht man eine Technologie, die mathematische Modelle zur Verarbeitung von Informationen verwendet.
Warum ist der Datenabgleich wichtig?
Bei der Datenmigration können Fehler in der Mapping- und Transformationslogik passieren. Probleme wie Laufzeitfehler wie Netzwerkausfälle oder fehlerhafte Transaktionen können Daten beschädigen.
Fehler dieser Art können dazu führen, dass Daten in einem ungültigen Zustand verbleiben. Dies kann zu einer Reihe von Problemen führen, wie zum Beispiel:
- Fehlende Aufzeichnungen
- Fehlende Werte
- Falsche Werte
- Doppelte Datensätze
- Schlecht formatierte Werte
- Unterbrochene Beziehungen zwischen Tabellen oder Systemen
Hier sind wichtige Gründe für die Verwendung des Datenabgleichsprozesses:
- Der Einsatz von Data Reconciliation hilft Ihnen dabei, aus rohen Messdaten genaue und zuverlässige Informationen über den Stand des Industrieprozesses zu extrahieren.
- Darüber hinaus hilft es Ihnen, einen einzigen konsistenten Datensatz zu erstellen, der den wahrscheinlichsten Prozessvorgang darstellt.
- Dies führt auch zu ungenauen Erkenntnissen und Problemen mit dem Kundenservice.
- Der Datenabgleich ist auch für die Integration der Unternehmenssteuerung wichtig.
Abgesehen von den oben genannten Vorteilen bietet der Datenabgleich noch viele weitere Vorteile.
Terminologie im Zusammenhang mit dem Datenabgleich
Grober Fehler | Grobe Messfehler. Es spiegelt nur Bias-Fehler, Geräteausfälle oder ungewöhnliche Rauschspitzen wider, wenn Sie nur eine kurze Zeitmittelungsperiode verwenden. |
Beobachtbarkeit | Mithilfe einer Beobachtbarkeitsanalyse können Sie Einzelheiten darüber erfahren, welche Variablen für einen bestimmten Satz von Einschränkungen und Messungen ermittelt werden können. |
Unterschied | Varianz ist ein Maß für die Variabilität eines Sensors. |
Redundanz | Mithilfe der Randbedingungsgleichungen können Sie bestimmen, welche Messungen aus anderen Variablen geschätzt werden sollten. |
Geschichte des Datenabgleichs
Hier sind wesentliche Meilensteine aus der Geschichte des Datenabgleichs aufgeführt.
- DVR (Data Validation and Reconciliation) begann in den frühen 1960er Jahren. Ziel war es, Materialbilanzen in der Produktion zu schließen, bei denen Rohdaten für alle Variablen verfügbar waren.
- In den späten 1960er Jahren wurden alle nicht gemessenen Variablen im Datenabgleichsprozess berücksichtigt.
- Die quasistationäre Dynamik für Filterung und parallele Parameterschätzung über die Zeit wurde 1977 von Stanley und Mah eingeführt.
- Dynamic DVR wurde als nichtlineares Optimierungsmodell entwickelt, das 1992 von Liebman herausgegeben wurde
Datenabgleichsprozess
Arten von Datenabgleichsmethoden sind:
Stammdatenabgleich
Beim Stammdatenabgleich handelt es sich um eine Technik, bei der nur die Stammdaten zwischen Quelle und Ziel abgeglichen werden. Stammdaten sind meist unveränderlich oder verändern sich nur langsam, und es wird kein Aggregationsvorgang für den Datensatz durchgeführt.
Einige gängige Beispiele für den Stammdatenabgleich sind:
- Gesamtzahl der Zeilen
- Gesamtkunde in Quelle und Ziel
- Gesamtzahl der Elemente in Quelle und Ziel
- Gesamtzahl der Zeilen basierend auf der gegebenen Bedingung
- Anzahl der aktiven Benutzer
- Anzahl inaktiver Benutzer usw.
Genauigkeit der Aktivität
- Sie müssen sicherstellen, dass die Transaktionen gültig sind und ihrem Zweck entsprechen.
- Es muss überprüft werden, ob die Transaktionen ordnungsgemäß autorisiert wurden.
Abgleich von Transaktionsdaten
Transaktionsdaten bilden die Grundlage für BI-Berichte. Daher kann jede Diskrepanz in den Transaktionsdaten direkte Auswirkungen auf die Zuverlässigkeit des Berichts und des gesamten BI-Systems im Allgemeinen haben.
Die Transaktionsdatenabgleichsmethode wird in Bezug auf die Gesamtsumme verwendet, um Abweichungen zu vermeiden, die durch eine Änderung der Granularität der qualifizierenden Dimensionen verursacht werden.
Beispiele für Maßnahmen zum Transaktionsdatenabgleich sollten sein:
- Summe des Gesamteinkommens berechnet aus Quelle und Ziel
- Summe des gesamten verkauften Artikels, berechnet aus Quelle und Ziel usw.
Automatisierter Datenabgleich
In großen Data Warehouse-Verwaltungssystemen ist es praktisch, den Datenabgleichsprozess zu automatisieren, indem man ihn zu einem integralen Bestandteil des Datenladens macht. So können Sie separate Tabellen mit Lademetadaten verwalten. Darüber hinaus werden durch den automatisierten Abgleich alle Beteiligten über die Gültigkeit der Berichte informiert.
Best Practices für die Verwendung von Datenabgleich
- Der Datenabgleichsprozess sollte auf korrekte Messfehler abzielen.
- Die groben Fehler sollten Null sein, um den Datenabgleichsprozess effizient zu gestalten.
- Der Standardansatz des Datenabgleichs basiert auf einfachen Datensatzzählungen, um zu verfolgen, ob die angestrebte Anzahl von Datensätzen migriert wurde oder nicht.
- Die Datenmigrationslösung bietet ähnliche Abgleichsfunktionen und Daten-Prototyping-Funktionalität, die umfassende Datenabgleichstests ermöglicht.
Datenabgleichstools
1) ÖffnenVerfeinern
OpenRefine, früher als Google Refine bekannt, ist ein nützliches Framework für den Datenbankabgleich. Es ermöglicht Ihnen, unordentliche Daten zu bereinigen und zu übertragen.
Download-Link: https://openrefine.org/
2) TIBCO Klarheit
Dieses Datenabgleichstool bietet On-Demand-Softwaredienste aus dem Internet in Form von Software-as-a-Service. Es ermöglicht Benutzern, die Daten zu validieren und Daten zu bereinigen. Es bietet umfassende Abstimmungstestfunktionen. Wird häufig im ETL-Prozess verwendet.
Download Link: https://www.tibco.com/
3) Winpure
Winpure ist eine kostengünstige und genaue Datenbereinigungssoftware. Es ermöglicht Ihnen, große Datenmengen zu bereinigen, Duplikate zu entfernen, zu korrigieren und zu standardisieren, um den endgültigen Datensatz zu entwerfen.
Download Link: https://winpure.com/
Zusammenfassung
- Datenvalidierung und -abgleich (DVR) ist eine Technologie, die mathematische Modelle zur Verarbeitung von Informationen verwendet.
- Mithilfe des Datenabgleichs können Sie aus rohen Messdaten genaue und zuverlässige Informationen über den Zustand des Industrieprozesses extrahieren.
- Grobfehler, Beobachtbarkeit, Varianz und Redundanz sind wichtige Begriffe, die im Datenabgleichsprozess verwendet werden
- Datenvalidierung und -abgleich begannen in den frühen 1960er Jahren.
- Drei Arten von Datenabgleichsmethoden sind 1) Stammdatenabgleich, 2) Transaktionsdatenabgleich und 3) Automatisierter Datenabgleich
- Die groben Fehler sollten Null sein, um den Datenabgleichsprozess effizient zu gestalten.
- Einige wichtige Datenabgleichstools sind: 1) OpenRefine 2) TIBCO 3) Winpure
- Diese Methode wird häufig zur Leistungs- und Prozessüberwachung in der Ölraffinerie-, Nuklear- und Chemieindustrie eingesetzt