Wat is gegevensafstemming? Definitie, proces, hulpmiddelen
Wat is gegevensafstemming?
Data reconciliation (DR) wordt gedefinieerd als een proces van verificatie van data tijdens datamigratie. In dit proces worden doeldata vergeleken met brondata om te verzekeren dat de migratiearchitectuur data overdraagt. Datavalidatie en reconciliation (DVR) betekent een technologie die wiskundige modellen gebruikt om informatie te verwerken.
Waarom is gegevensafstemming belangrijk?
Tijdens het datamigratieproces kunnen er fouten worden gemaakt in de mapping- en transformatielogica. Problemen zoals runtime-fouten zoals netwerkuitval of verbroken transacties kunnen gegevens beschadigen.
Dit soort fouten kan ertoe leiden dat gegevens in een ongeldige staat achterblijven. Deze kunnen een reeks problemen veroorzaken, zoals:
- Ontbrekende records
- Ontbrekende waarden
- Onjuiste waarden
- Dubbele records
- Slecht opgemaakte waarden
- Verbroken relaties tussen tabellen of systemen
Hier volgen belangrijke redenen om het gegevensafstemmingsproces te gebruiken:
- Het gebruik van Data Reconciliatie helpt u bij het extraheren van nauwkeurige en betrouwbare informatie over de stand van zaken in het industriële proces uit ruwe meetgegevens.
- Het helpt u ook bij het produceren van één consistente set gegevens die de meest waarschijnlijke procesbewerking vertegenwoordigt.
- Het leidt ook tot onnauwkeurige inzichten en problemen met de klantenservice.
- Het afstemmen van gegevens is ook belangrijk voor de integratie van ondernemingscontrole.
Afgezien van het bovenstaande zijn er veel voordelen/voordelen van gegevensafstemming.
Terminologie geassocieerd met gegevensafstemming
Grove fout | Grove fouten in metingen. Het weerspiegelt alleen biasfouten, instrumentstoringen of abnormale ruispieken als u slechts een korte tijdmiddelingsperiode gebruikt. |
observeerbaarheid | Met observatieanalyse krijgt u inzicht in welke variabelen kunnen worden bepaald voor een bepaalde reeks beperkingen en een reeks metingen. |
variance | Variantie is een maatstaf voor de variabiliteit van een sensor. |
Redundantie | Het helpt u te bepalen welke metingen moeten worden geschat op basis van andere variabelen door gebruik te maken van de beperkingsvergelijkingen. |
Geschiedenis van gegevensafstemming
Hier vindt u essentiële herkenningspunten uit de geschiedenis van datareconciliatie.
- DVR (Datavalidatie en Reconciliatie) begon begin jaren zestig. Het was gericht op het sluiten van materiaalbalansen in de productie, waarbij voor alle variabelen ruwe metingen beschikbaar waren.
- Eind jaren zestig werden alle niet-gemeten variabelen meegenomen in het gegevensafstemmingsproces.
- Quasi-steady state-dynamiek voor filtering en parallelle parameterschatting in de loop van de tijd werd in 1977 geïntroduceerd door Stanley en Mah.
- Dynamische DVR is ontwikkeld als een niet-lineair optimalisatiemodel dat in 1992 door Liebman is uitgegeven
Gegevensafstemmingsproces
Soorten gegevensafstemmingsmethoden zijn:
Afstemming van stamgegevens
Master data reconciliation is een techniek om alleen de master data tussen bron en doel te reconcilieren. Master data is meestal onveranderlijk of verandert langzaam van aard, en er wordt geen aggregatiebewerking uitgevoerd op de dataset.
Enkele veelvoorkomende voorbeelden van afstemming van stamgegevens zijn:
- Totaal aantal rijen
- Totale klant in bron en doel
- Totaal aantal items in bron en doel
- Totaal aantal rijen op basis van een bepaalde voorwaarde
- Aantal actieve gebruikers
- Aantal inactieve gebruikers enz.
Nauwkeurigheid van activiteit
- U moet ervoor zorgen dat transacties geldig zijn en het juiste doel hebben.
- Moet controleren of de transacties correct zijn geautoriseerd.
Afstemming van transactiegegevens
Transactiegegevens vormen de basis van BI-rapporten. Daarom kan elke mismatch in transactiegegevens een directe impact hebben op de betrouwbaarheid van het rapport en het hele BI-systeem in het algemeen.
Er wordt een afstemmingsmethode voor transactiegegevens gebruikt in termen van de totale som, waardoor eventuele mismatches worden voorkomen die worden veroorzaakt door het wijzigen van de granulariteit van kwalificerende dimensies.
Voorbeelden van maatregelen die worden gebruikt voor de afstemming van transactiegegevens zijn:
- Som van totale inkomsten berekend op basis van bron en doel
- Som van het gehele verkochte artikel, berekend op basis van bron en doel, etc.
Geautomatiseerde gegevensafstemming
In grote datawarehouse-beheersystemen is het handig om het gegevensafstemmingsproces te automatiseren door dit een integraal onderdeel te maken van het laden van gegevens. Hiermee kunt u afzonderlijke tabellen met metagegevens voor het laden onderhouden. Bovendien houdt geautomatiseerde afstemming alle belanghebbenden op de hoogte van de geldigheid van de rapporten.
Best practices voor het gebruik van gegevensafstemming
- Het gegevensafstemmingsproces moet gericht zijn op correcte meetfouten.
- Om het gegevensafstemmingsproces efficiënt te laten verlopen, moeten de brutofouten nul zijn.
- De standaardaanpak van gegevensafstemming is gebaseerd op eenvoudige recordtellingen om bij te houden of het beoogde aantal records is gemigreerd of niet.
- De datamigratieoplossing biedt vergelijkbare afstemmingsmogelijkheden en dataprototyping-functionaliteit die volledige dataafstemmingstests mogelijk maakt.
Hulpmiddelen voor gegevensafstemming
1) OpenVerfijn
OpenRefine, voorheen bekend als Google Refine, is een handig raamwerk voor databaseafstemming. Hiermee kunt u rommelige gegevens opschonen en overbrengen.
Download link: https://openrefine.org/
2) TIBCO duidelijkheid
Deze tool voor gegevensafstemming biedt on-demand softwarediensten van internet in de vorm van Software-as-a-Service. Hiermee kunnen gebruikers de gegevens valideren en gegevens opschonen. Het biedt volledige functies voor afstemmingstests. Op grote schaal gebruikt in ETL-proces.
Download Link: https://www.tibco.com/
3) Winpuur
Winpure is betaalbare en nauwkeurige software voor het opschonen van gegevens. Hiermee kunt u een grote hoeveelheid gegevens opschonen, duplicaten verwijderen, corrigeren en standaardiseren om de uiteindelijke gegevensset te ontwerpen.
Download Link: https://winpure.com/
Samenvatting
- Gegevensvalidatie en afstemming (DVR) is een technologie die wiskundige modellen gebruikt om informatie te verwerken.
- Het gebruik van gegevensafstemming helpt u bij het extraheren van nauwkeurige en betrouwbare informatie over de stand van zaken in het proces uit ruwe meetgegevens.
- Bruto fout, waarneembaarheid, variantie en redundantie zijn belangrijke termen die worden gebruikt in het gegevensafstemmingsproces
- Gegevensvalidatie en afstemming begonnen begin jaren zestig.
- Er zijn drie soorten methoden voor gegevensafstemming: 1) Afstemming van mastergegevens 2) Afstemming van transactiegegevens 3) Geautomatiseerde gegevensafstemming
- Om het gegevensafstemmingsproces efficiënt te laten verlopen, moeten de brutofouten nul zijn.
- Enkele belangrijke tools voor gegevensafstemming zijn: 1)OpenRefine 2)TIBCO 3) Winpure
- Deze methode wordt veel gebruikt bij prestatie- en procesmonitoring in de olieraffinage/nucleaire/chemische industrie