Hvad er dataafstemning? Definition, proces, værktøjer

Hvad er dataafstemning?

Dataafstemning (DR) er defineret som en proces til verifikation af data under datamigrering. I denne proces sammenlignes måldata med kildedata for at sikre, at migreringen architecture overfører data. Datavalidering og -afstemning (DVR) betyder en teknologi, der bruger matematiske modeller til at behandle information.

Dataafstemning

Hvorfor er dataafstemning vigtig?

I datamigreringsprocessen er det muligt, at der begås fejl i kortlægnings- og transformationslogikken. Problemer som driftstidsfejl som netværksfrafald eller ødelagte transaktioner kan ødelægge data.

Denne form for fejl kan føre til, at data efterlades i en ugyldig tilstand. Disse kan skabe en række problemer som:

  • Manglende poster
  • Manglende værdier
  • Forkerte værdier
  • Duplikerede optegnelser
  • Dårligt formaterede værdier
  • Brudte relationer på tværs af tabeller eller systemer

Her er vigtige grunde til at bruge dataafstemningsprocessen:

  • Brugen af ​​dataafstemning hjælper dig med at udtrække nøjagtige og pålidelige oplysninger om industriens tilstand fra rå måledata.
  • Det hjælper dig også med at producere et enkelt ensartet sæt data, der repræsenterer den mest sandsynlige proces operation.
  • Det fører også til unøjagtig indsigt og problemer med kundeservice.
  • Afstemning af data er også vigtig for integration af virksomhedskontrol.

Bortset fra ovenstående er der mange fordele/fordele ved dataafstemning.

Terminologi forbundet med dataafstemning

Groft fejl Grove fejl i målinger. Det afspejler kun bias-fejl, instrumentfejl eller unormale støjspidser, hvis du kun bruger en kort tidsgennemsnitsperiode.
observerbarhed Observerbarhedsanalyse kan give dig details om hvilke variabler der kan bestemmes for et givet sæt af begrænsninger og et sæt målinger.
varians Varians er et mål for variabiliteten af ​​en sensor.
Redundans Det hjælper dig med at bestemme, hvilke målinger der skal estimeres ud fra andre variabler ved at bruge begrænsningsligningerne.

Historie af dataafstemning

Her er væsentlige vartegn fra dataafstemningens historie.

  • DVR (Datavalidering og Reconciliation) startede i begyndelsen af ​​1960'erne. Det havde til formål at lukke materialebalancer i produktionen, hvor råmålinger var tilgængelige for alle variabler.
  • I slutningen af ​​1960'erne blev alle de umålte variabler overvejet i dataafstemningsprocessen.
  • Quasi-steady state dynamik til filtrering og parallel parameter estimering over tid blev introduceret i 1977 af Stanley og Mah.
  • Dynamic DVR blev udviklet som en ikke-lineær optimeringsmodel, som blev udgivet af Liebman i år 1992

Dataafstemningsproces

Typer af dataafstemningsmetoder er:

Dataafstemningsproces

Stamdataafstemning

Stamdataafstemning er en teknik til kun at afstemme stamdata mellem kilde og mål. Masterdata er for det meste uændrede eller langsomt ændrede karakter, og ingen aggregering operation sker på datasættet.

Nogle almindelige eksempler på stamdataafstemning er:

  • Samlet antal rækker
  • Total kunde i kilde og mål
  • Samlet antal elementer i kilde og mål
  • Samlet antal rækker baseret på given tilstand
  • Antal aktive brugere
  • Antal inaktive brugere mv.

Nøjagtighed af aktivitet

  • Du skal sikre dig, at transaktioner er gyldige og er korrekte i formålet.
  • Skal kontrollere, om transaktionerne er blevet korrekt godkendt.

Transaktionsdataafstemning

Transaktionsdata danner grundlaget for BI-rapporter. Derfor kan enhver mismatch i transaktionsdata direkte påvirke pålideligheden af ​​rapporten og hele BI-systemet generelt.

Transaktionel dataafstemningsmetode bruges i form af den samlede sum, som forhindrer enhver mismatch forårsaget af ændring af granulariteten af ​​kvalificerende dimensioner.

Eksempler på mål, der bruges til transaktionsdataafstemning, bør være:

  1. Summen af ​​den samlede indkomst beregnet ud fra kilde og mål
  2. Summen af ​​hele den solgte vare, beregnet ud fra kilde og mål mv.

Automatiseret dataafstemning

Stort set Data warehouse management system, er det praktisk at automatisere dataafstemningsprocessen ved at gøre dette til en integreret del af dataindlæsningen. Det giver dig mulighed for at opretholde separate indlæsningsmetadatatabeller. Desuden vil automatiseret afstemning holde alle interessenter informeret om gyldigheden af ​​rapporterne.

Bedste praksis for brug af dataafstemning

  • Dataafstemningsprocessen bør sigte mod korrekte målefejl.
  • Grove fejl bør være nul for at gøre dataafstemningsprocessen effektiv.
  • Standardtilgangen til dataafstemning har været afhængig af simple registreringsoptællinger for at holde styr på, om det målrettede antal poster er migreret eller ej.
  • Datamigreringsløsning leverer lignende afstemningsfunktioner og dataprototypefunktionalitet, som tilbyder fuld mængde dataafstemningstest.

Værktøjer til dataafstemning

1) OpenRefine

OpenRefine

OpenRefine, som tidligere er kendt som Google Refine, er en nyttig databaseafstemningsramme. Det giver dig mulighed for at rense og overføre rodet data.

Hent link: https://openrefine.org/


2) TIBCO Klarhed

TIBCO Klarhed

Dette dataafstemningsværktøj tilbyder on-demand softwaretjenester fra internettet i form af Software-as-a-service. Det giver brugerne mulighed for at validere dataene og rense data. Det giver komplette funktioner til afstemningstest. Udbredt i ETL-processen.

Hent Link: https://www.tibco.com/


3) Winpure

Winpure

Winpure er en overkommelig og præcis datarensningssoftware. Det giver dig mulighed for at rense en stor mængde data, fjerne dubletter, rette og standardisere for at designe det endelige datasæt.

Hent Link: https://winpure.com/

Resumé

  • Datavalidering og afstemning (DVR) er en teknologi, der bruger matematiske modeller til at behandle information.
  • Brugen af ​​dataafstemning hjælper dig med at udtrække nøjagtige og pålidelige oplysninger om industriens tilstand fra rå måledata.
  • Gross Error, Observability, Variance, Redundans er vigtige udtryk, der bruges i dataafstemningsprocessen
  • Datavalidering og afstemning startede i begyndelsen af ​​1960'erne.
  • Tre typer af dataafstemningsmetoder er 1) Stamdataafstemning 2) Transaktionsdataafstemning 3) Automatiseret dataafstemning
  • Grove fejl bør være nul for at gøre dataafstemningsprocessen effektiv.
  • Nogle vigtige dataafstemningsværktøjer er: 1)OpenRefine 2)TIBCO 3) Winpure
  • Denne metode er meget udbredt i ydeevne og procesovervågning i olieraffinering / nuklear / kemisk industri