Hva er dataavstemming? Definisjon, prosess, verktøy

Hva er dataavstemming?

Dataavstemming (DR) er definert som en prosess for verifisering av data under datamigrering. I denne prosessen sammenlignes måldata med kildedata for å sikre at migrasjonsarkitekturen overfører data. Datavalidering og avstemming (DVR) betyr en teknologi som bruker matematiske modeller for å behandle informasjon.

Dataavstemming

Hvorfor er dataavstemming viktig?

I datamigreringsprosessen er det mulig at det kan gjøres feil i kartleggings- og transformasjonslogikken. Problemer som kjøretidsfeil som nettverksfrafall eller ødelagte transaksjoner kan ødelegge data.

Denne typen feil kan føre til at data blir liggende i en ugyldig tilstand. Disse kan skape en rekke problemer som:

  • Manglende poster
  • Mangler verdier
  • Feil verdier
  • Dupliserte poster
  • Dårlig formaterte verdier
  • Ødelagte relasjoner på tvers av tabeller eller systemer

Her er viktige grunner til å bruke dataavstemmingsprosess:

  • Bruken av dataavstemming hjelper deg med å trekke ut nøyaktig og pålitelig informasjon om tilstanden til industriprosessen fra rå måledata.
  • Det hjelper deg også å produsere et enkelt konsistent sett med data som representerer den mest sannsynlige prosessoperasjonen.
  • Det fører også til unøyaktig innsikt og problemer med kundeservice.
  • Avstemming av data er også viktig for integrering av virksomhetskontroll.

Bortsett fra ovenfor er det mange fordeler/fordeler med dataavstemming.

Terminologi knyttet til dataavstemming

Grov feil Grove feil i målinger. Den gjenspeiler bare skjevhetsfeil, instrumentfeil eller unormale støyspiker hvis du bruker kun kort tidsgjennomsnittsperiode.
observerbarhet Observerbarhetsanalyse kan gi deg detaljer om hvilke variabler som kan bestemmes for et gitt sett med begrensninger og et sett med målinger.
Avviks Varians er et mål på variasjonen til en sensor.
Overflødighet Det hjelper deg å bestemme hvilke målinger som skal estimeres fra andre variabler ved å bruke begrensningsligningene.

Historie om dataavstemming

Her er viktige landemerker fra historien til dataavstemming.

  • DVR (Datavalidering og Reconciliation) startet tidlig på 1960-tallet. Det var rettet mot å lukke materialbalanser i produksjonen der råmålinger var tilgjengelige for alle variabler.
  • På slutten av 1960-tallet ble alle de umålte variablene vurdert i dataavstemmingsprosessen.
  • Quasi-steady state dynamikk for filtrering og parallell parameterestimering over tid ble introdusert i 1977 av Stanley og Mah.
  • Dynamic DVR ble utviklet som en ikke-lineær optimaliseringsmodell som ble utgitt av Liebman i år 1992

Dataavstemmingsprosess

Typer dataavstemmingsmetoder er:

Dataavstemmingsprosess

Hoveddataavstemming

Masterdataavstemming er en teknikk for å avstemme kun masterdata mellom kilde og mål. Masterdata er for det meste uforandret eller sakte i endring, og ingen aggregeringsoperasjon utføres på datasettet.

Noen vanlige eksempler på hoveddataavstemming er:

  • Totalt antall rader
  • Total kunde i kilde og mål
  • Totalt antall elementer i kilde og mål
  • Totalt antall rader basert på gitt tilstand
  • Antall aktive brukere
  • Antall inaktive brukere etc.

Nøyaktighet av aktivitet

  • Du må sørge for at transaksjoner er gyldige og har riktig formål.
  • Må sjekke om transaksjonene er riktig godkjent.

Transaksjonsdataavstemming

Transaksjonsdata utgjør grunnlaget for BI-rapporter. Derfor kan ethvert misforhold i transaksjonsdata direkte påvirke påliteligheten til rapporten og hele BI-systemet generelt.

Transaksjonsdataavstemmingsmetoden brukes i form av den totale summen som forhindrer mismatch forårsaket av endring av granulariteten til kvalifiserende dimensjoner.

Eksempler på tiltak som brukes for transaksjonsdataavstemming bør være:

  1. Summen av samlet inntekt beregnet fra kilde og mål
  2. Summen av hele varen som er solgt, beregnet fra kilde og mål osv.

Automatisert dataavstemming

I store datavarehusstyringssystem er det praktisk å automatisere dataavstemmingsprosessen ved å gjøre dette til en integrert del av datainnlastingen. Den lar deg opprettholde separate lastemetadatatabeller. Dessuten vil automatisert avstemming holde alle interessenter informert om gyldigheten av rapportene.

Beste praksis for bruk av dataavstemming

  • Dataavstemmingsprosessen bør være rettet mot korrekte målefeil.
  • Grove feil bør være null for å gjøre dataavstemmingsprosessen effektiv.
  • Standardtilnærmingen til dataavstemming har basert seg på enkle posttellinger for å holde styr på om det målrettede antallet poster har migrert eller ikke.
  • Datamigreringsløsning leverer lignende avstemmingsfunksjoner og dataprototyping-funksjonalitet som tilbyr fullvolumsdataavstemmingstesting.

Verktøy for dataavstemming

1) OpenRefine

OpenRefine

OpenRefine, som tidligere er kjent som Google Refine, er et nyttig rammeverk for databaseavstemming. Den lar deg rense og overføre rotete data.

Last ned link: https://openrefine.org/


2) TIBCO Klarhet

TIBCO Klarhet

Dette dataavstemmingsverktøyet tilbyr on-demand programvaretjenester fra nettet i form av Software-as-a-service. Det lar brukere validere dataene og rense data. Den gir komplette funksjoner for avstemmingstesting. Mye brukt i ETL-prosessen.

Last ned Link: https://www.tibco.com/


3) Winpure

Winpure

Winpure er en rimelig og nøyaktig datarensingsprogramvare. Den lar deg rense en stor mengde data, fjerne duplikater, korrigere og standardisere for å designe det endelige datasettet.

Last ned Link: https://winpure.com/

Sammendrag

  • Datavalidering og avstemming (DVR) er en teknologi som bruker matematiske modeller for å behandle informasjon.
  • Bruken av dataavstemming hjelper deg med å trekke ut nøyaktig og pålitelig informasjon om tilstanden til industriprosessen fra rå måledata.
  • Grov feil, observerbarhet, varians, redundans er viktige begreper som brukes i dataavstemmingsprosessen
  • Datavalidering og avstemming startet på begynnelsen av 1960-tallet.
  • Tre typer dataavstemmingsmetoder er 1) Hoveddataavstemming 2) Transaksjonsdataavstemming 3) Automatisert dataavstemming
  • Grove feil bør være null for å gjøre dataavstemmingsprosessen effektiv.
  • Noen viktige dataavstemmingsverktøy er: 1)OpenRefine 2)TIBCO 3) Winpure
  • Denne metoden er mye brukt i ytelse og prosessovervåking i oljeraffinering / kjernefysisk / kjemisk industri