Vad är dataavstämning? Definition, Process, Verktyg

Vad är dataavstämning?

Dataavstämning (DR) definieras som en process för verifiering av data under datamigrering. I denna process jämförs måldata med källdata för att säkerställa att migreringsarkitekturen överför data. Datavalidering och avstämning (DVR) innebär en teknik som använder matematiska modeller för att bearbeta information.

Dataavstämning

Varför är dataavstämning viktigt?

I datamigreringsprocessen är det möjligt att misstag görs i kartläggnings- och transformationslogiken. Problem som körtidsfel som nätverksavbrott eller trasiga transaktioner kan korrumpera data.

Den här typen av fel kan leda till att data lämnas i ett ogiltigt tillstånd. Dessa kan skapa en rad problem som:

  • Saknade rekord
  • Värden saknas
  • Felaktiga värden
  • Duplicerade poster
  • Dåligt formaterade värden
  • Brutna relationer över tabeller eller system

Här är viktiga skäl för att använda dataavstämningsprocessen:

  • Användningen av dataavstämning hjälper dig att extrahera korrekt och tillförlitlig information om tillståndet i industriprocessen från rå mätdata.
  • Det hjälper dig också att producera en enda konsekvent uppsättning data som representerar den mest sannolika processoperationen.
  • Det leder också till felaktig insikt och problem med kundservice.
  • Avstämning av data är också viktigt för integration av företagskontroll.

Förutom ovanstående finns det många fördelar med dataavstämning.

Terminologi förknippad med dataavstämning

Grovt fel Grova fel i mätningar. Det återspeglar endast förspänningsfel, instrumentfel eller onormala bullertoppar om du bara använder en kort tidsgenomsnittsperiod.
observerbarhet Observerbarhetsanalys kan ge dig detaljer om vilka variabler som kan bestämmas för en given uppsättning begränsningar och en uppsättning mätningar.
Variation Varians är ett mått på variabiliteten hos en sensor.
redundans Det hjälper dig att bestämma vilka mätningar som ska uppskattas från andra variabler genom att använda begränsningsekvationerna.

Historik för dataavstämning

Här är viktiga landmärken från historien om dataavstämning.

  • DVR (Datavalidering och Reconciliation) startade i början av 1960-talet. Det syftade till att stänga materialbalanser i produktionen där råmått fanns tillgängliga för alla variabler.
  • I slutet av 1960-talet beaktades alla omätade variabler i dataavstämningsprocessen.
  • Quasi-steady state dynamik för filtrering och parallell parameteruppskattning över tid introducerades 1977 av Stanley och Mah.
  • Dynamic DVR utvecklades som en olinjär optimeringsmodell som gavs ut av Liebman år 1992

Dataavstämningsprocess

Typer av dataavstämningsmetoder är:

Dataavstämningsprocess

Stamdataavstämning

Masterdataavstämning är en teknik för att stämma av endast masterdata mellan källa och mål. Masterdata är för det mesta oförändrade eller långsamt till sin natur, och ingen aggregeringsoperation görs på datamängden.

Några vanliga exempel på stamdataavstämning är:

  • Totalt antal rader
  • Total kund i källa och mål
  • Totalt antal objekt i källa och mål
  • Totalt antal rader baserat på givet villkor
  • Antal aktiva användare
  • Antal inaktiva användare etc.

Noggrannhet av aktivitet

  • Du måste försäkra dig om att transaktionerna är giltiga och har rätt syfte.
  • Behöver kontrollera om transaktionerna har godkänts på rätt sätt.

Transaktionsdataavstämning

Transaktionsdata utgör basen för BI-rapporter. Därför kan varje oöverensstämmelse i transaktionsdata direkt påverka rapportens tillförlitlighet och hela BI-systemet i allmänhet.

Transaktionsdataavstämningsmetoden används i termer av den totala summan som förhindrar eventuella missmatchningar som orsakas av att kvalificerande dimensioners granularitet ändras.

Exempel på mått som används för transaktionsdataavstämning bör vara:

  1. Summan av den totala inkomsten beräknad från källa och mål
  2. Summan av hela såld vara, beräknad från källa och mål, etc.

Automatiserad dataavstämning

I stora datalagerhanteringssystem är det bekvämt att automatisera dataavstämningsprocessen genom att göra detta till en integrerad del av dataladdningen. Det låter dig upprätthålla separata laddningsmetadatatabeller. Dessutom kommer automatisk avstämning att hålla alla intressenter informerade om rapporternas giltighet.

Bästa metoder för att använda dataavstämning

  • Dataavstämningsprocessen bör syfta till korrekta mätfel.
  • Grova fel bör vara noll för att göra dataavstämningsprocessen effektiv.
  • Standardmetoden för dataavstämning har förlitat sig på enkla posträkningar för att hålla reda på om det avsedda antalet poster har migrerats eller inte.
  • Datamigreringslösning ger liknande avstämningsfunktioner och dataprototypfunktioner som erbjuder fullvolymsdataavstämningstestning.

Verktyg för dataavstämning

1) Öppna Refine

Öppna Refine

OpenRefine som tidigare är känt som Google Refine är ett användbart ramverk för databasavstämning. Det låter dig rengöra och överföra rörig data.

Ladda länk: https://openrefine.org/


2) TIBCO Clarity

TIBCO Clarity

Detta dataavstämningsverktyg erbjuder on-demand mjukvarutjänster från webben i form av Software-as-a-service. Det tillåter användare att validera data och rensa data. Det ger kompletta funktioner för avstämningstestning. Används ofta i ETL-processen.

Nedladdningslänk: https://www.tibco.com/


3) Winpure

Winpure

Winpure är ett prisvärt och korrekt datarensningsprogram. Det låter dig rensa en stor mängd data, ta bort dubbletter, korrigera och standardisera för att designa den slutliga datamängden.

Nedladdningslänk: https://winpure.com/

Sammanfattning

  • Datavalidering och avstämning (DVR) är en teknik som använder matematiska modeller för att bearbeta information.
  • Användningen av dataavstämning hjälper dig att extrahera korrekt och tillförlitlig information om tillståndet i industriprocessen från rå mätdata.
  • Gross Error, Observability, Variance, Redundans är viktiga termer som används i dataavstämningsprocessen
  • Datavalidering och avstämning startade i början av 1960-talet.
  • Tre typer av dataavstämningsmetoder är 1) Stamdataavstämning 2) Transaktionsdataavstämning 3) Automatiserad dataavstämning
  • Grova fel bör vara noll för att göra dataavstämningsprocessen effektiv.
  • Några viktiga dataavstämningsverktyg är: 1)OpenRefine 2)TIBCO 3) Winpure
  • Denna metod används ofta i prestanda- och processövervakning inom oljeraffinering/kärnkraft/kemisk industri