Cos'è la riconciliazione dei dati? Definizione, processo, strumenti
Cos'è la riconciliazione dei dati?
La riconciliazione dei dati (DR) è definita come un processo di verifica dei dati durante la migrazione dei dati. In questo processo i dati di destinazione vengono confrontati con i dati di origine per garantire che l'architettura di migrazione trasferisca i dati. La convalida e la riconciliazione dei dati (DVR) indicano una tecnologia che utilizza modelli matematici per elaborare le informazioni.
Perché è importante la riconciliazione dei dati?
Nel processo di migrazione dei Dati è possibile che si commettano errori nella logica di mappatura e trasformazione. Problemi come errori di runtime come interruzioni di rete o transazioni interrotte possono corrompere i dati.
Questo tipo di errori può portare a lasciare i dati in uno stato non valido. Questi possono creare una serie di problemi come:
- Record mancanti
- Valori mancanti
- Valori errati
- Record duplicati
- Valori formattati in modo errato
- Relazioni interrotte tra tabelle o sistemi
Di seguito sono riportati i motivi importanti per utilizzare il processo di riconciliazione dei dati:
- L'uso della riconciliazione dei dati aiuta a estrarre informazioni accurate e affidabili sullo stato del processo industriale dai dati di misurazione grezzi.
- Aiuta inoltre a produrre un unico insieme coerente di dati che rappresenta l'operazione di processo più probabile.
- Porta anche a informazioni imprecise e problemi con il servizio clienti.
- La riconciliazione dei dati è importante anche per l'integrazione del controllo aziendale.
Oltre a quanto sopra, ci sono molti vantaggi/vantaggi della riconciliazione dei dati.
Terminologia associata alla riconciliazione dei dati
Errore grossolano | Errori grossolani nelle misurazioni. Riflette solo errori di polarizzazione, guasti dello strumento o picchi di rumore anomali se si utilizza solo un periodo di media temporale breve. |
osservabilità | L'analisi di osservabilità può fornire dettagli sulle variabili che possono essere determinate per un dato insieme di vincoli e un insieme di misurazioni. |
Varianza | La varianza è una misura della variabilità di un sensore. |
Ridondanza | Ti aiuta a determinare quali misurazioni dovrebbero essere stimate da altre variabili utilizzando le equazioni di vincolo. |
Storia della riconciliazione dei dati
Ecco i punti di riferimento essenziali della storia della riconciliazione dei dati.
- Il sistema DVR (Convalida e riconciliazione dei dati) è stato avviato all'inizio degli anni '1960. L'obiettivo era chiudere i bilanci materiali nella produzione in cui erano disponibili misurazioni grezze per tutte le variabili.
- Alla fine degli anni ’1960, tutte le variabili non misurate venivano considerate nel processo di riconciliazione dei dati.
- Le dinamiche di stato quasi-stazionario per il filtraggio e la stima parallela dei parametri nel tempo furono introdotte nel 1977 da Stanley e Mah.
- Dynamic DVR è stato sviluppato come modello di ottimizzazione non lineare rilasciato da Liebman nel 1992
Processo di riconciliazione dei dati
I tipi di metodi di riconciliazione dei dati sono:
Riconciliazione dei dati anagrafici
La riconciliazione dei dati anagrafici è una tecnica per riconciliare solo i dati anagrafici tra origine e destinazione. I dati master sono per lo più di natura immutabile o in lento cambiamento e sul set di dati non viene eseguita alcuna operazione di aggregazione.
Alcuni esempi comuni di riconciliazione dei dati anagrafici sono:
- Numero totale di righe
- Cliente totale nell'origine e nella destinazione
- Numero totale di elementi nell'origine e nella destinazione
- Conteggio totale delle righe in base a una determinata condizione
- Numero di utenti attivi
- Numero di utenti inattivi ecc.
Precisione dell'attività
- È necessario assicurarsi che le transazioni siano valide e abbiano uno scopo corretto.
- È necessario verificare se le transazioni sono state correttamente autorizzate.
Riconciliazione dei dati transazionali
I dati transazionali costituiscono la base dei report BI. Pertanto, qualsiasi discrepanza nei dati transazionali può avere un impatto diretto sull'affidabilità del report e dell'intero sistema BI in generale.
Il metodo di riconciliazione dei dati transazionali viene utilizzato in termini di somma totale che impedisce qualsiasi mancata corrispondenza causata dalla modifica della granularità delle dimensioni qualificanti.
Esempi di misure utilizzate per la riconciliazione dei dati transazionali dovrebbero essere:
- Somma del reddito totale calcolato dalla fonte e dall'obiettivo
- Somma dell'intero articolo venduto, calcolata dalla fonte e dalla destinazione, ecc.
Riconciliazione automatizzata dei dati
Nei grandi sistemi di gestione del data warehouse, è conveniente automatizzare il processo di riconciliazione dei dati rendendolo parte integrante del caricamento dei dati. Ti consente di mantenere tabelle di metadati di caricamento separate. Inoltre, la riconciliazione automatizzata manterrà tutte le parti interessate informate sulla validità dei report.
migliori pratiche di utilizzo della riconciliazione dei dati
- Il processo di riconciliazione dei dati dovrebbe mirare a correggere gli errori di misurazione.
- Gli errori grossolani dovrebbero essere pari a zero per rendere efficiente il processo di riconciliazione dei dati.
- L'approccio standard di riconciliazione dei dati si basa su semplici conteggi di record per tenere traccia se il numero di record target è stato migrato o meno.
- La soluzione di migrazione dei dati offre funzionalità di riconciliazione e funzionalità di prototipazione dei dati simili che offrono test di riconciliazione dei dati su volumi completi.
Strumenti di riconciliazione dei dati
1) ApriRefine
OpenRefine, precedentemente noto come Google Refine, è un utile framework di riconciliazione del database. Ti consente di pulire e trasferire dati disordinati.
Download link: https://openrefine.org/
2) Chiarezza TIBCO
Questo strumento di riconciliazione dei dati offre servizi software on-demand dal Web sotto forma di Software-as-a-service. Consente agli utenti di convalidare i dati e di pulirli. Fornisce funzionalità complete di test di riconciliazione. Ampiamente usato nel processo ETL.
Link per il download: https://www.tibco.com/
3) Winpure
Winpure è un software di pulizia dei dati conveniente e accurato. Consente di pulire una grande quantità di dati, rimuovendo i duplicati, correggendoli e standardizzandoli per progettare il set di dati finale.
Link per il download: https://winpure.com/
Sommario
- La convalida e riconciliazione dei dati (DVR) è una tecnologia che utilizza modelli matematici per elaborare le informazioni.
- L'uso della riconciliazione dei dati aiuta a estrarre informazioni accurate e affidabili sullo stato del processo industriale dai dati di misurazione grezzi.
- Errore lordo, osservabilità, varianza, ridondanza sono termini importanti utilizzati nel processo di riconciliazione dei dati
- La validazione e la riconciliazione dei dati sono iniziate all'inizio degli anni '1960.
- Tre tipi di metodi di riconciliazione dei dati sono 1) Riconciliazione dei dati master 2) Riconciliazione dei dati transazionali 3) Riconciliazione dei dati automatizzata
- Gli errori grossolani dovrebbero essere pari a zero per rendere efficiente il processo di riconciliazione dei dati.
- Alcuni importanti strumenti di riconciliazione dei dati sono: 1) OpenRefine 2) TIBCO 3) Winpure
- Questo metodo è ampiamente utilizzato nel monitoraggio delle prestazioni e dei processi nell'industria della raffinazione del petrolio/nucleare/chimica