Qu'est-ce que la réconciliation des données ? Définition, processus, outils

Qu'est-ce que la réconciliation des données ?

La réconciliation des données (DR) est définie comme un processus de vérification des données lors de la migration des données. Dans ce processus, les données cibles sont comparées aux données sources pour garantir que l'architecture de migration transfère les données. La validation et le rapprochement des données (DVR) désignent une technologie qui utilise des modèles mathématiques pour traiter les informations.

Rapprochement des données

Pourquoi la réconciliation des données est-elle importante ?

Dans le processus de migration des données, il est possible que des erreurs soient commises dans la logique de mappage et de transformation. Des problèmes tels que des échecs d'exécution tels que des interruptions de réseau ou des transactions interrompues peuvent corrompre les données.

Ce type d'erreurs peut conduire à ce que les données restent dans un état invalide. Ceux-ci peuvent créer une série de problèmes tels que :

  • Enregistrements manquants
  • Valeurs manquantes
  • Valeurs incorrectes
  • Enregistrements dupliqués
  • Valeurs mal formatées
  • Relations rompues entre les tables ou les systèmes

Voici quelques raisons importantes d’utiliser le processus de rapprochement des données :

  • L'utilisation de Data Reconciliation vous aide à extraire des informations précises et fiables sur l'état des processus industriels à partir de données de mesure brutes.
  • Il vous aide également à produire un ensemble unique et cohérent de données représentant l'opération de processus la plus probable.
  • Cela conduit également à des informations inexactes et à des problèmes avec le service client.
  • La réconciliation des données est également importante pour l'intégration du contrôle d'entreprise.

Outre ce qui précède, le rapprochement des données présente de nombreux avantages.

Terminologie associée à la réconciliation des données

Erreur grossière Erreurs grossières dans les mesures. Il reflète uniquement les erreurs de biais, les pannes d'instruments ou les pics de bruit anormaux si vous n'utilisez qu'une courte période de moyenne.
Observabilité L'analyse d'observabilité peut vous donner des détails sur les variables qui peuvent être déterminées pour un ensemble donné de contraintes et un ensemble de mesures.
Variance La variance est une mesure de la variabilité d'un capteur.
Redondance Il vous aide à déterminer quelles mesures doivent être estimées à partir d'autres variables à l'aide des équations de contraintes.

Historique du rapprochement des données

Voici les jalons essentiels de l’histoire de la réconciliation des données.

  • Le DVR (Validation et Réconciliation des Données) a débuté au début des années 1960. Il visait à clôturer les bilans matières dans la production où des mesures brutes étaient disponibles pour toutes les variables.
  • À la fin des années 1960, toutes les variables non mesurées étaient prises en compte dans le processus de rapprochement des données.
  • La dynamique quasi-stationnaire pour le filtrage et l'estimation des paramètres parallèles au fil du temps a été introduite en 1977 par Stanley et Mah.
  • Le DVR dynamique a été développé en tant que modèle d'optimisation non linéaire publié par Liebman en 1992.

Processus de rapprochement des données

Les types de méthodes de rapprochement des données sont :

Processus de rapprochement des données

Rapprochement des données de base

Le rapprochement des données de référence est une technique permettant de rapprocher uniquement les données de référence entre la source et la cible. Les données de base sont pour la plupart inchangées ou évoluent lentement, et aucune opération d'agrégation n'est effectuée sur l'ensemble de données.

Voici quelques exemples courants de rapprochement des données de base :

  • Nombre total de lignes
  • Client total en source et cible
  • Nombre total d'éléments dans la source et la cible
  • Nombre total de lignes en fonction d'une condition donnée
  • Nombre d'utilisateurs actifs
  • Nombre d'utilisateurs inactifs, etc.

Précision de l'activité

  • Vous devez vous assurer que les transactions sont valides et que leur objectif est correct.
  • Besoin de vérifier si les transactions ont été correctement autorisées.

Rapprochement des données transactionnelles

Les données transactionnelles constituent la base des rapports BI. Par conséquent, toute inadéquation dans les données transactionnelles peut avoir un impact direct sur la fiabilité du rapport et de l'ensemble du système BI en général.

La méthode de rapprochement des données transactionnelles est utilisée en termes de somme totale, ce qui évite toute inadéquation causée par la modification de la granularité des dimensions de qualification.

Voici des exemples de mesures utilisées pour le rapprochement des données transactionnelles :

  1. Somme du revenu total calculée à partir de la source et de la cible
  2. Somme de l'article entier vendu, calculée à partir de la source et de la cible, etc.

Rapprochement automatisé des données

Dans un grand système de gestion d'entrepôt de données, il est pratique d'automatiser le processus de réconciliation des données en l'intégrant au chargement des données. Il vous permet de conserver des tables de métadonnées de chargement séparées. De plus, un rapprochement automatisé tiendra toutes les parties prenantes informées de la validité des rapports.

Meilleures pratiques d'utilisation de la réconciliation des données

  • Le processus de rapprochement des données doit viser à corriger les erreurs de mesure.
  • Les erreurs brutes doivent être nulles pour rendre le processus de rapprochement des données efficace.
  • L'approche standard de la réconciliation des données s'est appuyée sur de simples décomptes d'enregistrements pour savoir si le nombre ciblé d'enregistrements a migré ou non.
  • La solution de migration de données offre des capacités de rapprochement et une fonctionnalité de prototypage de données similaires qui permettent des tests de rapprochement de données sur un volume complet.

Outils de réconciliation des données

1) OuvrirRefine

OuvrirRefine

OpenRefine, auparavant connu sous le nom de Google Refine, est un cadre de réconciliation de base de données utile. Il vous permet de nettoyer et de transférer des données désordonnées.

Lien de téléchargement: https://openrefine.org/


2) Clarté TIBCO

Clarté TIBCO

Cet outil de réconciliation de données propose des services logiciels à la demande depuis le Web sous la forme de Software-as-a-service. Il permet aux utilisateurs de valider les données et de nettoyer les données. Il fournit des fonctionnalités complètes de tests de réconciliation. Largement utilisé dans le processus ETL.

Lien de téléchargement: https://www.tibco.com/


3) Winpure

Winpure

Winpure est un logiciel de nettoyage de données abordable et précis. Il vous permet de nettoyer une grande quantité de données, de supprimer les doublons, de corriger et de standardiser pour concevoir l'ensemble de données final.

Lien de téléchargement: https://winpure.com/

Résumé

  • La validation et la réconciliation des données (DVR) est une technologie qui utilise des modèles mathématiques pour traiter les informations.
  • L'utilisation du rapprochement des données vous aide à extraire des informations précises et fiables sur l'état des processus industriels à partir de données de mesure brutes.
  • L'erreur brute, l'observabilité, la variance et la redondance sont des termes importants utilisés dans le processus de rapprochement des données.
  • La validation et la réconciliation des données ont commencé au début des années 1960.
  • Il existe trois types de méthodes de réconciliation des données : 1) Réconciliation des données de base 2) Réconciliation des données transactionnelles 3) Réconciliation automatisée des données
  • Les erreurs brutes doivent être nulles pour rendre le processus de rapprochement des données efficace.
  • Certains outils de réconciliation de données importants sont : 1) OpenRefine 2) TIBCO 3) Winpure
  • Cette méthode est largement utilisée dans la surveillance des performances et des processus dans l'industrie du raffinage du pétrole/nucléaire/chimique.