¿Qué es la conciliación de datos? Definición, Proceso, Herramientas

¿Qué es la conciliación de datos?

La conciliación de datos (DR) se define como un proceso de verificación de datos durante la migración de datos. En este proceso, los datos de destino se comparan con los datos de origen para garantizar que la arquitectura de migración esté transfiriendo los datos. La validación y conciliación de datos (DVR) es una tecnología que utiliza modelos matemáticos para procesar la información.

Reconciliación de datos

¿Por qué es importante la conciliación de datos?

En el proceso de migración de datos es posible que se cometan errores en la lógica de mapeo y transformación. Problemas como fallas en el tiempo de ejecución, como interrupciones de la red o transacciones interrumpidas, pueden dañar los datos.

Este tipo de errores pueden provocar que los datos queden en un estado no válido. Estos pueden crear una variedad de problemas como:

  • Registros faltantes
  • Valores faltantes
  • Valores incorrectos
  • Registros duplicados
  • Valores mal formateados
  • Relaciones rotas entre tablas o sistemas

A continuación se presentan razones importantes para utilizar el proceso de conciliación de datos:

  • El uso de la reconciliación de datos le ayuda a extraer información precisa y confiable sobre el estado del proceso industrial a partir de datos de medición sin procesar.
  • También le ayuda a producir un único conjunto coherente de datos que represente la operación de proceso más probable.
  • También genera información inexacta y problemas con el servicio al cliente.
  • La conciliación de datos también es importante para la integración del control empresarial.

Aparte de lo anterior, existen muchas ventajas/beneficios de la conciliación de datos.

Terminología asociada con la conciliación de datos

Error bruto Errores graves en las mediciones. Solo refleja errores de polarización, fallas del instrumento o picos de ruido anormales si solo se utiliza un período de promedio de tiempo corto.
Observabilidad El análisis de observabilidad puede brindarle detalles sobre qué variables se pueden determinar para un conjunto determinado de restricciones y un conjunto de mediciones.
Diferencia La varianza es una medida de la variabilidad de un sensor.
Redundancia Le ayuda a determinar qué medidas deben estimarse a partir de otras variables mediante el uso de ecuaciones de restricción.

Historia de la conciliación de datos

Aquí se encuentran hitos esenciales de la historia de la reconciliación de datos.

  • DVR (validación y reconciliación de datos) comenzó a principios de la década de 1960. Su objetivo era cerrar los balances de materia en la producción donde las mediciones brutas estuvieran disponibles para todas las variables.
  • A finales de la década de 1960, todas las variables no medidas se consideraban en el proceso de conciliación de datos.
  • Stanley y Mah introdujeron en 1977 la dinámica de estado casi estacionario para el filtrado y la estimación de parámetros paralelos a lo largo del tiempo.
  • Dynamic DVR fue desarrollado como un modelo de optimización no lineal emitido por Liebman en el año 1992.

Proceso de conciliación de datos

Los tipos de métodos de reconciliación de datos son:

Proceso de conciliación de datos

Conciliación de datos maestros

La conciliación de datos maestros es una técnica que consiste en conciliar únicamente los datos maestros entre el origen y el destino. Los datos maestros en su mayor parte no cambian o cambian lentamente por naturaleza, y no se realiza ninguna operación de agregación en el conjunto de datos.

Algunos ejemplos comunes de conciliación de datos maestros son:

  • Número total de filas
  • Cliente total en origen y destino
  • Número total de elementos en origen y destino
  • Recuento total de filas según la condición dada
  • Numero de usuarios activos
  • Número de usuarios inactivos, etc.

Precisión de la actividad

  • Debe asegurarse de que las transacciones sean válidas y tengan el propósito correcto.
  • Necesidad de comprobar si las transacciones han sido autorizadas correctamente.

Conciliación de datos transaccionales

Los datos transaccionales constituyen la base de los informes de BI. Por lo tanto, cualquier discrepancia en los datos transaccionales puede afectar directamente la confiabilidad del informe y de todo el sistema de BI en general.

El método de conciliación de datos transaccionales se utiliza en términos de la suma total, lo que evita cualquier discrepancia causada por el cambio en la granularidad de las dimensiones calificadas.

Ejemplos de medidas utilizadas para la conciliación de datos transaccionales deberían ser:

  1. Suma del ingreso total calculado a partir de la fuente y el destino
  2. Suma de todo el artículo vendido, calculada a partir del origen y el destino, etc.

Conciliación de datos automatizada

En un gran sistema de gestión de almacén de datos, es conveniente automatizar el proceso de conciliación de datos convirtiéndolo en una parte integral de la carga de datos. Le permite mantener tablas de metadatos de carga separadas. Además, la conciliación automatizada mantendrá a todas las partes interesadas informadas sobre la validez de los informes.

Mejores prácticas de uso de la conciliación de datos

  • El proceso de conciliación de datos debe tener como objetivo corregir los errores de medición.
  • Los errores graves deben ser cero para que el proceso de conciliación de datos sea eficiente.
  • El enfoque estándar de reconciliación de datos se ha basado en recuentos de registros simples para realizar un seguimiento de si el número objetivo de registros ha migrado o no.
  • La solución de migración de datos ofrece capacidades de conciliación similares y funcionalidad de creación de prototipos de datos que ofrece pruebas de conciliación de datos de volumen completo.

Herramientas de conciliación de datos

1) AbrirRefinar

AbrirRefinar

OpenRefine, que anteriormente se conocía como Google Refine, es un marco útil de reconciliación de bases de datos. Le permite limpiar y transferir datos desordenados.

Enlace de descarga: https://openrefine.org/


2) Claridad TIBCO

Claridad TIBCO

Esta herramienta de conciliación de datos ofrece servicios de software bajo demanda desde la web en forma de software como servicio. Permite a los usuarios validar los datos y limpiarlos. Proporciona funciones completas de prueba de conciliación. Ampliamente utilizado en procesos ETL.

Download Link: https://www.tibco.com/


3) Winpure

Winpure

Winpure es un software de limpieza de datos preciso y asequible. Permite limpiar una gran cantidad de datos, eliminando duplicados, corrigiendo y estandarizando para diseñar el conjunto de datos final.

Download Link: https://winpure.com/

Resumen

  • La validación y reconciliación de datos (DVR) es una tecnología que utiliza modelos matemáticos para procesar información.
  • El uso de la conciliación de datos le ayuda a extraer información precisa y confiable sobre el estado del proceso industrial a partir de datos de medición sin procesar.
  • Error grave, observabilidad, variación y redundancia son términos importantes utilizados en el proceso de conciliación de datos.
  • La validación y conciliación de datos comenzó a principios de la década de 1960.
  • Tres tipos de métodos de conciliación de datos son 1) Conciliación de datos maestros 2) Conciliación de datos transaccionales 3) Conciliación de datos automatizada
  • Los errores graves deben ser cero para que el proceso de conciliación de datos sea eficiente.
  • Algunas herramientas importantes de reconciliación de datos son: 1)OpenRefine 2)TIBCO 3) Winpure
  • Este método se utiliza ampliamente en el control del rendimiento y de los procesos en la industria química/nuclear/de refinación de petróleo.