什么是数据协调?定义、流程、工具
什么是数据协调?
数据协调 (DR) 是指在数据迁移过程中验证数据的过程。在此过程中,将目标数据与源数据进行比较,以确保迁移架构正在传输数据。数据验证和协调 (DVR) 是指使用数学模型处理信息的技术。
为什么数据协调很重要?
在数据迁移过程中,映射和转换逻辑可能会出错。网络中断或交易中断等运行时故障可能会损坏数据。
此类错误可能会导致数据处于无效状态。这可能会引发一系列问题,例如:
- 缺失记录
- 缺少价值观
- 不正确的值
- 重复记录
- 格式错误的值
- 跨表或跨系统的关系破裂
以下是使用数据协调流程的重要原因:
- 数据协调的使用可以帮助您从原始测量数据中提取有关工业流程状态的准确、可靠的信息。
- 它还可以帮助您生成一组代表最可能的流程操作的单一一致的数据。
- 这也会导致不准确的见解和客户服务问题。
- 数据的协调对于企业控制集成也很重要。
除上述之外,数据核对还有许多优点/好处。
与数据协调相关的术语
严重错误 | 测量中的严重误差。如果您仅使用短时间平均周期,它仅反映偏差误差、仪器故障或异常噪声尖峰。 |
可观察性 | 可观测性分析可以为您提供有关对于给定的一组约束和一组测量可以确定哪些变量的详细信息。 |
Variance | 方差是传感器变异性的量度。 |
冗余 | 它可以帮助您确定应该使用约束方程从其他变量估计哪些测量值。 |
数据协调的历史
这里是数据协调历史上的重要里程碑。
- DVR(数据验证与核对)始于 1960 世纪 XNUMX 年代初。其目的是在生产过程中实现物料平衡,所有变量的原始测量结果均可用。
- 1960 世纪 XNUMX 年代后期,数据协调过程中考虑了所有未测量的变量。
- 1977 年,Stanley 和 Mah 提出了准稳态动力学,用于滤波和随时间推移的并行参数估计。
- 动态 DVR 是由 Liebman 于 1992 年提出的一种非线性优化模型
数据协调流程
数据协调方法的类型包括:
主数据对帐
主数据协调是一种仅协调源和目标之间的主数据的技术。主数据本质上大多不变或变化缓慢,并且不对数据集进行任何聚合操作。
主数据协调的一些常见示例包括:
- 总行数
- 源客户和目标客户总数
- 源和目标中的项目总数
- 根据给定条件的总行数
- 活跃用户数
- 不活跃用户的数量等等。
活动准确度
- 您需要确保交易有效且目的正确。
- 需要检查交易是否已获得适当授权。
交易数据协调
交易数据是 BI 报告的基础。因此,交易数据中的任何不匹配都会直接影响报告和整个 BI 系统的可靠性。
总额方面采用交易数据对账方法,防止因改变限定维度的粒度而导致的任何不匹配。
用于交易数据核对的措施示例应包括:
- 从来源和目标计算的总收入总和
- 售出的全部商品的总和,根据来源和目标等计算。
自动数据核对
在大型数据仓库管理系统中,将数据协调过程作为数据加载的一个组成部分,可以方便地实现自动化。它允许您维护单独的加载元数据表。此外,自动协调将让所有利益相关者了解报告的有效性。
使用数据协调的最佳实践
- 数据协调过程应以纠正测量误差为目的。
- 为了确保数据核对过程高效,重大误差应该为零。
- 数据协调的标准方法依赖于简单的记录计数来跟踪目标记录数量是否已迁移。
- 数据迁移解决方案提供类似的协调功能和数据原型功能,可提供全量数据协调测试。
数据协调工具
1) 开放式精炼
OpenRefine 以前称为 Google Refine,是一个实用的数据库协调框架。它允许您清理和传输杂乱的数据。
下载链接: https://openrefine.org/
2) TIBCO 清晰度
该数据协调工具以软件即服务的形式从网络上提供按需软件服务。它允许用户验证数据和清理数据。它提供完整的协调测试功能。广泛应用于 ETL 流程。
下载链接: https://www.tibco.com/
3) 温普尔
Winpure 是一款价格合理且准确的数据清理软件。它允许您清理大量数据,删除重复项,纠正和标准化以设计最终数据集。
下载链接: https://winpure.com/
总结
- 数据验证和协调 (DVR) 是一种使用数学模型处理信息的技术。
- 数据协调的使用可以帮助您从原始测量数据中提取有关工业流程状态的准确、可靠的信息。
- 严重误差、可观测性、方差、冗余是数据协调过程中使用的重要术语
- 数据验证和协调始于 1960 世纪 XNUMX 年代初。
- 数据协调方法有三种:1)主数据协调 2)交易数据协调 3)自动数据协调
- 为了确保数据核对过程高效,重大误差应该为零。
- 一些重要的数据协调工具是:1)OpenRefine 2)TIBCO 3)Winpure
- 该方法广泛应用于炼油/核能/化工行业的性能和过程监控