データ調整とは何ですか? 定義、プロセス、ツール
データ調整とは何ですか?
データ調整 (DR) は、データ移行中にデータを検証するプロセスとして定義されます。このプロセスでは、ターゲット データがソース データと比較され、移行アーキテクチャがデータを転送していることを確認します。データ検証および調整 (DVR) は、数学モデルを使用して情報を処理するテクノロジを意味します。
データ調整が重要なのはなぜですか?
データ移行プロセスでは、マッピングと変換ロジックで間違いが発生する可能性があります。 ネットワークのドロップアウトやトランザクションの中断などの実行時エラーなどの問題により、データが破損する可能性があります。
この種のエラーにより、データが無効な状態のままになる可能性があります。 これらにより、次のようなさまざまな問題が発生する可能性があります。
- 欠落しているレコード
- 欠損値
- 不正な値
- 重複したレコード
- 不正な形式の値
- テーブルまたはシステム間で壊れた関係
データ調整プロセスを使用する重要な理由は次のとおりです。
- データ調整を使用すると、生の測定データから業界プロセスの状態に関する正確で信頼できる情報を抽出できます。
- また、最も可能性の高いプロセス操作を表す単一の一貫したデータ セットを生成するのにも役立ちます。
- また、不正確な洞察や顧客サービスの問題にもつながります。
- データの調整もエンタープライズとコントロールの統合にとって重要です。
上記以外にも、データ調整には多くの利点があります。
データ調整に関連する用語
重大なエラー | 測定における重大な誤差。 短時間の平均化期間のみを使用している場合は、バイアス エラー、機器の故障、または異常なノイズ スパイクのみが反映されます。 |
可観測性 | 観測可能性分析により、特定の制約セットと測定値セットに対してどのような変数を決定できるかについての詳細が得られます。 |
分散 | 分散はセンサーの変動性の尺度です。 |
冗長化 | これは、制約式を使用して他の変数からどの測定値を推定する必要があるかを決定するのに役立ちます。 |
データ調整の歴史
ここでは、データ調整の歴史から重要なランドマークを示します。
- DVR (データ検証と調整) は 1960 年代初頭に始まりました。 これは、すべての変数について生の測定値が利用できる生産現場での物質収支を把握することを目的としていました。
- 1960 年代後半、データ調整プロセスではすべての未測定変数が考慮されました。
- 時間の経過に伴うフィルタリングと並列パラメータ推定のための準定常状態ダイナミクスは、1977 年に Stanley と Mah によって導入されました。
- ダイナミック DVR は、1992 年に Liebman によって発行された非線形最適化モデルとして開発されました。
データ調整プロセス
データ調整方法の種類は次のとおりです。
マスターデータの照合
マスター データの調整は、ソースとターゲットの間でマスター データのみを調整する手法です。マスター データはほとんど変更されないか、またはゆっくりと変更されるため、データセットに対して集計操作は実行されません。
マスターデータ調整の一般的な例は次のとおりです。
- 総行数
- ソースとターゲットの合計顧客数
- ソースとターゲットのアイテムの合計数
- 指定された条件に基づく行の合計数
- アクティブユーザー数
- 非アクティブユーザー数など
アクティビティの正確性
- トランザクションが有効であり、目的が正しいことを確認する必要があります。
- トランザクションが適切に承認されているかどうかを確認する必要があります。
トランザクションデータの調整
トランザクション データは BI レポートのベースとなります。 したがって、トランザクション データの不一致は、レポートおよび BI システム全体の信頼性に直接影響を与える可能性があります。
トランザクション データ調整方法は合計の観点から使用され、対象となるディメンションの粒度の変更によって生じる不一致を防ぎます。
トランザクションデータの調整に使用される尺度の例は次のとおりです。
- ソースとターゲットから計算された総収入の合計
- ソースとターゲットなどから計算された、販売されたアイテム全体の合計。
自動データ調整
大規模なデータ ウェアハウス管理システムでは、データ調整プロセスをデータ ロードの不可欠な部分として自動化すると便利です。これにより、個別のロード メタデータ テーブルを維持できます。さらに、自動調整により、すべての関係者にレポートの有効性に関する情報が提供されます。
データ調整の使用に関するベスト プラクティス
- データ調整プロセスは、正しい測定誤差を目指す必要があります。
- データ調整プロセスを効率的にするには、重大なエラーをゼロにする必要があります。
- データ調整の標準的なアプローチは、単純なレコード数に依存して、目標数のレコードが移行されたかどうかを追跡していました。
- データ移行ソリューションは、同様の調整機能と、フルボリュームのデータ調整テストを提供するデータ プロトタイピング機能を提供します。
データ調整ツール
1) 開くリファイン
以前は Google Refine として知られていた OpenRefine は、便利なデータベース調整フレームワークです。 乱雑なデータをクリーンアップして転送できます。
リンクをダウンロード: https://openrefine.org/
2) TIBCO クラリティ
このデータ調整ツールは、Web から Software-as-a-Service の形式でオンデマンド ソフトウェア サービスを提供します。 これにより、ユーザーはデータを検証し、データをクレンジングできるようになります。 完全な調整テスト機能を提供します。 ETLプロセスで広く使用されています。
リンクをダウンロード: https://www.tibco.com/
3) ウィンピュア
Winpure は、手頃な価格で正確なデータ クリーニング ソフトウェアです。 これにより、大量のデータをクリーンアップし、重複を削除し、修正および標準化して、最終的なデータセットを設計することができます。
リンクをダウンロード: https://winpure.com/
要約
- データ検証と調整 (DVR) は、数学的モデルを使用して情報を処理するテクノロジーです。
- データ調整を使用すると、生の測定データから業界プロセスの状態に関する正確で信頼できる情報を抽出するのに役立ちます。
- 重大なエラー、可観測性、分散、冗長性は、データ調整プロセスで使用される重要な用語です
- データの検証と調整は 1960 年代初頭に始まりました。
- 1 種類のデータ調整方法は、2) マスター データ調整、3) トランザクション データ調整、XNUMX) 自動データ調整です。
- データ調整プロセスを効率的にするには、重大なエラーをゼロにする必要があります。
- 重要なデータ調整ツールは次のとおりです: 1)OpenRefine 2)TIBCO 3)Winpure
- この方法は、石油精製/原子力/化学産業のパフォーマンスおよびプロセス監視に広く使用されています。