ما هي تسوية البيانات؟ التعريف والعملية والأدوات
ما هي تسوية البيانات؟
يتم تعريف عملية التوفيق بين البيانات (DR) على أنها عملية التحقق من صحة البيانات أثناء نقل البيانات. في هذه العملية، تتم مقارنة البيانات المستهدفة ببيانات المصدر للتأكد من أن بنية النقل تنقل البيانات. تعني عملية التوفيق بين البيانات والتحقق منها (DVR) تقنية تستخدم نماذج رياضية لمعالجة المعلومات.
لماذا تعتبر تسوية البيانات مهمة؟
في عملية ترحيل البيانات، من الممكن حدوث أخطاء في منطق التعيين والتحويل. يمكن أن تؤدي مشكلات مثل فشل وقت التشغيل مثل انقطاع الشبكة أو المعاملات المعطلة إلى إتلاف البيانات.
يمكن أن يؤدي هذا النوع من الأخطاء إلى ترك البيانات في حالة غير صالحة. قد يؤدي ذلك إلى إنشاء مجموعة من المشكلات مثل:
- السجلات المفقودة
- قيم مفقودة
- قيم غير صحيحة
- السجلات المكررة
- قيم منسقة بشكل سيء
- العلاقات المقطوعة عبر الجداول أو الأنظمة
فيما يلي أسباب مهمة لاستخدام عملية تسوية البيانات:
- يساعدك استخدام تسوية البيانات على استخراج معلومات دقيقة وموثوقة حول حالة عملية الصناعة من بيانات القياس الأولية.
- كما أنه يساعدك على إنتاج مجموعة واحدة متسقة من البيانات تمثل عملية التشغيل الأكثر احتمالية.
- كما أنه يؤدي إلى رؤى غير دقيقة ومشكلات في خدمة العملاء.
- تعد تسوية البيانات أمرًا مهمًا أيضًا لتكامل التحكم في المؤسسة.
وبصرف النظر عن ما سبق، هناك العديد من المزايا/الفوائد لتسوية البيانات.
المصطلحات المرتبطة بتسوية البيانات
الخطأ الفادح | الأخطاء الجسيمة في القياسات. إنه يعكس فقط أخطاء التحيز أو فشل الأجهزة أو ارتفاعات الضوضاء غير الطبيعية إذا كنت تستخدم فترة متوسط زمنية قصيرة فقط. |
قابلية الملاحظة | يمكن أن يوفر لك تحليل القدرة على الملاحظة تفاصيل حول المتغيرات التي يمكن تحديدها لمجموعة معينة من القيود ومجموعة من القياسات. |
التباين | التباين هو مقياس لتباين المستشعر. |
وفرة | يساعدك على تحديد القياسات التي ينبغي تقديرها من المتغيرات الأخرى باستخدام معادلات القيد. |
تاريخ تسوية البيانات
فيما يلي معالم أساسية من تاريخ تسوية البيانات.
- بدأ DVR (التحقق من صحة البيانات وتسويتها) في أوائل الستينيات. وكان يهدف إلى إغلاق الأرصدة المادية في الإنتاج حيث تتوفر القياسات الأولية لجميع المتغيرات.
- في أواخر الستينيات، تم أخذ جميع المتغيرات غير المقاسة في الاعتبار في عملية تسوية البيانات.
- تم تقديم ديناميكيات الحالة شبه المستقرة للتصفية وتقدير المعلمات المتوازية بمرور الوقت في عام 1977 بواسطة ستانلي وماه.
- تم تطوير مسجل الفيديو الرقمي الديناميكي كنموذج تحسين غير خطي أصدرته شركة ليبمان في عام 1992
عملية تسوية البيانات
أنواع طرق تسوية البيانات هي:
تسوية البيانات الرئيسية
تعد عملية التوفيق بين البيانات الرئيسية إحدى تقنيات التوفيق بين البيانات الرئيسية فقط بين المصدر والهدف. وتكون البيانات الرئيسية في الغالب غير متغيرة أو تتغير ببطء في طبيعتها، ولا يتم إجراء أي عملية تجميع على مجموعة البيانات.
بعض الأمثلة الشائعة لتسوية البيانات الرئيسية هي:
- العدد الإجمالي للصفوف
- إجمالي العملاء في المصدر والهدف
- إجمالي عدد العناصر في المصدر والهدف
- إجمالي عدد الصفوف بناءً على حالة معينة
- عدد المستخدمين النشطين
- عدد المستخدمين غير النشطين وما إلى ذلك.
دقة النشاط
- تحتاج إلى التأكد من أن المعاملات صالحة وصحيحة في الغرض.
- تحتاج إلى التحقق مما إذا كانت المعاملات قد تم اعتمادها بشكل صحيح.
تسوية بيانات المعاملات
تشكل بيانات المعاملات أساس تقارير ذكاء الأعمال. ولذلك، فإن أي عدم تطابق في بيانات المعاملات يمكن أن يؤثر بشكل مباشر على موثوقية التقرير ونظام ذكاء الأعمال بأكمله بشكل عام.
يتم استخدام طريقة تسوية بيانات المعاملات من حيث المبلغ الإجمالي الذي يمنع أي عدم تطابق ناتج عن تغيير دقة الأبعاد المؤهلة.
من أمثلة التدابير المستخدمة لتسوية بيانات المعاملات ما يلي:
- مجموع إجمالي الدخل المحسوب من المصدر والهدف
- مجموع السلعة المباعة بالكامل، محسوباً من المصدر والهدف، الخ.
التوفيق الآلي للبيانات
في نظام إدارة مستودعات البيانات الكبيرة، يكون من المناسب أتمتة عملية تسوية البيانات من خلال جعل ذلك جزءًا لا يتجزأ من تحميل البيانات. يسمح لك بالحفاظ على جداول بيانات التعريف المنفصلة. علاوة على ذلك، فإن التسوية الآلية ستعمل على إبقاء جميع أصحاب المصلحة على علم بصحة التقارير.
أفضل الممارسات لاستخدام التوفيق بين البيانات
- يجب أن تهدف عملية تسوية البيانات إلى تصحيح أخطاء القياس.
- يجب أن يكون إجمالي الأخطاء صفرًا لجعل عملية تسوية البيانات فعالة.
- يعتمد النهج القياسي لتسوية البيانات على أعداد السجلات البسيطة لتتبع ما إذا كان العدد المستهدف من السجلات قد تم ترحيله أم لا.
- يوفر حل ترحيل البيانات إمكانات تسوية مماثلة ووظيفة النماذج الأولية للبيانات التي توفر اختبار تسوية بيانات الحجم الكامل.
أدوات تسوية البيانات
1) OpenRefine
يعد OpenRefine والذي كان يُعرف سابقًا باسم Google Refine إطارًا مفيدًا لتسوية قاعدة البيانات. يسمح لك بتنظيف ونقل البيانات الفوضوية.
تحميل الرابط: https://openrefine.org/
2) وضوح تيبكو
توفر أداة تسوية البيانات هذه خدمات برمجية حسب الطلب من الويب في شكل برنامج كخدمة. يسمح للمستخدمين بالتحقق من صحة البيانات وتنقية البيانات. ويوفر ميزات اختبار المصالحة كاملة. تستخدم على نطاق واسع في عملية ETL.
وصلة التحميل: https://www.tibco.com/
3) وينبيور
Winpure هو برنامج تنظيف بيانات دقيق وبأسعار معقولة. يسمح لك بتنظيف كمية كبيرة من البيانات وإزالة التكرارات وتصحيح وتوحيد تصميم مجموعة البيانات النهائية.
وصلة التحميل: https://winpure.com/
الملخص
- التحقق من صحة البيانات ومطابقتها (DVR) هي تقنية تستخدم النماذج الرياضية لمعالجة المعلومات.
- يساعدك استخدام تسوية البيانات على استخراج معلومات دقيقة وموثوقة حول حالة عملية الصناعة من بيانات القياس الأولية.
- يعد الخطأ الإجمالي وقابلية الملاحظة والتباين والتكرار من المصطلحات المهمة المستخدمة في عملية تسوية البيانات
- بدأ التحقق من صحة البيانات ومطابقتها في أوائل الستينيات.
- ثلاثة أنواع من طرق تسوية البيانات هي 1) تسوية البيانات الرئيسية 2) تسوية بيانات المعاملات 3) تسوية البيانات الآلية
- يجب أن يكون إجمالي الأخطاء صفرًا لجعل عملية تسوية البيانات فعالة.
- بعض أدوات تسوية البيانات المهمة هي: 1)OpenRefine 2)TIBCO 3)Winpure
- تستخدم هذه الطريقة على نطاق واسع في مراقبة الأداء والعمليات في صناعة تكرير النفط/الصناعة النووية/الكيميائية