ما هي تسوية البيانات؟ التعريف والعملية والأدوات

ما هي تسوية البيانات؟

يتم تعريف تسوية البيانات (DR) على أنها عملية التحقق من البيانات أثناء ترحيل البيانات. في هذه العملية تتم مقارنة البيانات المستهدفة مع بيانات المصدر لضمان الترحيل archiتقوم التقنية بنقل البيانات. التحقق من صحة البيانات ومطابقتها (DVR) يعني تقنية تستخدم النماذج الرياضية لمعالجة المعلومات.

تسوية البيانات

لماذا تعتبر تسوية البيانات مهمة؟

في عملية ترحيل البيانات، من الممكن حدوث أخطاء في منطق التعيين والتحويل. يمكن أن تؤدي مشكلات مثل فشل وقت التشغيل مثل انقطاع الشبكة أو المعاملات المعطلة إلى إتلاف البيانات.

يمكن أن يؤدي هذا النوع من الأخطاء إلى ترك البيانات في حالة غير صالحة. قد يؤدي ذلك إلى إنشاء مجموعة من المشكلات مثل:

  • السجلات المفقودة
  • قيم مفقودة
  • قيم غير صحيحة
  • السجلات المكررة
  • قيم منسقة بشكل سيء
  • العلاقات المقطوعة عبر الجداول أو الأنظمة

فيما يلي أسباب مهمة لاستخدام عملية تسوية البيانات:

  • يساعدك استخدام تسوية البيانات على استخراج معلومات دقيقة وموثوقة حول حالة عملية الصناعة من بيانات القياس الأولية.
  • كما يساعدك أيضًا على إنتاج مجموعة واحدة متسقة من البيانات التي تمثل العملية الأكثر احتمالاً operaنشوئها.
  • كما أنه يؤدي إلى رؤى غير دقيقة ومشكلات في خدمة العملاء.
  • تعد تسوية البيانات أمرًا مهمًا أيضًا لتكامل التحكم في المؤسسة.

وبصرف النظر عن ما سبق، هناك العديد من المزايا/الفوائد لتسوية البيانات.

المصطلحات المرتبطة بتسوية البيانات

الخطأ الفادح الأخطاء الجسيمة في القياسات. إنه يعكس فقط أخطاء التحيز أو فشل الأجهزة أو ارتفاعات الضوضاء غير الطبيعية إذا كنت تستخدم فترة متوسط ​​زمنية قصيرة فقط.
قابلية الملاحظة تحليل قابلية الملاحظة يمكن أن يوفر لك details حول ما هي المتغيرات التي يمكن تحديدها لمجموعة معينة من القيود ومجموعة من القياسات.
التباين التباين هو مقياس لتباين المستشعر.
وفرة يساعدك على تحديد القياسات التي ينبغي تقديرها من المتغيرات الأخرى باستخدام معادلات القيد.

تاريخ تسوية البيانات

فيما يلي معالم أساسية من تاريخ تسوية البيانات.

  • بدأ DVR (التحقق من صحة البيانات وتسويتها) في أوائل الستينيات. وكان يهدف إلى إغلاق الأرصدة المادية في الإنتاج حيث تتوفر القياسات الأولية لجميع المتغيرات.
  • في أواخر الستينيات، تم أخذ جميع المتغيرات غير المقاسة في الاعتبار في عملية تسوية البيانات.
  • تم تقديم ديناميكيات الحالة شبه المستقرة للتصفية وتقدير المعلمات المتوازية بمرور الوقت في عام 1977 بواسطة ستانلي وماه.
  • تم تطوير مسجل الفيديو الرقمي الديناميكي كنموذج تحسين غير خطي أصدرته شركة ليبمان في عام 1992

عملية تسوية البيانات

أنواع طرق تسوية البيانات هي:

عملية تسوية البيانات

تسوية البيانات الرئيسية

تسوية البيانات الرئيسية هي تقنية للتوفيق بين البيانات الرئيسية فقط بين المصدر والهدف. معظم البيانات الرئيسية لا تتغير أو تتغير ببطء في طبيعتها، ولا يتم تجميعها operaيتم تنفيذه على مجموعة البيانات.

بعض الأمثلة الشائعة لتسوية البيانات الرئيسية هي:

  • العدد الإجمالي للصفوف
  • إجمالي العملاء في المصدر والهدف
  • إجمالي عدد العناصر في المصدر والهدف
  • إجمالي عدد الصفوف بناءً على حالة معينة
  • عدد المستخدمين النشطين
  • عدد المستخدمين غير النشطين وما إلى ذلك.

دقة النشاط

  • تحتاج إلى التأكد من أن المعاملات صالحة وصحيحة في الغرض.
  • تحتاج إلى التحقق مما إذا كانت المعاملات قد تم اعتمادها بشكل صحيح.

تسوية بيانات المعاملات

تشكل بيانات المعاملات أساس تقارير ذكاء الأعمال. ولذلك، فإن أي عدم تطابق في بيانات المعاملات يمكن أن يؤثر بشكل مباشر على موثوقية التقرير ونظام ذكاء الأعمال بأكمله بشكل عام.

يتم استخدام طريقة تسوية بيانات المعاملات من حيث المبلغ الإجمالي الذي يمنع أي عدم تطابق ناتج عن تغيير دقة الأبعاد المؤهلة.

من أمثلة التدابير المستخدمة لتسوية بيانات المعاملات ما يلي:

  1. مجموع إجمالي الدخل المحسوب من المصدر والهدف
  2. مجموع السلعة المباعة بالكامل، محسوباً من المصدر والهدف، الخ.

التوفيق الآلي للبيانات

بشكل كبير نظام إدارة مستودعات البيانات، من الملائم أتمتة عملية تسوية البيانات من خلال جعلها جزءًا لا يتجزأ من تحميل البيانات. يسمح لك بالحفاظ على جداول بيانات التعريف المنفصلة. علاوة على ذلك، فإن التسوية الآلية ستعمل على إبقاء جميع أصحاب المصلحة على علم بصحة التقارير.

أفضل ممارسات استخدام تسوية البيانات

  • يجب أن تهدف عملية تسوية البيانات إلى تصحيح أخطاء القياس.
  • يجب أن يكون إجمالي الأخطاء صفرًا لجعل عملية تسوية البيانات فعالة.
  • يعتمد النهج القياسي لتسوية البيانات على أعداد السجلات البسيطة لتتبع ما إذا كان العدد المستهدف من السجلات قد تم ترحيله أم لا.
  • يوفر حل ترحيل البيانات إمكانات تسوية مماثلة ووظيفة النماذج الأولية للبيانات التي توفر اختبار تسوية بيانات الحجم الكامل.

أدوات تسوية البيانات

1) OpenRefine

OpenRefine

يعد OpenRefine والذي كان يُعرف سابقًا باسم Google Refine إطارًا مفيدًا لتسوية قاعدة البيانات. يسمح لك بتنظيف ونقل البيانات الفوضوية.

تحميل الرابط: https://openrefine.org/


2) وضوح تيبكو

وضوح تيبكو

توفر أداة تسوية البيانات هذه خدمات برمجية حسب الطلب من الويب في شكل برنامج كخدمة. يسمح للمستخدمين بالتحقق من صحة البيانات وتنقية البيانات. ويوفر ميزات اختبار المصالحة كاملة. تستخدم على نطاق واسع في عملية ETL.

وصلة التحميل: https://www.tibco.com/


3) وينبيور

وينبيور

Winpure هو برنامج تنظيف بيانات دقيق وبأسعار معقولة. يسمح لك بتنظيف كمية كبيرة من البيانات وإزالة التكرارات وتصحيح وتوحيد تصميم مجموعة البيانات النهائية.

وصلة التحميل: https://winpure.com/

نبذة عامة

  • التحقق من صحة البيانات ومطابقتها (DVR) هي تقنية تستخدم النماذج الرياضية لمعالجة المعلومات.
  • يساعدك استخدام تسوية البيانات على استخراج معلومات دقيقة وموثوقة حول حالة عملية الصناعة من بيانات القياس الأولية.
  • يعد الخطأ الإجمالي وقابلية الملاحظة والتباين والتكرار من المصطلحات المهمة المستخدمة في عملية تسوية البيانات
  • بدأ التحقق من صحة البيانات ومطابقتها في أوائل الستينيات.
  • ثلاثة أنواع من طرق تسوية البيانات هي 1) تسوية البيانات الرئيسية 2) تسوية بيانات المعاملات 3) تسوية البيانات الآلية
  • يجب أن يكون إجمالي الأخطاء صفرًا لجعل عملية تسوية البيانات فعالة.
  • بعض أدوات تسوية البيانات المهمة هي: 1)OpenRefine 2)TIBCO 3)Winpure
  • تستخدم هذه الطريقة على نطاق واسع في مراقبة الأداء والعمليات في صناعة تكرير النفط/الصناعة النووية/الكيميائية