اختبار ETL التعليمي

ما هو اختبار ETL؟

يتم إجراء اختبار ETL للتأكد من دقة البيانات التي تم تحميلها من المصدر إلى الوجهة بعد تحويل الأعمال. ويتضمن أيضًا التحقق من البيانات في المراحل المتوسطة المختلفة التي يتم استخدامها بين المصدر والوجهة. يعنيETL استخراج-تحويل-تحميل.

اختبار إي تي إل

اختبار مستودع البيانات

اختبار مستودع البيانات هي طريقة اختبار يتم من خلالها اختبار البيانات الموجودة داخل مستودع البيانات للتأكد من سلامتها وموثوقيتها ودقتها واتساقها من أجل الامتثال لإطار بيانات الشركة. الغرض الرئيسي من اختبار مستودع البيانات هو التأكد من أن البيانات المدمجة داخل مستودع البيانات موثوقة بدرجة كافية حتى تتمكن الشركة من اتخاذ قرارات بشأنها.

ما هو ETL؟

يرمز ETL إلى Extract-Transform-Load وهي عملية لكيفية تحميل البيانات من النظام المصدر إلى مستودع البيانات. يتم استخراج البيانات من قاعدة بيانات OLTP، وتحويلها لتتوافق مع مخطط مستودع البيانات وتحميلها في قاعدة بيانات مستودع البيانات. تتضمن العديد من مستودعات البيانات أيضًا بيانات من أنظمة غير تابعة لـ OLTP مثل الملفات النصية والأنظمة القديمة وجداول البيانات.

دعونا نرى كيف يعمل

على سبيل المثال، يوجد متجر بيع بالتجزئة يضم أقسامًا مختلفة مثل المبيعات والتسويق والخدمات اللوجستية وما إلى ذلك. ويتعامل كل منهم مع معلومات العميل بشكل مستقل، وتختلف طريقة تخزين تلك البيانات تمامًا. قام قسم المبيعات بتخزينها حسب اسم العميل، بينما قام قسم التسويق بتخزينها بواسطة معرف العميل.

الآن إذا أرادوا التحقق من تاريخ العميل وأرادوا معرفة المنتجات المختلفة التي اشتراها بسبب الحملات التسويقية المختلفة؛ فسيكون الأمر مرهقًا للغاية.

الحل هو استخدام مستودع البيانات لتخزين المعلومات من مصادر مختلفة في بنية موحدة باستخدام ETL. يمكن لـ ETL تحويل مجموعات البيانات المختلفة إلى بنية موحدة.Later استخدم أدوات ذكاء الأعمال لاستخلاص رؤى وتقارير مفيدة من هذه البيانات.

يوفر لك الرسم التخطيطي التالي في هذا البرنامج التعليمي لاختبار ETL خريطة الطريق لتدفق عملية اختبار ETL ومفاهيم اختبار ETL المختلفة:

استخراج-تحويل-تحميل

  1. مقتطف
  • استخراج البيانات ذات الصلة
  1. تحول
  • تحويل البيانات إلى تنسيق DW (مستودع البيانات).
  • إنشاء المفاتيح - المفتاح هو سمة واحدة أو أكثر من سمات البيانات التي تحدد الكيان بشكل فريد. متنوع أنواع المفاتيح هي المفتاح الأساسي، المفتاح البديل، المفتاح الخارجي، المفتاح المركب، المفتاح البديل. يمتلك مستودع البيانات هذه المفاتيح ولا يسمح أبدًا لأي كيان آخر بتخصيصها.
  • تنظيف البيانات: بعد استخراج البيانات، سيتم الانتقال إلى المرحلة التالية، وهي تنظيف البيانات ومطابقتها. يؤدي التنظيف إلى الإغفال في البيانات بالإضافة إلى تحديد الأخطاء وإصلاحها. تعني المطابقة حل التعارضات بين تلك البيانات غير المتوافقة، بحيث يمكن استخدامها في مستودع بيانات المؤسسة. بالإضافة إلى ذلك، يقوم هذا النظام بإنشاء بيانات وصفية تُستخدم لتشخيص مشاكل النظام المصدر وتحسين جودة البيانات.
  1. حمل
  • تحميل البيانات إلى DW (مستودع البيانات)
  • إنشاء مجمعات – إنشاء مجمع هو تلخيص وتخزين البيانات المتوفرة في جدول الحقائق من أجل تحسين أداء استعلامات المستخدم النهائي.

عملية اختبار ETL

على غرار عمليات الاختبار الأخرى، تمر ETL أيضًا بمراحل مختلفة. المراحل المختلفة لعملية اختبار ETL هي كما يلي

عملية اختبار ETL

يتم إجراء اختبار ETL على خمس مراحل

  1. تحديد مصادر البيانات ومتطلباتها
  2. الحصول على البيانات
  3. تنفيذ منطق الأعمال ونمذجة الأبعاد
  4. بناء وتعبئة البيانات
  5. بناء التقارير

عملية اختبار ETL

أنواع اختبار ETL

أنواع الاختبار عملية الاختبار
اختبار التحقق من صحة الإنتاج "موازنة الجدول" أو "تسوية الإنتاج" يتم إجراء هذا النوع من اختبارات ETL على البيانات أثناء نقلها إلى أنظمة الإنتاج. لدعم قرار عملك، يجب أن تكون البيانات الموجودة في أنظمة الإنتاج الخاصة بك بالترتيب الصحيح. المعلوماتيّة يوفر خيار التحقق من صحة البيانات إمكانات أتمتة وإدارة اختبار ETL لضمان عدم تعرض أنظمة الإنتاج للخطر بسبب البيانات.
المصدر ل Target الاختبار (اختبار التحقق من الصحة) يتم إجراء هذا النوع من الاختبار للتحقق من ما إذا كانت قيم البيانات المحولة هي قيم البيانات المتوقعة.
التطبيق Upgrades يمكن إنشاء هذا النوع من اختبار ETL تلقائيًا، مما يوفر وقتًا كبيرًا لتطوير الاختبار. يتحقق هذا النوع من الاختبار مما إذا كانت البيانات المستخرجة من تطبيق أو مستودع قديم مماثلة تمامًا للبيانات الموجودة في المستودع أو التطبيق الجديد.
اختبار البيانات الوصفية يتضمن اختبار البيانات الوصفية اختبار التحقق من نوع البيانات، والتحقق من طول البيانات، والتحقق من الفهرس/القيد.
اختبار اكتمال البيانات للتحقق من تحميل جميع البيانات المتوقعة في الهدف من المصدر، يتم إجراء اختبار اكتمال البيانات. بعض الاختبارات التي يمكن إجراؤها هي مقارنة الأعداد والتجميعات والبيانات الفعلية بين المصدر والهدف والتحقق من صحتها للأعمدة ذات التحويل البسيط أو بدون تحويل.
اختبار دقة البيانات يتم إجراء هذا الاختبار للتأكد من تحميل البيانات بدقة وتحويلها كما هو متوقع.
اختبار تحويل البيانات يتم اختبار تحويل البيانات لأنه في كثير من الحالات لا يمكن تحقيقه عن طريق كتابة مصدر واحد SQL الاستعلام ومقارنة الإخراج مع الهدف. قد يلزم تشغيل استعلامات SQL متعددة لكل صف للتحقق من قواعد التحويل.
اختبار جودة البيانات تتضمن اختبارات جودة البيانات اختبارات بناء الجملة والمرجع. لتجنب أي خطأ بسبب التاريخ أو رقم الطلب أثناء عملية الأعمال، يتم إجراء اختبار جودة البيانات.

اختبارات بناء الجملة: سيتم الإبلاغ عن البيانات القذرة، بناءً على أحرف غير صالحة، ونمط الأحرف، وترتيب الأحرف الكبيرة أو الصغيرة غير الصحيح وما إلى ذلك.

الاختبارات المرجعية: سيتم فحص البيانات وفقًا لنموذج البيانات. على سبيل المثال: معرف العميل

يتضمن اختبار جودة البيانات فحص الأرقام، والتحقق من التاريخ، والتحقق من الدقة، والتحقق من البيانات، والتحقق من القيمة الفارغة وما إلى ذلك.

اختبار ETL التزايدي يتم إجراء هذا الاختبار للتحقق من سلامة البيانات القديمة والجديدة مع إضافة بيانات جديدة. يتحقق الاختبار التزايدي من معالجة الإدخالات والتحديثات كما هو متوقع أثناء عملية ETL التزايدية.
واجهة المستخدم الرسومية/اختبار الملاحة يتم إجراء هذا الاختبار للتحقق من جوانب التنقل أو واجهة المستخدم الرسومية لتقارير الواجهة الأمامية.

كيفية إنشاء حالة اختبار ETL

اختبار ETL هو مفهوم يمكن تطبيقه على أدوات وقواعد بيانات مختلفة في صناعة إدارة المعلومات. الهدف من اختبار ETL هو التأكد من دقة البيانات التي تم تحميلها من المصدر إلى الوجهة بعد تحويل الأعمال. ويتضمن أيضًا التحقق من البيانات في المراحل المتوسطة المختلفة التي يتم استخدامها بين المصدر والوجهة.

أثناء إجراء اختبار ETL، هناك وثيقتان سيتم استخدامهما دائمًا بواسطة مختبر ETL

  1. أوراق خرائط ETL:تحتوي أوراق خرائط ETL على جميع المعلومات الخاصة بجداول المصدر والوجهة بما في ذلك كل عمود والبحث عنه في الجداول المرجعية. يجب أن يكون مختبرو ETL مرتاحين مع استعلامات SQL لأن اختبار ETL قد يتضمن كتابة استعلامات كبيرة ذات صلات متعددة للتحقق من صحة البيانات في أي مرحلة من ETL. توفر أوراق خرائط ETL مساعدة كبيرة أثناء كتابة الاستعلامات للتحقق من البيانات.
  2. مخطط قاعدة البيانات للمصدر، Target: يجب أن يظل في متناول اليد للتحقق من أي تفاصيل في أوراق الخرائط.

سيناريوهات اختبار ETL وحالات الاختبار

سيناريو الاختبار حالات تجريبية
تعيين التحقق من صحة الوثيقة تحقق من مستند التعيين ما إذا كانت معلومات ETL المقابلة متوفرة أم لا. يجب الاحتفاظ بسجل التغيير في كل مستند رسم الخرائط.
التحقق
  1. التحقق من صحة بنية الجدول المصدر والهدف مقابل مستند التعيين المقابل.
  2. يجب أن يكون نوع البيانات المصدر ونوع البيانات الهدف هو نفسه
  3. يجب أن يكون طول أنواع البيانات في كل من المصدر والهدف متساويًا
  4. تأكد من تحديد أنواع وتنسيقات حقول البيانات
  5. يجب ألا يقل طول نوع البيانات المصدر عن طول نوع البيانات الهدف
  6. التحقق من صحة اسم الأعمدة في الجدول مقابل مستند التعيين.
التحقق من صحة القيد تأكد من تحديد القيود لجدول محدد كما هو متوقع
قضايا اتساق البيانات
  1. قد يختلف نوع البيانات وطولها لسمة معينة في الملفات أو الجداول على الرغم من أن التعريف الدلالي هو نفسه.
  2. إساءة استخدام قيود النزاهة
قضايا الاكتمال
  1. تأكد من تحميل كافة البيانات المتوقعة في الجدول الهدف.
  2. مقارنة أعداد السجلات بين المصدر والهدف.
  3. تحقق من وجود أي سجلات مرفوضة
  4. لا ينبغي اقتطاع بيانات التحقق في عمود الجداول المستهدفة
  5. التحقق من تحليل قيمة الحدود
  6. يقارن القيم الفريدة للحقول الرئيسية بين البيانات المحملة على WH وبيانات المصدر
مسائل في الصواب
  1. البيانات التي بها أخطاء إملائية أو تم تسجيلها بشكل غير دقيق
  2. بيانات فارغة أو غير فريدة أو خارج النطاق
تحول تحول
جودة البيانات
  1. التحقق من الرقم: تحتاج إلى التحقق من الرقم والتحقق من صحته
  2. التحقق من التاريخ: يجب عليهم اتباع تنسيق التاريخ ويجب أن يكون هو نفسه في جميع السجلات
  3. فحص الدقة
  4. فحص البيانات
  5. فحص فارغ
التحقق من صحة فارغة تحقق من القيم الخالية، حيث تم تحديد "ليست فارغة" لعمود معين.
فحص مكرر
  1. يجب التحقق من صحة المفتاح الفريد، ويجب أن يكون المفتاح الأساسي وأي عمود آخر فريدًا وفقًا لمتطلبات العمل إذا كان هناك أي صفوف مكررة
  2. تحقق من وجود أي قيم مكررة في أي عمود يتم استخراجه من أعمدة متعددة في المصدر ودمجه في عمود واحد
  3. وفقًا لمتطلبات العميل، يجب التأكد من عدم وجود تكرارات في مجموعة من الأعمدة المتعددة داخل الهدف فقط
التحقق من التاريخ تستخدم قيم التاريخ العديد من المجالات في تطوير ETL لـ

  1. لمعرفة تاريخ إنشاء الصف
  2. تحديد السجلات النشطة وفقًا لمنظور تطوير ETL
  3. تحديد السجلات النشطة وفقًا لمنظور متطلبات العمل
  4. في بعض الأحيان يتم إنشاء التحديثات والإدراجات بناءً على قيم التاريخ.
استكمال التحقق من صحة البيانات
  1. للتحقق من صحة مجموعة البيانات الكاملة في الجدول المصدر والهدف مطروحًا منها الاستعلام في أفضل الحلول
  2. نحن بحاجة إلى المصدر ناقص الهدف والهدف ناقص المصدر
  3. إذا أدى استعلام ناقص إلى إرجاع أي قيمة، فيجب اعتبارها صفوفًا غير متطابقة
  4. يحتاج إلى مطابقة الصفوف بين المصدر والهدف باستخدام عبارة التقاطع
  5. يجب أن يتطابق العدد الذي يتم إرجاعه بواسطة التقاطع مع الأعداد الفردية لجداول المصدر والهدف
  6. إذا كان ناقص استعلام الصفوف وتقاطع العدد أقل من عدد المصدر أو الجدول الهدف، فيمكننا اعتبار وجود صفوف مكررة.
نظافة البيانات يجب حذف الأعمدة غير الضرورية قبل التحميل في منطقة التدريج.

أنواع أخطاء ETL

أنواع أخطاء ETL

نوع من الأخطاء الوصف
أخطاء واجهة المستخدم / الأخطاء التجميلية
  • المتعلقة بواجهة المستخدم الرسومية للتطبيق
  • نمط الخط وحجم الخط والألوان والمحاذاة والأخطاء الإملائية والتنقل وما إلى ذلك
خطأ متعلق بتحليل القيمة الحدودية (BVA).
  • القيم الدنيا والقصوى
خطأ متعلق بتقسيم فئة التكافؤ (ECP).
  • نوع صالح وغير صالح
أخطاء الإدخال/الإخراج
  • لم يتم قبول القيم الصالحة
  • تم قبول القيم غير الصالحة
الأخطاء الحسابية
  • الأخطاء الرياضية
  • الإخراج النهائي خاطئ
تحميل أخطاء الحالة
  • لا يسمح لعدة مستخدمين
  • لا يسمح بالحمل المتوقع للعميل
أخطاء حالة السباق
  • تعطل النظام وتعليقه
  • لا يمكن للنظام تشغيل منصات العميل
أخطاء التحكم في الإصدار
  • لا يوجد مطابقة الشعار
  • لا توجد معلومات الإصدار المتاحة
  • يحدث هذا عادة في اختبار الانحدار
أخطاء H/W
  • الجهاز لا يستجيب للتطبيق
مساعدة مصدر الخلل
  • أخطاء في وثائق المساعدة

الفرق بين اختبار قاعدة البيانات واختبار ETL

اختبار إي تي إل اختبار قاعدة البيانات
التحقق من نقل البيانات كما هو متوقع الهدف الأساسي هو التحقق مما إذا كانت البيانات تتبع القواعد/المعايير المحددة في نموذج البيانات
التحقق مما إذا كانت الأعداد الموجودة في المصدر والهدف متطابقة

التحقق مما إذا كانت البيانات المحولة متوافقة مع التوقعات

تحقق من عدم وجود سجلات يتيمة ومن الحفاظ على العلاقات الرئيسية الأجنبية الأساسية
التحقق من الحفاظ على علاقات المفاتيح الأساسية الأجنبية أثناء ETL التحقق من عدم وجود جداول زائدة عن الحاجة وتطبيع قاعدة البيانات على النحو الأمثل
التحقق من الازدواجية في البيانات المحملة تحقق مما إذا كانت البيانات مفقودة في الأعمدة عند الحاجة

مسؤوليات مختبر ETL

يتم تقسيم المسؤوليات الرئيسية لمختبر ETL إلى ثلاث فئات

  • طاولة المرحلة/SFS أو MFS
  • تم تطبيق منطق تحويل الأعمال
  • Target تحميل الجدول من ملف المرحلة أو الجدول بعد تطبيق التحويل.

بعض مسؤوليات مختبر ETL هي

  • اختبار برنامج ETL
  • مكونات اختبار مستودع بيانات ETL
  • تنفيذ اختبار يعتمد على البيانات الخلفية
  • إنشاء وتصميم وتنفيذ حالات تجريبيةوخطط الاختبار وأداة الاختبار
  • تحديد المشكلة وتقديم الحلول للمشكلات المحتملة
  • الموافقة على المتطلبات ومواصفات التصميم
  • نقل البيانات واختبار الملف المسطح
  • كتابة استعلامات SQL3 لسيناريوهات مختلفة مثل اختبار العد

اختبار الأداء في ETL

اختبار الأداء في ETL هي تقنية اختبار للتأكد من أن نظام ETL يمكنه التعامل مع حمل العديد من المستخدمين والمعاملات. الهدف الأساسي لـ ETL اختبار أداء هو تحسين وتحسين أداء الجلسة من خلال تحديد وإزالة اختناقات الأداء. من المحتمل أن يكون لقواعد البيانات المصدر والهدف والتعيينات والجلسات والنظام اختناقات في الأداء.

واحدة من أفضل الأدوات المستخدمة لاختبار/ضبط الأداء هي Informatica.

أتمتة اختبار ETL

المنهجية العامة لاختبار ETL هي استخدام البرمجة النصية SQL أو "مراقبة" البيانات.. هذه الأساليب لاختبار ETL تستغرق وقتًا طويلاً وعرضة للخطأ ونادرًا ما توفر معلومات كاملة تغطية الاختبار. لتسريع وتحسين التغطية وخفض التكاليف والتحسين خلل نسبة الكشف عن اختبار ETL في بيئات الإنتاج والتطوير، والأتمتة هي حاجة الساعة. إحدى هذه الأدوات هي Informatica.

أفضل الممارسات لاختبار ETL

  1. تأكد من تحويل البيانات بشكل صحيح
  2. دون أي فقدان للبيانات واقتطاعها، يجب تحميل البيانات المتوقعة في مستودع البيانات
  3. تأكد من أن تطبيق ETL يرفض بشكل مناسب ويستبدل القيم الافتراضية ويبلغ عن البيانات غير الصالحة
  4. تحتاج إلى التأكد من أن البيانات المحملة في مستودع البيانات ضمن الأطر الزمنية المحددة والمتوقعة لتأكيد قابلية التوسع والأداء
  5. يجب أن تحتوي جميع الطرق على اختبارات وحدة مناسبة بغض النظر عن الرؤية
  6. لقياس فعاليتها، يجب على جميع اختبارات الوحدة استخدام تقنيات التغطية المناسبة
  7. نسعى جاهدين لتأكيد واحد لكل حالة اختبار
  8. إنشاء اختبارات الوحدة التي تستهدف الاستثناءات

الدفع - أسئلة وأجوبة مقابلة اختبار ETL