اختبار ETL التعليمي
ما هو اختبار ETL؟
يتم إجراء اختبار ETL للتأكد من دقة البيانات التي تم تحميلها من المصدر إلى الوجهة بعد تحويل الأعمال. ويتضمن أيضًا التحقق من البيانات في المراحل المتوسطة المختلفة التي يتم استخدامها بين المصدر والوجهة. يعنيETL استخراج-تحويل-تحميل.
اختبار مستودع البيانات
اختبار مستودع البيانات هي طريقة اختبار يتم من خلالها اختبار البيانات الموجودة داخل مستودع البيانات للتأكد من سلامتها وموثوقيتها ودقتها واتساقها من أجل الامتثال لإطار بيانات الشركة. الغرض الرئيسي من اختبار مستودع البيانات هو التأكد من أن البيانات المدمجة داخل مستودع البيانات موثوقة بدرجة كافية حتى تتمكن الشركة من اتخاذ قرارات بشأنها.
ما هو ETL؟
يرمز ETL إلى Extract-Transform-Load وهي عملية لكيفية تحميل البيانات من النظام المصدر إلى مستودع البيانات. يتم استخراج البيانات من قاعدة بيانات OLTP، وتحويلها لتتوافق مع مخطط مستودع البيانات وتحميلها في قاعدة بيانات مستودع البيانات. تتضمن العديد من مستودعات البيانات أيضًا بيانات من أنظمة غير تابعة لـ OLTP مثل الملفات النصية والأنظمة القديمة وجداول البيانات.
دعونا نرى كيف يعمل
على سبيل المثال، يوجد متجر بيع بالتجزئة يضم أقسامًا مختلفة مثل المبيعات والتسويق والخدمات اللوجستية وما إلى ذلك. ويتعامل كل منهم مع معلومات العميل بشكل مستقل، وتختلف طريقة تخزين تلك البيانات تمامًا. قام قسم المبيعات بتخزينها حسب اسم العميل، بينما قام قسم التسويق بتخزينها بواسطة معرف العميل.
الآن إذا أرادوا التحقق من تاريخ العميل وأرادوا معرفة المنتجات المختلفة التي اشتراها بسبب الحملات التسويقية المختلفة؛ فسيكون الأمر مرهقًا للغاية.
الحل هو استخدام مستودع البيانات لتخزين المعلومات من مصادر مختلفة في بنية موحدة باستخدام ETL. يمكن لـ ETL تحويل مجموعات البيانات المختلفة إلى بنية موحدة.Later استخدم أدوات ذكاء الأعمال لاستخلاص رؤى وتقارير مفيدة من هذه البيانات.
يوفر لك الرسم التخطيطي التالي في هذا البرنامج التعليمي لاختبار ETL خريطة الطريق لتدفق عملية اختبار ETL ومفاهيم اختبار ETL المختلفة:
- مقتطف
- استخراج البيانات ذات الصلة
- تحول
- تحويل البيانات إلى تنسيق DW (مستودع البيانات).
- إنشاء المفاتيح - المفتاح هو سمة واحدة أو أكثر من سمات البيانات التي تحدد الكيان بشكل فريد. متنوع أنواع المفاتيح هي المفتاح الأساسي، المفتاح البديل، المفتاح الخارجي، المفتاح المركب، المفتاح البديل. يمتلك مستودع البيانات هذه المفاتيح ولا يسمح أبدًا لأي كيان آخر بتخصيصها.
- تنظيف البيانات: بعد استخراج البيانات، سيتم الانتقال إلى المرحلة التالية، وهي تنظيف البيانات ومطابقتها. يؤدي التنظيف إلى الإغفال في البيانات بالإضافة إلى تحديد الأخطاء وإصلاحها. تعني المطابقة حل التعارضات بين تلك البيانات غير المتوافقة، بحيث يمكن استخدامها في مستودع بيانات المؤسسة. بالإضافة إلى ذلك، يقوم هذا النظام بإنشاء بيانات وصفية تُستخدم لتشخيص مشاكل النظام المصدر وتحسين جودة البيانات.
- حمل
- تحميل البيانات إلى DW (مستودع البيانات)
- إنشاء مجمعات – إنشاء مجمع هو تلخيص وتخزين البيانات المتوفرة في جدول الحقائق من أجل تحسين أداء استعلامات المستخدم النهائي.
عملية اختبار ETL
على غرار عمليات الاختبار الأخرى، تمر ETL أيضًا بمراحل مختلفة. المراحل المختلفة لعملية اختبار ETL هي كما يلي
يتم إجراء اختبار ETL على خمس مراحل
- تحديد مصادر البيانات ومتطلباتها
- الحصول على البيانات
- تنفيذ منطق الأعمال ونمذجة الأبعاد
- بناء وتعبئة البيانات
- بناء التقارير
أنواع اختبار ETL
أنواع الاختبار | عملية الاختبار |
---|---|
اختبار التحقق من صحة الإنتاج | "موازنة الجدول" أو "تسوية الإنتاج" يتم إجراء هذا النوع من اختبارات ETL على البيانات أثناء نقلها إلى أنظمة الإنتاج. لدعم قرار عملك، يجب أن تكون البيانات الموجودة في أنظمة الإنتاج الخاصة بك بالترتيب الصحيح. المعلوماتيّة يوفر خيار التحقق من صحة البيانات إمكانات أتمتة وإدارة اختبار ETL لضمان عدم تعرض أنظمة الإنتاج للخطر بسبب البيانات. |
المصدر ل Target الاختبار (اختبار التحقق من الصحة) | يتم إجراء هذا النوع من الاختبار للتحقق من ما إذا كانت قيم البيانات المحولة هي قيم البيانات المتوقعة. |
التطبيق Upgrades | يمكن إنشاء هذا النوع من اختبار ETL تلقائيًا، مما يوفر وقتًا كبيرًا لتطوير الاختبار. يتحقق هذا النوع من الاختبار مما إذا كانت البيانات المستخرجة من تطبيق أو مستودع قديم مماثلة تمامًا للبيانات الموجودة في المستودع أو التطبيق الجديد. |
اختبار البيانات الوصفية | يتضمن اختبار البيانات الوصفية اختبار التحقق من نوع البيانات، والتحقق من طول البيانات، والتحقق من الفهرس/القيد. |
اختبار اكتمال البيانات | للتحقق من تحميل جميع البيانات المتوقعة في الهدف من المصدر، يتم إجراء اختبار اكتمال البيانات. بعض الاختبارات التي يمكن إجراؤها هي مقارنة الأعداد والتجميعات والبيانات الفعلية بين المصدر والهدف والتحقق من صحتها للأعمدة ذات التحويل البسيط أو بدون تحويل. |
اختبار دقة البيانات | يتم إجراء هذا الاختبار للتأكد من تحميل البيانات بدقة وتحويلها كما هو متوقع. |
اختبار تحويل البيانات | يتم اختبار تحويل البيانات لأنه في كثير من الحالات لا يمكن تحقيقه عن طريق كتابة مصدر واحد SQL الاستعلام ومقارنة الإخراج مع الهدف. قد يلزم تشغيل استعلامات SQL متعددة لكل صف للتحقق من قواعد التحويل. |
اختبار جودة البيانات | تتضمن اختبارات جودة البيانات اختبارات بناء الجملة والمرجع. لتجنب أي خطأ بسبب التاريخ أو رقم الطلب أثناء عملية الأعمال، يتم إجراء اختبار جودة البيانات.
اختبارات بناء الجملة: سيتم الإبلاغ عن البيانات القذرة، بناءً على أحرف غير صالحة، ونمط الأحرف، وترتيب الأحرف الكبيرة أو الصغيرة غير الصحيح وما إلى ذلك. الاختبارات المرجعية: سيتم فحص البيانات وفقًا لنموذج البيانات. على سبيل المثال: معرف العميل يتضمن اختبار جودة البيانات فحص الأرقام، والتحقق من التاريخ، والتحقق من الدقة، والتحقق من البيانات، والتحقق من القيمة الفارغة وما إلى ذلك. |
اختبار ETL التزايدي | يتم إجراء هذا الاختبار للتحقق من سلامة البيانات القديمة والجديدة مع إضافة بيانات جديدة. يتحقق الاختبار التزايدي من معالجة الإدخالات والتحديثات كما هو متوقع أثناء عملية ETL التزايدية. |
واجهة المستخدم الرسومية/اختبار الملاحة | يتم إجراء هذا الاختبار للتحقق من جوانب التنقل أو واجهة المستخدم الرسومية لتقارير الواجهة الأمامية. |
كيفية إنشاء حالة اختبار ETL
اختبار ETL هو مفهوم يمكن تطبيقه على أدوات وقواعد بيانات مختلفة في صناعة إدارة المعلومات. الهدف من اختبار ETL هو التأكد من دقة البيانات التي تم تحميلها من المصدر إلى الوجهة بعد تحويل الأعمال. ويتضمن أيضًا التحقق من البيانات في المراحل المتوسطة المختلفة التي يتم استخدامها بين المصدر والوجهة.
أثناء إجراء اختبار ETL، هناك وثيقتان سيتم استخدامهما دائمًا بواسطة مختبر ETL
- أوراق خرائط ETL:تحتوي أوراق خرائط ETL على جميع المعلومات الخاصة بجداول المصدر والوجهة بما في ذلك كل عمود والبحث عنه في الجداول المرجعية. يجب أن يكون مختبرو ETL مرتاحين مع استعلامات SQL لأن اختبار ETL قد يتضمن كتابة استعلامات كبيرة ذات صلات متعددة للتحقق من صحة البيانات في أي مرحلة من ETL. توفر أوراق خرائط ETL مساعدة كبيرة أثناء كتابة الاستعلامات للتحقق من البيانات.
- مخطط قاعدة البيانات للمصدر، Target: يجب أن يظل في متناول اليد للتحقق من أي تفاصيل في أوراق الخرائط.
سيناريوهات اختبار ETL وحالات الاختبار
سيناريو الاختبار | حالات تجريبية |
---|---|
تعيين التحقق من صحة الوثيقة | تحقق من مستند التعيين ما إذا كانت معلومات ETL المقابلة متوفرة أم لا. يجب الاحتفاظ بسجل التغيير في كل مستند رسم الخرائط. |
التحقق |
|
التحقق من صحة القيد | تأكد من تحديد القيود لجدول محدد كما هو متوقع |
قضايا اتساق البيانات |
|
قضايا الاكتمال |
|
مسائل في الصواب |
|
تحول | تحول |
جودة البيانات |
|
التحقق من صحة فارغة | تحقق من القيم الخالية، حيث تم تحديد "ليست فارغة" لعمود معين. |
فحص مكرر |
|
التحقق من التاريخ | تستخدم قيم التاريخ العديد من المجالات في تطوير ETL لـ
|
استكمال التحقق من صحة البيانات |
|
نظافة البيانات | يجب حذف الأعمدة غير الضرورية قبل التحميل في منطقة التدريج. |
أنواع أخطاء ETL
نوع من الأخطاء | الوصف |
---|---|
أخطاء واجهة المستخدم / الأخطاء التجميلية |
|
خطأ متعلق بتحليل القيمة الحدودية (BVA). |
|
خطأ متعلق بتقسيم فئة التكافؤ (ECP). |
|
أخطاء الإدخال/الإخراج |
|
الأخطاء الحسابية |
|
تحميل أخطاء الحالة |
|
أخطاء حالة السباق |
|
أخطاء التحكم في الإصدار |
|
أخطاء H/W |
|
مساعدة مصدر الخلل |
|
الفرق بين اختبار قاعدة البيانات واختبار ETL
اختبار إي تي إل | اختبار قاعدة البيانات |
---|---|
التحقق من نقل البيانات كما هو متوقع | الهدف الأساسي هو التحقق مما إذا كانت البيانات تتبع القواعد/المعايير المحددة في نموذج البيانات |
التحقق مما إذا كانت الأعداد الموجودة في المصدر والهدف متطابقة
التحقق مما إذا كانت البيانات المحولة متوافقة مع التوقعات |
تحقق من عدم وجود سجلات يتيمة ومن الحفاظ على العلاقات الرئيسية الأجنبية الأساسية |
التحقق من الحفاظ على علاقات المفاتيح الأساسية الأجنبية أثناء ETL | التحقق من عدم وجود جداول زائدة عن الحاجة وتطبيع قاعدة البيانات على النحو الأمثل |
التحقق من الازدواجية في البيانات المحملة | تحقق مما إذا كانت البيانات مفقودة في الأعمدة عند الحاجة |
مسؤوليات مختبر ETL
يتم تقسيم المسؤوليات الرئيسية لمختبر ETL إلى ثلاث فئات
- طاولة المرحلة/SFS أو MFS
- تم تطبيق منطق تحويل الأعمال
- Target تحميل الجدول من ملف المرحلة أو الجدول بعد تطبيق التحويل.
بعض مسؤوليات مختبر ETL هي
- اختبار برنامج ETL
- مكونات اختبار مستودع بيانات ETL
- تنفيذ اختبار يعتمد على البيانات الخلفية
- إنشاء وتصميم وتنفيذ حالات تجريبيةوخطط الاختبار وأداة الاختبار
- تحديد المشكلة وتقديم الحلول للمشكلات المحتملة
- الموافقة على المتطلبات ومواصفات التصميم
- نقل البيانات واختبار الملف المسطح
- كتابة استعلامات SQL3 لسيناريوهات مختلفة مثل اختبار العد
اختبار الأداء في ETL
اختبار الأداء في ETL هي تقنية اختبار للتأكد من أن نظام ETL يمكنه التعامل مع حمل العديد من المستخدمين والمعاملات. الهدف الأساسي لـ ETL اختبار أداء هو تحسين وتحسين أداء الجلسة من خلال تحديد وإزالة اختناقات الأداء. من المحتمل أن يكون لقواعد البيانات المصدر والهدف والتعيينات والجلسات والنظام اختناقات في الأداء.
واحدة من أفضل الأدوات المستخدمة لاختبار/ضبط الأداء هي Informatica.
أتمتة اختبار ETL
المنهجية العامة لاختبار ETL هي استخدام البرمجة النصية SQL أو "مراقبة" البيانات.. هذه الأساليب لاختبار ETL تستغرق وقتًا طويلاً وعرضة للخطأ ونادرًا ما توفر معلومات كاملة تغطية الاختبار. لتسريع وتحسين التغطية وخفض التكاليف والتحسين خلل نسبة الكشف عن اختبار ETL في بيئات الإنتاج والتطوير، والأتمتة هي حاجة الساعة. إحدى هذه الأدوات هي Informatica.
أفضل الممارسات لاختبار ETL
- تأكد من تحويل البيانات بشكل صحيح
- دون أي فقدان للبيانات واقتطاعها، يجب تحميل البيانات المتوقعة في مستودع البيانات
- تأكد من أن تطبيق ETL يرفض بشكل مناسب ويستبدل القيم الافتراضية ويبلغ عن البيانات غير الصالحة
- تحتاج إلى التأكد من أن البيانات المحملة في مستودع البيانات ضمن الأطر الزمنية المحددة والمتوقعة لتأكيد قابلية التوسع والأداء
- يجب أن تحتوي جميع الطرق على اختبارات وحدة مناسبة بغض النظر عن الرؤية
- لقياس فعاليتها، يجب على جميع اختبارات الوحدة استخدام تقنيات التغطية المناسبة
- نسعى جاهدين لتأكيد واحد لكل حالة اختبار
- إنشاء اختبارات الوحدة التي تستهدف الاستثناءات
الدفع - أسئلة وأجوبة مقابلة اختبار ETL