ETL परीक्षण ट्यूटोरियल
ईटीएल परीक्षण क्या है?
ETL परीक्षण यह सुनिश्चित करने के लिए किया जाता है कि व्यवसाय परिवर्तन के बाद स्रोत से गंतव्य तक लोड किया गया डेटा सटीक है। इसमें स्रोत और गंतव्य के बीच उपयोग किए जा रहे विभिन्न मध्य चरणों में डेटा का सत्यापन भी शामिल है। ETL का मतलब है एक्सट्रैक्ट-ट्रांसफॉर्म-लोड।
डेटा वेयरहाउस परीक्षण
डेटा वेयरहाउस परीक्षण एक परीक्षण विधि है जिसमें डेटा वेयरहाउस के अंदर मौजूद डेटा को कंपनी के डेटा ढांचे के अनुरूप बनाने के लिए अखंडता, विश्वसनीयता, सटीकता और स्थिरता के लिए परखा जाता है। डेटा वेयरहाउस परीक्षण का मुख्य उद्देश्य यह सुनिश्चित करना है कि डेटा वेयरहाउस के अंदर एकीकृत डेटा कंपनी के लिए निर्णय लेने के लिए पर्याप्त विश्वसनीय है।
ETL क्या है?
ETL का मतलब है एक्सट्रैक्ट-ट्रांसफॉर्म-लोड और यह एक प्रक्रिया है कि डेटा को सोर्स सिस्टम से डेटा वेयरहाउस में कैसे लोड किया जाता है। डेटा को OLTP डेटाबेस से निकाला जाता है, डेटा वेयरहाउस स्कीमा से मेल खाने के लिए रूपांतरित किया जाता है और डेटा वेयरहाउस डेटाबेस में लोड किया जाता है। कई डेटा वेयरहाउस गैर-OLTP सिस्टम जैसे टेक्स्ट फाइल, लीगेसी सिस्टम और स्प्रेडशीट से डेटा भी शामिल करते हैं।
आइये देखें यह कैसे काम करता है
उदाहरण के लिए, एक रिटेल स्टोर है जिसमें बिक्री, विपणन, रसद आदि जैसे विभिन्न विभाग हैं। उनमें से प्रत्येक स्वतंत्र रूप से ग्राहक की जानकारी संभाल रहा है, और जिस तरह से वे डेटा संग्रहीत करते हैं वह काफी अलग है। बिक्री विभाग ने इसे ग्राहक के नाम से संग्रहीत किया है, जबकि विपणन विभाग ने ग्राहक आईडी के आधार पर।
अब यदि वे ग्राहक का इतिहास जांचना चाहें और यह जानना चाहें कि उसने विभिन्न विपणन अभियानों के तहत कौन-कौन से उत्पाद खरीदे हैं; तो यह बहुत थकाऊ होगा।
इसका समाधान यह है कि datawarehouse ETL का उपयोग करके विभिन्न स्रोतों से प्राप्त जानकारी को एक समान संरचना में संग्रहीत करना। ETL असमान डेटा सेट को एकीकृत संरचना में बदल सकता है।Later इस डेटा से सार्थक अंतर्दृष्टि और रिपोर्ट प्राप्त करने के लिए BI टूल का उपयोग करें।
इस ETL परीक्षण ट्यूटोरियल में निम्नलिखित आरेख आपको ETL परीक्षण प्रक्रिया प्रवाह और विभिन्न ETL परीक्षण अवधारणाओं का रोड मैप देता है:
- उद्धरण
- प्रासंगिक डेटा निकालें
- बदालना
- डेटा को DW (डेटा वेयरहाउस) प्रारूप में परिवर्तित करें
- बिल्ड कुंजियाँ - एक कुंजी एक या अधिक डेटा विशेषताएँ होती हैं जो किसी इकाई को विशिष्ट रूप से पहचानती हैं। चाबियों के प्रकार प्राथमिक कुंजी, वैकल्पिक कुंजी, विदेशी कुंजी, संयुक्त कुंजी, सरोगेट कुंजी हैं। डेटावेयरहाउस इन कुंजियों का मालिक है और कभी भी किसी अन्य इकाई को उन्हें असाइन करने की अनुमति नहीं देता है।
- डेटा की सफाई: डेटा निकाले जाने के बाद, यह डेटा की सफाई और अनुरूपता के अगले चरण में चला जाएगा। सफाई डेटा में चूक के साथ-साथ त्रुटियों की पहचान और सुधार भी करती है। अनुरूपता का अर्थ है उन डेटा के बीच संघर्षों को हल करना जो असंगत हैं, ताकि उनका उपयोग एंटरप्राइज़ डेटा वेयरहाउस में किया जा सके। इनके अलावा, यह सिस्टम मेटा-डेटा बनाता है जिसका उपयोग स्रोत सिस्टम समस्याओं का निदान करने और डेटा की गुणवत्ता में सुधार करने के लिए किया जाता है।
- भार
- डेटा को DW (डेटा वेयरहाउस) में लोड करें
- समुच्चय बनाएँ - समुच्चय बनाना डेटा को सारांशित करना और संग्रहीत करना है जो उपलब्ध है तथ्य तालिका अंतिम उपयोगकर्ता प्रश्नों के प्रदर्शन को बेहतर बनाने के लिए।
ईटीएल परीक्षण प्रक्रिया
अन्य परीक्षण प्रक्रियाओं की तरह, ETL भी विभिन्न चरणों से होकर गुजरता है। ETL परीक्षण प्रक्रिया के विभिन्न चरण इस प्रकार हैं
ईटीएल परीक्षण पांच चरणों में किया जाता है
- डेटा स्रोतों और आवश्यकताओं की पहचान करना
- डाटा अधिग्रहण
- व्यावसायिक तर्क और आयामी मॉडलिंग को लागू करना
- डेटा बनाएँ और भरें
- रिपोर्ट बनाएं
ईटीएल परीक्षण के प्रकार
परीक्षण के प्रकार | परीक्षण प्रक्रिया |
---|---|
उत्पादन सत्यापन परीक्षण | "टेबल बैलेंसिंग" या "प्रोडक्शन रिकॉन्सिलिएशन" इस प्रकार का ETL परीक्षण डेटा पर किया जाता है क्योंकि इसे उत्पादन प्रणालियों में ले जाया जा रहा है। आपके व्यावसायिक निर्णय का समर्थन करने के लिए, आपके उत्पादन प्रणालियों में डेटा सही क्रम में होना चाहिए। सूचना विज्ञान डेटा सत्यापन विकल्प ETL परीक्षण स्वचालन और प्रबंधन क्षमताएं प्रदान करता है ताकि यह सुनिश्चित किया जा सके कि डेटा के कारण उत्पादन प्रणालियों को कोई नुकसान न पहुंचे। |
स्रोत Target परीक्षण (सत्यापन परीक्षण) | इस प्रकार का परीक्षण यह सत्यापित करने के लिए किया जाता है कि क्या रूपांतरित डेटा मान अपेक्षित डेटा मान हैं। |
आवेदन Upgrades | इस प्रकार के ETL परीक्षण को स्वचालित रूप से तैयार किया जा सकता है, जिससे परीक्षण विकास समय की काफी बचत होती है। इस प्रकार के परीक्षण से यह पता चलता है कि किसी पुराने एप्लिकेशन या रिपॉजिटरी से निकाला गया डेटा, रिपॉजिटरी या नए एप्लिकेशन में मौजूद डेटा के बिल्कुल समान है या नहीं। |
मेटाडेटा परीक्षण | मेटाडेटा परीक्षण में डेटा प्रकार जांच, डेटा लंबाई जांच और सूचकांक/बाधा जांच शामिल है। |
डेटा पूर्णता परीक्षण | यह सत्यापित करने के लिए कि सभी अपेक्षित डेटा स्रोत से लक्ष्य में लोड किए गए हैं, डेटा पूर्णता परीक्षण किया जाता है। कुछ परीक्षण जो चलाए जा सकते हैं, वे सरल परिवर्तन या बिना परिवर्तन वाले स्तंभों के लिए स्रोत और लक्ष्य के बीच गणना, समुच्चय और वास्तविक डेटा की तुलना और सत्यापन हैं। |
डेटा सटीकता परीक्षण | यह परीक्षण यह सुनिश्चित करने के लिए किया जाता है कि डेटा सटीक रूप से लोड किया गया है और अपेक्षा के अनुरूप परिवर्तित किया गया है। |
डेटा रूपांतरण परीक्षण | डेटा रूपांतरण का परीक्षण किया जाता है क्योंकि कई मामलों में इसे एक स्रोत लिखकर प्राप्त नहीं किया जा सकता है एसक्यूएल क्वेरी और आउटपुट की तुलना लक्ष्य से करना। रूपांतरण नियमों को सत्यापित करने के लिए प्रत्येक पंक्ति के लिए कई SQL क्वेरी चलाने की आवश्यकता हो सकती है। |
डेटा गुणवत्ता परीक्षण | डेटा गुणवत्ता परीक्षण में वाक्यविन्यास और संदर्भ परीक्षण शामिल हैं। व्यावसायिक प्रक्रिया के दौरान दिनांक या ऑर्डर संख्या के कारण होने वाली किसी भी त्रुटि से बचने के लिए डेटा गुणवत्ता परीक्षण किया जाता है।
वाक्यविन्यास परीक्षण: यह अमान्य वर्णों, वर्ण पैटर्न, गलत ऊपरी या निचले केस क्रम आदि के आधार पर गंदे डेटा की रिपोर्ट करेगा। संदर्भ परीक्षण: यह डेटा मॉडल के अनुसार डेटा की जाँच करेगा। उदाहरण के लिए: ग्राहक आईडी डेटा गुणवत्ता परीक्षण में संख्या जांच, दिनांक जांच, परिशुद्धता जांच, डेटा जांच, शून्य जांच आदि शामिल हैं। |
वृद्धिशील ETL परीक्षण | यह परीक्षण नए डेटा के जुड़ने के साथ पुराने और नए डेटा की डेटा अखंडता की जाँच करने के लिए किया जाता है। वृद्धिशील परीक्षण यह सत्यापित करता है कि वृद्धिशील ETL प्रक्रिया के दौरान सम्मिलन और अद्यतन अपेक्षित रूप से संसाधित हो रहे हैं। |
GUI/नेविगेशन परीक्षण | यह परीक्षण फ्रंट एंड रिपोर्ट के नेविगेशन या GUI पहलुओं की जांच करने के लिए किया जाता है। |
ETL टेस्ट केस कैसे बनाएं
ईटीएल परीक्षण एक अवधारणा है जिसे सूचना प्रबंधन उद्योग में विभिन्न उपकरणों और डेटाबेस पर लागू किया जा सकता है। ईटीएल परीक्षण का उद्देश्य यह सुनिश्चित करना है कि व्यवसाय रूपांतरण के बाद स्रोत से गंतव्य तक लोड किया गया डेटा सटीक है। इसमें स्रोत और गंतव्य के बीच उपयोग किए जा रहे विभिन्न मध्य चरणों पर डेटा का सत्यापन भी शामिल है।
ETL परीक्षण करते समय, दो दस्तावेज़ जिनका उपयोग ETL परीक्षक द्वारा हमेशा किया जाएगा, वे हैं
- ईटीएल मैपिंग शीट:ETL मैपिंग शीट में स्रोत और गंतव्य तालिकाओं की सभी जानकारी होती है, जिसमें प्रत्येक कॉलम और संदर्भ तालिकाओं में उनका लुक-अप शामिल होता है। ETL परीक्षकों को SQL क्वेरीज़ के साथ सहज होना चाहिए क्योंकि ETL परीक्षण में ETL के किसी भी चरण में डेटा को मान्य करने के लिए कई जॉइन के साथ बड़ी क्वेरीज़ लिखना शामिल हो सकता है। डेटा सत्यापन के लिए क्वेरीज़ लिखते समय ETL मैपिंग शीट महत्वपूर्ण सहायता प्रदान करती हैं।
- स्रोत की DB स्कीमा, Target: मैपिंग शीट में किसी भी विवरण को सत्यापित करने के लिए इसे संभाल कर रखना चाहिए।
ईटीएल परीक्षण परिदृश्य और परीक्षण मामले
परिदृश्य का परीक्षण करें | परीक्षण के मामलों |
---|---|
दस्तावेज़ सत्यापन मैपिंग | मैपिंग डॉक को सत्यापित करें कि संबंधित ETL जानकारी प्रदान की गई है या नहीं। प्रत्येक मैपिंग डॉक में परिवर्तन लॉग बनाए रखना चाहिए। |
मान्यकरण |
|
बाधा सत्यापन | सुनिश्चित करें कि विशिष्ट तालिका के लिए बाधाएं अपेक्षानुसार परिभाषित की गई हैं |
डेटा संगतता संबंधी समस्याएं |
|
पूर्णता संबंधी मुद्दे |
|
शुद्धता के मुद्दे |
|
परिवर्तन | परिवर्तन |
डेटा की गुणवत्ता |
|
शून्य मान्य करें | शून्य मानों को सत्यापित करें, जहां किसी विशिष्ट कॉलम के लिए "शून्य नहीं" निर्दिष्ट किया गया है। |
डुप्लिकेट चेक |
|
दिनांक मान्यता | ETL विकास में दिनांक मान का उपयोग कई क्षेत्रों में किया जा रहा है
|
पूर्ण डेटा सत्यापन |
|
डेटा शुद्धता | स्टेजिंग क्षेत्र में लोड करने से पहले अनावश्यक कॉलम हटा दिए जाने चाहिए। |
ETL बग के प्रकार
बग के प्रकार | विवरण |
---|---|
उपयोगकर्ता इंटरफ़ेस बग/कॉस्मेटिक बग |
|
सीमा मूल्य विश्लेषण (BVA) से संबंधित बग |
|
समतुल्यता वर्ग विभाजन (ECP) से संबंधित बग |
|
इनपुट/आउटपुट बग |
|
गणना संबंधी त्रुटियाँ |
|
लोड स्थिति बग |
|
रेस कंडीशन बग |
|
संस्करण नियंत्रण बग |
|
एच/डब्ल्यू बग |
|
सहायता बग स्रोत |
|
डेटाबेस परीक्षण और ETL परीक्षण के बीच अंतर
ईटीएल परीक्षण | डाटा बेस परीक्षण |
---|---|
सत्यापित करता है कि डेटा अपेक्षानुसार स्थानांतरित हुआ है या नहीं | प्राथमिक लक्ष्य यह जांचना है कि डेटा डेटा मॉडल में परिभाषित नियमों/मानकों का पालन कर रहा है या नहीं |
सत्यापित करता है कि स्रोत और लक्ष्य में गणना मेल खा रही है या नहीं
सत्यापित करता है कि परिवर्तित डेटा अपेक्षा के अनुरूप है या नहीं |
सत्यापित करें कि कोई अनाथ रिकॉर्ड नहीं है और विदेशी-प्राथमिक कुंजी संबंध बनाए रखा जाता है |
सत्यापित करता है कि ETL के दौरान विदेशी प्राथमिक कुंजी संबंध संरक्षित हैं | सत्यापित करता है कि कोई अनावश्यक तालिका नहीं है और डेटाबेस इष्टतम रूप से सामान्यीकृत है |
लोड किए गए डेटा में दोहराव की पुष्टि करता है | सत्यापित करें कि जहां आवश्यक हो वहां कॉलम में डेटा गायब है या नहीं |
ईटीएल परीक्षक की जिम्मेदारियां
एक ETL परीक्षक की प्रमुख जिम्मेदारियों को तीन श्रेणियों में विभाजित किया गया है
- स्टेज टेबल/ एसएफएस या एमएफएस
- व्यवसाय परिवर्तन तर्क लागू किया गया
- Target परिवर्तन लागू करने के बाद स्टेज फ़ाइल या तालिका से तालिका लोड करना।
ETL परीक्षक की कुछ जिम्मेदारियाँ इस प्रकार हैं:
- ETL सॉफ्टवेयर का परीक्षण करें
- ETL डेटावेयरहाउस के घटकों का परीक्षण करें
- बैकएंड डेटा-संचालित परीक्षण निष्पादित करें
- बनाएं, डिजाइन करें और क्रियान्वित करें परीक्षण के मामलों, परीक्षण योजनाएँ और परीक्षण हार्नेस
- समस्या की पहचान करें और संभावित मुद्दों के लिए समाधान प्रदान करें
- आवश्यकताओं और डिजाइन विनिर्देशों को मंजूरी दें
- डेटा स्थानांतरण और परीक्षण फ्लैट फ़ाइल
- विभिन्न परिदृश्यों जैसे गिनती परीक्षण के लिए SQL क्वेरीज़3 लिखना
ETL में प्रदर्शन परीक्षण
ETL में प्रदर्शन परीक्षण यह सुनिश्चित करने के लिए एक परीक्षण तकनीक है कि ETL सिस्टम कई उपयोगकर्ताओं और लेनदेन के भार को संभाल सकता है। ETL का प्राथमिक लक्ष्य प्रदर्शन का परीक्षण प्रदर्शन बाधाओं की पहचान और उन्मूलन के द्वारा सत्र प्रदर्शन को अनुकूलित और बेहतर बनाना है। स्रोत और लक्ष्य डेटाबेस, मैपिंग, सत्र और सिस्टम में संभवतः प्रदर्शन बाधाएँ हैं।
प्रदर्शन परीक्षण/ट्यूनिंग के लिए प्रयुक्त सर्वोत्तम टूल में से एक है इन्फॉर्मेटिका।
ईटीएल परीक्षण का स्वचालन
ईटीएल परीक्षण की सामान्य कार्यप्रणाली एसक्यूएल स्क्रिप्टिंग का उपयोग करना या डेटा की “आंख से जांच” करना है। ईटीएल परीक्षण के ये दृष्टिकोण समय लेने वाले, त्रुटि-प्रवण हैं और शायद ही कभी पूर्ण परिणाम प्रदान करते हैं। परीक्षण कवरेज. कवरेज में तेजी लाने, सुधार करने, लागत कम करने, सुधार करने के लिए दोष उत्पादन और विकास वातावरण में ETL परीक्षण की पहचान अनुपात को बढ़ाने के लिए, स्वचालन समय की मांग है। ऐसा ही एक उपकरण है Informatica।
ETL परीक्षण के लिए सर्वोत्तम अभ्यास
- सुनिश्चित करें कि डेटा सही ढंग से परिवर्तित हो
- किसी भी डेटा हानि और कटौती के बिना प्रक्षेपित डेटा को डेटा वेयरहाउस में लोड किया जाना चाहिए
- सुनिश्चित करें कि ETL अनुप्रयोग उचित रूप से अस्वीकार करता है और डिफ़ॉल्ट मानों के साथ प्रतिस्थापित करता है और अमान्य डेटा की रिपोर्ट करता है
- यह सुनिश्चित करने की आवश्यकता है कि स्केलेबिलिटी और प्रदर्शन की पुष्टि करने के लिए डेटा को निर्धारित और अपेक्षित समय सीमा के भीतर डेटा वेयरहाउस में लोड किया जाए
- सभी विधियों में दृश्यता की परवाह किए बिना उपयुक्त इकाई परीक्षण होना चाहिए
- उनकी प्रभावशीलता को मापने के लिए सभी यूनिट परीक्षणों को उपयुक्त कवरेज तकनीकों का उपयोग करना चाहिए
- प्रति परीक्षण मामले में एक अभिकथन के लिए प्रयास करें
- बनाएं इकाई परीक्षण जो अपवादों को लक्षित करते हैं
चेक आउट - ETL परीक्षण साक्षात्कार प्रश्न और उत्तर