डेटा वेयरहाउस में ETL (एक्सट्रैक्ट, ट्रांसफॉर्म और लोड) प्रक्रिया

ETL क्या है?

ईटीएल यह एक ऐसी प्रक्रिया है जो अलग-अलग स्रोत प्रणालियों से डेटा निकालती है, फिर डेटा को रूपांतरित करती है (जैसे गणना, संयोजन आदि लागू करना) और अंत में डेटा को डेटा वेयरहाउस सिस्टम में लोड करती है। ETL का पूर्ण रूप एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड है।

यह सोचना आकर्षक है कि डेटा वेयरहाउस बनाना केवल कई स्रोतों से डेटा निकालना और डेटा वेयरहाउस के डेटाबेस में लोड करना है। यह सच्चाई से बहुत दूर है और इसके लिए एक जटिल ETL प्रक्रिया की आवश्यकता होती है। ETL प्रक्रिया के लिए डेवलपर्स, विश्लेषकों, परीक्षकों, शीर्ष अधिकारियों सहित विभिन्न हितधारकों से सक्रिय इनपुट की आवश्यकता होती है और यह तकनीकी रूप से चुनौतीपूर्ण है।

निर्णयकर्ताओं के लिए एक उपकरण के रूप में इसके मूल्य को बनाए रखने के लिए, डेटा वेयरहाउस सिस्टम को व्यवसाय में होने वाले परिवर्तनों के साथ बदलने की आवश्यकता है। ETL डेटा वेयरहाउस सिस्टम की एक आवर्ती गतिविधि (दैनिक, साप्ताहिक, मासिक) है और इसे चुस्त, स्वचालित और अच्छी तरह से प्रलेखित करने की आवश्यकता है।

आपको ETL की आवश्यकता क्यों है?

संगठन में ETL को अपनाने के कई कारण हैं:

  • यह कम्पनियों को महत्वपूर्ण व्यावसायिक निर्णय लेने के लिए अपने व्यावसायिक डेटा का विश्लेषण करने में सहायता करता है।
  • लेन-देन संबंधी डेटाबेस जटिल व्यावसायिक प्रश्नों का उत्तर नहीं दे सकते, जिनका उत्तर ETL उदाहरण द्वारा दिया जा सकता है।
  • डेटा वेयरहाउस एक सामान्य डेटा रिपोजिटरी प्रदान करता है
  • ETL विभिन्न स्रोतों से डेटा को डेटा वेयरहाउस में स्थानांतरित करने की एक विधि प्रदान करता है।
  • जैसे ही डेटा स्रोत बदलेगा, डेटा वेयरहाउस स्वचालित रूप से अपडेट हो जाएगा।
  • डेटा वेयरहाउस परियोजना की सफलता के लिए अच्छी तरह से डिज़ाइन और प्रलेखित ETL प्रणाली लगभग आवश्यक है।
  • डेटा रूपांतरण, एकत्रीकरण और गणना नियमों के सत्यापन की अनुमति दें।
  • ईटीएल प्रक्रिया स्रोत और लक्ष्य प्रणाली के बीच नमूना डेटा तुलना की अनुमति देती है।
  • ETL प्रक्रिया जटिल रूपांतरण कर सकती है और डेटा को संग्रहीत करने के लिए अतिरिक्त क्षेत्र की आवश्यकता होती है।
  • ETL डेटा को डेटा वेयरहाउस में माइग्रेट करने में मदद करता है। एक सुसंगत प्रणाली का पालन करने के लिए विभिन्न प्रारूपों और प्रकारों में कनवर्ट करें।
  • ETL, लक्ष्य डाटाबेस में स्रोत डाटा तक पहुंचने और उसमें परिवर्तन करने के लिए एक पूर्वनिर्धारित प्रक्रिया है।
  • डेटा वेयरहाउस में ETL व्यवसाय के लिए गहन ऐतिहासिक संदर्भ प्रदान करता है।
  • यह उत्पादकता में सुधार करने में सहायक है, क्योंकि इसमें तकनीकी कौशल की आवश्यकता के बिना ही संहिताबद्धता और पुन: उपयोग किया जा सकता है।

डेटा वेयरहाउस में ETL प्रक्रिया

ETL एक 3-चरणीय प्रक्रिया है

ईटीएल प्रक्रिया
ईटीएल प्रक्रिया

चरण 1) निष्कर्षण

ETL आर्किटेक्चर के इस चरण में, डेटा को सोर्स सिस्टम से स्टेजिंग एरिया में निकाला जाता है। यदि कोई परिवर्तन होता है तो उसे स्टेजिंग एरिया में किया जाता है ताकि सोर्स सिस्टम का प्रदर्शन खराब न हो। साथ ही, यदि दूषित डेटा को सीधे सोर्स से डेटा वेयरहाउस डेटाबेस में कॉपी किया जाता है, तो रोलबैक एक चुनौती होगी। स्टेजिंग एरिया डेटा वेयरहाउस में जाने से पहले निकाले गए डेटा को मान्य करने का अवसर देता है।

डेटा वेयरहाउस को अलग-अलग प्रणालियों को एकीकृत करने की आवश्यकता है

डीबीएमएस, हार्डवेयर, Operaसंचार प्रणालियाँ और संचार प्रोटोकॉल। स्रोतों में विरासत अनुप्रयोग जैसे मेनफ्रेम, अनुकूलित अनुप्रयोग, एटीएम जैसे संपर्क उपकरण, कॉल स्विच, टेक्स्ट फ़ाइलें, स्प्रेडशीट, ईआरपी, विक्रेताओं से डेटा, भागीदारों आदि शामिल हो सकते हैं।

इसलिए डेटा को निकालने और भौतिक रूप से लोड करने से पहले एक तार्किक डेटा मैप की आवश्यकता होती है। यह डेटा मैप स्रोतों और लक्ष्य डेटा के बीच के संबंध का वर्णन करता है।

तीन डेटा निष्कर्षण विधियाँ:

  1. पूर्ण निष्कर्षण
  2. आंशिक निष्कर्षण - अद्यतन अधिसूचना के बिना.
  3. आंशिक निष्कर्षण - अद्यतन अधिसूचना के साथ

उपयोग की जाने वाली विधि के बावजूद, निष्कर्षण से स्रोत प्रणालियों के प्रदर्शन और प्रतिक्रिया समय पर कोई प्रभाव नहीं पड़ना चाहिए। ये स्रोत प्रणालियाँ लाइव उत्पादन डेटाबेस हैं। किसी भी प्रकार की धीमी गति या लॉकिंग से कंपनी की अंतिम पंक्ति प्रभावित हो सकती है।

निष्कर्षण के दौरान कुछ सत्यापन किए जाते हैं:

  • स्रोत डेटा के साथ रिकॉर्ड का मिलान करें
  • सुनिश्चित करें कि कोई स्पैम/अवांछित डेटा लोड न हो
  • डेटा प्रकार की जांच
  • सभी प्रकार के डुप्लिकेट/खंडित डेटा को हटाएँ
  • जाँचें कि सभी कुंजियाँ सही स्थान पर हैं या नहीं

चरण 2) परिवर्तन

स्रोत सर्वर से निकाला गया डेटा कच्चा होता है और अपने मूल रूप में उपयोग करने योग्य नहीं होता। इसलिए इसे साफ करने, मैप करने और रूपांतरित करने की आवश्यकता होती है। वास्तव में, यह वह महत्वपूर्ण चरण है जहाँ ETL प्रक्रिया मूल्य जोड़ती है और डेटा को इस तरह बदलती है कि व्यावहारिक BI रिपोर्ट तैयार की जा सके।

यह महत्वपूर्ण ETL अवधारणाओं में से एक है जहाँ आप निकाले गए डेटा पर फ़ंक्शन का एक सेट लागू करते हैं। जिस डेटा को किसी परिवर्तन की आवश्यकता नहीं होती है उसे क्या कहा जाता है प्रत्यक्ष चाल or डेटा पास करना.

रूपांतरण चरण में, आप डेटा पर अनुकूलित संचालन कर सकते हैं। उदाहरण के लिए, यदि उपयोगकर्ता बिक्री राजस्व का योग चाहता है जो डेटाबेस में नहीं है। या यदि तालिका में पहला नाम और अंतिम नाम अलग-अलग कॉलम में है। लोड करने से पहले उन्हें जोड़ना संभव है।

डेटा एकीकरण मुद्दे
डेटा एकीकरण मुद्दे

निम्नलिखित डेटा हैं Integrity समस्याएं:

  1. एक ही व्यक्ति की अलग-अलग वर्तनी जैसे जॉन, जॉन, आदि।
  2. गूगल, गूगल इंक जैसी कंपनी के नाम को दर्शाने के कई तरीके हैं।
  3. क्लीवलैंड, क्लीवलैंड जैसे विभिन्न नामों का प्रयोग।
  4. ऐसा भी हो सकता है कि एक ही ग्राहक के लिए विभिन्न एप्लीकेशन द्वारा अलग-अलग खाता संख्याएं उत्पन्न की गई हों।
  5. कुछ डेटा में आवश्यक फ़ाइलें रिक्त रहती हैं
  6. पीओएस पर मैन्युअल प्रविष्टि के कारण अमान्य उत्पाद एकत्रित होने से गलतियाँ हो सकती हैं।

इस चरण के दौरान सत्यापन किया जाता है

  • फ़िल्टरिंग – लोड करने के लिए केवल कुछ कॉलम चुनें
  • डेटा मानकीकरण के लिए नियमों और लुकअप तालिकाओं का उपयोग करना
  • वर्ण सेट रूपांतरण और एनकोडिंग प्रबंधन
  • माप की इकाइयों का रूपांतरण जैसे दिनांक समय रूपांतरण, मुद्रा रूपांतरण, संख्यात्मक रूपांतरण आदि।
  • डेटा थ्रेशोल्ड सत्यापन जाँच। उदाहरण के लिए, आयु दो अंकों से अधिक नहीं हो सकती।
  • स्टेजिंग क्षेत्र से मध्यवर्ती तालिकाओं तक डेटा प्रवाह सत्यापन।
  • आवश्यक फ़ील्ड को रिक्त नहीं छोड़ा जाना चाहिए.
  • सफाई (उदाहरण के लिए, NULL को 0 पर मैप करना या लिंग पुरुष को “M” और महिला को “F” पर मैप करना आदि)
  • एक कॉलम को कई भागों में विभाजित करना और कई कॉलमों को एक कॉलम में विलय करना।
  • पंक्तियों और स्तंभों को स्थानांतरित करना,
  • डेटा मर्ज करने के लिए लुकअप का उपयोग करें
  • किसी भी जटिल डेटा सत्यापन का उपयोग करना (उदाहरण के लिए, यदि किसी पंक्ति में पहले दो कॉलम रिक्त हैं तो यह स्वचालित रूप से पंक्ति को प्रसंस्करण से अस्वीकार कर देता है)

चरण 3) लोड हो रहा है

लक्ष्य डेटावेयरहाउस डेटाबेस में डेटा लोड करना ETL प्रक्रिया का अंतिम चरण है। एक सामान्य डेटा वेयरहाउस में, अपेक्षाकृत कम समय (रातों) में बहुत अधिक मात्रा में डेटा लोड करने की आवश्यकता होती है। इसलिए, लोड प्रक्रिया को प्रदर्शन के लिए अनुकूलित किया जाना चाहिए।

लोड विफलता के मामले में, पुनर्प्राप्ति तंत्र को विफलता के बिंदु से डेटा अखंडता हानि के बिना पुनरारंभ करने के लिए कॉन्फ़िगर किया जाना चाहिए। डेटा वेयरहाउस व्यवस्थापकों को मौजूदा सर्वर प्रदर्शन के अनुसार लोड की निगरानी, ​​फिर से शुरू करने, रद्द करने की आवश्यकता होती है।

लोडिंग के प्रकार:

  • प्रारंभिक भार — सभी डेटा वेयरहाउस तालिकाओं को भरना
  • वृद्धिशील भार — आवश्यकतानुसार समय-समय पर निरंतर परिवर्तन लागू करना।
  • पूर्ण ताज़ा करें - एक या अधिक तालिकाओं की सामग्री को मिटाना और नए डेटा के साथ पुनः लोड करना।

लोड सत्यापन

  • सुनिश्चित करें कि कुंजी फ़ील्ड डेटा न तो गायब है और न ही शून्य है.
  • लक्ष्य तालिकाओं के आधार पर मॉडलिंग दृश्यों का परीक्षण करें.
  • संयुक्त मान और गणना किए गए माप की जाँच करें।
  • आयाम तालिका के साथ-साथ इतिहास तालिका में भी डेटा की जाँच की जाती है।
  • लोड किए गए तथ्य और आयाम तालिका पर BI रिपोर्ट की जाँच करें।

ईटीएल उपकरण

कई हैं ETL उपकरण बाजार में कई तरह के उत्पाद उपलब्ध हैं। इनमें से कुछ प्रमुख निम्नलिखित हैं:

1. मार्कलॉजिक:

मार्कलॉजिक एक डेटा वेयरहाउसिंग समाधान है जो एंटरप्राइज़ सुविधाओं की एक सरणी का उपयोग करके डेटा एकीकरण को आसान और तेज़ बनाता है। यह दस्तावेज़, संबंध और मेटाडेटा जैसे विभिन्न प्रकार के डेटा की क्वेरी कर सकता है।

https://www.marklogic.com/product/getting-started/


2. Oracle:

Oracle उद्योग में अग्रणी डेटाबेस है। यह ऑन-प्रिमाइसेस और क्लाउड दोनों के लिए डेटा वेयरहाउस समाधानों की एक विस्तृत श्रृंखला प्रदान करता है। यह परिचालन दक्षता को बढ़ाकर ग्राहक अनुभव को अनुकूलित करने में मदद करता है।

https://www.oracle.com/index.html


3. Amazon लालShift:

Amazon रेडशिफ्ट डेटावेयरहाउस टूल है। यह मानक का उपयोग करके सभी प्रकार के डेटा का विश्लेषण करने के लिए एक सरल और लागत प्रभावी उपकरण है एसक्यूएल और मौजूदा BI उपकरण। यह संरचित डेटा के पेटाबाइट्स के खिलाफ जटिल क्वेरी चलाने की भी अनुमति देता है।

https://aws.amazon.com/redshift/?nc2=h_m1

यहाँ उपयोगी की एक पूरी सूची है डेटा वेयरहाउस उपकरण.

सर्वोत्तम अभ्यास ETL प्रक्रिया

ETL प्रक्रिया चरणों के लिए सर्वोत्तम अभ्यास निम्नलिखित हैं:

कभी भी सारा डेटा साफ़ करने का प्रयास न करें:

हर संगठन सारा डेटा साफ़ करना चाहेगा, लेकिन उनमें से ज़्यादातर इंतज़ार करने के लिए पैसे देने को तैयार नहीं हैं या इंतज़ार करने को तैयार नहीं हैं। सारा डेटा साफ़ करने में बहुत समय लगेगा, इसलिए बेहतर है कि सारा डेटा साफ़ करने की कोशिश न की जाए।

कभी भी कुछ भी साफ़ न करें:

हमेशा कुछ साफ करने की योजना बनाएं क्योंकि डेटा वेयरहाउस बनाने का सबसे बड़ा कारण स्वच्छ और अधिक विश्वसनीय डेटा प्रदान करना है।

डेटा को साफ़ करने की लागत निर्धारित करें:

सभी गंदे डेटा को साफ करने से पहले, आपके लिए प्रत्येक गंदे डेटा तत्व के लिए सफाई लागत निर्धारित करना महत्वपूर्ण है।

क्वेरी प्रसंस्करण में तेजी लाने के लिए, सहायक दृश्य और अनुक्रमणिका रखें:

भंडारण लागत को कम करने के लिए, डिस्क टेप में सारांशित डेटा को स्टोर करें। साथ ही, संग्रहीत किए जाने वाले डेटा की मात्रा और उसके विस्तृत उपयोग के बीच व्यापार-बंद की आवश्यकता है। भंडारण लागत को कम करने के लिए डेटा की ग्रैन्युलैरिटी के स्तर पर व्यापार-बंद।

सारांश

  • ETL का तात्पर्य है एक्सट्रेक्ट, ट्रांसफॉर्म और लोड।
  • ETL विभिन्न स्रोतों से डेटा को एक स्थान पर ले जाने की एक विधि प्रदान करता है। डाटा गोदाम.
  • पहले चरण के निष्कर्षण में, डेटा को स्रोत सिस्टम से स्टेजिंग क्षेत्र में निकाला जाता है।
  • रूपांतरण चरण में, स्रोत से निकाले गए डेटा को साफ किया जाता है और रूपांतरित किया जाता है।
  • लक्ष्य डेटावेयरहाउस में डेटा लोड करना ETL प्रक्रिया का अंतिम चरण है।