शुरुआती लोगों के लिए HBase ट्यूटोरियल: HBase क्या है? 3 दिन में सीखें!

HBase ट्यूटोरियल सारांश

Hbase एक कॉलम-ओरिएंटेड डेटाबेस मैनेजमेंट सिस्टम है जो HDFS (Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम) के ऊपर चलता है। शुरुआती लोगों के लिए इस HBase ट्यूटोरियल में, आप Apache HBase की मूल बातें और उन्नत अवधारणाएँ सीखेंगे। इस HBase कोर्स में परिचय, इंस्टॉलेशन, आर्किटेक्चर से लेकर उन्नत सामग्री तक सभी HBase मूल बातें शामिल हैं।

एचबेस क्या है?

HBase एक खुला स्रोत, स्तंभ-उन्मुख वितरित डेटाबेस प्रणाली है Hadoop पर्यावरण। प्रारंभ में, यह Google बिग टेबल था, बाद में इसका नाम बदलकर HBase कर दिया गया और यह मुख्य रूप से HBase में लिखा गया है। Java.  अपाचे वास्तविक समय बिग डेटा अनुप्रयोगों के लिए HBase की आवश्यकता होती है।

HBase टेराबाइट्स से लेकर पेटाबाइट्स तक की बड़ी मात्रा में डेटा स्टोर कर सकता है। HBase में मौजूद टेबल में अरबों पंक्तियाँ होती हैं जिनमें लाखों कॉलम होते हैं। HBase को कम विलंबता संचालन के लिए बनाया गया है, जिसमें पारंपरिक रिलेशनल मॉडल की तुलना में कुछ विशिष्ट विशेषताएँ हैं।

HBase प्रशिक्षण पाठ्यक्रम

इस अपाचे HBase प्रशिक्षण गाइड में हम क्या कवर करते हैं

👉 Less1 पर ArchiHBase की तकनीक — एचबेस Archiटेक्चर, घटक और डेटा मॉडल
👉 Less2 पर HBase स्थापना — HBase स्थापना Ubuntu
👉 Less3 पर HBase शेल कमांड — उदाहरण के साथ सीखें
👉 Less4 पर HBase तालिका बनाएं — HBase का उपयोग करके तालिका बनाने के चरण Java API
👉 Less5 पर HBase में डेटा डालें और प्राप्त करें — get(), put(), scan() उदाहरण
👉 Less6 पर HBase में प्रदर्शन संबंधी अड़चनें — HBase लाभ और सीमाएँ
👉 Less7 पर एचबेस साक्षात्कार प्रश्न — शीर्ष 30 Hbase साक्षात्कार प्रश्न और उत्तर

शुरुआती लोगों के लिए इस HBase ट्यूटोरियल में आप क्या सीखेंगे?

शुरुआती लोगों के लिए इस HBase ट्यूटोरियल में, आप सीखेंगे कि Apache HBase क्या है, ArchiHBase की तकनीक, HBase कैसे स्थापित करें, HBase में तालिका बनाने के चरण, HBase के लाभ और सीमाएं, आदि।

HBase क्यों चुनें?

किसी लोकप्रिय वेब एप्लिकेशन के लिए एक टेबल में अरबों पंक्तियाँ हो सकती हैं। अगर हम इतनी बड़ी मात्रा में डेटा से किसी विशेष पंक्ति को खोजना चाहते हैं, तो HBase आदर्श विकल्प है क्योंकि क्वेरी प्राप्त करने में कम समय लगता है। अधिकांश ऑनलाइन एनालिटिक्स एप्लिकेशन HBase का उपयोग करते हैं।

पारंपरिक रिलेशनल डेटा मॉडल बहुत बड़े डेटाबेस की प्रदर्शन आवश्यकताओं को पूरा करने में विफल रहते हैं। इन प्रदर्शन और प्रसंस्करण सीमाओं को अपाचे HBase द्वारा दूर किया जा सकता है।

अपाचे HBase विशेषताएँ

  • HBase को कम विलंबता वाले परिचालनों के लिए बनाया गया है
  • HBase का उपयोग यादृच्छिक पढ़ने और लिखने के कार्यों के लिए बड़े पैमाने पर किया जाता है
  • HBase तालिकाओं के रूप में बड़ी मात्रा में डेटा संग्रहीत करता है
  • क्लस्टर वातावरण पर रैखिक और मॉड्यूलर स्केलेबिलिटी प्रदान करता है
  • पढ़ने और लिखने के कार्यों के लिए सख्ती से सुसंगत
  • तालिकाओं की स्वचालित और विन्यास योग्य शार्डिंग
  • क्षेत्र सर्वरों के बीच स्वचालित फ़ेलओवर का समर्थन करता है
  • बैकिंग के लिए सुविधाजनक आधार वर्ग हडूप मैप रिड्यूस HBase तालिकाओं में नौकरियाँ
  • उपयोग करना आसान Java क्लाइंट एक्सेस के लिए API
  • वास्तविक समय की क्वेरी के लिए कैश और ब्लूम फ़िल्टर को ब्लॉक करें
  • क्वेरी प्रेडिकेट को सर्वर-साइड फिल्टर के माध्यम से नीचे धकेला जाता है।

Hadoop में NoSQL डेटाबेस का महत्व

बड़े डेटा विश्लेषण में, Hadoop बड़े डेटा सेटों का प्रबंधन करके विशिष्ट व्यावसायिक समस्याओं को हल करने में महत्वपूर्ण भूमिका निभाता है और एनालिटिक्स डोमेन में सर्वोत्तम समाधान देता है।

हाडोप पारिस्थितिकी तंत्र में, प्रत्येक घटक अपनी अनूठी भूमिका निभाता है।

  • डाटा प्रासेसिंग
  • डेटा मान्य
  • डेटा संग्रहण

असंरचित, अर्ध-संरचित डेटा संग्रहण के साथ-साथ ऐसे डेटा की पुनर्प्राप्ति के मामले में, रिलेशनल डेटाबेस कम उपयोगी हैं। साथ ही, Hadoop स्टोरेज में संग्रहीत विशाल डेटा सेट पर क्वेरी लागू करके परिणाम प्राप्त करना एक चुनौतीपूर्ण कार्य है। NoSQL स्टोरेज तकनीक विशाल डेटासेट पर तेज़ी से क्वेरी करने के लिए सबसे अच्छा समाधान प्रदान करती है।

अन्य NoSQL संग्रहण प्रकार डेटाबेस

बाजार में मौजूद कुछ NoSQL मॉडल हैं Cassandra, MongoDB, तथा CouchDBइनमें से प्रत्येक मॉडल में भंडारण तंत्र के अलग-अलग तरीके हैं।

उदाहरण के लिए, MongoDB NoSQL परिवार वृक्ष से एक दस्तावेज़-उन्मुख डेटाबेस है। पारंपरिक डेटाबेस की तुलना में, यह प्रदर्शन, उपलब्धता और मापनीयता के मामले में सर्वोत्तम सुविधाएँ प्रदान करता है। यह एक ओपन-सोर्स दस्तावेज़-उन्मुख डेटाबेस है, और इसे लिखा गया है C++.

Cassandra यह भी ओपन-सोर्स अपाचे सॉफ्टवेयर से बना एक वितरित डाटाबेस है, जिसे कमोडिटी सर्वरों पर संग्रहीत भारी मात्रा में डाटा को संभालने के लिए डिजाइन किया गया है। Cassandra बिना किसी विफलता बिंदु के उच्च उपलब्धता प्रदान करता है।

जबकि CouchDB एक दस्तावेज़-उन्मुख डेटाबेस है जिसमें प्रत्येक दस्तावेज़ फ़ील्ड कुंजी-मूल्य मानचित्र में संग्रहीत होते हैं।

HBase अन्य NoSQL मॉडल से किस प्रकार भिन्न है?

HBase स्टोरेज मॉडल ऊपर बताए गए अन्य NoSQL मॉडल से अलग है। इसे इस प्रकार कहा जा सकता है।

  • HBase डेटा को कॉलम मॉडल में कुंजी/मूल्य जोड़े के रूप में संग्रहीत करता है। इस मॉडल में, सभी कॉलम को कॉलम परिवारों के रूप में एक साथ समूहीकृत किया जाता है।
  • एचबेस एक लचीला डेटा मॉडल और बड़े डेटा सेटों में संग्रहीत छोटी मात्रा के डेटा तक कम विलंबता पहुंच प्रदान करता है।
  • Hadoop के शीर्ष पर HBase वितरित क्लस्टर सेटअप के थ्रूपुट और प्रदर्शन को बढ़ाएगा। बदले में, यह तेज़ रैंडम रीड और राइट ऑपरेशन प्रदान करता है।

कौन सा NoSQL डाटाबेस चुनें?

MongoDB, CouchDB, तथा Cassandra NoSQL प्रकार के डेटाबेस हैं जो विशिष्ट विशेषताओं वाले होते हैं और उनकी व्यावसायिक आवश्यकताओं के अनुसार उपयोग किए जाते हैं। यहाँ, हमने उनके उपयोग के मामले के अनुसार अलग-अलग NoSQL डेटाबेस सूचीबद्ध किए हैं।

विशेषता के आधार पर डेटाबेस प्रकार डेटाबेस का उदाहरण उपयोग का मामला (कब उपयोग करें)
कुंजी/मूल्य रेडिस, मेमकैचडीबी कैशिंग, कतारबद्ध करना, सूचना वितरित करना
कॉलम-ओरिएंटेड Cassandra, एचबेस स्केलिंग, असंरचित, गैर-अस्थिर रखना
दस्तावेज़ उन्मुख MongoDB, काउचबेस नेस्टेड जानकारी, Javaस्क्रिप्ट अनुकूल
ग्राफ आधारित OrientDB, Neo4J जटिल संबंधपरक जानकारी को संभालना। मॉडलिंग और वर्गीकरण को संभालना।

HBase बनाम हाइव

विशेषताएं एचबेस करंड
डेटाबेस मॉडल वाइड कॉलम स्टोर रिलेशनल डीबीएमएस
डेटा स्कीमा स्कीमा- मुक्त स्कीमा के साथ
एसक्यूएल समर्थन नहीं हाँ, यह HQL (हाइव क्वेरी भाषा) का उपयोग करता है
विभाजन विधियाँ Sharding Sharding
संगति स्तर तत्काल संगति अंततः संगति
द्वितीयक अनुक्रमणिका नहीं हाँ
प्रतिकृति विधियाँ चयन योग्य प्रतिकृति कारक चयन योग्य प्रतिकृति कारक

HBase बनाम RDBMS

एचबेस की तुलना पारंपरिक रिलेशनल डेटाबेस से करते समय, हमें तीन मुख्य क्षेत्रों को ध्यान में रखना होगा। वे हैं डेटा मॉडल, डेटा स्टोरेज और डेटा विविधता।

HBASE आरडीबीएमएस
  • डेटाबेस में स्कीमा-रहित
  • डेटाबेस में निश्चित स्कीमा होना
  • स्तंभ-उन्मुख डेटाबेस
  • पंक्ति उन्मुख डेटास्टोर
  • डी-नॉर्मलाइज्ड डेटा को संग्रहीत करने के लिए डिज़ाइन किया गया
  • सामान्यीकृत डेटा संग्रहीत करने के लिए डिज़ाइन किया गया
  • HBase में मौजूद विस्तृत और विरल रूप से आबादी वाली तालिकाएँ
  • डेटाबेस में पतली तालिकाएँ शामिल हैं
  • स्वचालित विभाजन का समर्थन करता है
  • इसमें विभाजन के लिए कोई अंतर्निहित समर्थन नहीं है
  • OLAP प्रणालियों के लिए उपयुक्त
  • OLTP सिस्टम के लिए उपयुक्त
  • डेटाबेस से केवल प्रासंगिक डेटा पढ़ें
  • एक बार में एक पंक्ति प्राप्त करें और इसलिए अनावश्यक डेटा पढ़ा जा सकता है यदि पंक्ति में केवल कुछ डेटा की आवश्यकता है
  • संरचित और अर्ध-संरचनात्मक डेटा को HBase का उपयोग करके संग्रहीत और संसाधित किया जा सकता है
  • संरचित डेटा को RDBMS का उपयोग करके संग्रहीत और संसाधित किया जा सकता है
  • कई पंक्तियों और स्तंभों पर एकत्रीकरण सक्षम करता है
  • एकत्रीकरण एक महंगा ऑपरेशन है

सारांश

HBase अद्वितीय सुविधाएँ प्रदान करता है और विशिष्ट औद्योगिक उपयोग के मामलों को हल करेगा। कॉलम-ओरिएंटेड स्टोरेज के रूप में, यह तेजी से क्वेरी करने, परिणाम प्राप्त करने और उच्च मात्रा में डेटा स्टोरेज प्रदान करता है। यह कोर्स HBase का एक संपूर्ण चरण-दर-चरण परिचय है।