برنامج Hive التعليمي للمبتدئين: تعلم باستخدام الأمثلة في 3 أيام

ملخص البرنامج التعليمي للخلية


يساعد Apache Hive في الاستعلام عن مجموعات البيانات الكبيرة وإدارتها بسرعة كبيرة. إنه ل أداة ETL بالنسبة للهادوب ecosنظام. في هذا البرنامج التعليمي لـ Apache Hive للمبتدئين، ستتعلم أساسيات Hive وموضوعات مهمة مثل استعلامات HQL واستخراج البيانات والأقسام والمجموعات وما إلى ذلك. ستساعدك سلسلة دروس Hive هذه على تعلم مفاهيم وأساسيات Hive.

ماذا يجب أن أعرف؟


لتعلم هذا البرنامج التعليمي للاستعلام عن Hive، تحتاج إلى معرفة أساسية بـ SQL ، Hadoop والمعرفة بقواعد البيانات الأخرى ستكون ذات فائدة إضافية.

منهج دورة الخلية

المُقدّمة

؟؟؟؟ الدرس 1 ما هي الخلية؟ - Archiالبنية والأوضاع
؟؟؟؟ الدرس 2 تنزيل وتثبيت خلية — كيفية تنزيل HIVE وتثبيته على Ubuntu
؟؟؟؟ الدرس 3 تكوين HIVE Metastore - لماذا نستخدم MySQL؟
؟؟؟؟ الدرس 4 أنواع بيانات الخلية - إنشاء وإسقاط قاعدة البيانات في الخلية

أشياء متقدمة

؟؟؟؟ الدرس 1 خلية إنشاء الجدول - أنواعها واستخدامها
؟؟؟؟ الدرس 2 أقسام الخلية والدلاء - تعلم مع المثال
؟؟؟؟ الدرس 3 فهارس الخلية وعرضها - تعلم مع المثال
؟؟؟؟ الدرس 4 استعلامات الخلية - تعلم مع المثال
؟؟؟؟ الدرس 5 البرنامج التعليمي للانضمام إلى الخلية والاستعلام الفرعي - تعلم مع المثال
؟؟؟؟ الدرس 6 دروس لغة الاستعلام في الخلية - المشغلين المدمجين
؟؟؟؟ الدرس 7 وظيفة الخلية — وظائف مدمجة ومحددة من قبل المستخدم
؟؟؟؟ الدرس 8 خلية إي تي إل - تحميل JSON، XML، أمثلة البيانات النصية

مقدمة إلى الخلية

تطورت Hive كحل لتخزين البيانات مبني على إطار عمل Hadoop Map-Reduce.

حجم مجموعات البيانات التي يتم جمعها وتحليلها في الصناعة ذكاء الأعمال هو جروwing وبطريقة ما، فهو يجعل حلول تخزين البيانات التقليدية أكثر تكلفة. Hadoop مع إطار عمل MapReduce، يتم استخدامه كحل بديل لتحليل مجموعات البيانات ذات الحجم الضخم. على الرغم من أن Hadoop أثبت فائدته في العمل على مجموعات ضخمة من البيانات، إلا أن إطار عمل MapReduce الخاص به منخفض المستوى للغاية ويتطلب من المبرمجين كتابة برامج مخصصة يصعب صيانتها وإعادة استخدامها. تأتي الخلية إلى هنا لإنقاذ المبرمجين.


محرك الخلية يجمع هذه الاستعلامات في وظائف Map-Reduce ليتم تنفيذها على Hadoop. بالإضافة إلى ذلك، يمكن أيضًا دمج البرامج النصية المخصصة لـ Map-Reduce في الاستعلامات. تعمل Hive على البيانات المخزنة في الجداول التي تتكون من أنواع البيانات البدائية وأنواع بيانات التجميع مثل المصفوفات والخرائط.

يأتي Hive مزودًا بواجهة سطر أوامر يمكن استخدامها لإنشاء الجداول وتنفيذ الاستعلامات.

تشبه لغة استعلام الخلية لغة SQL حيث تدعم الاستعلامات الفرعية. باستخدام لغة استعلام Hive، من الممكن ربط MapReduce عبر جداول Hive. لديها دعم بسيط وظائف مثل SQL- CONCAT، SUBSTR، ROUND وما إلى ذلك، و وظائف التجميع- SUM، COUNT، MAX وما إلى ذلك. كما أنه يدعم عبارات GROUP BY وSORT BY. من الممكن أيضًا كتابة وظائف محددة بواسطة المستخدم بلغة استعلام الخلية.

ما هي الخلية؟

اباتشي خلية هو إطار عمل لمستودع البيانات للاستعلام عن البيانات المخزنة في HDFS وتحليلها. تم تطويره على رأس Hadoop. Hive هو برنامج مفتوح المصدر لتحليل مجموعات البيانات الكبيرة على Hadoop. وهو يوفر لغة تعريفية تشبه SQL، تسمى HiveQL، للتعبير عن الاستعلامات. باستخدام Hive-QL، يرتبط المستخدمون بـ SQL يمكن إجراء تحليل البيانات بسهولة بالغة.

خلية مقابل خريطة تقليل

قبل اختيار أحد هذين الخيارين، يجب أن ننظر إلى بعض ميزاتهما.

أثناء الاختيار بين الخلية والخريطة، قم بتقليل المتابعةwing تؤخذ العوامل بعين الاعتبار؛

  • نوع البيانات
  • كمية البيانات
  • معplexأهمية الكود

خلية مقابل خريطة تقليل؟

الميزات خلية النحل تقليل الخريطة
اللغة وهو يدعم SQL مثل لغة الاستعلام للتفاعل ونمذجة البيانات
  • يقوم بتجميع اللغة بمهمتين رئيسيتين موجودتين فيها. أحدهما هو مهمة الخريطة، والآخر هو المخفض.
  • يمكننا تحديد هذه المهمة باستخدام Java أو Python
مستوى التجريد مستوى أعلى من التجريد أعلى HDFS انخفاض مستوى التجريد
الكفاءة في الكود أقل نسبيًا من تقليل الخريطة يوفر كفاءة عالية
مدى الكود عدد أقل من أسطر التعليمات البرمجية المطلوبة للتنفيذ سيتم تحديد عدد أكبر من أسطر الرموز
نوع أعمال التطوير المطلوبة مطلوب أعمال تطوير أقل هناك حاجة إلى المزيد من أعمال التطوير
انقر للحصول على ملف البرنامج التعليمي التالي