บทช่วยสอน Hive สำหรับผู้เริ่มต้น: เรียนรู้พร้อมตัวอย่างใน 3 วัน

สรุปบทช่วยสอนไฮฟ์


Apache Hive ช่วยในการสืบค้นและจัดการชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว มันเป็น เครื่องมือ ETL สำหรับระบบนิเวศ Hadoop ในบทช่วยสอน Apache Hive สำหรับผู้เริ่มต้นนี้ คุณจะได้เรียนรู้พื้นฐานของ Hive และหัวข้อสำคัญๆ เช่น คิวรี HQL การดึงข้อมูล พาร์ติชั่น บัคเก็ต และอื่นๆ อีกมากมาย ชุดบทช่วยสอน Hive นี้จะช่วยให้คุณเรียนรู้แนวคิดและพื้นฐานของ Hive

ฉันควรรู้อะไร


หากต้องการเรียนรู้บทช่วยสอนการสืบค้น Hive นี้ คุณต้องมีความรู้พื้นฐานเกี่ยวกับ เอสคิวแอล, Hadoop และความรู้เกี่ยวกับฐานข้อมูลอื่นๆ จะช่วยเพิ่มเติมได้

หลักสูตรหลักสูตรไฮฟ์

บริษัท

👍 Lessเมื่อ 1 ไฮฟ์คืออะไร? - Archiเทคเจอร์และโหมด
👍 Lessเมื่อ 2 ดาวน์โหลดและติดตั้ง HIVE — วิธีดาวน์โหลดและติดตั้ง HIVE บน Ubuntu
👍 Lessเมื่อ 3 การกำหนดค่า HIVE Metastore — ทำไมต้องใช้ MySQL?
👍 Lessเมื่อ 4 ประเภทข้อมูลไฮฟ์ — สร้างและวางฐานข้อมูลใน Hive

สิ่งขั้นสูง

👍 Lessเมื่อ 1 ไฮฟ์สร้างตาราง – ประเภทและการใช้งาน
👍 Lessเมื่อ 2 พาร์ทิชันไฮฟ์และถัง — เรียนรู้ด้วยตัวอย่าง
👍 Lessเมื่อ 3 ดัชนีไฮฟ์และมุมมอง — เรียนรู้ด้วยตัวอย่าง
👍 Lessเมื่อ 4 แบบสอบถามไฮฟ์ — เรียนรู้ด้วยตัวอย่าง
👍 Lessเมื่อ 5 Hive เข้าร่วมและบทช่วยสอน SubQuery — เรียนรู้ด้วยตัวอย่าง
👍 Lessเมื่อ 6 การสอนภาษา Hive Query — บิวท์อิน Operaโปร
👍 Lessเมื่อ 7 ฟังก์ชั่นไฮฟ์ — ฟังก์ชั่นในตัวและกำหนดโดยผู้ใช้
👍 Lessเมื่อ 8 ไฮฟ์ ETL — กำลังโหลด JSON, XML, ตัวอย่างข้อมูลข้อความ

ความรู้เบื้องต้นเกี่ยวกับไฮฟ์

Hive พัฒนาเป็นโซลูชันคลังข้อมูลที่สร้างขึ้นบนเฟรมเวิร์ก Hadoop Map-Reduce

ขนาดของชุดข้อมูลที่ถูกรวบรวมและวิเคราะห์ในอุตสาหกรรมสำหรับ ระบบธุรกิจอัจฉริยะ กำลังเติบโตและในทางหนึ่งทำให้โซลูชันคลังข้อมูลแบบดั้งเดิมมีราคาแพงขึ้น Hadoop ด้วยเฟรมเวิร์ก MapReduce กำลังถูกใช้เป็นทางเลือกในการวิเคราะห์ชุดข้อมูลที่มีขนาดใหญ่ แม้ว่า Hadoop ได้พิสูจน์แล้วว่ามีประโยชน์ในการทำงานกับชุดข้อมูลขนาดใหญ่ แต่เฟรมเวิร์ก MapReduce ของมันอยู่ในระดับต่ำมากและต้องการให้โปรแกรมเมอร์เขียนโปรแกรมแบบกำหนดเองซึ่งยากต่อการบำรุงรักษาและนำมาใช้ซ้ำ Hive มาที่นี่เพื่อช่วยเหลือโปรแกรมเมอร์


เครื่องยนต์ไฮฟ์ คอมไพล์แบบสอบถามเหล่านี้ลงในงาน Map-Reduce ที่จะเรียกใช้บน Hadoop นอกจากนี้ สคริปต์ Map-Reduce ที่กำหนดเองยังสามารถใช้กับแบบสอบถามได้อีกด้วย Hive ทำงานกับข้อมูลที่จัดเก็บในตารางซึ่งประกอบด้วยประเภทข้อมูลดั้งเดิมและประเภทข้อมูลของคอลเล็กชัน เช่น อาร์เรย์และแผนที่

Hive มาพร้อมกับอินเทอร์เฟซเชลล์บรรทัดคำสั่งซึ่งสามารถใช้เพื่อสร้างตารางและดำเนินการสืบค้น

ภาษาคิวรีแบบไฮฟ์นั้นคล้ายกับ SQL ซึ่งรองรับคิวรีย่อย ด้วยภาษาคิวรี Hive คุณสามารถรวม MapReduce ข้ามตาราง Hive ได้ มีการสนับสนุนที่เรียบง่าย ฟังก์ชันคล้าย SQL– CONCAT, SUBSTR, ROUND ฯลฯ และ ฟังก์ชันการรวมกลุ่ม– SUM, COUNT, MAX ฯลฯ นอกจากนี้ยังรองรับ GROUP BY และ SORT BY clauses นอกจากนี้ยังสามารถเขียนฟังก์ชันที่ผู้ใช้กำหนดในภาษาคิวรี Hive ได้ด้วย

ไฮฟ์คืออะไร?

อาปาเช่ไฮฟ์ เป็นเฟรมเวิร์กคลังข้อมูลสำหรับการสืบค้นและวิเคราะห์ข้อมูลที่จัดเก็บไว้ใน HDFS ได้รับการพัฒนาบน Hadoop Hive เป็นซอฟต์แวร์โอเพ่นซอร์สสำหรับวิเคราะห์ชุดข้อมูลขนาดใหญ่บน Hadoop มีภาษาประกาศที่คล้ายกับ SQL ที่เรียกว่า HiveQL เพื่อแสดงการสืบค้น การใช้ Hive-QL ผู้ใช้ที่เกี่ยวข้องกับ SQL สามารถวิเคราะห์ข้อมูลได้อย่างง่ายดายมาก

ลดแผนที่ Hive Vs

ก่อนที่จะเลือกหนึ่งในสองตัวเลือกนี้ เราต้องดูคุณสมบัติบางอย่างก่อน

ในการเลือกใช้ระหว่าง Hive และ Map ควรพิจารณาปัจจัยต่อไปนี้

  • ประเภทของข้อมูล
  • ปริมาณข้อมูล
  • ความซับซ้อนของโค้ด

Hive Vs Map ลดไหม?

ลักษณะ รัง แผนที่ลด
ภาษา รองรับ SQL เช่น ภาษาคิวรีสำหรับการโต้ตอบและสำหรับการสร้างแบบจำลองข้อมูล
  • มันรวบรวมภาษาโดยมีสองภารกิจหลักอยู่ในนั้น งานหนึ่งคืองานแผนที่ และอีกงานหนึ่งคืองานลดขนาด
  • เราสามารถกำหนดงานเหล่านี้ได้โดยใช้ Java or Python
ระดับของนามธรรม ระดับที่สูงขึ้นของ Abstraction เหนือ HDFS ระดับนามธรรมที่ต่ำกว่า
ประสิทธิภาพในโค้ด ค่อนข้างน้อยกว่าการลดแผนที่ ให้ประสิทธิภาพสูง
ขอบเขตของรหัส Less จำนวนบรรทัดโค้ดที่จำเป็นสำหรับการดำเนินการ ต้องกำหนดจำนวนบรรทัดโค้ดเพิ่มเติม
ประเภทของงานพัฒนาที่ต้องการ Less งานพัฒนาที่จำเป็น จำเป็นต้องมีงานพัฒนาเพิ่มเติม
คลิกเพื่อดู บทช่วยสอนถัดไป