Hướng dẫn Hive cho người mới bắt đầu: Học với các ví dụ trong 3 ngày

Tóm tắt hướng dẫn Hive


Apache Hive giúp truy vấn và quản lý các tập dữ liệu lớn rất nhanh. Nó là một Công cụ ETL cho hệ sinh thái Hadoop. Trong hướng dẫn Apache Hive dành cho người mới bắt đầu này, bạn sẽ tìm hiểu những điều cơ bản về Hive và các chủ đề quan trọng như truy vấn HQL, trích xuất dữ liệu, phân vùng, thùng, v.v. Chuỗi hướng dẫn Hive này sẽ giúp bạn tìm hiểu các khái niệm và cơ bản về Hive.

Tôi nên biết gì?


Để tìm hiểu hướng dẫn truy vấn Hive này, bạn cần có kiến ​​thức cơ bản về SQL, Hadoop và kiến ​​thức về các cơ sở dữ liệu khác sẽ giúp ích thêm.

Giáo trình khóa học Hive

Giới thiệu

👉 Lesstrên 1 Hive là gì? - Archikiến trúc & chế độ
👉 Lesstrên 2 Tải xuống và cài đặt HIVE — Cách tải xuống và cài đặt HIVE trên Ubuntu
👉 Lesstrên 3 Cấu hình kho lưu trữ HIVE - Tại sao nên sử dụng MySQL?
👉 Lesstrên 4 Các kiểu dữ liệu tổ ong — Tạo và thả cơ sở dữ liệu trong Hive

nội dung nâng cao

👉 Lesstrên 1 Bảng tạo Hive - Các loại và cách sử dụng
👉 Lesstrên 2 Phân vùng & nhóm tổ ong - Học với ví dụ
👉 Lesstrên 3 Chỉ mục và chế độ xem Hive - Học với ví dụ
👉 Lesstrên 4 Truy vấn tổ ong - Học với ví dụ
👉 Lesstrên 5 Hướng dẫn tham gia và truy vấn Hive - Học với ví dụ
👉 Lesstrên 6 Hướng dẫn ngôn ngữ truy vấn Hive - Được xây dựng trong Operaxoắn
👉 Lesstrên 7 Chức năng tổ ong - Chức năng tích hợp và do người dùng xác định
👉 Lesstrên 8 Tổ ong ETL — Đang tải JSON, XML, Ví dụ về dữ liệu văn bản

Giới thiệu về Hive

Hive đã phát triển như một giải pháp lưu trữ dữ liệu được xây dựng dựa trên khung Map-Reduce của Hadoop.

Kích thước của các tập dữ liệu được thu thập và phân tích trong ngành cho kinh doanh thông minh đang phát triển và theo một cách nào đó, nó khiến các giải pháp lưu trữ dữ liệu truyền thống trở nên đắt đỏ hơn. Hadoop với khung MapReduce, đang được sử dụng như một giải pháp thay thế để phân tích các tập dữ liệu có kích thước khổng lồ. Mặc dù, Hadoop đã tỏ ra hữu ích khi làm việc trên các tập dữ liệu khổng lồ, khung MapReduce của nó ở mức rất thấp và nó yêu cầu các lập trình viên viết các chương trình tùy chỉnh khó bảo trì và tái sử dụng. Hive đến đây để giải cứu các lập trình viên.


Động cơ tổ ong biên dịch các truy vấn này thành các công việc Map-Reduce để thực thi trên Hadoop. Ngoài ra, các tập lệnh Map-Reduce tùy chỉnh cũng có thể được cắm vào các truy vấn. Hive hoạt động trên dữ liệu được lưu trữ trong các bảng bao gồm các kiểu dữ liệu nguyên thủy và các kiểu dữ liệu thu thập như mảng và bản đồ.

Hive đi kèm với giao diện shell dòng lệnh có thể được sử dụng để tạo bảng và thực hiện truy vấn.

Ngôn ngữ truy vấn Hive tương tự như SQL trong đó nó hỗ trợ các truy vấn phụ. Với ngôn ngữ truy vấn Hive, có thể thực hiện các phép nối MapReduce trên các bảng Hive. Nó có sự hỗ trợ cho đơn giản Các hàm giống SQL– CONCAT, SUBSTR, ROUND, v.v., và hàm tổng hợp– SUM, COUNT, MAX, v.v. Nó cũng hỗ trợ các mệnh đề GROUP BY và SORT BY. Cũng có thể viết các hàm do người dùng xác định bằng ngôn ngữ truy vấn Hive.

Hive là gì?

Tổ ong Apache là một khung kho dữ liệu để truy vấn và phân tích dữ liệu được lưu trữ trong HDFS. Nó được phát triển trên nền tảng Hadoop. Hive là một phần mềm nguồn mở để phân tích các tập dữ liệu lớn trên Hadoop. Nó cung cấp ngôn ngữ khai báo giống SQL, được gọi là HiveQL, để diễn đạt các truy vấn. Sử dụng Hive-QL, người dùng được liên kết với SQL có thể thực hiện phân tích dữ liệu rất dễ dàng.

Giảm bản đồ Hive Vs

Trước khi chọn một trong hai tùy chọn này, chúng ta phải xem xét một số tính năng của chúng.

Khi lựa chọn giữa Hive và Map, hãy cân nhắc những yếu tố sau:

  • Loại dữ liệu
  • Số lượng dữ liệu
  • Độ phức tạp của mã

Hive Vs Map Giảm?

Đặc tính Tổ ong Giảm bản đồ
Ngôn ngữ Nó hỗ trợ ngôn ngữ truy vấn giống như SQL để tương tác và mô hình hóa dữ liệu
  • Nó biên dịch ngôn ngữ với hai nhiệm vụ chính có trong đó. Một là nhiệm vụ bản đồ, và một là nhiệm vụ giảm tốc.
  • Chúng ta có thể định nghĩa những nhiệm vụ này bằng cách sử dụng Java or Python
Mức độ trừu tượng Mức độ trừu tượng cao hơn trên HDFS Mức độ trừu tượng thấp hơn
Hiệu quả trong mã Tương đối ít hơn so với Map Giảm Mang lại hiệu quả cao
Mức độ mã Less số dòng mã cần thiết để thực thi Thêm số dòng mã được xác định
Loại công việc phát triển cần thiết Less Công việc phát triển cần thiết Cần nhiều công việc phát triển hơn
Bấm vào để Hướng dẫn tiếp theo