Hướng dẫn Hive cho người mới bắt đầu: Học với các ví dụ trong 3 ngày
Tóm tắt hướng dẫn Hive
Apache Hive giúp truy vấn và quản lý các tập dữ liệu lớn rất nhanh. Nó là một Công cụ ETL cho hệ sinh thái Hadoop. Trong hướng dẫn Apache Hive dành cho người mới bắt đầu này, bạn sẽ tìm hiểu những điều cơ bản về Hive và các chủ đề quan trọng như truy vấn HQL, trích xuất dữ liệu, phân vùng, thùng, v.v. Chuỗi hướng dẫn Hive này sẽ giúp bạn tìm hiểu các khái niệm và cơ bản về Hive.
Tôi nên biết gì?
Để tìm hiểu hướng dẫn truy vấn Hive này, bạn cần có kiến thức cơ bản về SQL, Hadoop và kiến thức về các cơ sở dữ liệu khác sẽ giúp ích thêm.
Giáo trình khóa học Hive
Giới thiệu
👉 Lesstrên 1 | Hive là gì? - Archikiến trúc & chế độ |
👉 Lesstrên 2 | Tải xuống và cài đặt HIVE — Cách tải xuống và cài đặt HIVE trên Ubuntu |
👉 Lesstrên 3 | Cấu hình kho lưu trữ HIVE - Tại sao nên sử dụng MySQL? |
👉 Lesstrên 4 | Các kiểu dữ liệu tổ ong — Tạo và thả cơ sở dữ liệu trong Hive |
nội dung nâng cao
👉 Lesstrên 1 | Bảng tạo Hive - Các loại và cách sử dụng |
👉 Lesstrên 2 | Phân vùng & nhóm tổ ong - Học với ví dụ |
👉 Lesstrên 3 | Chỉ mục và chế độ xem Hive - Học với ví dụ |
👉 Lesstrên 4 | Truy vấn tổ ong - Học với ví dụ |
👉 Lesstrên 5 | Hướng dẫn tham gia và truy vấn Hive - Học với ví dụ |
👉 Lesstrên 6 | Hướng dẫn ngôn ngữ truy vấn Hive - Được xây dựng trong Operaxoắn |
👉 Lesstrên 7 | Chức năng tổ ong - Chức năng tích hợp và do người dùng xác định |
👉 Lesstrên 8 | Tổ ong ETL — Đang tải JSON, XML, Ví dụ về dữ liệu văn bản |
Giới thiệu về Hive
Hive đã phát triển như một giải pháp lưu trữ dữ liệu được xây dựng dựa trên khung Map-Reduce của Hadoop.
Kích thước của các tập dữ liệu được thu thập và phân tích trong ngành cho kinh doanh thông minh đang phát triển và theo một cách nào đó, nó khiến các giải pháp lưu trữ dữ liệu truyền thống trở nên đắt đỏ hơn. Hadoop với khung MapReduce, đang được sử dụng như một giải pháp thay thế để phân tích các tập dữ liệu có kích thước khổng lồ. Mặc dù, Hadoop đã tỏ ra hữu ích khi làm việc trên các tập dữ liệu khổng lồ, khung MapReduce của nó ở mức rất thấp và nó yêu cầu các lập trình viên viết các chương trình tùy chỉnh khó bảo trì và tái sử dụng. Hive đến đây để giải cứu các lập trình viên.
Động cơ tổ ong biên dịch các truy vấn này thành các công việc Map-Reduce để thực thi trên Hadoop. Ngoài ra, các tập lệnh Map-Reduce tùy chỉnh cũng có thể được cắm vào các truy vấn. Hive hoạt động trên dữ liệu được lưu trữ trong các bảng bao gồm các kiểu dữ liệu nguyên thủy và các kiểu dữ liệu thu thập như mảng và bản đồ.
Hive đi kèm với giao diện shell dòng lệnh có thể được sử dụng để tạo bảng và thực hiện truy vấn.
Ngôn ngữ truy vấn Hive tương tự như SQL trong đó nó hỗ trợ các truy vấn phụ. Với ngôn ngữ truy vấn Hive, có thể thực hiện các phép nối MapReduce trên các bảng Hive. Nó có sự hỗ trợ cho đơn giản Các hàm giống SQL– CONCAT, SUBSTR, ROUND, v.v., và hàm tổng hợp– SUM, COUNT, MAX, v.v. Nó cũng hỗ trợ các mệnh đề GROUP BY và SORT BY. Cũng có thể viết các hàm do người dùng xác định bằng ngôn ngữ truy vấn Hive.
Hive là gì?
Tổ ong Apache là một khung kho dữ liệu để truy vấn và phân tích dữ liệu được lưu trữ trong HDFS. Nó được phát triển trên nền tảng Hadoop. Hive là một phần mềm nguồn mở để phân tích các tập dữ liệu lớn trên Hadoop. Nó cung cấp ngôn ngữ khai báo giống SQL, được gọi là HiveQL, để diễn đạt các truy vấn. Sử dụng Hive-QL, người dùng được liên kết với SQL có thể thực hiện phân tích dữ liệu rất dễ dàng.
Giảm bản đồ Hive Vs
Trước khi chọn một trong hai tùy chọn này, chúng ta phải xem xét một số tính năng của chúng.
Khi lựa chọn giữa Hive và Map, hãy cân nhắc những yếu tố sau:
- Loại dữ liệu
- Số lượng dữ liệu
- Độ phức tạp của mã
Hive Vs Map Giảm?
Đặc tính | Tổ ong | Giảm bản đồ |
---|---|---|
Ngôn ngữ | Nó hỗ trợ ngôn ngữ truy vấn giống như SQL để tương tác và mô hình hóa dữ liệu |
|
Mức độ trừu tượng | Mức độ trừu tượng cao hơn trên HDFS | Mức độ trừu tượng thấp hơn |
Hiệu quả trong mã | Tương đối ít hơn so với Map Giảm | Mang lại hiệu quả cao |
Mức độ mã | Less số dòng mã cần thiết để thực thi | Thêm số dòng mã được xác định |
Loại công việc phát triển cần thiết | Less Công việc phát triển cần thiết | Cần nhiều công việc phát triển hơn |