Підручник Hive для початківців: навчіться на прикладах за 3 дні
Підсумок підручника Hive
Apache Hive дуже швидко допомагає надсилати запити та керувати великими наборами даних. Це ан Інструмент ETL для екосистеми Hadoop. У цьому підручнику Apache Hive для початківців ви дізнаєтесь про основи Hive і важливі теми, як-от запити HQL, вилучення даних, розділи, сегменти тощо. Ця серія посібників з Hive допоможе вам вивчити концепції та основи Hive.
Що я маю знати?
Щоб вивчити цей підручник із запитів Hive, вам потрібні базові знання SQL, Hadoop і знання інших баз даних буде додатковою допомогою.
Програма курсу Hive
Вступ
👉 Lessна 1 | Що таке Hive? - Archiтектура та режими |
👉 Lessна 2 | Завантажте та встановіть HIVE — Як завантажити та встановити HIVE на Ubuntu |
👉 Lessна 3 | Конфігурація HIVE Metastore — Навіщо використовувати MySQL? |
👉 Lessна 4 | Типи даних Hive — Створення та видалення бази даних у Hive |
Розширений матеріал
👉 Lessна 1 | Таблиця створення Hive — Види та їх використання |
👉 Lessна 2 | Перегородки та відра вулика — Вчись на прикладі |
👉 Lessна 3 | Індекси вулика та перегляд — Вчись на прикладі |
👉 Lessна 4 | Запити Hive — Вчись на прикладі |
👉 Lessна 5 | Hive Join & SubQuery Навчальний посібник — Вчись на прикладі |
👉 Lessна 6 | Підручник з мови запитів Hive — Вбудований Operaторс |
👉 Lessна 7 | Функція вулика — Вбудовані та визначені користувачем функції |
👉 Lessна 8 | Вулик ETL — Завантаження JSON, XML, приклади текстових даних |
Знайомство з Hive
Hive розвинувся як рішення для сховища даних, створене на основі фреймворку Hadoop Map-Reduce.
Розмір наборів даних, які збираються та аналізуються в галузі бізнес-аналітика зростає і, певним чином, робить традиційні рішення для сховищ даних дорожчими. Hadoop з інфраструктурою MapReduce використовується як альтернативне рішення для аналізу масивів даних величезного розміру. Хоча Hadoop виявився корисним для роботи з величезними наборами даних, його структура MapReduce має дуже низький рівень і вимагає від програмістів написання спеціальних програм, які важко підтримувати та повторно використовувати. Вулик прийшов сюди на допомогу програмістам.
Двигун вулика компілює ці запити в завдання Map-Reduce для виконання в Hadoop. Крім того, до запитів можна підключити власні сценарії Map-Reduce. Hive працює з даними, що зберігаються в таблицях, які складаються з примітивних типів даних і типів колекційних даних, таких як масиви та карти.
Hive постачається з інтерфейсом оболонки командного рядка, який можна використовувати для створення таблиць і виконання запитів.
Мова запитів Hive схожа на SQL, де підтримує підзапити. За допомогою мови запитів Hive можна використовувати об’єднання MapReduce для таблиць Hive. Має підтримку простих SQL-подібні функції– CONCAT, SUBSTR, ROUND тощо, і функції агрегації– SUM, COUNT, MAX тощо. Він також підтримує пропозиції GROUP BY і SORT BY. Також можна писати визначені користувачем функції мовою запитів Hive.
Що таке Hive?
Вулик апачів це структура сховища даних для запитів і аналізу даних, що зберігаються в HDFS. Він розроблений на основі Hadoop. Hive — це програмне забезпечення з відкритим кодом для аналізу великих наборів даних у Hadoop. Він надає SQL-подібну декларативну мову під назвою HiveQL для вираження запитів. Використовуючи Hive-QL, користувачі, пов’язані з SQL може дуже легко виконувати аналіз даних.
Hive Vs Map Reduce
Перш ніж вибрати один із цих двох варіантів, ми повинні розглянути деякі з їхніх особливостей.
Вибираючи між Hive і Map reduce, враховуються наступні фактори;
- Тип даних
- Обсяг даних
- Складність коду
Hive Vs Map Reduce?
особливість | Вулик | Зменшити карту |
---|---|---|
Language | Він підтримує SQL-подібну мову запитів для взаємодії та моделювання даних |
|
Рівень абстракції | Більш високий рівень абстракції поверх HDFS | Нижній рівень абстракції |
Ефективність у коді | Порівняно менше, ніж Map reduce | Забезпечує високу ефективність |
Обсяг коду | Less кількість рядків коду, необхідних для виконання | Необхідно визначити більше рядків кодів |
Необхідний тип розробки | Less Потрібна розробка | Потрібна додаткова робота з розробки |