Підручник Hive для початківців: навчіться на прикладах за 3 дні

Підсумок підручника Hive


Apache Hive дуже швидко допомагає надсилати запити та керувати великими наборами даних. Це ан Інструмент ETL для екосистеми Hadoop. У цьому підручнику Apache Hive для початківців ви дізнаєтесь про основи Hive і важливі теми, як-от запити HQL, вилучення даних, розділи, сегменти тощо. Ця серія посібників з Hive допоможе вам вивчити концепції та основи Hive.

Що я маю знати?


Щоб вивчити цей підручник із запитів Hive, вам потрібні базові знання SQL, Hadoop і знання інших баз даних буде додатковою допомогою.

Програма курсу Hive

Вступ

👉 Lessна 1 Що таке Hive? - Archiтектура та режими
👉 Lessна 2 Завантажте та встановіть HIVE — Як завантажити та встановити HIVE на Ubuntu
👉 Lessна 3 Конфігурація HIVE Metastore — Навіщо використовувати MySQL?
👉 Lessна 4 Типи даних Hive — Створення та видалення бази даних у Hive

Розширений матеріал

👉 Lessна 1 Таблиця створення Hive — Види та їх використання
👉 Lessна 2 Перегородки та відра вулика — Вчись на прикладі
👉 Lessна 3 Індекси вулика та перегляд — Вчись на прикладі
👉 Lessна 4 Запити Hive — Вчись на прикладі
👉 Lessна 5 Hive Join & SubQuery Навчальний посібник — Вчись на прикладі
👉 Lessна 6 Підручник з мови запитів Hive — Вбудований Operaторс
👉 Lessна 7 Функція вулика — Вбудовані та визначені користувачем функції
👉 Lessна 8 Вулик ETL — Завантаження JSON, XML, приклади текстових даних

Знайомство з Hive

Hive розвинувся як рішення для сховища даних, створене на основі фреймворку Hadoop Map-Reduce.

Розмір наборів даних, які збираються та аналізуються в галузі бізнес-аналітика зростає і, певним чином, робить традиційні рішення для сховищ даних дорожчими. Hadoop з інфраструктурою MapReduce використовується як альтернативне рішення для аналізу масивів даних величезного розміру. Хоча Hadoop виявився корисним для роботи з величезними наборами даних, його структура MapReduce має дуже низький рівень і вимагає від програмістів написання спеціальних програм, які важко підтримувати та повторно використовувати. Вулик прийшов сюди на допомогу програмістам.


Двигун вулика компілює ці запити в завдання Map-Reduce для виконання в Hadoop. Крім того, до запитів можна підключити власні сценарії Map-Reduce. Hive працює з даними, що зберігаються в таблицях, які складаються з примітивних типів даних і типів колекційних даних, таких як масиви та карти.

Hive постачається з інтерфейсом оболонки командного рядка, який можна використовувати для створення таблиць і виконання запитів.

Мова запитів Hive схожа на SQL, де підтримує підзапити. За допомогою мови запитів Hive можна використовувати об’єднання MapReduce для таблиць Hive. Має підтримку простих SQL-подібні функції– CONCAT, SUBSTR, ROUND тощо, і функції агрегації– SUM, COUNT, MAX тощо. Він також підтримує пропозиції GROUP BY і SORT BY. Також можна писати визначені користувачем функції мовою запитів Hive.

Що таке Hive?

Вулик апачів це структура сховища даних для запитів і аналізу даних, що зберігаються в HDFS. Він розроблений на основі Hadoop. Hive — це програмне забезпечення з відкритим кодом для аналізу великих наборів даних у Hadoop. Він надає SQL-подібну декларативну мову під назвою HiveQL для вираження запитів. Використовуючи Hive-QL, користувачі, пов’язані з SQL може дуже легко виконувати аналіз даних.

Hive Vs Map Reduce

Перш ніж вибрати один із цих двох варіантів, ми повинні розглянути деякі з їхніх особливостей.

Вибираючи між Hive і Map reduce, враховуються наступні фактори;

  • Тип даних
  • Обсяг даних
  • Складність коду

Hive Vs Map Reduce?

особливість Вулик Зменшити карту
Language Він підтримує SQL-подібну мову запитів для взаємодії та моделювання даних
  • Він компілює мову з двома основними завданнями. Одне — завдання карти, а інше — редуктор.
  • Ми можемо визначити ці завдання за допомогою Java or Python
Рівень абстракції Більш високий рівень абстракції поверх HDFS Нижній рівень абстракції
Ефективність у коді Порівняно менше, ніж Map reduce Забезпечує високу ефективність
Обсяг коду Less кількість рядків коду, необхідних для виконання Необхідно визначити більше рядків кодів
Необхідний тип розробки Less Потрібна розробка Потрібна додаткова робота з розробки
Натисніть для Наступний посібник

Щоденний інформаційний бюлетень Guru99

Розпочніть свій день з останніх та найважливіших новин про штучний інтелект, які ви можете знайти просто зараз.