Урок за Hive за начинаещи

Резюме на урока за Hive


Apache Hive помага при заявки и управление на големи набори от данни много бързо. Това е ETL инструмент за екосистемата Hadoop. В този урок за Apache Hive за начинаещи ще научите основите на Hive и важни теми като HQL заявки, извличане на данни, дялове, кофи и т.н. Тази поредица от уроци за Hive ще ви помогне да научите концепциите и основите на Hive.

какво трябва да знам


За да научите този урок за заявки в Hive, имате нужда от основни познания за SQL, Hadoop и познаването на други бази данни ще бъде от допълнителна помощ.

Учебна програма на курса Hive

Въведение

👉 Lessна 1 Какво е Hive? - Archiтекстура и режими
👉 Lessна 2 Изтеглете и инсталирайте HIVE — Как да изтеглите и инсталирате HIVE на Ubuntu
👉 Lessна 3 Конфигурация на HIVE Metastore — Защо да се използва MySQL?
👉 Lessна 4 Типове данни на кошера — Създаване и пускане на база данни в Hive

Разширени неща

👉 Lessна 1 Hive Create Table — Видове и употреба
👉 Lessна 2 Кошерни прегради и кофи - Учете с пример
👉 Lessна 3 Индекси и изглед на Hive - Учете с пример
👉 Lessна 4 Hive Queries - Учете с пример
👉 Lessна 5 Hive Join & SubQuery Урок - Учете с пример
👉 Lessна 6 Hive Query Language Урок — Вграден Operaтори
👉 Lessна 7 Функция кошер — Вградени и дефинирани от потребителя функции
👉 Lessна 8 Hive ETL — Зареждане на JSON, XML, примери за текстови данни

Въведение в Hive

Hive се разви като решение за съхранение на данни, изградено върху рамката Hadoop Map-Reduce.

Размерът на наборите от данни, които се събират и анализират в индустрията бизнес разузнаване расте и по някакъв начин прави традиционните решения за съхранение на данни по-скъпи. Hadoop с рамка MapReduce, се използва като алтернативно решение за анализиране на масиви от данни с огромен размер. Въпреки че Hadoop се оказа полезен за работа с огромни набори от данни, неговата рамка MapReduce е на много ниско ниво и изисква от програмистите да пишат персонализирани програми, които са трудни за поддръжка и повторно използване. Hive идва тук, за да спаси програмистите.


Кошерен двигател компилира тези заявки в задачи на Map-Reduce, които да бъдат изпълнени на Hadoop. Освен това персонализирани скриптове за Map-Reduce също могат да бъдат включени в заявки. Hive работи с данни, съхранявани в таблици, които се състоят от примитивни типове данни и типове данни за събиране като масиви и карти.

Hive идва с интерфейс на командния ред, който може да се използва за създаване на таблици и изпълнение на заявки.

Езикът за заявки Hive е подобен на SQL, където поддържа подзаявки. С езика за заявки Hive е възможно да се вземат MapReduce обединения в Hive таблици. Има поддръжка за прости SQL подобни функции– CONCAT, SUBSTR, ROUND и т.н., и агрегиращи функции– SUM, COUNT, MAX и т.н. Той също така поддържа клаузи GROUP BY и SORT BY. Възможно е също да се пишат дефинирани от потребителя функции на езика за заявки Hive.

Какво е Hive?

Apache Hive е рамка за съхранение на данни за заявки и анализ на данни, съхранявани в HDFS. Разработен е върху Hadoop. Hive е софтуер с отворен код за анализиране на големи набори от данни в Hadoop. Той предоставя подобен на SQL декларативен език, наречен HiveQL, за изразяване на заявки. Използвайки Hive-QL, потребителите, свързани с SQL може много лесно да извършва анализ на данни.

Hive Vs Map Reduce

Преди да изберем една от тези две опции, трябва да разгледаме някои от техните характеристики.

Когато избирате между Hive и Map, се вземат предвид следните фактори;

  • Тип данни
  • Количество данни
  • Сложност на кода

Hive срещу Map Reduce?

Особеност Кошер Карта Намаляване
Език Поддържа SQL подобен език за заявки за взаимодействие и за моделиране на данни
  • Той компилира език с две основни задачи, присъстващи в него. Едната е задача за карта, а другата е редуктор.
  • Можем да дефинираме тези задачи с помощта на Java or Python
Ниво на абстракция По-високо ниво на абстракция върху HDFS По-ниско ниво на абстракция
Ефективност в кода Сравнително по-малко от намаляването на Map Осигурява висока ефективност
Обхват на кода Less брой редове код, необходими за изпълнение Допълнителен брой редове с кодове, които трябва да бъдат дефинирани
Вид необходима развойна работа Less Изисква се развойна работа Необходима е повече работа по разработката

Кликнете за Следващ урок