Урок за Hive за начинаещи
Резюме на урока за Hive
Apache Hive помага при заявки и управление на големи набори от данни много бързо. Това е ETL инструмент за екосистемата Hadoop. В този урок за Apache Hive за начинаещи ще научите основите на Hive и важни теми като HQL заявки, извличане на данни, дялове, кофи и т.н. Тази поредица от уроци за Hive ще ви помогне да научите концепциите и основите на Hive.
какво трябва да знам
За да научите този урок за заявки в Hive, имате нужда от основни познания за SQL, Hadoop и познаването на други бази данни ще бъде от допълнителна помощ.
Учебна програма на курса Hive
Въведение
👉 Lessна 1 | Какво е Hive? - Archiтекстура и режими |
👉 Lessна 2 | Изтеглете и инсталирайте HIVE — Как да изтеглите и инсталирате HIVE на Ubuntu |
👉 Lessна 3 | Конфигурация на HIVE Metastore — Защо да се използва MySQL? |
👉 Lessна 4 | Типове данни на кошера — Създаване и пускане на база данни в Hive |
Разширени неща
👉 Lessна 1 | Hive Create Table — Видове и употреба |
👉 Lessна 2 | Кошерни прегради и кофи - Учете с пример |
👉 Lessна 3 | Индекси и изглед на Hive - Учете с пример |
👉 Lessна 4 | Hive Queries - Учете с пример |
👉 Lessна 5 | Hive Join & SubQuery Урок - Учете с пример |
👉 Lessна 6 | Hive Query Language Урок — Вграден Operaтори |
👉 Lessна 7 | Функция кошер — Вградени и дефинирани от потребителя функции |
👉 Lessна 8 | Hive ETL — Зареждане на JSON, XML, примери за текстови данни |
Въведение в Hive
Hive се разви като решение за съхранение на данни, изградено върху рамката Hadoop Map-Reduce.
Размерът на наборите от данни, които се събират и анализират в индустрията бизнес разузнаване расте и по някакъв начин прави традиционните решения за съхранение на данни по-скъпи. Hadoop с рамка MapReduce, се използва като алтернативно решение за анализиране на масиви от данни с огромен размер. Въпреки че Hadoop се оказа полезен за работа с огромни набори от данни, неговата рамка MapReduce е на много ниско ниво и изисква от програмистите да пишат персонализирани програми, които са трудни за поддръжка и повторно използване. Hive идва тук, за да спаси програмистите.
Кошерен двигател компилира тези заявки в задачи на Map-Reduce, които да бъдат изпълнени на Hadoop. Освен това персонализирани скриптове за Map-Reduce също могат да бъдат включени в заявки. Hive работи с данни, съхранявани в таблици, които се състоят от примитивни типове данни и типове данни за събиране като масиви и карти.
Hive идва с интерфейс на командния ред, който може да се използва за създаване на таблици и изпълнение на заявки.
Езикът за заявки Hive е подобен на SQL, където поддържа подзаявки. С езика за заявки Hive е възможно да се вземат MapReduce обединения в Hive таблици. Има поддръжка за прости SQL подобни функции– CONCAT, SUBSTR, ROUND и т.н., и агрегиращи функции– SUM, COUNT, MAX и т.н. Той също така поддържа клаузи GROUP BY и SORT BY. Възможно е също да се пишат дефинирани от потребителя функции на езика за заявки Hive.
Какво е Hive?
Apache Hive е рамка за съхранение на данни за заявки и анализ на данни, съхранявани в HDFS. Разработен е върху Hadoop. Hive е софтуер с отворен код за анализиране на големи набори от данни в Hadoop. Той предоставя подобен на SQL декларативен език, наречен HiveQL, за изразяване на заявки. Използвайки Hive-QL, потребителите, свързани с SQL може много лесно да извършва анализ на данни.
Hive Vs Map Reduce
Преди да изберем една от тези две опции, трябва да разгледаме някои от техните характеристики.
Когато избирате между Hive и Map, се вземат предвид следните фактори;
- Тип данни
- Количество данни
- Сложност на кода
Hive срещу Map Reduce?
Особеност | Кошер | Карта Намаляване |
---|---|---|
Език | Поддържа SQL подобен език за заявки за взаимодействие и за моделиране на данни |
|
Ниво на абстракция | По-високо ниво на абстракция върху HDFS | По-ниско ниво на абстракция |
Ефективност в кода | Сравнително по-малко от намаляването на Map | Осигурява висока ефективност |
Обхват на кода | Less брой редове код, необходими за изпълнение | Допълнителен брой редове с кодове, които трябва да бъдат дефинирани |
Вид необходима развойна работа | Less Изисква се развойна работа | Необходима е повече работа по разработката |
Кликнете за Следващ урок