Tutorial de Hive para principiantes: aprenda con ejemplos en 3 días
Resumen del tutorial de la colmena
Apache Hive ayuda a consultar y administrar grandes conjuntos de datos muy rápidamente. Es un Herramienta ETL para el ecosistema Hadoop. En este tutorial de Apache Hive para principiantes, aprenderá los conceptos básicos de Hive y temas importantes como consultas HQL, extracciones de datos, particiones, contenedores, etc. Esta serie de tutoriales de Hive lo ayudará a aprender los conceptos y los conceptos básicos de Hive.
¿Qué debo saber?
Para aprender este tutorial de consulta de Hive, necesita conocimientos básicos de sql, Hadoop y el conocimiento de otras bases de datos será de ayuda adicional.
Programa del curso de colmena
Introducción
👉 Lessen 1 | ¿Qué es Hive? - ArchiTecnología y modos |
👉 Lessen 2 | Descargar e instalar HIVE — Cómo descargar e instalar HIVE en Ubuntu |
👉 Lessen 3 | Configuración del metaalmacén HIVE — Por qué utilizar MySQL? |
👉 Lessen 4 | Tipos de datos de colmena — Crear y soltar una base de datos en Hive |
cosas avanzadas
👉 Lessen 1 | Tabla de creación de colmena — Tipos y su uso |
👉 Lessen 2 | Particiones y depósitos de colmena — Aprende con el ejemplo |
👉 Lessen 3 | Índices y vistas de Hive — Aprende con el ejemplo |
👉 Lessen 4 | Consultas de colmena — Aprende con el ejemplo |
👉 Lessen 5 | Tutorial de unión y subconsulta de Hive — Aprende con el ejemplo |
👉 Lessen 6 | Tutorial del lenguaje de consulta de Hive — Incorporado Operatoros |
👉 Lessen 7 | Función de colmena — Funciones integradas y definidas por el usuario |
👉 Lessen 8 | Colmena ETL — Carga de ejemplos de datos de texto, JSON y XML |
Introducción a la colmena
Hive evolucionó como una solución de almacenamiento de datos construida sobre el marco Hadoop Map-Reduce.
El tamaño de los conjuntos de datos que se recopilan y analizan en la industria para inteligencia empresarial está creciendo y, en cierto modo, está encareciendo las soluciones tradicionales de almacenamiento de datos. Hadoop con el marco MapReduce, se está utilizando como una solución alternativa para analizar conjuntos de datos de gran tamaño. Sin embargo, Hadoop ha demostrado ser útil para trabajar con grandes conjuntos de datos, su marco MapReduce es de muy bajo nivel y requiere que los programadores escriban programas personalizados que son difíciles de mantener y reutilizar. Hive viene aquí para rescatar a los programadores.
motor de colmena compila estas consultas en trabajos de Map-Reduce para que se ejecuten en Hadoop. Además, también se pueden conectar scripts de Map-Reduce personalizados a las consultas. Hive opera con datos almacenados en tablas que constan de tipos de datos primitivos y tipos de datos de recopilación como matrices y mapas.
Hive viene con una interfaz de shell de línea de comandos que se puede utilizar para crear tablas y ejecutar consultas.
El lenguaje de consulta de Hive es similar a SQL y admite subconsultas. Con el lenguaje de consulta de Hive, es posible realizar uniones de MapReduce en tablas de Hive. Tiene un soporte para simple Funciones similares a SQL– CONCAT, SUBSTR, ROUND, etc., y funciones de agregación– SUM, COUNT, MAX, etc. También admite cláusulas GROUP BY y SORT BY. También es posible escribir funciones definidas por el usuario en el lenguaje de consulta de Hive.
¿Qué es Hive?
Colmena Apache es un marco de almacenamiento de datos para consultar y analizar datos almacenados en HDFS. Está desarrollado sobre Hadoop. Hive es un software de código abierto para analizar grandes conjuntos de datos en Hadoop. Proporciona un lenguaje declarativo similar a SQL, llamado HiveQL, para expresar consultas. Usando Hive-QL, los usuarios asociados con SQL Puede realizar análisis de datos muy fácilmente.
Reducir colmena vs mapa
Antes de elegir una de estas dos opciones, debemos fijarnos en algunas de sus características.
Al elegir entre Hive y Map reduce se tienen en cuenta los siguientes factores:
- Tipo de datos
- La cantidad de datos
- Complejidad del código
¿Reducir colmena versus mapa?
Feature | Colmena | Mapa reducido |
---|---|---|
Idioma | Admite SQL como lenguaje de consulta para interacción y modelado de datos. |
|
Nivel de abstracción | Mayor nivel de abstracción además de HDFS | Menor nivel de abstracción |
Eficiencia en el código | Comparativamente menor que la reducción del mapa | Proporciona alta eficiencia |
extensión del código | Less Número de líneas de código necesarias para la ejecución. | Más número de líneas de códigos por definir |
Tipo de trabajo de desarrollo requerido | Less Trabajo de desarrollo requerido | Se necesita más trabajo de desarrollo |