Tutorial de Hive para principiantes: aprenda con ejemplos en 3 días

Resumen del tutorial de la colmena


Apache Hive ayuda a consultar y administrar grandes conjuntos de datos muy rápidamente. Es un Herramienta ETL para el hadoop ecossistema. En este tutorial de Apache Hive para principiantes, aprenderá los conceptos básicos de Hive y temas importantes como consultas HQL, extracciones de datos, particiones, depósitos, etc. Esta serie de tutoriales de Hive te ayudará a aprender Hive. concepts y conceptos básicos.

¿Qué debo saber?


Para aprender este tutorial de consulta de Hive, necesita conocimientos básicos de sql, Hadoop y el conocimiento de otras bases de datos será de ayuda adicional.

Programa del curso de colmena

Introducción

👉 Lección 1 ¿Qué es Hive? - ArchiTecnología y modos
👉 Lección 2 Descargar e instalar HIVE — Cómo descargar e instalar HIVE en Ubuntu
👉 Lección 3 Configuración del metaalmacén HIVE — Por qué utilizar MySQL?
👉 Lección 4 Tipos de datos de colmena — Crear y soltar una base de datos en Hive

cosas avanzadas

👉 Lección 1 Tabla de creación de colmena — Tipos y su uso
👉 Lección 2 Particiones y depósitos de colmena — Aprende con el ejemplo
👉 Lección 3 Índices y vistas de Hive — Aprende con el ejemplo
👉 Lección 4 Consultas de colmena — Aprende con el ejemplo
👉 Lección 5 Tutorial de unión y subconsulta de Hive — Aprende con el ejemplo
👉 Lección 6 Tutorial del lenguaje de consulta de Hive — Incorporado Operatoros
👉 Lección 7 Función de colmena — Funciones integradas y definidas por el usuario
👉 Lección 8 Colmena ETL — Carga de ejemplos de datos de texto, JSON y XML

Introducción a la colmena

Hive evolucionó como una solución de almacenamiento de datos construida sobre el marco Hadoop Map-Reduce.

El tamaño de los conjuntos de datos que se recopilan y analizan en la industria para inteligencia empresarial es growing y en cierto modo, está encareciendo las soluciones tradicionales de almacenamiento de datos. Hadoop con el marco MapReduce, se está utilizando como una solución alternativa para analizar conjuntos de datos de gran tamaño. Sin embargo, Hadoop ha demostrado ser útil para trabajar con grandes conjuntos de datos, su marco MapReduce es de muy bajo nivel y requiere que los programadores escriban programas personalizados que son difíciles de mantener y reutilizar. Hive viene aquí para rescatar a los programadores.


motor de colmena compila estas consultas en trabajos de Map-Reduce para ejecutarse en Hadoop. Además, los scripts personalizados de Map-Reduce también se pueden conectar a las consultas. Colmena operapruebas sobre datos almacenados en tablas que constan de tipos de datos primitivos y tipos de datos de recopilación como matrices y mapas.

Hive viene con una interfaz de shell de línea de comandos que se puede utilizar para crear tablas y ejecutar consultas.

El lenguaje de consulta de Hive es similar a SQL y admite subconsultas. Con el lenguaje de consulta de Hive, es posible realizar uniones de MapReduce en tablas de Hive. Tiene un soporte para simple Funciones similares a SQL– CONCAT, SUBSTR, ROUND, etc., y funciones de agregación– SUM, COUNT, MAX, etc. También admite cláusulas GROUP BY y SORT BY. También es posible escribir funciones definidas por el usuario en el lenguaje de consulta de Hive.

¿Qué es Hive?

Colmena Apache es un marco de almacenamiento de datos para consultar y analizar datos almacenados en HDFS. Está desarrollado sobre Hadoop. Hive es un software de código abierto para analizar grandes conjuntos de datos en Hadoop. Proporciona un lenguaje declarativo similar a SQL, llamado HiveQL, para expresar consultas. Usando Hive-QL, los usuarios asociados con SQL Puede realizar análisis de datos muy fácilmente.

Reducir colmena vs mapa

Antes de elegir una de estas dos opciones, debemos fijarnos en algunas de sus características.

Al elegir entre Hive y Map, reduzca el seguimientowing se toman en consideración los factores;

  • Tipo de datos
  • La cantidad de datos
  • ¿CómoplexCiudad del código

¿Reducir colmena versus mapa?

Feature Colmena Mapa reducido
Idioma Admite SQL como lenguaje de consulta para interacción y modelado de datos.
  • Compila un lenguaje con dos tareas principales presentes en él. Una es una tarea de mapa y otra es un reductor.
  • Podemos definir estas tareas usando Java o Python.
Nivel de abstracción Mayor nivel de abstracción además de HDFS Menor nivel de abstracción
Eficiencia en el código Comparativamente menor que la reducción del mapa Proporciona alta eficiencia
extensión del código Menos número de líneas de código necesarias para la ejecución Más número de líneas de códigos por definir
Tipo de trabajo de desarrollo requerido Se requiere menos trabajo de desarrollo Se necesita más trabajo de desarrollo
Haga clic para Siguiente tutorial