Tutorial do Hive para iniciantes

Resumo do tutorial do Hive


O Apache Hive ajuda a consultar e gerenciar grandes conjuntos de dados com muita rapidez. É um Ferramenta ETL para o ecossistema Hadoop. Neste tutorial do Apache Hive para iniciantes, você aprenderá os fundamentos do Hive e tópicos importantes como consultas HQL, extrações de dados, partições, buckets e assim por diante. Esta série de tutoriais do Hive ajudará você a aprender os conceitos e conceitos básicos do Hive.

O que devo saber?


Para aprender este tutorial de consulta do Hive, você precisa de conhecimento básico de SQL, Hadoop e o conhecimento de outras bases de dados será de ajuda adicional.

Plano de estudos do curso Hive

Conheça

👉 Lessem 1 O que é o Hive? - Architextura e modos
👉 Lessem 2 Baixe e instale o HIVE — Como baixar e instalar o HIVE em Ubuntu
👉 Lessem 3 Configuração do metastore HIVE – Por que usar MySQL?
👉 Lessem 4 Tipos de dados de colmeia — Criar e descartar banco de dados no Hive

Coisas avançadas

👉 Lessem 1 Tabela de criação do Hive – Tipos e seu uso
👉 Lessem 2 Divisórias e baldes Hive - Aprenda com o exemplo
👉 Lessem 3 Índices e visualização do Hive - Aprenda com o exemplo
👉 Lessem 4 Consultas de colmeia - Aprenda com o exemplo
👉 Lessem 5 Tutorial de junção e subconsulta do Hive - Aprenda com o exemplo
👉 Lessem 6 Tutorial da linguagem de consulta Hive - Construídas em Operatoros
👉 Lessem 7 Função Colmeia — Funções integradas e definidas pelo usuário
👉 Lessem 8 Colmeia ETL — Carregando JSON, XML, exemplos de dados de texto

Introdução ao Hive

O Hive evoluiu como uma solução de armazenamento de dados construída sobre a estrutura Hadoop Map-Reduce.

O tamanho dos conjuntos de dados coletados e analisados ​​na indústria para inteligência de negócios está crescendo e, de certa forma, está tornando as soluções tradicionais de armazenamento de dados mais caras. Hadoop com o framework MapReduce, está sendo utilizado como uma solução alternativa para análise de conjuntos de dados de grande tamanho. Embora o Hadoop tenha se mostrado útil para trabalhar em grandes conjuntos de dados, sua estrutura MapReduce é de nível muito baixo e exige que os programadores escrevam programas personalizados que são difíceis de manter e reutilizar. O Hive vem aqui para resgatar programadores.


Motor colmeia compila essas consultas em tarefas Map-Reduce para serem executadas no Hadoop. Além disso, scripts Map-Reduce personalizados também podem ser inseridos em consultas. O Hive opera em dados armazenados em tabelas que consistem em tipos de dados primitivos e tipos de dados de coleção, como arrays e mapas.

O Hive vem com uma interface shell de linha de comando que pode ser usada para criar tabelas e executar consultas.

A linguagem de consulta Hive é semelhante ao SQL, pois oferece suporte a subconsultas. Com a linguagem de consulta Hive, é possível fazer junções MapReduce em tabelas Hive. Possui suporte para simples Funções semelhantes a SQL– CONCAT, SUBSTR, ROUND etc., e funções de agregação– SUM, COUNT, MAX etc. Também suporta cláusulas GROUP BY e SORT BY. Também é possível escrever funções definidas pelo usuário na linguagem de consulta Hive.

O que é o Hive?

Colmeia Apache é uma estrutura de data warehouse para consulta e análise de dados armazenados em HDFS. Ele é desenvolvido em cima do Hadoop. Hive é um software de código aberto para analisar grandes conjuntos de dados no Hadoop. Ele fornece linguagem declarativa semelhante a SQL, chamada HiveQL, para expressar consultas. Usando o Hive-QL, os usuários associados ao SQL pode realizar análise de dados com muita facilidade.

Redução do mapa Hive vs.

Antes de escolher uma dessas duas opções, devemos examinar algumas de suas características.

Ao escolher entre Hive e Map, reduza os seguintes fatores:

  • Tipo de dados
  • Quantidade de dados
  • Complexidade do Código

Colmeia Vs Mapa Reduzido?

Característica Colméia Reduzir mapa
Língua Suporta linguagem de consulta semelhante a SQL para interação e modelagem de dados
  • Ele compila a linguagem com duas tarefas principais presentes nela. Uma é a tarefa de mapa e a outra é um redutor.
  • Podemos definir essas tarefas usando Java or Python
Nível de abstração Maior nível de abstração no HDFS Nível mais baixo de abstração
Eficiência no Código Comparativamente menor que a redução do mapa Fornece alta eficiência
Extensão do código Less número de linhas de código necessárias para execução Mais número de linhas de códigos a serem definidas
Tipo de trabalho de desenvolvimento necessário Less Trabalho de desenvolvimento necessário É necessário mais trabalho de desenvolvimento

Clique para o Próximo tutorial