Tutorial do Hive para iniciantes: aprenda com exemplos em 3 dias

Resumo do tutorial do Hive


O Apache Hive ajuda a consultar e gerenciar grandes conjuntos de dados com muita rapidez. É um Ferramenta ETL para o Hadoop ecossistema. Neste tutorial do Apache Hive para iniciantes, você aprenderá os fundamentos do Hive e tópicos importantes como consultas HQL, extrações de dados, partições, buckets e assim por diante. Esta série de tutoriais do Hive ajudará você a aprender os conceitos e conceitos básicos do Hive.

O que devo saber?


Para aprender este tutorial de consulta do Hive, você precisa de conhecimento básico de SQL, Hadoop e o conhecimento de outras bases de dados será de ajuda adicional.

Plano de estudos do curso Hive

Introdução

👉 Lição 1 O que é o Hive? - Architextura e modos
👉 Lição 2 Baixe e instale o HIVE — Como baixar e instalar o HIVE no Ubuntu
👉 Lição 3 Configuração do metastore HIVE — Por que usar MySQL?
👉 Lição 4 Tipos de dados de colmeia — Criar e descartar banco de dados no Hive

Coisas avançadas

👉 Lição 1 Tabela de criação do Hive – Tipos e seu uso
👉 Lição 2 Divisórias e baldes Hive - Aprenda com o exemplo
👉 Lição 3 Índices e visualização do Hive - Aprenda com o exemplo
👉 Lição 4 Consultas de colmeia - Aprenda com o exemplo
👉 Lição 5 Tutorial de junção e subconsulta do Hive - Aprenda com o exemplo
👉 Lição 6 Tutorial da linguagem de consulta Hive — Operadores integrados
👉 Lição 7 Função Colmeia — Funções integradas e definidas pelo usuário
👉 Lição 8 Colmeia ETL — Carregando JSON, XML, exemplos de dados de texto

Introdução ao Hive

O Hive evoluiu como uma solução de armazenamento de dados construída sobre a estrutura Hadoop Map-Reduce.

O tamanho dos conjuntos de dados coletados e analisados ​​na indústria para inteligência de negócios é grandewing e, de certa forma, está encarecendo as soluções tradicionais de armazenamento de dados. Hadoop com o framework MapReduce, está sendo utilizado como uma solução alternativa para análise de conjuntos de dados de grande tamanho. Embora o Hadoop tenha se mostrado útil para trabalhar em grandes conjuntos de dados, sua estrutura MapReduce é de nível muito baixo e exige que os programadores escrevam programas personalizados que são difíceis de manter e reutilizar. O Hive vem aqui para resgatar programadores.


Motor colmeia compila essas consultas em tarefas Map-Reduce para serem executadas no Hadoop. Além disso, scripts Map-Reduce personalizados também podem ser inseridos em consultas. O Hive opera em dados armazenados em tabelas que consistem em tipos de dados primitivos e tipos de dados de coleção, como arrays e mapas.

O Hive vem com uma interface shell de linha de comando que pode ser usada para criar tabelas e executar consultas.

A linguagem de consulta Hive é semelhante ao SQL, pois oferece suporte a subconsultas. Com a linguagem de consulta Hive, é possível fazer junções MapReduce em tabelas Hive. Possui suporte para simples Funções semelhantes a SQL– CONCAT, SUBSTR, ROUND etc., e funções de agregação– SUM, COUNT, MAX etc. Também suporta cláusulas GROUP BY e SORT BY. Também é possível escrever funções definidas pelo usuário na linguagem de consulta Hive.

O que é o Hive?

Colmeia Apache é uma estrutura de data warehouse para consulta e análise de dados armazenados em HDFS. Ele é desenvolvido em cima do Hadoop. Hive é um software de código aberto para analisar grandes conjuntos de dados no Hadoop. Ele fornece linguagem declarativa semelhante a SQL, chamada HiveQL, para expressar consultas. Usando o Hive-QL, os usuários associados ao SQL pode realizar análise de dados com muita facilidade.

Redução do mapa Hive vs.

Antes de escolher uma dessas duas opções, devemos examinar algumas de suas características.

Ao escolher entre Hive e Map reduza o acompanhamentowing fatores são levados em consideração;

  • Tipo de dados
  • Quantidade de dados
  • Complexcidade do Código

Colmeia Vs Mapa Reduzido?

Característica Colméia Reduzir mapa
Língua Suporta linguagem de consulta semelhante a SQL para interação e modelagem de dados
  • Ele compila a linguagem com duas tarefas principais presentes nela. Uma é a tarefa de mapa e a outra é um redutor.
  • Podemos definir essas tarefas usando Java ou Python
Nível de abstração Maior nível de abstração no HDFS Nível mais baixo de abstração
Eficiência no Código Comparativamente menor que a redução do mapa Fornece alta eficiência
Extensão do código Menos número de linhas de código necessárias para execução Mais número de linhas de códigos a serem definidas
Tipo de trabalho de desenvolvimento necessário Menos trabalho de desenvolvimento necessário É necessário mais trabalho de desenvolvimento
Clique para o Próximo tutorial