Tutorial HBase para iniciantes: O que é HBase? Aprenda em 3 dias!
Resumo do tutorial do HBase
Hbase é um sistema de gerenciamento de banco de dados orientado a colunas que roda sobre HDFS (Hadoop Distributed File System). Neste tutorial do HBase para iniciantes, você aprenderá os conceitos básicos e avançados do Apache HBase. Este curso HBase contém todos os fundamentos do HBase, desde introdução, instalação, arquitetura até itens avançados.
O que é HBase?
HBase é um sistema de banco de dados distribuído de código aberto e orientado a colunas em um Hadoop ambiente. Inicialmente, era Google Big Table, depois; foi renomeado como HBase e é escrito principalmente em Java. apache O HBase é necessário para aplicativos de Big Data em tempo real.
O HBase pode armazenar grandes quantidades de dados, de terabytes a petabytes. As tabelas presentes no HBase consistem em bilhões de linhas com milhões de colunas. O HBase é construído para operações de baixa latência, que possui alguns recursos específicos em comparação aos modelos relacionais tradicionais.
Programa de treinamento HBase
Aqui está o que abordamos neste Guia de treinamento Apache HBase
👉 Lessem 1 | Archiarquitetura do HBase - HBase Archiarquitetura, componentes e modelo de dados |
👉 Lessem 2 | Instalação do HBase — Instalação do HBase em Ubuntu |
👉 Lessem 3 | Comandos do Shell HBase - Aprenda com o exemplo |
👉 Lessem 4 | Tabela de criação HBase — Etapas para criar uma tabela no HBase usando Java API |
👉 Lessem 5 | Inserir e recuperar dados no HBase — get(), put(), scan() Exemplos |
👉 Lessem 6 | Gargalos de desempenho no HBase — Vantagens e limitações do HBase |
👉 Lessem 7 | Perguntas da entrevista da Hbase - As 30 principais perguntas e respostas da entrevista Hbase |
O que você aprenderá neste tutorial HBase para iniciantes?
Neste tutorial do HBase para iniciantes, você aprenderá O que é Apache HBase, o Archiestrutura do HBase, como instalar o HBase, etapas para criar uma tabela no HBase, vantagens e limitações do HBase, etc.
Por que escolher o HBase?
Uma tabela para um aplicativo Web popular pode consistir em bilhões de linhas. Se quisermos pesquisar uma linha específica a partir de uma quantidade tão grande de dados, o HBase é a escolha ideal, pois o tempo de busca da consulta é menor. A maioria dos aplicativos de análise online usa HBase.
Os modelos de dados relacionais tradicionais não atendem aos requisitos de desempenho de bancos de dados muito grandes. Essas limitações de desempenho e processamento podem ser superadas pelo Apache HBase.
Recursos do Apache HBase
- HBase foi desenvolvido para operações de baixa latência
- HBase é usado extensivamente para operações aleatórias de leitura e gravação
- HBase armazena uma grande quantidade de dados em termos de tabelas
- Fornece escalabilidade linear e modular em ambiente de cluster
- Estritamente consistente para operações de leitura e gravação
- Fragmentação automática e configurável de tabelas
- Suporte para failover automático entre servidores regionais
- Classes base convenientes para suporte Hadoop MapReduce trabalhos em tabelas HBase
- Fácil de usar Java API para acesso do cliente
- Bloquear cache e filtros Bloom para consultas em tempo real
- O predicado de consulta é enviado por meio de filtros do lado do servidor.
Importância dos bancos de dados NoSQL no Hadoop
Na análise de big data, Hadoop desempenha um papel vital na resolução de problemas típicos de negócios, gerenciando grandes conjuntos de dados e fornecendo as melhores soluções no domínio analítico.
No ecossistema Hadoop, cada componente desempenha seu papel único para o
-
Processamento de dados
-
Data de validade
-
armazenamento de dados
Em termos de armazenamento de dados não estruturados e semiestruturados, bem como de recuperação de tais dados, os bancos de dados relacionais são menos úteis. Além disso, buscar resultados aplicando consultas em grandes conjuntos de dados armazenados no armazenamento Hadoop é uma tarefa desafiadora. As tecnologias de armazenamento NoSQL fornecem a melhor solução para consultas mais rápidas em grandes conjuntos de dados.
Outros bancos de dados do tipo de armazenamento NoSQL
Alguns dos modelos NoSQL presentes no mercado são Cassandra, MongoDB e CouchDB. Cada um desses modelos possui diferentes formas de mecanismo de armazenamento.
Por exemplo, nos MongoDB é um banco de dados orientado a documentos da árvore genealógica NoSQL. Comparado aos bancos de dados tradicionais, oferece os melhores recursos em termos de desempenho, disponibilidade e escalabilidade. É um banco de dados de código aberto orientado a documentos e está escrito em C++.
Cassandra também é um banco de dados distribuído do software Apache de código aberto, projetado para lidar com uma enorme quantidade de dados armazenados em servidores comuns. Cassandra fornece alta disponibilidade sem nenhum ponto único de falha.
Embora CouchDB é um banco de dados orientado a documentos no qual cada campo do documento é armazenado em mapas de valores-chave.
Como o HBase é diferente de outros modelos NoSQL
O modelo de armazenamento HBase é diferente de outros modelos NoSQL discutidos acima. Isso pode ser afirmado da seguinte forma.
-
O HBase armazena dados na forma de pares chave/valor em um modelo colunar. Neste modelo, todas as colunas são agrupadas como famílias de colunas.
-
O HBase fornece um modelo de dados flexível e acesso de baixa latência a pequenas quantidades de dados armazenados em grandes conjuntos de dados.
-
O HBase sobre o Hadoop aumentará o rendimento e o desempenho da configuração do cluster distribuído. Por sua vez, fornece operações de leitura e gravação aleatórias mais rápidas.
Qual banco de dados NoSQL escolher?
MongoDB, CouchDB e Cassandra são bancos de dados do tipo NoSQL com recursos específicos e usados de acordo com suas necessidades de negócios. Aqui, listamos diferentes bancos de dados NoSQL de acordo com seu caso de uso.
Tipo de banco de dados baseado no recurso | Exemplo de banco de dados | Caso de uso (quando usar) |
---|---|---|
Valor chave | Redis, MemcacheDB | Cache, enfileiramento, distribuição de informações |
Orientado a colunas | Cassandra, HBase | Dimensionando, mantendo-se não estruturado, não volátil |
Orientado a Documentos | MongoDB, Sofá | Informações aninhadas, JavaScript amigável |
Baseado em gráfico | OrientDB, Neo4J | Tratamento de informações relacionais complexas. Classificação de modelagem e manuseio. |
HBase vs. Colmeia
Recursos | HBase | Colméia |
---|---|---|
Modelo de banco de dados | Loja de colunas amplas | SGBD relacional |
Esquema de Dados | Sem esquema | Com esquema |
Suporte SQL | Não | Sim, usa HQL (linguagem de consulta Hive) |
Métodos de partição | Sharding | Sharding |
Nível de consistência | Consistência Imediata | Consistência Eventual |
Índices secundários | Não | Sim |
Métodos de replicação | Fator de replicação selecionável | Fator de replicação selecionável |
HBase vs. RDBMS
Ao comparar o HBase com os bancos de dados relacionais tradicionais, devemos levar em consideração três áreas principais. Esses são modelo de dados, armazenamento de dados e diversidade de dados.
HBASE | RDBMS |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Resumo
O HBase fornece recursos exclusivos e resolverá casos de uso industrial típicos. Como armazenamento orientado a colunas, fornece consultas rápidas, busca de resultados e uma grande quantidade de armazenamento de dados. Este curso é uma introdução passo a passo completa ao HBase.