HBase-zelfstudie voor beginners: wat is HBase? Leer in 3 dagen!

Samenvatting van de HBase-zelfstudie

Hbase is een kolomgeoriënteerd databasebeheersysteem dat draait op HDFS (Hadoop Distributed File System). In deze HBase-zelfstudie voor beginners leert u de basisbeginselen en geavanceerde concepten van Apache HBase. Deze HBase-cursus bevat alle HBase-beginselen van introductie, installatie, architectuur tot geavanceerde zaken.

Wat is HBase?

HBase is een open-source, kolomgeoriënteerd gedistribueerd databasesysteem in a Hadoop omgeving. Aanvankelijk was het Google Big Table, daarna werd het omgedoopt tot HBase en is het voornamelijk geschreven in Java.  apache HBase is nodig voor realtime Big Data-toepassingen.

HBase kan enorme hoeveelheden data opslaan van terabytes tot petabytes. De tabellen in HBase bestaan ​​uit miljarden rijen met miljoenen kolommen. HBase is gebouwd voor low latency-bewerkingen, wat een aantal specifieke kenmerken heeft vergeleken met traditionele relationele modellen.

HBase-trainingssyllabus

Dit is wat we behandelen in deze Apache HBase Training Guide

👉 Lessop 1 Archistructuur van HBase — HBase Archistructuur, componenten en gegevensmodel
👉 Lessop 2 HBase-installatie — HBase-installatie ingeschakeld Ubuntu
👉 Lessop 3 HBase Shell-opdrachten - Leer met voorbeeld
👉 Lessop 4 HBase Tabel maken — Stappen om een ​​tabel in HBase te maken met behulp van Java API
👉 Lessop 5 Gegevens invoegen en ophalen in HBase — get(), put(), scan() Voorbeelden
👉 Lessop 6 Prestatieknelpunten in HBase — HBase-voordeel en -beperkingen
👉 Lessop 7 Hbase-interviewvragen — Top 30 Hbase-interviewvragen en -antwoorden

Wat ga je leren in deze HBase-tutorial voor beginners?

In deze HBase-tutorial voor beginners leert u wat Apache HBase is, de Architectuur van HBase, Hoe HBase te installeren, Stappen om een ​​tabel in HBase te maken, HBase Voordeel en Beperkingen, enz.

Waarom kiezen voor HBase?

Een tabel voor een populaire webapplicatie kan bestaan ​​uit miljarden rijen. Als we een bepaalde rij uit zo'n enorme hoeveelheid data willen doorzoeken, is HBase de ideale keuze, omdat de query fetch time korter is. De meeste online analytics-applicaties gebruiken HBase.

Traditionele relationele datamodellen voldoen niet aan de prestatie-eisen van zeer grote databases. Deze prestatie- en verwerkingsbeperkingen kunnen worden overwonnen door Apache HBase.

Apache HBase-functies

  • HBase is gebouwd voor bewerkingen met een lage latentie
  • HBase wordt op grote schaal gebruikt voor willekeurige lees- en schrijfbewerkingen
  • HBase slaat een grote hoeveelheid gegevens op in de vorm van tabellen
  • Biedt lineaire en modulaire schaalbaarheid via clusteromgevingen
  • Strikt consistent met lees- en schrijfbewerkingen
  • Automatische en configureerbare sharding van tabellen
  • Automatische failover ondersteunt tussen regioservers
  • Handige basisklassen voor backing Hadoop-kaartVerminderen taken in HBase-tabellen
  • Makkelijk te gebruiken Java API voor clienttoegang
  • Blokkeer cache en Bloom Filters voor real-time queries
  • Het querypredicaat wordt naar beneden gedrukt via filters aan de serverzijde.

Het belang van NoSQL-databases in Hadoop

Bij big data-analyse is Hadoop speelt een cruciale rol bij het oplossen van typische bedrijfsproblemen door grote datasets te beheren en biedt de beste oplossingen op het gebied van analyse.

In het Hadoop-ecosysteem speelt elk onderdeel zijn eigen unieke rol voor de

  • Gegevensverwerking
  • Gegevensvalidatie
  • Gegevens opslaan

In termen van het opslaan van ongestructureerde, semi-gestructureerde gegevensopslag en het ophalen van dergelijke gegevens zijn relationele databases minder nuttig. Ook het ophalen van resultaten door zoekopdrachten toe te passen op enorme datasets die zijn opgeslagen in Hadoop-opslag is een uitdagende taak. NoSQL-opslagtechnologieën bieden de beste oplossing voor snellere query's op enorme datasets.

Andere NoSQL-opslagtype Databases

Sommige van de NoSQL-modellen die op de markt aanwezig zijn, zijn dat wel Cassandra, MongoDBen CouchDB. Elk van deze modellen heeft verschillende manieren van opslagmechanisme.

Bijvoorbeeld MongoDB is een documentgeoriënteerde database uit de NoSQL-stamboom. Vergeleken met traditionele databases biedt het de beste functies op het gebied van prestaties, beschikbaarheid en schaalbaarheid. Het is een open-source documentgeoriënteerde database en er is in geschreven C++.

Cassandra is ook een gedistribueerde database van open-source Apache-software die is ontworpen om een ​​enorme hoeveelheid gegevens te verwerken die zijn opgeslagen op standaardservers. Cassandra biedt hoge beschikbaarheid zonder enig storingspunt.

Terwijl CouchDB is een documentgeoriënteerde database waarin elk documentveld wordt opgeslagen in sleutelwaardekaarten.

Waarin verschilt HBase van andere NoSQL-modellen

Het HBase-opslagmodel verschilt van andere NoSQL-modellen die hierboven zijn besproken. Dit kan als volgt worden vermeld.

  • HBase slaat gegevens op in de vorm van sleutel/waarde-paren in een kolommodel. In dit model zijn alle kolommen gegroepeerd als kolomfamilies.
  • HBase biedt een flexibel datamodel en toegang met lage latentie tot kleine hoeveelheden gegevens die zijn opgeslagen in grote datasets.
  • HBase op Hadoop zal de doorvoer en prestaties van een gedistribueerde clusteropstelling verhogen. Op zijn beurt biedt het snellere willekeurige lees- en schrijfbewerkingen.

Welke NoSQL-database moet u kiezen?

MongoDB, CouchDBen Cassandra zijn databases van het NoSQL-type die functiespecifiek zijn en worden gebruikt volgens hun zakelijke behoeften. Hier hebben we verschillende NoSQL-databases vermeld volgens hun gebruiksscenario.

Databasetype gebaseerd op functie Voorbeeld van database Gebruiksscenario (wanneer te gebruiken)
Sleutel waarde Redis, MemcacheDB Caching, wachtrijen, informatie verspreiden
Kolomgeoriënteerd Cassandra, HBase Schalen, ongestructureerd en niet-vluchtig houden
Documentgericht MongoDB, Bankbasis Geneste informatie, JavaScriptvriendelijk
Op grafieken gebaseerd OrientDB, Neo4J Omgaan met complexe relationele informatie. Modelleren en omgaan met classificatie.

HBase versus. Bijenkorf

Kenmerken HBase Bijenkorf
DataBase-model Brede Kolomwinkel Relationeel DBMS
Gegevens Schema Schemavrij Met Schema
SQL-ondersteuning Nee Ja, het gebruikt HQL (Hive-querytaal)
Partitiemethoden sharding sharding
Consistentieniveau Onmiddellijke consistentie Eventuele consistentie
Secundaire indexen Nee Ja
Replicatiemethoden Selecteerbare replicatiefactor Selecteerbare replicatiefactor

HBase versus. RDBMS

Bij het vergelijken van HBase met traditionele relationele databases moeten we rekening houden met drie belangrijke gebieden. Dat zijn datamodel, dataopslag en datadiversiteit.

HBASE RDBMS
  • Schemaloos in database
  • Met een vast schema in de database
  • Kolomgeoriënteerde databases
  • Rij-georiënteerde datastore
  • Ontworpen om gedenormaliseerde gegevens op te slaan
  • Ontworpen om genormaliseerde gegevens op te slaan
  • Brede en dunbevolkte tabellen aanwezig in HBase
  • Bevat dunne tabellen in de database
  • Ondersteunt automatische partitionering
  • Heeft geen ingebouwde ondersteuning voor partitionering
  • Zeer geschikt voor OLAP-systemen
  • Zeer geschikt voor OLTP-systemen
  • Lees alleen relevante gegevens uit de database
  • Haal één rij tegelijk op en kan daarom onnodige gegevens lezen als slechts een deel van de gegevens in een rij vereist is
  • Gestructureerde en semi-gestructureerde gegevens kunnen met HBase worden opgeslagen en verwerkt
  • Gestructureerde gegevens kunnen worden opgeslagen en verwerkt met behulp van RDBMS
  • Maakt aggregatie over vele rijen en kolommen mogelijk
  • Aggregatie is een dure operatie

Samenvatting

HBase biedt unieke functies en lost typische industriële gebruiksscenario's op. Als kolomgeoriënteerde opslag biedt het snel opvragen, ophalen van resultaten en een grote hoeveelheid gegevensopslag. Deze cursus is een complete stap-voor-stap introductie tot HBase.