HBase-zelfstudie voor beginners: wat is HBase? Leer in 3 dagen!

Samenvatting van de HBase-zelfstudie

Hbase is een kolomgeoriënteerd databasebeheersysteem dat draait bovenop HDFS (Hadoop Distributed File System). In deze HBase-tutorial voor beginners leer je de basisprincipes en geavanceerde concepten van Apache HBase. Deze HBase-cursus bevat alle HBase-basisprincipes, van introductie, installatie, architecture tot geavanceerde dingen.

Wat is HBase?

HBase is een open-source, kolomgeoriënteerd gedistribueerd databasesysteem in a Hadoop omgeving. Aanvankelijk was het daarna Google Big Table; het werd omgedoopt tot HBase en is voornamelijk in Java geschreven.  apache HBase is nodig voor realtime Big Data-toepassingen.

HBase kan enorme hoeveelheden gegevens opslaan, van terabytes tot petabytes. De tabellen in HBase bestaan ​​uit billionen van rijen met miljoenen kolommen. HBase is gebouwd voor bewerkingen met lage latentie en heeft een aantal specifieke kenmerken in vergelijking met traditionele relationele modellen.

HBase-trainingssyllabus

Dit is wat we behandelen in deze Apache HBase Training Guide

👉 Les 1 Archistructuur van HBase — HBase Archistructuur, componenten en gegevensmodel
👉 Les 2 HBase-installatie — HBase-installatie op Ubuntu
👉 Les 3 HBase Shell-opdrachten - Leer met voorbeeld
👉 Les 4 HBase Tabel maken — Stappen om een ​​tabel in HBase te maken met behulp van Java API
👉 Les 5 Gegevens invoegen en ophalen in HBase — get(), put(), scan() Voorbeelden
👉 Les 6 Prestatieknelpunten in HBase — HBase-voordeel en -beperkingen
👉 Les 7 Hbase-interviewvragen — Top 30 Hbase-interviewvragen en -antwoorden

Wat ga je leren in deze HBase-tutorial voor beginners?

In deze HBase-tutorial voor beginners leert u wat Apache HBase is, de Architectuur van HBase, Hoe HBase te installeren, Stappen om een ​​tabel in HBase te maken, HBase Voordeel en Beperkingen, enz.

Waarom kiezen voor HBase?

Een tabel voor een populaire webapplicatie kan bestaan ​​uit: billionen van rijen. Als we uit zo'n grote hoeveelheid gegevens een bepaalde rij willen doorzoeken, is HBase de ideale keuze, omdat de ophaaltijd van de zoekopdracht korter is. De meeste online analysetoepassingen gebruiken HBase.

Traditionele relationele datamodellen voldoen niet aan de prestatie-eisen van zeer grote databases. Deze prestatie- en verwerkingsbeperkingen kunnen worden overwonnen door Apache HBase.

Apache HBase-functies

  • HBase is gebouwd voor bewerkingen met lage latentie
  • HBase wordt veelvuldig gebruikt voor willekeurige lees- en schrijfbewerkingen
  • HBase slaat een grote hoeveelheid gegevens op in de vorm van tabellen
  • Biedt lineaire en modulaire schaalbaarheid via een clusteromgeving
  • Strikt consistent met lees- en schrijfbewerkingen
  • Automatische en configureerbare sharding van tabellen
  • Automatische failover ondersteunt tussen regioservers
  • Handige basisklassen voor backing Hadoop-kaartVerminderen taken in HBase-tabellen
  • Makkelijk te gebruiken Java API voor clienttoegang
  • Blokkeer cache en Bloom Filters voor real-time queries
  • Het querypredicaat wordt naar beneden gedrukt via filters aan de serverzijde.

Het belang van NoSQL-databases in Hadoop

Bij big data-analyse is Hadoop speelt een cruciale rol bij het oplossen van typische bedrijfsproblemen door grote datasets te beheren en biedt de beste oplossingen op het gebied van analyse.

In de Hadop ecossysteem speelt elk onderdeel zijn unieke rol voor het

  • Gegevensverwerking
  • Gegevensvalidatie
  • Gegevens opslaan

In termen van het opslaan van ongestructureerde, semi-gestructureerde gegevensopslag en het ophalen van dergelijke gegevens zijn relationele databases minder nuttig. Ook het ophalen van resultaten door zoekopdrachten toe te passen op enorme datasets die zijn opgeslagen in Hadoop-opslag is een uitdagende taak. NoSQL-opslagtechnologieën bieden de beste oplossing voor snellere query's op enorme datasets.

Andere NoSQL-opslagtype Databases

Sommige van de NoSQL-modellen die op de markt aanwezig zijn, zijn dat wel Cassandra, MongoDBen CouchDB. Elk van deze modellen heeft verschillende manieren van opslagmechanisme.

Bijvoorbeeld MongoDB is een documentgeoriënteerde database uit de NoSQL-stamboom. Vergeleken met traditionele databases biedt het de beste functies op het gebied van prestaties, beschikbaarheid en schaalbaarheid. Het is een open-source documentgeoriënteerde database en is geschreven in C++.

Cassandra is ook een gedistribueerde database van open-source Apache-software die is ontworpen om een ​​enorme hoeveelheid gegevens te verwerken die zijn opgeslagen op standaardservers. Cassandra biedt hoge beschikbaarheid zonder enig storingspunt.

Terwijl CouchDB een documentgeoriënteerde database is waarin elk documentveld wordt opgeslagen in sleutelwaardekaarten.

Waarin verschilt HBase van andere NoSQL-modellen

Het HBase-opslagmodel verschilt van andere NoSQL-modellen die hierboven zijn besproken. Dit kan als volgt worden vermeld.

  • HBase slaat gegevens op in de vorm van sleutel/waarde-paren in een kolommodel. In dit model zijn alle kolommen gegroepeerd als kolomfamilies.
  • HBase biedt een flexibel datamodel en toegang met lage latentie tot kleine hoeveelheden gegevens die zijn opgeslagen in grote datasets.
  • HBase bovenop Hadoop zal de doorvoer en prestaties van gedistribueerde clusteropstellingen verhogen. Het biedt op zijn beurt snellere willekeurige lees- en schrijfbewerkingen.

Welke NoSQL-database moet u kiezen?

MongoDB, CouchDB, en Cassandra zijn databases van het NoSQL-type die functiespecifiek zijn en worden gebruikt volgens hun zakelijke behoeften. Hier hebben we verschillende NoSQL-databases vermeld volgens hun gebruiksscenario.

Databasetype gebaseerd op functie Voorbeeld van database Gebruiksscenario (wanneer te gebruiken)
Sleutel waarde Redis, MemcacheDB Caching, wachtrijen, informatie verspreiden
Kolomgeoriënteerd Cassandra, HBase Schalen, ongestructureerd en niet-vluchtig houden
Documentgericht MongoDB, Bankbasis Geneste informatie, JavaScript-vriendelijk
Op grafieken gebaseerd OrientDB, Neo4J Afhandeling Complex relationele informatie. Modellering en verwerkingsclassificatie.

HBase versus. Bijenkorf

Kenmerken HBase Bijenkorf
DataBase-model Brede Kolomwinkel Relationeel DBMS
Gegevens Schema Schemavrij Met Schema
SQL-ondersteuning Nee Ja, het gebruikt HQL (Hive-querytaal)
Partitiemethoden sharding sharding
Consistentieniveau Onmiddellijke consistentie Eventuele consistentie
Secundaire indexen Nee Ja
Replicatiemethoden Selecteerbare replicatiefactor Selecteerbare replicatiefactor

HBase versus. RDBMS

Bij het vergelijken van HBase met traditionele relationele databases moeten we rekening houden met drie belangrijke gebieden. Dat zijn datamodel, dataopslag en datadiversiteit.

HBASE RDBMS
  • Schemaloos in database
  • Met een vast schema in de database
  • Kolomgeoriënteerde databases
  • Rij-georiënteerde datastore
  • Ontworpen om gedenormaliseerde gegevens op te slaan
  • Ontworpen om genormaliseerde gegevens op te slaan
  • Brede en dunbevolkte tabellen aanwezig in HBase
  • Bevat dunne tabellen in de database
  • Ondersteunt automatische partitionering
  • Heeft geen ingebouwde ondersteuning voor partitionering
  • Zeer geschikt voor OLAP-systemen
  • Zeer geschikt voor OLTP-systemen
  • Lees alleen relevante gegevens uit de database
  • Haal één rij tegelijk op en kan daarom onnodige gegevens lezen als slechts een deel van de gegevens in een rij vereist is
  • Gestructureerde en semi-gestructureerde gegevens kunnen met HBase worden opgeslagen en verwerkt
  • Gestructureerde gegevens kunnen worden opgeslagen en verwerkt met behulp van RDBMS
  • Maakt aggregatie over vele rijen en kolommen mogelijk
  • Aggregatie is een kostbare operatie

Samengevat

HBase biedt unieke functies en lost typische industriële gebruiksscenario's op. Als kolomgeoriënteerde opslag biedt het snel opvragen, ophalen van resultaten en een grote hoeveelheid gegevensopslag. Deze cursus is een complete stap-voor-stap introductie tot HBase.