HBase-opetusohjelma aloittelijoille: Mikä on HBase? Opi 3 päivässä!

HBase opetusohjelman yhteenveto

Hbase on sarakepohjainen tietokannan hallintajärjestelmä, joka toimii HDFS:n (Hadoop Distributed File System) päällä. Tässä HBase-opetusohjelmassa aloittelijoille opit Apache HBase -perusasiat ja edistyneet käsitteet. Tämä HBase-kurssi sisältää kaikki HBasen perusteet johdannosta, asennuksesta, arkkitehtuurista edistyneisiin asioihin.

Mikä on HBase?

HBase on avoimen lähdekoodin sarakesuuntautunut hajautettu tietokantajärjestelmä a Hadoop ympäristöön. Aluksi se oli Google Big Table, myöhemmin; se nimettiin uudelleen nimellä HBase ja se on ensisijaisesti kirjoitettu kielellä Java.  Apache HBasea tarvitaan reaaliaikaisiin Big Data -sovelluksiin.

HBase voi tallentaa valtavia määriä dataa teratavuista petabyytteihin. HBasen taulukot koostuvat miljardeista riveistä, joissa on miljoonia sarakkeita. HBase on rakennettu alhaisen latenssin toimintoihin, jolla on joitain erityispiirteitä perinteisiin relaatiomalleihin verrattuna.

HBase-koulutusohjelma

Tässä on mitä käsittelemme tässä Apache HBase -koulutusoppaassa

👍 Lesson 1 ArchiHBase-tektuuri - HBase Archirakenne, komponentit ja tietomalli
👍 Lesson 2 HBase-asennus — HBase-asennus päällä Ubuntu
👍 Lesson 3 HBase Shellin komennot – Opi esimerkin avulla
👍 Lesson 4 HBase Luo taulukko — Vaiheet taulukon luomiseksi HBaseen käyttämällä Java API
👍 Lesson 5 Lisää ja hae tiedot HBaseen - get(), put(), scan() Esimerkkejä
👍 Lesson 6 Suorituskyvyn pullonkaulat HBasessa — HBase-etu ja rajoitukset
👍 Lesson 7 Hbase-haastattelukysymykset - Hbase-haastattelun 30 parasta kysymystä ja vastausta

Mitä opit tästä HBase-opetusohjelmasta aloittelijoille?

Tässä HBase-opetusohjelmassa aloittelijoille opit mikä Apache HBase on ArchiHBase-tektuuri, HBasen asentaminen, HBasen taulukon luomisen vaiheet, HBase-edut ja rajoitukset jne.

Miksi valita HBase?

Suositun verkkosovelluksen taulukko voi koostua miljardeista riveistä. Jos haluamme etsiä tietyltä riviltä näin valtavasta datamäärästä, HBase on ihanteellinen valinta, koska kyselyn hakuaika on lyhyempi. Suurin osa online-analytiikkasovelluksista käyttää HBasea.

Perinteiset relaatiotietomallit eivät täytä erittäin suurten tietokantojen suorituskykyvaatimuksia. Apache HBase voi voittaa nämä suorituskyky- ja käsittelyrajoitukset.

Apache HBase -ominaisuudet

  • HBase on rakennettu alhaisen latenssin toimintoihin
  • HBasea käytetään laajasti satunnaisiin luku- ja kirjoitustoimintoihin
  • HBase tallentaa suuren määrän dataa taulukoiden muodossa
  • Tarjoaa lineaarisen ja modulaarisen skaalautuvuuden klusteriympäristössä
  • Täysin johdonmukainen luku- ja kirjoitustoimintoihin
  • Automaattinen ja konfiguroitava taulukoiden sirpalointi
  • Automaattinen vikasietotuki aluepalvelinten välillä
  • Kätevät perusluokat taustalle Hadoop-karttaPienennä työpaikkoja HBase-taulukoissa
  • Helppo käyttää Java API asiakaskäyttöön
  • Estä välimuisti ja Bloom-suodattimet reaaliaikaisia ​​kyselyitä varten
  • Kyselypredikaatti työntyy alas palvelinpuolen suodattimien kautta.

NoSQL-tietokantojen merkitys Hadoopissa

Big datan analytiikassa Hadoop on tärkeä rooli tyypillisten liiketoimintaongelmien ratkaisemisessa hallitsemalla suuria tietojoukkoja ja tarjoaa parhaat ratkaisut analytiikan alalla.

Hadoop-ekosysteemissä jokaisella komponentilla on ainutlaatuinen roolinsa

  • Tietojenkäsittely
  • Tietojen validointi
  • Tietojen tallennus

Relaatiotietokannat ovat vähemmän hyödyllisiä jäsentämättömän, puolistrukturoidun tiedon tallennuksen ja tällaisten tietojen haun kannalta. Myös tulosten noutaminen käyttämällä kyselyä Hadoop-tallennustilaan tallennettuihin valtaviin tietokokonaisuuksiin on haastava tehtävä. NoSQL-tallennusteknologiat tarjoavat parhaan ratkaisun valtavien tietojoukkojen nopeampaan kyselyyn.

Muut NoSQL-tallennustyypit Tietokannat

Jotkut markkinoilla olevista NoSQL-malleista ovat Cassandra, MongoDBja CouchDB. Jokaisella näistä malleista on erilaisia ​​säilytysmenetelmiä.

Esimerkiksi MongoDB on dokumenttipohjainen tietokanta NoSQL-sukupuusta. Perinteisiin tietokantoihin verrattuna se tarjoaa parhaat ominaisuudet suorituskyvyn, saatavuuden ja skaalautuvuuden suhteen. Se on avoimen lähdekoodin dokumenttipohjainen tietokanta, ja se on kirjoitettu sisään C++.

Cassandra on myös avoimen lähdekoodin Apache-ohjelmiston hajautettu tietokanta, joka on suunniteltu käsittelemään valtavaa määrää hyödykepalvelimille tallennettua dataa. Cassandra tarjoaa korkean käytettävyyden ilman yhtä vikakohtaa.

Vaikka CouchDB on dokumenttisuuntautunut tietokanta, jossa jokainen dokumenttikenttä on tallennettu avainarvokarttoihin.

Miten HBase eroaa muista NoSQL-malleista

HBase-tallennusmalli eroaa muista yllä käsitellyistä NoSQL-malleista. Tämä voidaan ilmaista seuraavasti.

  • HBase tallentaa tiedot avain/arvo-parien muodossa sarakemalliin. Tässä mallissa kaikki sarakkeet on ryhmitelty sarakeperheiksi.
  • HBase tarjoaa joustavan tietomallin ja alhaisen viiveen pääsyn pieniin tietomääriin, jotka on tallennettu suuriin tietojoukkoon.
  • Hadoopin päällä oleva HBase lisää hajautetun klusterin kokoonpanon suorituskykyä ja suorituskykyä. Se puolestaan ​​tarjoaa nopeammat satunnaiset luku- ja kirjoitustoiminnot.

Mikä NoSQL-tietokanta valita?

MongoDB, CouchDBja Cassandra ovat NoSQL-tyyppisiä tietokantoja, jotka ovat ominaisuuskohtaisia ​​ja joita käytetään heidän liiketoimintatarpeidensa mukaan. Täällä olemme listanneet erilaisia ​​NoSQL-tietokantoja niiden käyttötapauksen mukaan.

Tietokannan tyyppi Perustuu ominaisuuteen Esimerkki tietokannasta Käyttötapaus (milloin käyttää)
Avain/arvo Redis, MemcacheDB Välimuisti, jonotus, tiedon jakaminen
Sarakesuuntainen Cassandra, HBase Skaalaus, pysyminen rakenteettomana, haihtumaton
Dokumenttisuuntautunut MongoDB, Couchbase Sisäkkäiset tiedot, JavaKäsikirjoitusystävällinen
Kaaviopohjainen OrientDB, Neo4J Monimutkaisen relaatiotiedon käsittely. Mallintamisen ja käsittelyn luokitus.

HBase vs. Pesä

Ominaisuudet HBase Hive
Tietokannan malli Wide Column -myymälä Relaatiotietokantajärjestelmä
Data Schema Kaaviovapaa Scheman kanssa
SQL-tuki Ei Kyllä, se käyttää HQL:ää (Hive-kyselykieli)
Ositusmenetelmät Sharding Sharding
Johdonmukaisuustaso Välitön johdonmukaisuus Lopullinen johdonmukaisuus
Toissijaiset indeksit Ei Kyllä
Replikointimenetelmät Valittavissa oleva replikointitekijä Valittavissa oleva replikointitekijä

HBase vs. RDBMS

Verrattaessa HBasea perinteisiin relaatiotietokantoihin meidän on otettava huomioon kolme avainaluetta. Näitä ovat tietomalli, tiedon tallennus ja tiedon monimuotoisuus.

HBASE RDBMS
  • Kaavioton tietokannassa
  • Kiinteä skeema tietokannassa
  • Sarakepohjaiset tietokannat
  • Rivisuuntautunut tietovarasto
  • Suunniteltu tallentamaan denormalisoituja tietoja
  • Suunniteltu tallentamaan normalisoituja tietoja
  • HBasessa on leveitä ja harvaan asuttuja pöytiä
  • Sisältää ohuita taulukoita tietokannassa
  • Tukee automaattista osiointia
  • Ei sisällä sisäänrakennettua tukea osiointiin
  • Sopii hyvin OLAP-järjestelmiin
  • Sopii hyvin OLTP-järjestelmiin
  • Lue vain oleelliset tiedot tietokannasta
  • Hae yksi rivi kerrallaan ja voi siten lukea tarpeettomia tietoja, jos vain osa rivin tiedoista vaaditaan
  • Strukturoitua ja puolirakenteista dataa voidaan tallentaa ja käsitellä HBasen avulla
  • Strukturoitua dataa voidaan tallentaa ja käsitellä RDBMS:n avulla
  • Mahdollistaa useiden rivien ja sarakkeiden yhdistämisen
  • Yhdistäminen on kallis toimenpide

Yhteenveto

HBase tarjoaa ainutlaatuisia ominaisuuksia ja ratkaisee tyypilliset teolliset käyttötapaukset. Sarakekohtaisena tallennustilana se tarjoaa nopean kyselyn, tulosten haun ja suuren määrän tallennustilaa. Tämä kurssi on täydellinen vaiheittainen johdatus HBaseen.