HBase Tutorial for begyndere: Hvad er HBase? Lær på 3 dage!

HBase Selvstudieoversigt

Hbase er et kolonneorienteret databasestyringssystem, der kører oven på HDFS (Hadoop Distributed File System). I denne HBase-tutorial for begyndere lærer du Apache HBase-grundlæggende og avancerede koncepter. Dette HBase-kursus indeholder alt det grundlæggende i HBase fra introduktion, installation, arkitektur til avancerede ting.

Hvad er HBase?

HBase er et open source, kolonneorienteret distribueret databasesystem i en Hadoop miljø. I starten var det Google Big Table, bagefter; den blev omdøbt til HBase og er primært skrevet i Java.  Apache HBase er nødvendig for real-time Big Data-applikationer.

HBase kan gemme enorme mængder data fra terabyte til petabyte. Tabellerne i HBase består af milliarder af rækker med millioner af kolonner. HBase er bygget til operationer med lav latency, som har nogle specifikke funktioner sammenlignet med traditionelle relationelle modeller.

HBase uddannelsespensum

Her er, hvad vi dækker i denne Apache HBase Training Guide

👍 Lesspå 1 Architecture af HBase — HBase Architecture, komponenter og datamodel
👍 Lesspå 2 HBase installation — HBase Installation til Ubuntu
👍 Lesspå 3 HBase Shell-kommandoer — Lær med eksempel
👍 Lesspå 4 HBase Opret tabel — Trin til at oprette en tabel i HBase ved hjælp af Java API
👍 Lesspå 5 Indsæt og hent data i HBase — get(), put(), scan() Eksempler
👍 Lesspå 6 Ydeevne flaskehalse i HBase — HBase fordel og begrænsninger
👍 Lesspå 7 Hbase interviewspørgsmål — Top 30 Hbase-interviewspørgsmål og -svar

Hvad vil du lære i denne HBase-tutorial for begyndere?

I denne HBase-tutorial for begyndere vil du lære, hvad Apache HBase er Architecture of HBase, hvordan man installerer HBase, trin til at oprette en tabel i HBase, HBase Advantage og begrænsninger osv.

Hvorfor vælge HBase?

En tabel til en populær webapplikation kan bestå af milliarder af rækker. Hvis vi ønsker at søge i en bestemt række fra en så stor mængde data, er HBase det ideelle valg, da forespørgselshentetiden er kortere. De fleste af onlineanalyseapplikationerne bruger HBase.

Traditionelle relationelle datamodeller opfylder ikke ydeevnekravene i meget store databaser. Disse ydeevne- og behandlingsbegrænsninger kan overvindes af Apache HBase.

Apache HBase funktioner

  • HBase er bygget til operationer med lav latency
  • HBase bruges i vid udstrækning til tilfældige læse- og skriveoperationer
  • HBase gemmer en stor mængde data i form af tabeller
  • Giver lineær og modulær skalerbarhed over klyngemiljø
  • Strengt konsekvent til læse- og skriveoperationer
  • Automatisk og konfigurerbar skæring af borde
  • Understøtter automatisk failover mellem regionsservere
  • Praktiske basisklasser til opbakning Hadoop MapReduce job i HBase-tabeller
  • Let at bruge Java API til klientadgang
  • Bloker cache og Bloom-filtre til realtidsforespørgsler
  • Forespørgselsprædikat skubber ned via filtre på serversiden.

Vigtigheden af ​​NoSQL-databaser i Hadoop

I big data-analyse, Hadoop spiller en afgørende rolle i løsningen af ​​typiske forretningsproblemer ved at administrere store datasæt og giver de bedste løsninger inden for analysedomænet.

I Hadoop-økosystemet spiller hver komponent sin unikke rolle for

  • Databehandling
  • Data validering
  • Datalagring

Med hensyn til lagring af ustruktureret, semi-struktureret datalagring samt hentning af sådanne data, er relationelle databaser mindre nyttige. Det er også en udfordrende opgave at hente resultater ved at anvende forespørgsler på enorme datasæt, der er gemt i Hadoop-lagring. NoSQL-lagringsteknologier giver den bedste løsning til hurtigere forespørgsler på enorme datasæt.

Andre NoSQL-lagringstype-databaser

Nogle af de NoSQL-modeller, der findes på markedet, er Cassandra, MongoDBog CouchDB. Hver af disse modeller har forskellige måder til opbevaringsmekanisme.

For eksempel: MongoDB er en dokumentorienteret database fra NoSQL-slægtstræet. Sammenlignet med traditionelle databaser giver det de bedste funktioner med hensyn til ydeevne, tilgængelighed og skalerbarhed. Det er en open source dokumentorienteret database, og den er skrevet i C++.

Cassandra er også en distribueret database fra open source Apache-software, som er designet til at håndtere en enorm mængde data, der er lagret på tværs af råvareservere. Cassandra giver høj tilgængelighed uden et enkelt fejlpunkt.

Mens CouchDB er en dokumentorienteret database, hvor hvert dokumentfelt er gemt i nøgleværdikort.

Hvordan adskiller HBase sig fra andre NoSQL-modeller

HBase-lagringsmodel er forskellig fra andre NoSQL-modeller diskuteret ovenfor. Dette kan oplyses som følger.

  • HBase gemmer data i form af nøgle/værdi-par i en søjleformet model. I denne model er alle kolonnerne grupperet sammen som kolonnefamilier.
  • HBase giver en fleksibel datamodel og lav latensadgang til små mængder data gemt i store datasæt.
  • HBase oven på Hadoop vil øge gennemløbet og ydeevnen af ​​distribueret klyngeopsætning. Til gengæld giver det hurtigere tilfældige læse- og skriveoperationer.

Hvilken NoSQL-database skal jeg vælge?

MongoDB, CouchDBog Cassandra er NoSQL-databaser, der er funktionsspecifikke og bruges i henhold til deres forretningsbehov. Her har vi oplistet forskellige NoSQL-databaser i henhold til deres anvendelsestilfælde.

Databasetype baseret på funktion Eksempel på database Use case (hvornår skal bruges)
Nøgle/værdi Redis, MemcacheDB Caching, kø-ing, distribution af information
Søjleorienteret Cassandra, HBase Skalering, holde ustruktureret, ikke-flygtig
Dokumentorienteret MongoDB, Couchbase Indlejret information, JavaManuskriptvenlig
Graf-baseret OrientDB, Neo4J Håndtering af kompleks relationel information. Klassificering af modellering og håndtering.

HBase vs. Hive

Funktionalitet HBase Hive
Database model Bred kolonne butik Relationel DBMS
Dataskema Skemafri Med skema
SQL support Ingen Ja, den bruger HQL (Hive-forespørgselssprog)
Opdelingsmetoder sharding sharding
Konsistensniveau Øjeblikkelig konsistens Begivenhedskonsistens
Sekundære indekser Ingen Ja
Replikationsmetoder Valgbar replikationsfaktor Valgbar replikationsfaktor

HBase vs. RDBMS

Mens vi sammenligner HBase med traditionelle relationelle databaser, er vi nødt til at tage tre nøgleområder i betragtning. Det er datamodel, datalagring og datadiversitet.

HBASE RDBMS
  • Skemafri i databasen
  • Har fast skema i databasen
  • Kolonneorienterede databaser
  • Rækkeorienteret datalager
  • Designet til at gemme de-normaliserede data
  • Designet til at gemme normaliserede data
  • Brede og tyndt befolkede tabeller til stede i HBase
  • Indeholder tynde tabeller i databasen
  • Understøtter automatisk partitionering
  • Har ingen indbygget understøttelse af partitionering
  • Velegnet til OLAP-systemer
  • Velegnet til OLTP-systemer
  • Læs kun relevante data fra databasen
  • Hent en række ad gangen og kan derfor læse unødvendige data, hvis kun nogle af dataene i en række er påkrævet
  • Strukturerede og semistrukturerede data kan lagres og behandles ved hjælp af HBase
  • Strukturerede data kan lagres og behandles ved hjælp af RDBMS
  • Aktiverer aggregering over mange rækker og kolonner
  • Aggregation er en dyr operation

Resumé

HBase giver unikke funktioner og vil løse typiske industrielle brugssager. Som kolonneorienteret lagring giver det hurtig forespørgsel, hentning af resultater og en høj mængde datalagring. Dette kursus er en komplet trin-for-trin introduktion til HBase.