HBase-opplæring for nybegynnere: Hva er HBase? Lær på 3 dager!
Oppsummering av HBase veiledning
Hbase er et kolonneorientert databasestyringssystem som kjører på toppen av HDFS (Hadoop Distributed File System). I denne HBase-opplæringen for nybegynnere vil du lære Apache HBase grunnleggende og avanserte konsepter. Dette HBase-kurset inneholder alt det grunnleggende om HBase fra introduksjon, installasjon, arkitektur til avanserte ting.
Hva er HBase?
HBase er et åpen kildekode, kolonneorientert distribuert databasesystem i en Hadoop miljø. I utgangspunktet var det Google Big Table, etterpå; den ble omdøpt til HBase og er først og fremst skrevet i Java. Apache HBase er nødvendig for sanntids Big Data-applikasjoner.
HBase kan lagre enorme mengder data fra terabyte til petabyte. Tabellene i HBase består av milliarder av rader med millioner av kolonner. HBase er bygget for operasjoner med lav latens, som har noen spesifikke funksjoner sammenlignet med tradisjonelle relasjonsmodeller.
HBase Treningspensum
Her er hva vi dekker i denne Apache HBase Training Guide
👉 Lesspå 1 | Architecture av HBase — HBase Architecture, komponenter og datamodell |
👉 Lesspå 2 | HBase installasjon — HBase Installasjon på Ubuntu |
👉 Lesspå 3 | HBase Shell-kommandoer — Lær med eksempel |
👉 Lesspå 4 | HBase Opprett tabell — Trinn for å lage en tabell i HBase ved hjelp av Java API |
👉 Lesspå 5 | Sett inn og hent data i HBase — get(), put(), scan() Eksempler |
👉 Lesspå 6 | Ytelsesflaskehalser i HBase — HBase fordel og begrensninger |
👉 Lesspå 7 | Hbase intervjuspørsmål — Topp 30 Hbase-intervjuspørsmål og -svar |
Hva vil du lære i denne HBase-opplæringen for nybegynnere?
I denne HBase-opplæringen for nybegynnere vil du lære hva Apache HBase er Architecture of HBase, Hvordan installere HBase, Trinn for å lage en tabell i HBase, HBase Advantage and Limitations, etc.
Hvorfor velge HBase?
En tabell for en populær nettapplikasjon kan bestå av milliarder av rader. Hvis vi ønsker å søke i en bestemt rad fra en så stor mengde data, er HBase det ideelle valget ettersom hentetiden for spørringen er kortere. De fleste online analyseapplikasjoner bruker HBase.
Tradisjonelle relasjonsdatamodeller oppfyller ikke ytelseskravene til veldig store databaser. Disse ytelses- og prosessbegrensningene kan overvinnes av Apache HBase.
Apache HBase-funksjoner
- HBase er bygget for operasjoner med lav latens
- HBase brukes mye for tilfeldige lese- og skriveoperasjoner
- HBase lagrer en stor mengde data når det gjelder tabeller
- Gir lineær og modulær skalerbarhet over klyngemiljø
- Strengt konsekvente lese- og skriveoperasjoner
- Automatisk og konfigurerbar skjæring av bord
- Automatisk failover-støtte mellom regionservere
- Praktiske basisklasser for backing Hadoop MapReduce jobber i HBase-tabeller
- Lett å bruke Java API for klienttilgang
- Blokker cache og Bloom-filtre for sanntidsspørringer
- Spørringspredikat skyver ned via filtre på serversiden.
Viktigheten av NoSQL-databaser i Hadoop
I big data-analyse, Hadoop spiller en viktig rolle i å løse typiske forretningsproblemer ved å administrere store datasett og gir de beste løsningene innen analysedomenet.
I Hadoop-økosystemet spiller hver komponent sin unike rolle for
-
Databehandling
-
Datavalidering
-
Datalagring
Når det gjelder lagring av ustrukturert, semi-strukturert datalagring samt henting av slike data, er relasjonsdatabaser mindre nyttige. Det er også en utfordrende oppgave å hente resultater ved å bruke spørring på enorme datasett som er lagret i Hadoop-lagring. NoSQL-lagringsteknologier gir den beste løsningen for raskere spørring på enorme datasett.
Andre NoSQL-lagringstype-databaser
Noen av NoSQL-modellene som finnes på markedet er Cassandra, MongoDBog CouchDB. Hver av disse modellene har forskjellige måter for lagringsmekanisme.
For eksempel, MongoDB er en dokumentorientert database fra NoSQL-slektstreet. Sammenlignet med tradisjonelle databaser gir den de beste funksjonene når det gjelder ytelse, tilgjengelighet og skalerbarhet. Det er en åpen kildekode dokumentorientert database, og den er skrevet inn C++.
Cassandra er også en distribuert database fra åpen kildekode Apache-programvare som er designet for å håndtere en enorm mengde data lagret på tvers av vareservere. Cassandra gir høy tilgjengelighet uten et enkelt feilpunkt.
Samtidig som CouchDB er en dokumentorientert database der hvert dokumentfelt er lagret i nøkkelverdikart.
Hvordan er HBase forskjellig fra andre NoSQL-modeller
HBase-lagringsmodellen er forskjellig fra andre NoSQL-modeller diskutert ovenfor. Dette kan opplyses som følger.
-
HBase lagrer data i form av nøkkel/verdi-par i en kolonnemodell. I denne modellen er alle kolonnene gruppert sammen som kolonnefamilier.
-
HBase gir en fleksibel datamodell og lav latenstilgang til små mengder data lagret i store datasett.
-
HBase på toppen av Hadoop vil øke gjennomstrømningen og ytelsen til distribuert klyngeoppsett. I sin tur gir den raskere tilfeldige lese- og skriveoperasjoner.
Hvilken NoSQL-database å velge?
MongoDB, CouchDBog Cassandra er NoSQL-databaser som er funksjonsspesifikke og brukes i henhold til deres forretningsbehov. Her har vi listet opp forskjellige NoSQL-databaser i henhold til deres brukstilfelle.
Databasetype basert på funksjon | Eksempel på database | Brukstilfelle (når skal brukes) |
---|---|---|
Nøkkel/verdi | Redis, MemcacheDB | Bufring, kø-ing, distribuere informasjon |
Kolonneorientert | Cassandra, HBase | Skalering, holde ustrukturert, ikke-flyktig |
Dokumentorientert | MongoDB, Couchbase | Nestet informasjon, JavaSkriptvennlig |
Grafbasert | OrientDB, Neo4J | Håndtering av kompleks relasjonsinformasjon. Klassifisering av modellering og håndtering. |
HBase vs. Hive
Funksjoner | HBase | Hive |
---|---|---|
Databasemodell | Bred kolonne butikk | Relasjonell DBMS |
Dataskjema | Skjemafri | Med skjema |
SQL-støtte | Nei | Ja, den bruker HQL (Hive query language) |
Partisjonsmetoder | Sharding | Sharding |
Konsistensnivå | Umiddelbar konsistens | Eventuell konsistens |
Sekundære indekser | Nei | Ja |
Replikeringsmetoder | Valgbar replikeringsfaktor | Valgbar replikeringsfaktor |
HBase vs. RDBMS
Mens vi sammenligner HBase med tradisjonelle relasjonsdatabaser, må vi ta tre nøkkelområder i betraktning. Disse er datamodeller, datalagring og datamangfold.
HBASE | RDBMS |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sammendrag
HBase gir unike funksjoner og vil løse typiske industrielle brukssaker. Som kolonneorientert lagring gir den rask spørring, henting av resultater og en høy mengde datalagring. Dette kurset er en komplett trinn-for-trinn-introduksjon til HBase.