Tutorial HBase pentru începători: Ce este HBase? Învață în 3 zile!
Rezumatul tutorialului HBase
Hbase este un sistem de gestionare a bazelor de date orientat pe coloane care rulează pe HDFS (Hadoop Distributed File System). În acest tutorial HBase pentru începători, veți învăța elementele de bază ale Apache HBase și conceptele avansate. Acest curs HBase conține toate elementele de bază HBase, de la introducere, instalare, arhitectură până la lucruri avansate.
Ce este HBase?
HBase este un sistem de baze de date distribuite, cu sursă deschisă, orientat pe coloane în a Hadoop mediu. Inițial, a fost Google Big Table, apoi; a fost redenumit HBase și este scris în principal în Java. Apache HBase este necesar pentru aplicațiile Big Data în timp real.
HBase poate stoca cantități masive de date de la terabytes la petabytes. Tabelele prezente în HBase constau din miliarde de rânduri cu milioane de coloane. HBase este construit pentru operațiuni cu latență scăzută, care are unele caracteristici specifice în comparație cu modelele relaționale tradiționale.
Programa de instruire HBase
Iată ce acoperim în acest Ghid de instruire Apache HBase
👍 Lesspe 1 | Architectura HBazei — HBase Architectură, componente și model de date |
👍 Lesspe 2 | Instalarea HBase — Instalarea HBase activată Ubuntu |
👍 Lesspe 3 | Comenzi Shell HBase — Învață cu exemplu |
👍 Lesspe 4 | HBase Creați tabel — Pași pentru a crea un tabel în HBase folosind Java API |
👍 Lesspe 5 | Inserați și preluați date în HBase — get(), put(), scan() Exemple |
👍 Lesspe 6 | Blocajele de performanță în HBase — Avantaj și limitări HBase |
👍 Lesspe 7 | Întrebări de interviu Hbase — Top 30 de întrebări și răspunsuri la interviu Hbase |
Ce veți învăța în acest tutorial HBase pentru începători?
În acest tutorial HBase pentru începători, veți afla Ce este Apache HBase, Architectura HBase, Cum se instalează HBase, Pași pentru a crea un tabel în HBase, Avantajele și Limitările HBase etc.
De ce să alegeți HBase?
Un tabel pentru o aplicație web populară poate consta din miliarde de rânduri. Dacă vrem să căutăm un anumit rând dintr-o cantitate atât de mare de date, HBase este alegerea ideală, deoarece timpul de preluare a interogării este mai mic. Majoritatea aplicațiilor de analiză online folosesc HBase.
Modelele tradiționale de date relaționale nu îndeplinesc cerințele de performanță ale bazelor de date foarte mari. Aceste limitări de performanță și procesare pot fi depășite de Apache HBase.
Caracteristici Apache HBase
- HBase este construit pentru operațiuni cu latență scăzută
- HBase este utilizat pe scară largă pentru operațiuni aleatoare de citire și scriere
- HBase stochează o cantitate mare de date sub formă de tabele
- Oferă scalabilitate liniară și modulară în mediul cluster
- Operații de citire și scriere strict consecvente
- Împărțirea automată și configurabilă a tabelelor
- Suport automat de failover între serverele de regiune
- Clase de bază convenabile pentru suport Hadoop MapReduce locuri de muncă în tabelele HBase
- Ușor de folosit Java API pentru accesul clientului
- Blocați memoria cache și filtrele Bloom pentru interogări în timp real
- Predicatul de interogare împinge în jos prin filtre de pe partea serverului.
Importanța bazelor de date NoSQL în Hadoop
În analiza datelor mari, Hadoop joacă un rol vital în rezolvarea problemelor tipice de afaceri prin gestionarea seturilor mari de date și oferă cele mai bune soluții în domeniul analizei.
În ecosistemul Hadoop, fiecare componentă își joacă rolul unic pentru
-
Procesarea datelor
-
Data validarii
-
Stocarea datelor
În ceea ce privește stocarea datelor nestructurate, semi-structurate, precum și regăsirea unor astfel de date, bazele de date relaționale sunt mai puțin utile. De asemenea, obținerea rezultatelor prin aplicarea unei interogări pe seturi uriașe de date care sunt stocate în stocarea Hadoop este o sarcină dificilă. Tehnologiile de stocare NoSQL oferă cea mai bună soluție pentru interogări mai rapide pe seturi de date uriașe.
Alte baze de date de tip NoSQL de stocare
Unele dintre modelele NoSQL prezente pe piață sunt Cassandra, MongoDB și CouchDB. Fiecare dintre aceste modele are moduri diferite de mecanism de stocare.
De exemplu, MongoDB este o bază de date orientată spre documente din arborele genealogic NoSQL. În comparație cu bazele de date tradiționale, oferă cele mai bune caracteristici în ceea ce privește performanța, disponibilitatea și scalabilitatea. Este o bază de date open source orientată spre documente și este scrisă în C++.
Cassandra este, de asemenea, o bază de date distribuită din software-ul Apache open-source, care este proiectat să gestioneze o cantitate imensă de date stocate pe serverele de mărfuri. Cassandra oferă o disponibilitate ridicată, fără un singur punct de defecțiune.
In timp ce CouchDB este o bază de date orientată pe documente în care fiecare câmp de document este stocat în hărți cheie-valoare.
Cum este HBase diferit de alte modele NoSQL
Modelul de stocare HBase este diferit de alte modele NoSQL discutate mai sus. Acest lucru poate fi afirmat după cum urmează.
-
HBase stochează datele sub formă de perechi cheie/valoare într-un model de coloană. În acest model, toate coloanele sunt grupate împreună ca familii de coloane.
-
HBase oferă un model de date flexibil și acces cu latență redusă la cantități mici de date stocate în seturi mari de date.
-
HBase pe lângă Hadoop va crește debitul și performanța configurației clusterului distribuit. La rândul său, oferă operații de citire și scriere aleatoare mai rapide.
Ce bază de date NoSQL să alegeți?
MongoDB, CouchDB și Cassandra sunt baze de date de tip NoSQL care sunt specifice caracteristicilor și sunt utilizate în funcție de nevoile lor de afaceri. Aici, am enumerat diferite baze de date NoSQL în funcție de cazul lor de utilizare.
Tipul bazei de date bazat pe caracteristică | Exemplu de bază de date | Caz de utilizare (Când se utilizează) |
---|---|---|
Valoare cheie | Redis, MemcacheDB | Memorarea în cache, punerea în coadă, distribuirea informațiilor |
Orientat pe coloană | Cassandra, HBază | Scalare, menținere nestructurată, nevolatilă |
Orientat pe document | MongoDB, Couchbase | Informații imbricate, JavaScript prietenos |
Bazat pe grafic | OrientDB, Neo4J | Manipularea informațiilor relaționale complexe. Clasificarea modelării și manipularii. |
HBase vs. Stup
Categorii | HBase | Stup |
---|---|---|
Modelul bazei de date | Magazin Wide Column | SGBD relațional |
Schema de date | Fără schemă | Cu Schema |
Suport SQL | Nu | Da, folosește HQL (hive query language) |
Metode de partiție | Sharding | Sharding |
Nivel de consecvență | Consecvență imediată | Consecvență eventuală |
Indici secundari | Nu | Da |
Metode de replicare | Factor de replicare selectabil | Factor de replicare selectabil |
HBase vs. RDBMS
În timp ce comparăm HBase cu bazele de date tradiționale relaționale, trebuie să luăm în considerare trei domenii cheie. Acestea sunt modelul de date, stocarea datelor și diversitatea datelor.
HBASE | RDBMS |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Rezumat
HBase oferă caracteristici unice și va rezolva cazurile de utilizare industriale tipice. Ca stocare orientată pe coloane, oferă interogare rapidă, preluare a rezultatelor și o cantitate mare de stocare a datelor. Acest curs este o introducere completă pas cu pas la HBase.