Výukový program HBase pro začátečníky: Co je HBase? Naučte se za 3 dny!
Shrnutí výukového programu HBase
Hbase je sloupcový systém správy databází, který běží nad HDFS (Hadoop Distributed File System). V tomto tutoriálu HBase pro začátečníky se naučíte základy a pokročilé koncepty Apache HBase. Tento kurz HBase obsahuje všechny základy HBase od úvodu, instalace, architektury až po pokročilé věci.
Co je HBase?
HBase je open-source, sloupcově orientovaný distribuovaný databázový systém v a Hadoop prostředí. Zpočátku to byl Google Big Table, později; byl přejmenován na HBase a je primárně napsán v Java. Apache HBase je potřeba pro aplikace Big Data v reálném čase.
HBase může ukládat obrovské množství dat od terabajtů po petabajty. Tabulky přítomné v HBase se skládají z miliard řádků s miliony sloupců. HBase je vytvořen pro operace s nízkou latencí, což má ve srovnání s tradičními relačními modely některé specifické vlastnosti.
Sylabus školení HBase
Zde je to, co pokrýváme v této příručce pro školení Apache HBase
👍 Lessna 1 | Architecture HBase — HBase Architecture, Components, and Data Model |
👍 Lessna 2 | Instalace HBase — Instalace HBase zapnuta Ubuntu |
👍 Lessna 3 | Příkazy prostředí HBase — Učte se příkladem |
👍 Lessna 4 | Vytvořit tabulku HBase — Kroky k vytvoření tabulky v HBase pomocí Java API |
👍 Lessna 5 | Vkládání a načítání dat v HBase — get(), put(), scan() Příklady |
👍 Lessna 6 | Úzká místa výkonu v HBase — Výhody a omezení HBase |
👍 Lessna 7 | Otázky k pohovoru Hbase — 30 nejlepších otázek a odpovědí v rámci rozhovoru s Hbase |
Co se naučíte v tomto kurzu HBase pro začátečníky?
V tomto tutoriálu HBase pro začátečníky se dozvíte, co je Apache HBase Architecture HBase, Jak nainstalovat HBase, Kroky k vytvoření tabulky v HBase, HBase Advantage and Limitations atd.
Proč zvolit HBase?
Tabulka pro populární webovou aplikaci se může skládat z miliard řádků. Pokud chceme prohledat konkrétní řádek z tak obrovského množství dat, HBase je ideální volbou, protože doba načítání dotazu je kratší. Většina online analytických aplikací používá HBase.
Tradiční relační datové modely nesplňují požadavky na výkon velmi velkých databází. Tato omezení výkonu a zpracování může Apache HBase překonat.
Vlastnosti Apache HBase
- HBase je vytvořen pro operace s nízkou latencí
- HBase se široce používá pro operace náhodného čtení a zápisu
- HBase ukládá velké množství dat ve formě tabulek
- Poskytuje lineární a modulární škálovatelnost v prostředí clusteru
- Přísně konzistentní pro operace čtení a zápisu
- Automatické a konfigurovatelné shardování tabulek
- Podpora automatického převzetí služeb při selhání mezi regionálními servery
- Pohodlné základní třídy pro podporu Mapa Hadoop Snížit úlohy v tabulkách HBase
- Snadné použití Java API pro klientský přístup
- Blokovat mezipaměť a filtry Bloom pro dotazy v reálném čase
- Predikát dotazu tlačí dolů prostřednictvím filtrů na straně serveru.
Význam NoSQL databází v Hadoopu
V analýze velkých dat, Hadoop hraje zásadní roli při řešení typických obchodních problémů správou velkých souborů dat a poskytuje nejlepší řešení v oblasti analýzy.
V ekosystému Hadoop hraje každá složka svou jedinečnou roli
-
Zpracování dat
-
Ověření dat
-
Ukládání dat
Pokud jde o ukládání nestrukturovaných, polostrukturovaných dat, stejně jako vyhledávání takových dat, jsou relační databáze méně užitečné. Také načítání výsledků pomocí dotazu na obrovské datové sady, které jsou uloženy v úložišti Hadoop, je náročný úkol. Technologie úložiště NoSQL poskytují nejlepší řešení pro rychlejší dotazování na velké datové sady.
Jiné databáze typu úložiště NoSQL
Některé z modelů NoSQL přítomných na trhu jsou Cassandra, MongoDB, a CouchDB. Každý z těchto modelů má různé způsoby mechanismu ukládání.
Například, MongoDB je dokumentově orientovaná databáze z rodokmenu NoSQL. Ve srovnání s tradičními databázemi poskytuje nejlepší funkce z hlediska výkonu, dostupnosti a škálovatelnosti. Je to open source databáze orientovaná na dokumenty a je zapsána C++.
Cassandra je také distribuovaná databáze z open-source softwaru Apache, která je navržena tak, aby zpracovávala obrovské množství dat uložených na komoditních serverech. Cassandra poskytuje vysokou dostupnost bez jediného bodu selhání.
Zatímco CouchDB je databáze orientovaná na dokumenty, ve které jsou jednotlivá pole dokumentu uložena v mapách klíč-hodnota.
Jak se HBase liší od ostatních modelů NoSQL
Model úložiště HBase se liší od ostatních modelů NoSQL diskutovaných výše. To lze konstatovat následovně.
-
HBase ukládá data ve formě párů klíč/hodnota ve sloupcovém modelu. V tomto modelu jsou všechny sloupce seskupeny jako rodiny sloupců.
-
HBase poskytuje flexibilní datový model a přístup s nízkou latencí k malým množstvím dat uloženým ve velkých souborech dat.
-
HBase nad Hadoopem zvýší propustnost a výkon nastavení distribuovaného clusteru. Na druhé straně poskytuje rychlejší náhodné operace čtení a zápisu.
Jakou NoSQL databázi vybrat?
MongoDB, CouchDB, a Cassandra jsou databáze typu NoSQL, které jsou specifické pro funkce a používají se podle jejich obchodních potřeb. Zde jsme uvedli různé databáze NoSQL podle jejich případu použití.
Typ databáze na základě funkce | Příklad databáze | Případ použití (kdy použít) |
---|---|---|
Klíč/hodnota | Redis, MemcacheDB | Ukládání do mezipaměti, řazení do fronty, distribuce informací |
Sloupcově orientovaný | Cassandra, HBase | Škálování, udržování nestrukturovaného, nevolatilního |
Orientace na dokumenty | MongoDB, Couchbase | vnořené informace, JavaSkripta přátelská |
Na základě grafu | OrientDB, Neo4J | Zpracování komplexních relačních informací. Klasifikace modelování a manipulace. |
HBase vs. Úl
Funkce | HBase | Úl |
---|---|---|
Databázový model | Široký sloupcový obchod | Relační DBMS |
Datové schéma | Bez schématu | Se schématem |
Podpora SQL | Ne | Ano, používá HQL (Hive dotazovací jazyk) |
Rozdělovací metody | Stříkání | Stříkání |
Úroveň konzistence | Okamžitá konzistence | Případná konzistence |
Sekundární indexy | Ne | Ano |
Metody replikace | Volitelný faktor replikace | Volitelný faktor replikace |
HBase vs. RDBMS
Při porovnávání HBase s tradičními relačními databázemi musíme vzít v úvahu tři klíčové oblasti. Jedná se o datový model, datové úložiště a datovou diverzitu.
HBASE | RDBMS |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Shrnutí
HBase poskytuje jedinečné funkce a vyřeší typické případy průmyslového použití. Jako úložiště orientované na sloupce poskytuje rychlé dotazování, načítání výsledků a velké množství úložiště dat. Tento kurz je úplným úvodem do HBase krok za krokem.