Výukový program HBase pro začátečníky: Co je HBase? Naučte se za 3 dny!

Shrnutí výukového programu HBase

Hbase je sloupcový systém správy databází, který běží nad HDFS (Hadoop Distributed File System). V tomto tutoriálu HBase pro začátečníky se naučíte základy a pokročilé koncepty Apache HBase. Tento kurz HBase obsahuje všechny základy HBase od úvodu, instalace, architektury až po pokročilé věci.

Co je HBase?

HBase je open-source, sloupcově orientovaný distribuovaný databázový systém v a Hadoop prostředí. Zpočátku to byl Google Big Table, později; byl přejmenován na HBase a je primárně napsán v Java.  Apache HBase je potřeba pro aplikace Big Data v reálném čase.

HBase může ukládat obrovské množství dat od terabajtů po petabajty. Tabulky přítomné v HBase se skládají z miliard řádků s miliony sloupců. HBase je vytvořen pro operace s nízkou latencí, což má ve srovnání s tradičními relačními modely některé specifické vlastnosti.

Sylabus školení HBase

Zde je to, co pokrýváme v této příručce pro školení Apache HBase

👍 Lessna 1 Architecture HBase — HBase Architecture, Components, and Data Model
👍 Lessna 2 Instalace HBase — Instalace HBase zapnuta Ubuntu
👍 Lessna 3 Příkazy prostředí HBase — Učte se příkladem
👍 Lessna 4 Vytvořit tabulku HBase — Kroky k vytvoření tabulky v HBase pomocí Java API
👍 Lessna 5 Vkládání a načítání dat v HBase — get(), put(), scan() Příklady
👍 Lessna 6 Úzká místa výkonu v HBase — Výhody a omezení HBase
👍 Lessna 7 Otázky k pohovoru Hbase — 30 ​​nejlepších otázek a odpovědí v rámci rozhovoru s Hbase

Co se naučíte v tomto kurzu HBase pro začátečníky?

V tomto tutoriálu HBase pro začátečníky se dozvíte, co je Apache HBase Architecture HBase, Jak nainstalovat HBase, Kroky k vytvoření tabulky v HBase, HBase Advantage and Limitations atd.

Proč zvolit HBase?

Tabulka pro populární webovou aplikaci se může skládat z miliard řádků. Pokud chceme prohledat konkrétní řádek z tak obrovského množství dat, HBase je ideální volbou, protože doba načítání dotazu je kratší. Většina online analytických aplikací používá HBase.

Tradiční relační datové modely nesplňují požadavky na výkon velmi velkých databází. Tato omezení výkonu a zpracování může Apache HBase překonat.

Vlastnosti Apache HBase

  • HBase je vytvořen pro operace s nízkou latencí
  • HBase se široce používá pro operace náhodného čtení a zápisu
  • HBase ukládá velké množství dat ve formě tabulek
  • Poskytuje lineární a modulární škálovatelnost v prostředí clusteru
  • Přísně konzistentní pro operace čtení a zápisu
  • Automatické a konfigurovatelné shardování tabulek
  • Podpora automatického převzetí služeb při selhání mezi regionálními servery
  • Pohodlné základní třídy pro podporu Mapa Hadoop Snížit úlohy v tabulkách HBase
  • Snadné použití Java API pro klientský přístup
  • Blokovat mezipaměť a filtry Bloom pro dotazy v reálném čase
  • Predikát dotazu tlačí dolů prostřednictvím filtrů na straně serveru.

Význam NoSQL databází v Hadoopu

V analýze velkých dat, Hadoop hraje zásadní roli při řešení typických obchodních problémů správou velkých souborů dat a poskytuje nejlepší řešení v oblasti analýzy.

V ekosystému Hadoop hraje každá složka svou jedinečnou roli

  • Zpracování dat
  • Ověření dat
  • Ukládání dat

Pokud jde o ukládání nestrukturovaných, polostrukturovaných dat, stejně jako vyhledávání takových dat, jsou relační databáze méně užitečné. Také načítání výsledků pomocí dotazu na obrovské datové sady, které jsou uloženy v úložišti Hadoop, je náročný úkol. Technologie úložiště NoSQL poskytují nejlepší řešení pro rychlejší dotazování na velké datové sady.

Jiné databáze typu úložiště NoSQL

Některé z modelů NoSQL přítomných na trhu jsou Cassandra, MongoDB, a CouchDB. Každý z těchto modelů má různé způsoby mechanismu ukládání.

Například, MongoDB je dokumentově orientovaná databáze z rodokmenu NoSQL. Ve srovnání s tradičními databázemi poskytuje nejlepší funkce z hlediska výkonu, dostupnosti a škálovatelnosti. Je to open source databáze orientovaná na dokumenty a je zapsána C++.

Cassandra je také distribuovaná databáze z open-source softwaru Apache, která je navržena tak, aby zpracovávala obrovské množství dat uložených na komoditních serverech. Cassandra poskytuje vysokou dostupnost bez jediného bodu selhání.

Zatímco CouchDB je databáze orientovaná na dokumenty, ve které jsou jednotlivá pole dokumentu uložena v mapách klíč-hodnota.

Jak se HBase liší od ostatních modelů NoSQL

Model úložiště HBase se liší od ostatních modelů NoSQL diskutovaných výše. To lze konstatovat následovně.

  • HBase ukládá data ve formě párů klíč/hodnota ve sloupcovém modelu. V tomto modelu jsou všechny sloupce seskupeny jako rodiny sloupců.
  • HBase poskytuje flexibilní datový model a přístup s nízkou latencí k malým množstvím dat uloženým ve velkých souborech dat.
  • HBase nad Hadoopem zvýší propustnost a výkon nastavení distribuovaného clusteru. Na druhé straně poskytuje rychlejší náhodné operace čtení a zápisu.

Jakou NoSQL databázi vybrat?

MongoDB, CouchDB, a Cassandra jsou databáze typu NoSQL, které jsou specifické pro funkce a používají se podle jejich obchodních potřeb. Zde jsme uvedli různé databáze NoSQL podle jejich případu použití.

Typ databáze na základě funkce Příklad databáze Případ použití (kdy použít)
Klíč/hodnota Redis, MemcacheDB Ukládání do mezipaměti, řazení do fronty, distribuce informací
Sloupcově orientovaný Cassandra, HBase Škálování, udržování nestrukturovaného, ​​nevolatilního
Orientace na dokumenty MongoDB, Couchbase vnořené informace, JavaSkripta přátelská
Na základě grafu OrientDB, Neo4J Zpracování komplexních relačních informací. Klasifikace modelování a manipulace.

HBase vs. Úl

Funkce HBase Úl
Databázový model Široký sloupcový obchod Relační DBMS
Datové schéma Bez schématu Se schématem
Podpora SQL Ne Ano, používá HQL (Hive dotazovací jazyk)
Rozdělovací metody Stříkání Stříkání
Úroveň konzistence Okamžitá konzistence Případná konzistence
Sekundární indexy Ne Ano
Metody replikace Volitelný faktor replikace Volitelný faktor replikace

HBase vs. RDBMS

Při porovnávání HBase s tradičními relačními databázemi musíme vzít v úvahu tři klíčové oblasti. Jedná se o datový model, datové úložiště a datovou diverzitu.

HBASE RDBMS
  • Bez schématu v databázi
  • Opravené schéma v databázi
  • Sloupcově orientované databáze
  • Řádkově orientované datové úložiště
  • Navrženo pro ukládání denormalizovaných dat
  • Navrženo pro ukládání normalizovaných dat
  • Široké a řídce osídlené tabulky přítomné v HBase
  • Obsahuje tenké tabulky v databázi
  • Podporuje automatické dělení
  • Nemá vestavěnou podporu pro dělení
  • Dobře se hodí pro systémy OLAP
  • Dobře se hodí pro systémy OLTP
  • Číst pouze relevantní data z databáze
  • Načítat jeden řádek po druhém, a proto může číst nepotřebná data, pokud jsou vyžadována pouze některá data v řádku
  • Strukturovaná a semistrukturovaná data lze ukládat a zpracovávat pomocí HBase
  • Strukturovaná data lze ukládat a zpracovávat pomocí RDBMS
  • Umožňuje agregaci přes mnoho řádků a sloupců
  • Agregace je nákladná operace

Shrnutí

HBase poskytuje jedinečné funkce a vyřeší typické případy průmyslového použití. Jako úložiště orientované na sloupce poskytuje rychlé dotazování, načítání výsledků a velké množství úložiště dat. Tento kurz je úplným úvodem do HBase krok za krokem.