HBase-zelfstudie voor beginners: wat is HBase? Leer in 3 dagen!
Samenvatting van de HBase-zelfstudie
Hbase is een kolomgeoriënteerd databasebeheersysteem dat draait op HDFS (Hadoop Distributed File System). In deze HBase-zelfstudie voor beginners leert u de basisbeginselen en geavanceerde concepten van Apache HBase. Deze HBase-cursus bevat alle HBase-beginselen van introductie, installatie, architectuur tot geavanceerde zaken.
Wat is HBase?
HBase is een open-source, kolomgeoriënteerd gedistribueerd databasesysteem in a Hadoop omgeving. Aanvankelijk was het Google Big Table, daarna werd het omgedoopt tot HBase en is het voornamelijk geschreven in Java. apache HBase is nodig voor realtime Big Data-toepassingen.
HBase kan enorme hoeveelheden data opslaan van terabytes tot petabytes. De tabellen in HBase bestaan uit miljarden rijen met miljoenen kolommen. HBase is gebouwd voor low latency-bewerkingen, wat een aantal specifieke kenmerken heeft vergeleken met traditionele relationele modellen.
HBase-trainingssyllabus
Dit is wat we behandelen in deze Apache HBase Training Guide
👉 Lessop 1 | Archistructuur van HBase — HBase Archistructuur, componenten en gegevensmodel |
👉 Lessop 2 | HBase-installatie — HBase-installatie ingeschakeld Ubuntu |
👉 Lessop 3 | HBase Shell-opdrachten - Leer met voorbeeld |
👉 Lessop 4 | HBase Tabel maken — Stappen om een tabel in HBase te maken met behulp van Java API |
👉 Lessop 5 | Gegevens invoegen en ophalen in HBase — get(), put(), scan() Voorbeelden |
👉 Lessop 6 | Prestatieknelpunten in HBase — HBase-voordeel en -beperkingen |
👉 Lessop 7 | Hbase-interviewvragen — Top 30 Hbase-interviewvragen en -antwoorden |
Wat ga je leren in deze HBase-tutorial voor beginners?
In deze HBase-tutorial voor beginners leert u wat Apache HBase is, de Architectuur van HBase, Hoe HBase te installeren, Stappen om een tabel in HBase te maken, HBase Voordeel en Beperkingen, enz.
Waarom kiezen voor HBase?
Een tabel voor een populaire webapplicatie kan bestaan uit miljarden rijen. Als we een bepaalde rij uit zo'n enorme hoeveelheid data willen doorzoeken, is HBase de ideale keuze, omdat de query fetch time korter is. De meeste online analytics-applicaties gebruiken HBase.
Traditionele relationele datamodellen voldoen niet aan de prestatie-eisen van zeer grote databases. Deze prestatie- en verwerkingsbeperkingen kunnen worden overwonnen door Apache HBase.
Apache HBase-functies
- HBase is gebouwd voor bewerkingen met een lage latentie
- HBase wordt op grote schaal gebruikt voor willekeurige lees- en schrijfbewerkingen
- HBase slaat een grote hoeveelheid gegevens op in de vorm van tabellen
- Biedt lineaire en modulaire schaalbaarheid via clusteromgevingen
- Strikt consistent met lees- en schrijfbewerkingen
- Automatische en configureerbare sharding van tabellen
- Automatische failover ondersteunt tussen regioservers
- Handige basisklassen voor backing Hadoop-kaartVerminderen taken in HBase-tabellen
- Makkelijk te gebruiken Java API voor clienttoegang
- Blokkeer cache en Bloom Filters voor real-time queries
- Het querypredicaat wordt naar beneden gedrukt via filters aan de serverzijde.
Het belang van NoSQL-databases in Hadoop
Bij big data-analyse is Hadoop speelt een cruciale rol bij het oplossen van typische bedrijfsproblemen door grote datasets te beheren en biedt de beste oplossingen op het gebied van analyse.
In het Hadoop-ecosysteem speelt elk onderdeel zijn eigen unieke rol voor de
-
Gegevensverwerking
-
Gegevensvalidatie
-
Gegevens opslaan
In termen van het opslaan van ongestructureerde, semi-gestructureerde gegevensopslag en het ophalen van dergelijke gegevens zijn relationele databases minder nuttig. Ook het ophalen van resultaten door zoekopdrachten toe te passen op enorme datasets die zijn opgeslagen in Hadoop-opslag is een uitdagende taak. NoSQL-opslagtechnologieën bieden de beste oplossing voor snellere query's op enorme datasets.
Andere NoSQL-opslagtype Databases
Sommige van de NoSQL-modellen die op de markt aanwezig zijn, zijn dat wel Cassandra, MongoDBen CouchDB. Elk van deze modellen heeft verschillende manieren van opslagmechanisme.
Bijvoorbeeld MongoDB is een documentgeoriënteerde database uit de NoSQL-stamboom. Vergeleken met traditionele databases biedt het de beste functies op het gebied van prestaties, beschikbaarheid en schaalbaarheid. Het is een open-source documentgeoriënteerde database en er is in geschreven C++.
Cassandra is ook een gedistribueerde database van open-source Apache-software die is ontworpen om een enorme hoeveelheid gegevens te verwerken die zijn opgeslagen op standaardservers. Cassandra biedt hoge beschikbaarheid zonder enig storingspunt.
Terwijl CouchDB is een documentgeoriënteerde database waarin elk documentveld wordt opgeslagen in sleutelwaardekaarten.
Waarin verschilt HBase van andere NoSQL-modellen
Het HBase-opslagmodel verschilt van andere NoSQL-modellen die hierboven zijn besproken. Dit kan als volgt worden vermeld.
-
HBase slaat gegevens op in de vorm van sleutel/waarde-paren in een kolommodel. In dit model zijn alle kolommen gegroepeerd als kolomfamilies.
-
HBase biedt een flexibel datamodel en toegang met lage latentie tot kleine hoeveelheden gegevens die zijn opgeslagen in grote datasets.
-
HBase op Hadoop zal de doorvoer en prestaties van een gedistribueerde clusteropstelling verhogen. Op zijn beurt biedt het snellere willekeurige lees- en schrijfbewerkingen.
Welke NoSQL-database moet u kiezen?
MongoDB, CouchDBen Cassandra zijn databases van het NoSQL-type die functiespecifiek zijn en worden gebruikt volgens hun zakelijke behoeften. Hier hebben we verschillende NoSQL-databases vermeld volgens hun gebruiksscenario.
Databasetype gebaseerd op functie | Voorbeeld van database | Gebruiksscenario (wanneer te gebruiken) |
---|---|---|
Sleutel waarde | Redis, MemcacheDB | Caching, wachtrijen, informatie verspreiden |
Kolomgeoriënteerd | Cassandra, HBase | Schalen, ongestructureerd en niet-vluchtig houden |
Documentgericht | MongoDB, Bankbasis | Geneste informatie, JavaScriptvriendelijk |
Op grafieken gebaseerd | OrientDB, Neo4J | Omgaan met complexe relationele informatie. Modelleren en omgaan met classificatie. |
HBase versus. Bijenkorf
Kenmerken | HBase | Bijenkorf |
---|---|---|
DataBase-model | Brede Kolomwinkel | Relationeel DBMS |
Gegevens Schema | Schemavrij | Met Schema |
SQL-ondersteuning | Nee | Ja, het gebruikt HQL (Hive-querytaal) |
Partitiemethoden | sharding | sharding |
Consistentieniveau | Onmiddellijke consistentie | Eventuele consistentie |
Secundaire indexen | Nee | Ja |
Replicatiemethoden | Selecteerbare replicatiefactor | Selecteerbare replicatiefactor |
HBase versus. RDBMS
Bij het vergelijken van HBase met traditionele relationele databases moeten we rekening houden met drie belangrijke gebieden. Dat zijn datamodel, dataopslag en datadiversiteit.
HBASE | RDBMS |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Samenvatting
HBase biedt unieke functies en lost typische industriële gebruiksscenario's op. Als kolomgeoriënteerde opslag biedt het snel opvragen, ophalen van resultaten en een grote hoeveelheid gegevensopslag. Deze cursus is een complete stap-voor-stap introductie tot HBase.