Урок за HBase за начинаещи: Какво е HBase? Научете за 3 дни!
Резюме на урока за HBase
Hbase е система за управление на база данни, ориентирана към колони, която работи върху HDFS (разпределена файлова система Hadoop). В този урок за HBase за начинаещи ще научите основите на Apache HBase и разширените концепции. Този курс по HBase съдържа всички основи на HBase от въведение, инсталиране, архитектура до неща за напреднали.
Какво е HBase?
HBase е система с отворен код, ориентирана към колони разпределена база данни в a Hadoop среда. Първоначално беше Google Big Table, след това; той беше преименуван на HBase и е написан предимно на Java. Apache HBase е необходим за приложения с големи данни в реално време.
HBase може да съхранява огромни количества данни от терабайти до петабайти. Таблиците в HBase се състоят от милиарди редове с милиони колони. HBase е създаден за операции с ниска латентност, което има някои специфични характеристики в сравнение с традиционните релационни модели.
Учебна програма за HBase
Ето какво разглеждаме в това ръководство за обучение на Apache HBase
👉 Lessна 1 | Archiструктура на HBase — HBase Archiструктура, компоненти и модел на данни |
👉 Lessна 2 | Инсталиране на HBase — Инсталиране на HBase включено Ubuntu |
👉 Lessна 3 | Команди на HBase Shell - Учете с пример |
👉 Lessна 4 | HBase Създаване на таблица — Стъпки за създаване на таблица в HBase с помощта на Java API |
👉 Lessна 5 | Вмъкване и извличане на данни в HBase — get(), put(), scan() Примери |
👉 Lessна 6 | Тесни места в производителността в HBase — Предимства и ограничения на HBase |
👉 Lessна 7 | Въпроси за интервю за Hbase — Топ 30 на въпросите и отговорите за Hbase интервю |
Какво ще научите в този урок за HBase за начинаещи?
В този урок за HBase за начинаещи ще научите какво е Apache HBase, Archiструктура на HBase, Как да инсталирате HBase, Стъпки за създаване на таблица в HBase, Предимства и ограничения на HBase и др.
Защо да изберете HBase?
Една таблица за популярно уеб приложение може да се състои от милиарди редове. Ако искаме да търсим конкретен ред от такова огромно количество данни, HBase е идеалният избор, тъй като времето за извличане на заявка е по-малко. Повечето приложения за онлайн анализи използват HBase.
Традиционните релационни модели на данни не успяват да отговорят на изискванията за производителност на много големи бази данни. Тези ограничения на производителността и обработката могат да бъдат преодолени от Apache HBase.
Функции на Apache HBase
- HBase е създаден за операции с ниска латентност
- HBase се използва широко за произволни операции за четене и запис
- HBase съхранява голямо количество данни по отношение на таблици
- Осигурява линейна и модулна мащабируемост над клъстерна среда
- Строго съгласувани операции за четене и запис
- Автоматично и конфигурируемо шардинг на таблици
- Поддържа се автоматичен отказ между регионалните сървъри
- Удобни базови класове за поддръжка Hadoop MapReduce работни места в HBase таблици
- Лесен за използване Java API за клиентски достъп
- Блокирайте кеша и Bloom Filters за заявки в реално време
- Предикатът на заявката се натиска надолу чрез филтри от страна на сървъра.
Значение на NoSQL базите данни в Hadoop
В анализа на големи данни, Hadoop играе жизненоважна роля при решаването на типични бизнес проблеми чрез управление на големи масиви от данни и дава най-добрите решения в областта на анализа.
В екосистемата Hadoop всеки компонент играе своята уникална роля за
-
Обработка на данни
-
Потвърждаване на данни
-
Съхраняване на данни
По отношение на съхранението на неструктурирани, полуструктурирани данни, както и извличането на такива данни, релационните бази данни са по-малко полезни. Освен това извличането на резултати чрез прилагане на заявка към огромни набори от данни, които се съхраняват в хранилището на Hadoop, е предизвикателна задача. Технологиите за съхранение NoSQL осигуряват най-доброто решение за по-бързи заявки за огромни набори от данни.
Други бази данни от тип съхранение NoSQL
Някои от моделите NoSQL, присъстващи на пазара, са Cassandra, MongoDB, и CouchDB. Всеки от тези модели има различни начини на механизъм за съхранение.
Например, MongoDB е ориентирана към документи база данни от родословното дърво на NoSQL. В сравнение с традиционните бази данни, той предоставя най-добрите характеристики по отношение на производителност, достъпност и мащабируемост. Това е база данни с отворен код, ориентирана към документи и е написана C++.
Cassandra също е разпределена база данни от софтуер с отворен код Apache, който е проектиран да обработва огромно количество данни, съхранявани в стокови сървъри. Cassandra осигурява висока наличност без нито една точка на отказ.
Докато CouchDB е ориентирана към документи база данни, в която полетата на всеки документ се съхраняват в карти ключ-стойност.
Как се различава HBase от другите NoSQL модели
Моделът за съхранение на HBase е различен от другите NoSQL модели, обсъдени по-горе. Това може да се изрази по следния начин.
-
HBase съхранява данни под формата на двойки ключ/стойност в колонен модел. В този модел всички колони са групирани заедно като семейства колони.
-
HBase предоставя гъвкав модел на данни и достъп с ниска латентност до малки количества данни, съхранявани в големи набори от данни.
-
HBase върху Hadoop ще увеличи пропускателната способност и производителността на настройката на разпределен клъстер. На свой ред осигурява по-бързи произволни операции за четене и запис.
Коя NoSQL база данни да избера?
MongoDB, CouchDB, и Cassandra са бази данни тип NoSQL, които са специфични за функциите и се използват според техните бизнес нужди. Тук сме изброили различни NoSQL бази данни според техния случай на използване.
Тип база данни въз основа на функция | Пример за база данни | Случай на употреба (кога да се използва) |
---|---|---|
Ключ/ Стойност | Redis, MemcacheDB | Кеширане, опашка, разпространение на информация |
Ориентиран към колони | Cassandra, HBase | Мащабиране, запазване на неструктуриран, енергонезависим |
Ориентиран към документи | MongoDB, диван | Вложена информация, JavaУдобен за скрипт |
Базиран на графики | OrientDB, Neo4J | Работа със сложна релационна информация. Класификация за моделиране и обработка. |
HBase срещу. Кошер
Характеристики: | HBase | Кошер |
---|---|---|
Модел на база данни | Широк колонен магазин | Релационни СУБД |
Схема на данните | Схема-безплатна | Със схема |
Поддръжка на SQL | Не | Да, използва HQL (език за заявки Hive) |
Методи за разделяне | Sharding | Sharding |
Ниво на последователност | Незабавна консистенция | Последователност на събитията |
Вторични индекси | Не | Да |
Методи за репликация | Избираем фактор на репликация | Избираем фактор на репликация |
HBase срещу. RDBMS
Докато сравняваме HBase с традиционните релационни бази данни, трябва да вземем под внимание три ключови области. Това са модел на данни, съхранение на данни и разнообразие на данни.
HBASE | RDBMS |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Oбобщение
HBase предоставя уникални функции и ще реши типични случаи на индустриална употреба. Като хранилище, ориентирано към колони, то осигурява бързи заявки, извличане на резултати и голямо количество съхранение на данни. Този курс е пълно въведение стъпка по стъпка в HBase.