Урок за HBase за начинаещи: Какво е HBase? Научете за 3 дни!

Резюме на урока за HBase

Hbase е система за управление на база данни, ориентирана към колони, която работи върху HDFS (разпределена файлова система Hadoop). В този урок за HBase за начинаещи ще научите основите на Apache HBase и разширените концепции. Този курс по HBase съдържа всички основи на HBase от въведение, инсталиране, архитектура до неща за напреднали.

Какво е HBase?

HBase е система с отворен код, ориентирана към колони разпределена база данни в a Hadoop среда. Първоначално беше Google Big Table, след това; той беше преименуван на HBase и е написан предимно на Java.  Apache HBase е необходим за приложения с големи данни в реално време.

HBase може да съхранява огромни количества данни от терабайти до петабайти. Таблиците в HBase се състоят от милиарди редове с милиони колони. HBase е създаден за операции с ниска латентност, което има някои специфични характеристики в сравнение с традиционните релационни модели.

Учебна програма за HBase

Ето какво разглеждаме в това ръководство за обучение на Apache HBase

👉 Lessна 1 Archiструктура на HBase — HBase Archiструктура, компоненти и модел на данни
👉 Lessна 2 Инсталиране на HBase — Инсталиране на HBase включено Ubuntu
👉 Lessна 3 Команди на HBase Shell - Учете с пример
👉 Lessна 4 HBase Създаване на таблица — Стъпки за създаване на таблица в HBase с помощта на Java API
👉 Lessна 5 Вмъкване и извличане на данни в HBase — get(), put(), scan() Примери
👉 Lessна 6 Тесни места в производителността в HBase — Предимства и ограничения на HBase
👉 Lessна 7 Въпроси за интервю за Hbase — Топ 30 на въпросите и отговорите за Hbase интервю

Какво ще научите в този урок за HBase за начинаещи?

В този урок за HBase за начинаещи ще научите какво е Apache HBase, Archiструктура на HBase, Как да инсталирате HBase, Стъпки за създаване на таблица в HBase, Предимства и ограничения на HBase и др.

Защо да изберете HBase?

Една таблица за популярно уеб приложение може да се състои от милиарди редове. Ако искаме да търсим конкретен ред от такова огромно количество данни, HBase е идеалният избор, тъй като времето за извличане на заявка е по-малко. Повечето приложения за онлайн анализи използват HBase.

Традиционните релационни модели на данни не успяват да отговорят на изискванията за производителност на много големи бази данни. Тези ограничения на производителността и обработката могат да бъдат преодолени от Apache HBase.

Функции на Apache HBase

  • HBase е създаден за операции с ниска латентност
  • HBase се използва широко за произволни операции за четене и запис
  • HBase съхранява голямо количество данни по отношение на таблици
  • Осигурява линейна и модулна мащабируемост над клъстерна среда
  • Строго съгласувани операции за четене и запис
  • Автоматично и конфигурируемо шардинг на таблици
  • Поддържа се автоматичен отказ между регионалните сървъри
  • Удобни базови класове за поддръжка Hadoop MapReduce работни места в HBase таблици
  • Лесен за използване Java API за клиентски достъп
  • Блокирайте кеша и Bloom Filters за заявки в реално време
  • Предикатът на заявката се натиска надолу чрез филтри от страна на сървъра.

Значение на NoSQL базите данни в Hadoop

В анализа на големи данни, Hadoop играе жизненоважна роля при решаването на типични бизнес проблеми чрез управление на големи масиви от данни и дава най-добрите решения в областта на анализа.

В екосистемата Hadoop всеки компонент играе своята уникална роля за

  • Обработка на данни
  • Потвърждаване на данни
  • Съхраняване на данни

По отношение на съхранението на неструктурирани, полуструктурирани данни, както и извличането на такива данни, релационните бази данни са по-малко полезни. Освен това извличането на резултати чрез прилагане на заявка към огромни набори от данни, които се съхраняват в хранилището на Hadoop, е предизвикателна задача. Технологиите за съхранение NoSQL осигуряват най-доброто решение за по-бързи заявки за огромни набори от данни.

Други бази данни от тип съхранение NoSQL

Някои от моделите NoSQL, присъстващи на пазара, са Cassandra, MongoDB, и CouchDB. Всеки от тези модели има различни начини на механизъм за съхранение.

Например, MongoDB е ориентирана към документи база данни от родословното дърво на NoSQL. В сравнение с традиционните бази данни, той предоставя най-добрите характеристики по отношение на производителност, достъпност и мащабируемост. Това е база данни с отворен код, ориентирана към документи и е написана C++.

Cassandra също е разпределена база данни от софтуер с отворен код Apache, който е проектиран да обработва огромно количество данни, съхранявани в стокови сървъри. Cassandra осигурява висока наличност без нито една точка на отказ.

Докато CouchDB е ориентирана към документи база данни, в която полетата на всеки документ се съхраняват в карти ключ-стойност.

Как се различава HBase от другите NoSQL модели

Моделът за съхранение на HBase е различен от другите NoSQL модели, обсъдени по-горе. Това може да се изрази по следния начин.

  • HBase съхранява данни под формата на двойки ключ/стойност в колонен модел. В този модел всички колони са групирани заедно като семейства колони.
  • HBase предоставя гъвкав модел на данни и достъп с ниска латентност до малки количества данни, съхранявани в големи набори от данни.
  • HBase върху Hadoop ще увеличи пропускателната способност и производителността на настройката на разпределен клъстер. На свой ред осигурява по-бързи произволни операции за четене и запис.

Коя NoSQL база данни да избера?

MongoDB, CouchDB, и Cassandra са бази данни тип NoSQL, които са специфични за функциите и се използват според техните бизнес нужди. Тук сме изброили различни NoSQL бази данни според техния случай на използване.

Тип база данни въз основа на функция Пример за база данни Случай на употреба (кога да се използва)
Ключ/ Стойност Redis, MemcacheDB Кеширане, опашка, разпространение на информация
Ориентиран към колони Cassandra, HBase Мащабиране, запазване на неструктуриран, енергонезависим
Ориентиран към документи MongoDB, диван Вложена информация, JavaУдобен за скрипт
Базиран на графики OrientDB, Neo4J Работа със сложна релационна информация. Класификация за моделиране и обработка.

HBase срещу. Кошер

Характеристики: HBase Кошер
Модел на база данни Широк колонен магазин Релационни СУБД
Схема на данните Схема-безплатна Със схема
Поддръжка на SQL Не Да, използва HQL (език за заявки Hive)
Методи за разделяне Sharding Sharding
Ниво на последователност Незабавна консистенция Последователност на събитията
Вторични индекси Не Да
Методи за репликация Избираем фактор на репликация Избираем фактор на репликация

HBase срещу. RDBMS

Докато сравняваме HBase с традиционните релационни бази данни, трябва да вземем под внимание три ключови области. Това са модел на данни, съхранение на данни и разнообразие на данни.

HBASE RDBMS
  • Без схеми в базата данни
  • Наличие на фиксирана схема в базата данни
  • Бази данни, ориентирани към колони
  • Редово ориентирано хранилище за данни
  • Проектиран да съхранява денормализирани данни
  • Проектиран да съхранява нормализирани данни
  • Широки и рядко попълнени таблици, присъстващи в HBase
  • Съдържа тънки таблици в базата данни
  • Поддържа автоматично разделяне
  • Няма вградена поддръжка за разделяне
  • Много подходящ за OLAP системи
  • Много подходящ за OLTP системи
  • Четете само съответните данни от базата данни
  • Извличане на един ред наведнъж и по този начин може да чете ненужни данни, ако са необходими само някои от данните в ред
  • Структурирани и полуструктурирани данни могат да се съхраняват и обработват с помощта на HBase
  • Структурираните данни могат да се съхраняват и обработват с помощта на RDBMS
  • Позволява агрегиране на много редове и колони
  • Агрегацията е скъпа операция

Oбобщение

HBase предоставя уникални функции и ще реши типични случаи на индустриална употреба. Като хранилище, ориентирано към колони, то осигурява бързи заявки, извличане на резултати и голямо количество съхранение на данни. Този курс е пълно въведение стъпка по стъпка в HBase.