Εκμάθηση HBase για αρχάριους: Τι είναι το HBase; Μάθετε σε 3 ημέρες!

Σύνοψη φροντιστηρίου HBase

Το Hbase είναι ένα σύστημα διαχείρισης βάσης δεδομένων προσανατολισμένο στη στήλη που τρέχει πάνω από το HDFS (Hadoop Distributed File System). Σε αυτό το σεμινάριο HBase για αρχάριους, θα μάθετε τα βασικά του Apache HBase και για προχωρημένους concepts. Αυτό το μάθημα HBase περιέχει όλα τα βασικά στοιχεία του HBase από την εισαγωγή, την εγκατάσταση, archiδομή σε προηγμένα πράγματα.

Τι είναι το HBase;

Το HBase είναι ένα κατανεμημένο σύστημα βάσης δεδομένων ανοιχτού κώδικα, προσανατολισμένο στη στήλη σε α Hadoop περιβάλλον. Αρχικά, ήταν το Google Big Table, στη συνέχεια. μετονομάστηκε σε HBase και είναι primariγραμμένο σε Java.  Apache Το HBase απαιτείται για εφαρμογές Big Data σε πραγματικό χρόνο.

Το HBase μπορεί να αποθηκεύσει τεράστιες ποσότητες δεδομένων από terabyte έως petabyte. Οι πίνακες που υπάρχουν στο HBase αποτελούνται από billιόντα σειρών που έχουν εκατομμύρια στήλες. Το HBase έχει κατασκευαστεί για χαμηλή καθυστέρηση operaπου έχει κάποια συγκεκριμένα χαρακτηριστικά σε σύγκριση με τα παραδοσιακά σχεσιακά μοντέλα.

Πρόγραμμα Εκπαίδευσης HBase

Εδώ είναι τι καλύπτουμε σε αυτόν τον Εκπαιδευτικό Οδηγό Apache HBase

👍 Μάθημα 1 Archiδομή της HBase — HBase Architecture, Components και Data Model
👍 Μάθημα 2 Εγκατάσταση HBase — Η εγκατάσταση HBase είναι ενεργοποιημένη Ubuntu
👍 Μάθημα 3 Εντολές HBase Shell — Μάθετε με το Παράδειγμα
👍 Μάθημα 4 HBase Δημιουργία πίνακα — Βήματα για τη δημιουργία πίνακα στο HBase χρησιμοποιώντας Java API
👍 Μάθημα 5 Εισαγωγή και ανάκτηση δεδομένων στο HBase — Παραδείγματα get(), put(), scan().
👍 Μάθημα 6 Συμφόρηση απόδοσης στο HBase — Πλεονέκτημα και περιορισμοί HBase
👍 Μάθημα 7 Ερωτήσεις συνέντευξης Hbase — Κορυφαίες 30 Ερωτήσεις & Απαντήσεις Συνεντεύξεων Hbase

Τι θα μάθετε σε αυτό το σεμινάριο HBase για αρχάριους;

Σε αυτό το σεμινάριο HBase για αρχάριους, θα μάθετε Τι είναι το Apache HBase, το Architecture of HBase, Πώς να εγκαταστήσετε το HBase, Βήματα για τη δημιουργία πίνακα στο HBase, HBase Advantage and Limitations, κ.λπ.

Γιατί να επιλέξετε το HBase;

Ένας πίνακας για μια δημοφιλή εφαρμογή Ιστού μπορεί να αποτελείται από billιόντα σειρών. Αν θέλουμε να αναζητήσουμε μια συγκεκριμένη σειρά από τόσο τεράστιο όγκο δεδομένων, το HBase είναι η ιδανική επιλογή καθώς ο χρόνος ανάκτησης ερωτήματος είναι μικρότερος. Οι περισσότερες από τις διαδικτυακές εφαρμογές αναλυτικών στοιχείων χρησιμοποιούν το HBase.

Τα παραδοσιακά μοντέλα σχεσιακών δεδομένων αποτυγχάνουν να ικανοποιήσουν τις απαιτήσεις απόδοσης πολύ μεγάλων βάσεων δεδομένων. Αυτοί οι περιορισμοί απόδοσης και επεξεργασίας μπορούν να ξεπεραστούν από το Apache HBase.

Χαρακτηριστικά Apache HBase

  • Το HBase έχει κατασκευαστεί για χαμηλή καθυστέρηση operaσεις
  • Το HBase χρησιμοποιείται εκτενώς για τυχαία ανάγνωση και εγγραφή operaσεις
  • Το HBase αποθηκεύει μεγάλο όγκο δεδομένων ως προς τους πίνακες
  • Παρέχει γραμμική και αρθρωτή επεκτασιμότητα cluster θετική ατμόσφαιρα
  • Αυστηρά συνεπής στην ανάγνωση και τη γραφή operaσεις
  • Αυτόματη και διαμορφώσιμη κοινή χρήση τραπεζιών
  • Αυτόματη υποστήριξη ανακατεύθυνσης μεταξύ διακομιστών περιοχής
  • Βολικές βασικές κατηγορίες για υποστήριξη Hadoop MapReduce εργασίες σε πίνακες HBase
  • Εύχρηστος Java API για πρόσβαση πελάτη
  • Αποκλεισμός κρυφής μνήμης και Bloom Φίλτρα για ερωτήματα σε πραγματικό χρόνο
  • Το κατηγόρημα του ερωτήματος ωθεί προς τα κάτω μέσω φίλτρων από την πλευρά του διακομιστή.

Σημασία των βάσεων δεδομένων NoSQL στο Hadoop

Στην ανάλυση μεγάλων δεδομένων, Hadoop διαδραματίζει ζωτικό ρόλο στην επίλυση τυπικών επιχειρηματικών προβλημάτων με τη διαχείριση μεγάλων συνόλων δεδομένων και παρέχει τις καλύτερες λύσεις στον τομέα της ανάλυσης.

Στο Hadoop ecosσύστημα, κάθε συστατικό παίζει τον μοναδικό του ρόλο για το

  • Επεξεργασία δεδομένων
  • Επικύρωση δεδομένων
  • Αποθήκευση δεδομένων

Όσον αφορά την αποθήκευση μη δομημένων, ημιδομημένων αποθήκευσης δεδομένων καθώς και την ανάκτηση τέτοιων δεδομένων, οι σχεσιακές βάσεις δεδομένων είναι λιγότερο χρήσιμες. Επίσης, η ανάκτηση αποτελεσμάτων με την εφαρμογή ερωτήματος σε τεράστια σύνολα δεδομένων που είναι αποθηκευμένα στο χώρο αποθήκευσης Hadoop είναι μια πρόκληση. Οι τεχνολογίες αποθήκευσης NoSQL παρέχουν την καλύτερη λύση για ταχύτερη αναζήτηση σε τεράστια σύνολα δεδομένων.

Άλλες βάσεις δεδομένων τύπου αποθήκευσης NoSQL

Μερικά από τα μοντέλα NoSQL που υπάρχουν στην αγορά είναι Cassandra, MongoDB, να CouchDB. Κάθε ένα από αυτά τα μοντέλα έχει διαφορετικούς τρόπους αποθήκευσης μηχανισμού.

Για παράδειγμα, MongoDB είναι μια βάση δεδομένων προσανατολισμένη στα έγγραφα από το οικογενειακό δέντρο NoSQL. Σε σύγκριση με τις παραδοσιακές βάσεις δεδομένων, παρέχει τις καλύτερες δυνατότητες όσον αφορά την απόδοση, τη διαθεσιμότητα και την επεκτασιμότητα. Είναι μια βάση δεδομένων ανοιχτού κώδικα προσανατολισμένη σε έγγραφα και είναι γραμμένη σε C++.

Cassandra είναι επίσης μια κατανεμημένη βάση δεδομένων από λογισμικό ανοιχτού κώδικα Apache που έχει σχεδιαστεί για να χειρίζεται τεράστιο όγκο δεδομένων που είναι αποθηκευμένα σε διακομιστές βασικών προϊόντων. Cassandra παρέχει υψηλή διαθεσιμότητα χωρίς κανένα σημείο αστοχίας.

Ενώ CouchDB είναι μια βάση δεδομένων προσανατολισμένη στα έγγραφα, στην οποία κάθε πεδία εγγράφου αποθηκεύεται σε χάρτες κλειδιού-τιμής.

Πώς διαφέρει το HBase από άλλα μοντέλα NoSQL

Το μοντέλο αποθήκευσης HBase είναι διαφορετικό από άλλα μοντέλα NoSQL που συζητήθηκαν παραπάνω. Αυτό μπορεί να δηλωθεί ως εξής.

  • Το HBase αποθηκεύει δεδομένα με τη μορφή ζευγών κλειδιών/τιμών σε ένα στηλικό μοντέλο. Σε αυτό το μοντέλο, όλες οι στήλες ομαδοποιούνται ως οικογένειες στηλών.
  • Το HBase παρέχει ένα ευέλικτο μοντέλο δεδομένων και χαμηλή λανθάνουσα πρόσβαση σε μικρές ποσότητες δεδομένων που είναι αποθηκευμένα σε μεγάλα σύνολα δεδομένων.
  • Το HBase πάνω από το Hadoop θα αυξήσει την απόδοση και την απόδοση των διανεμημένων cluster στήνω. Με τη σειρά του, παρέχει ταχύτερες τυχαίες αναγνώσεις και εγγραφές operaσεις.

Ποια βάση δεδομένων NoSQL να επιλέξω;

MongoDB, CouchDB, να Cassandra είναι βάσεις δεδομένων τύπου NoSQL που είναι συγκεκριμένα χαρακτηριστικά και χρησιμοποιούνται σύμφωνα με τις επιχειρηματικές τους ανάγκες. Εδώ, έχουμε παραθέσει διαφορετικές βάσεις δεδομένων NoSQL ανάλογα με την περίπτωση χρήσης τους.

Τύπος βάσης δεδομένων με βάση το χαρακτηριστικό Παράδειγμα βάσης δεδομένων Περίπτωση χρήσης (Πότε χρησιμοποιείται)
Κλειδί/Τιμή Redis, MemcacheDB Προσωρινή αποθήκευση, ουρά, διανομή πληροφοριών
Στήλη με προσανατολισμό Cassandra, HBase Κλιμάκωση, Διατήρηση Αδομή, μη πτητική
Προσανατολισμός εγγράφων MongoDB, Couchbase Ένθετες πληροφορίες, φιλικές προς τη JavaScript
Βάσει γραφήματος OrientDB, Neo4J Handling Complex σχεσιακές πληροφορίες. Ταξινόμηση μοντελοποίησης και χειρισμού.

HBase Vs. Κυψέλη

Χαρακτηριστικά HBase Κυψέλη
Μοντέλο βάσης δεδομένων Κατάστημα Wide Column Σχεσιακό DBMS
Σχήμα Δεδομένων Χωρίς σχήμα Με Σχήμα
Υποστήριξη SQL Οχι Ναι, χρησιμοποιεί HQL (Hive Query Language)
Μέθοδοι κατάτμησης Σκίσιμο Σκίσιμο
Επίπεδο συνέπειας Άμεση Συνέπεια Συνέπεια εκδήλωσης
Δευτερεύοντες δείκτες Οχι Ναι
Μέθοδοι αντιγραφής Επιλέξιμος συντελεστής αναπαραγωγής Επιλέξιμος συντελεστής αναπαραγωγής

HBase Vs. RDBMS

Κατά τη σύγκριση του HBase με τις παραδοσιακές σχεσιακές βάσεις δεδομένων, πρέπει να λάβουμε υπόψη τρεις βασικούς τομείς. Αυτά είναι τα μοντέλα δεδομένων, η αποθήκευση δεδομένων και η ποικιλομορφία δεδομένων.

HBASE RDBMS
  • Χωρίς σχήμα στη βάση δεδομένων
  • Έχοντας σταθερό σχήμα στη βάση δεδομένων
  • Βάσεις δεδομένων προσανατολισμένες στη στήλη
  • Αποθήκη δεδομένων προσανατολισμένη σε σειρά
  • Σχεδιασμένο για να αποθηκεύει μη κανονικοποιημένα δεδομένα
  • Σχεδιασμένο για αποθήκευση κανονικοποιημένων δεδομένων
  • Μεγάλοι και αραιοκατοικημένοι πίνακες υπάρχουν στο HBase
  • Περιέχει λεπτούς πίνακες στη βάση δεδομένων
  • Υποστηρίζει αυτόματη κατάτμηση
  • Δεν έχει ενσωματωμένη υποστήριξη για διαχωρισμό
  • Κατάλληλο για συστήματα OLAP
  • Κατάλληλο για συστήματα OLTP
  • Διαβάστε μόνο σχετικά δεδομένα από τη βάση δεδομένων
  • Ανάκτηση μιας σειράς τη φορά και ως εκ τούτου θα μπορούσε να διαβάσει περιττά δεδομένα εάν απαιτούνται μόνο μερικά από τα δεδομένα στη σειρά
  • Τα δομημένα και ημιδομικά δεδομένα μπορούν να αποθηκευτούν και να υποβληθούν σε επεξεργασία χρησιμοποιώντας το HBase
  • Τα δομημένα δεδομένα μπορούν να αποθηκευτούν και να υποβληθούν σε επεξεργασία χρησιμοποιώντας RDBMS
  • Ενεργοποιεί τη συγκέντρωση σε πολλές σειρές και στήλες
  • Η συγκέντρωση είναι ακριβή operaσμού

Χαρακτηριστικά

Το HBase παρέχει μοναδικά χαρακτηριστικά και θα λύσει τυπικές περιπτώσεις βιομηχανικής χρήσης. Ως αποθήκευση προσανατολισμένη στη στήλη, παρέχει γρήγορη αναζήτηση, ανάκτηση αποτελεσμάτων και μεγάλο όγκο αποθήκευσης δεδομένων. Αυτό το μάθημα είναι μια πλήρης εισαγωγή βήμα προς βήμα στο HBase.