Hive Tutorial για αρχάριους: Μάθετε με παραδείγματα σε 3 ημέρες
Περίληψη φροντιστηρίου Hive
Το Apache Hive βοηθά με την αναζήτηση και τη διαχείριση μεγάλων συνόλων δεδομένων πολύ γρήγορα. Είναι ένα Εργαλείο ETL για το οικοσύστημα Hadoop. Σε αυτό το σεμινάριο του Apache Hive για αρχάριους, θα μάθετε τα βασικά του Hive και σημαντικά θέματα όπως ερωτήματα HQL, εξαγωγές δεδομένων, κατατμήσεις, κουβάδες και ούτω καθεξής. Αυτή η σειρά εκμάθησης Hive θα σας βοηθήσει να μάθετε τις έννοιες και τα βασικά του Hive.
Τι πρέπει να ξέρω;
Για να μάθετε αυτόν τον οδηγό αναζήτησης Hive, χρειάζεστε βασικές γνώσεις SQL, Hadoop και η γνώση άλλων βάσεων δεδομένων θα είναι επιπρόσθετη βοήθεια.
Πρόγραμμα μαθημάτων Hive
Εισαγωγή
👍 Lessγια 1 | Τι είναι η κυψέλη; - Architecture & Modes |
👍 Lessγια 2 | Λήψη και εγκατάσταση του HIVE — Πώς να κατεβάσετε και να εγκαταστήσετε το HIVE στο Ubuntu |
👍 Lessγια 3 | Ρύθμιση παραμέτρων HIVE Metastore — Γιατί να χρησιμοποιήσετε MySQL? |
👍 Lessγια 4 | Τύποι δεδομένων κυψέλης — Δημιουργία & απόθεση βάσης δεδομένων στο Hive |
Προηγμένα πράγματα
👍 Lessγια 1 | Hive Create Table — Τύποι και χρήση τους |
👍 Lessγια 2 | Χωρίσματα & Κάδοι Κυψέλης — Μάθετε με το Παράδειγμα |
👍 Lessγια 3 | Ευρετήρια κυψέλης και προβολή — Μάθετε με το Παράδειγμα |
👍 Lessγια 4 | Ερωτήματα κυψέλης — Μάθετε με το Παράδειγμα |
👍 Lessγια 5 | Hive Join & SubQuery Tutorial — Μάθετε με το Παράδειγμα |
👍 Lessγια 6 | Εκμάθηση γλώσσας Hive Query — Ενσωματωμένο Operaκορμοί |
👍 Lessγια 7 | Λειτουργία κυψέλης — Ενσωματωμένες και καθορισμένες λειτουργίες από το χρήστη |
👍 Lessγια 8 | Κυψέλη ETL — Φόρτωση παραδειγμάτων δεδομένων JSON, XML, κειμένου |
Εισαγωγή στο Hive
Το Hive εξελίχθηκε ως μια λύση αποθήκευσης δεδομένων που βασίζεται στο πλαίσιο Hadoop Map-Reduce.
Το μέγεθος των συνόλων δεδομένων που συλλέγονται και αναλύονται στον κλάδο για επιχειρηματικής ευφυΐας αυξάνεται και κατά κάποιο τρόπο, καθιστά ακριβότερες τις παραδοσιακές λύσεις αποθήκευσης δεδομένων. Hadoop με το πλαίσιο MapReduce, χρησιμοποιείται ως εναλλακτική λύση για την ανάλυση συνόλων δεδομένων τεράστιου μεγέθους. Αν και, το Hadoop έχει αποδειχθεί χρήσιμο για εργασία σε τεράστια σύνολα δεδομένων, το πλαίσιο MapReduce του είναι πολύ χαμηλό και απαιτεί από τους προγραμματιστές να γράφουν προσαρμοσμένα προγράμματα που είναι δύσκολο να διατηρηθούν και να επαναχρησιμοποιηθούν. Η Hive έρχεται εδώ για να σώσει τους προγραμματιστές.
Κινητήρας κυψέλης συγκεντρώνει αυτά τα ερωτήματα σε εργασίες Map-Reduce που θα εκτελεστούν στο Hadoop. Επιπλέον, προσαρμοσμένα σενάρια Map-Reduce μπορούν επίσης να συνδεθούν σε ερωτήματα. Το Hive λειτουργεί με δεδομένα που είναι αποθηκευμένα σε πίνακες που αποτελούνται από πρωτόγονους τύπους δεδομένων και τύπους δεδομένων συλλογής όπως πίνακες και χάρτες.
Το Hive διαθέτει μια διεπαφή κελύφους γραμμής εντολών που μπορεί να χρησιμοποιηθεί για τη δημιουργία πινάκων και την εκτέλεση ερωτημάτων.
Η γλώσσα ερωτημάτων Hive είναι παρόμοια με την SQL όπου υποστηρίζει υποερωτήματα. Με τη γλώσσα ερωτημάτων Hive, είναι δυνατή η λήψη συνδέσεων MapReduce στους πίνακες Hive. Διαθέτει υποστήριξη για απλό Λειτουργίες όπως η SQL– CONCAT, SUBSTR, ROUND κ.λπ., και συναρτήσεις συνάθροισης– SUM, COUNT, MAX κλπ. Υποστηρίζει επίσης προτάσεις GROUP BY και SORT BY. Είναι επίσης δυνατή η εγγραφή συναρτήσεων που ορίζονται από το χρήστη στη γλώσσα ερωτημάτων Hive.
Τι είναι η κυψέλη;
Κυψέλη Apache είναι ένα πλαίσιο αποθήκης δεδομένων για αναζήτηση και ανάλυση δεδομένων που είναι αποθηκευμένα στο HDFS. Αναπτύχθηκε πάνω από το Hadoop. Το Hive είναι ένα λογισμικό ανοιχτού κώδικα για την ανάλυση μεγάλων συνόλων δεδομένων στο Hadoop. Παρέχει δηλωτική γλώσσα τύπου SQL, που ονομάζεται HiveQL, για την έκφραση ερωτημάτων. Χρησιμοποιώντας το Hive-QL, οι χρήστες συσχετίζονται με SQL μπορεί να πραγματοποιήσει ανάλυση δεδομένων πολύ εύκολα.
Hive Vs Map Reduce
Πριν επιλέξουμε μία από αυτές τις δύο επιλογές, πρέπει να δούμε μερικά από τα χαρακτηριστικά τους.
Κατά την επιλογή μεταξύ Hive και Map μείωση λαμβάνονται υπόψη οι ακόλουθοι παράγοντες.
- Τύπος Δεδομένων
- Ποσότητα Δεδομένων
- Πολυπλοκότητα Κώδικα
Hive Vs Map Reduce;
Χαρακτηριστικό | Κυψέλη | ΜΕΙΩΣΗ ΧΑΡΤΗ |
---|---|---|
Γλώσσα | Υποστηρίζει γλώσσα ερωτημάτων όπως η SQL για αλληλεπίδραση και για μοντελοποίηση δεδομένων |
|
Επίπεδο αφαίρεσης | Υψηλότερο επίπεδο Αφαίρεσης πάνω από το HDFS | Χαμηλότερο επίπεδο αφαίρεσης |
Αποτελεσματικότητα στον Κώδικα | Συγκριτικά μικρότερη από τη μείωση χάρτη | Παρέχει υψηλή απόδοση |
Έκταση κώδικα | Less αριθμός γραμμών που απαιτείται για την εκτέλεση | Θα οριστεί περισσότερος αριθμός γραμμών κωδικών |
Είδος Ανάπτυξης που απαιτείται | Less Απαιτείται αναπτυξιακή εργασία | Απαιτείται περισσότερη ανάπτυξη |