Tutorial Hive pentru începători
Rezumatul tutorialului Hive
Apache Hive ajută la interogarea și gestionarea seturilor mari de date foarte rapid. Este un instrument ETL pentru ecosistemul Hadoop. În acest tutorial Apache Hive pentru începători, veți învăța elementele de bază ale Hive și subiecte importante precum interogări HQL, extrageri de date, partiții, compartimente și așa mai departe. Această serie de tutoriale Hive vă va ajuta să învățați conceptele și elementele de bază Hive.
Ce ar trebui să știu?
Pentru a învăța acest tutorial de interogare Hive, aveți nevoie de cunoștințe de bază despre SQL, Hadoop iar cunoașterea altor baze de date va fi de un ajutor suplimentar.
Programa cursului Hive
Introducere
| 👍 Lesspe 1 | Ce este Hive? - Architectură și moduri |
| 👍 Lesspe 2 | Descărcați și instalați HIVE — Cum să descărcați și să instalați HIVE pe Ubuntu |
| 👍 Lesspe 3 | Configurare HIVE Metastore — De ce să folosiți MySQL? |
| 👍 Lesspe 4 | Tipuri de date Hive — Creați și plasați o bază de date în Hive |
Lucruri avansate
| 👍 Lesspe 1 | Hive Creați tabel - Tipuri și utilizare |
| 👍 Lesspe 2 | Partiții și găleți pentru stupi — Învață cu exemplu |
| 👍 Lesspe 3 | Hive Index și View — Învață cu exemplu |
| 👍 Lesspe 4 | Interogări Hive — Învață cu exemplu |
| 👍 Lesspe 5 | Tutorial Hive Join & SubQuery — Învață cu exemplu |
| 👍 Lesspe 6 | Tutorial Hive Query Language - Incorporat Operatori |
| 👍 Lesspe 7 | Funcția de stup — Funcții încorporate și definite de utilizator |
| 👍 Lesspe 8 | Stup ETL — Se încarcă JSON, XML, exemple de date text |
Introducere în Stup
Hive a evoluat ca o soluție de depozitare de date construită pe baza cadrului Hadoop Map-Reduce.
Dimensiunea seturilor de date colectate și analizate în industrie pentru business intelligence este în creștere și, într-un fel, face soluțiile tradiționale de depozitare a datelor mai scumpe. Hadoop cu framework MapReduce, este folosit ca o soluție alternativă pentru analiza seturi de date cu dimensiuni uriașe. Deși, Hadoop s-a dovedit util pentru lucrul pe seturi de date uriașe, cadrul său MapReduce este un nivel foarte scăzut și necesită programatorilor să scrie programe personalizate care sunt greu de întreținut și reutilizat. Hive vine aici pentru salvarea programatorilor.
Motor de stup compilează aceste interogări în joburi Map-Reduce pentru a fi executate pe Hadoop. În plus, scripturile personalizate Map-Reduce pot fi, de asemenea, conectate la interogări. Hive operează pe date stocate în tabele care constau din tipuri de date primitive și tipuri de date de colectare, cum ar fi matrice și hărți.
Hive vine cu o interfață shell de linie de comandă care poate fi folosită pentru a crea tabele și a executa interogări.
Limbajul de interogare Hive este similar cu SQL, în care acceptă subinterogări. Cu limbajul de interogare Hive, este posibil să se ia o unire MapReduce în tabelele Hive. Are suport pentru simplu Funcții asemănătoare SQL– CONCAT, SUBSTR, ROUND etc., și functii de agregare– SUM, COUNT, MAX etc. Acceptă, de asemenea, clauze GROUP BY și SORT BY. De asemenea, este posibil să scrieți funcții definite de utilizator în limbajul de interogare Hive.
Ce este Hive?
Apache Hive este un cadru de depozit de date pentru interogarea și analiza datelor stocate în HDFS. Este dezvoltat pe partea de sus a Hadoop. Hive este un software open-source pentru a analiza seturi mari de date pe Hadoop. Oferă un limbaj declarativ asemănător SQL, numit HiveQL, pentru a exprima interogări. Folosind Hive-QL, utilizatorii asociati cu SQL poate efectua foarte ușor analiza datelor.
Hive Vs Map Reduce
Înainte de a alege una dintre aceste două opțiuni, trebuie să ne uităm la unele dintre caracteristicile lor.
Atunci când alegeți între Stup și Hartă reduceți următorii factori sunt luați în considerare;
- Tipul de date
- Cantitatea de date
- Complexitatea Codului
Hive Vs Map Reduce?
| Caracteristică | Stup | Reducere hartă |
|---|---|---|
| Limbă | Suportă limbajul de interogare asemănător SQL pentru interacțiune și pentru modelarea datelor |
|
| Nivelul de abstractizare | Nivel mai ridicat de abstracție peste HDFS | Nivel inferior de abstractizare |
| Eficiență în Cod | Comparativ mai mică decât reducerea hărții | Oferă eficiență ridicată |
| Extinderea codului | Less numărul de linii de cod necesar pentru execuție | Mai mult număr de linii de coduri de definit |
| Tipul de lucru de dezvoltare necesar | Less Sunt necesare lucrări de dezvoltare | Este nevoie de mai multă muncă de dezvoltare |
Faceți clic pentru Următorul tutorial
