Tutorial Hive pentru începători

Rezumatul tutorialului Hive


Apache Hive ajută la interogarea și gestionarea seturilor mari de date foarte rapid. Este un instrument ETL pentru ecosistemul Hadoop. În acest tutorial Apache Hive pentru începători, veți învăța elementele de bază ale Hive și subiecte importante precum interogări HQL, extrageri de date, partiții, compartimente și așa mai departe. Această serie de tutoriale Hive vă va ajuta să învățați conceptele și elementele de bază Hive.

Ce ar trebui să știu?


Pentru a învăța acest tutorial de interogare Hive, aveți nevoie de cunoștințe de bază despre SQL, Hadoop iar cunoașterea altor baze de date va fi de un ajutor suplimentar.

Programa cursului Hive

Introducere

👍 Lesspe 1 Ce este Hive? - Architectură și moduri
👍 Lesspe 2 Descărcați și instalați HIVE — Cum să descărcați și să instalați HIVE pe Ubuntu
👍 Lesspe 3 Configurare HIVE Metastore — De ce să folosiți MySQL?
👍 Lesspe 4 Tipuri de date Hive — Creați și plasați o bază de date în Hive

Lucruri avansate

👍 Lesspe 1 Hive Creați tabel - Tipuri și utilizare
👍 Lesspe 2 Partiții și găleți pentru stupi — Învață cu exemplu
👍 Lesspe 3 Hive Index și View — Învață cu exemplu
👍 Lesspe 4 Interogări Hive — Învață cu exemplu
👍 Lesspe 5 Tutorial Hive Join & SubQuery — Învață cu exemplu
👍 Lesspe 6 Tutorial Hive Query Language - Incorporat Operatori
👍 Lesspe 7 Funcția de stup — Funcții încorporate și definite de utilizator
👍 Lesspe 8 Stup ETL — Se încarcă JSON, XML, exemple de date text

Introducere în Stup

Hive a evoluat ca o soluție de depozitare de date construită pe baza cadrului Hadoop Map-Reduce.

Dimensiunea seturilor de date colectate și analizate în industrie pentru business intelligence este în creștere și, într-un fel, face soluțiile tradiționale de depozitare a datelor mai scumpe. Hadoop cu framework MapReduce, este folosit ca o soluție alternativă pentru analiza seturi de date cu dimensiuni uriașe. Deși, Hadoop s-a dovedit util pentru lucrul pe seturi de date uriașe, cadrul său MapReduce este un nivel foarte scăzut și necesită programatorilor să scrie programe personalizate care sunt greu de întreținut și reutilizat. Hive vine aici pentru salvarea programatorilor.


Motor de stup compilează aceste interogări în joburi Map-Reduce pentru a fi executate pe Hadoop. În plus, scripturile personalizate Map-Reduce pot fi, de asemenea, conectate la interogări. Hive operează pe date stocate în tabele care constau din tipuri de date primitive și tipuri de date de colectare, cum ar fi matrice și hărți.

Hive vine cu o interfață shell de linie de comandă care poate fi folosită pentru a crea tabele și a executa interogări.

Limbajul de interogare Hive este similar cu SQL, în care acceptă subinterogări. Cu limbajul de interogare Hive, este posibil să se ia o unire MapReduce în tabelele Hive. Are suport pentru simplu Funcții asemănătoare SQL– CONCAT, SUBSTR, ROUND etc., și functii de agregare– SUM, COUNT, MAX etc. Acceptă, de asemenea, clauze GROUP BY și SORT BY. De asemenea, este posibil să scrieți funcții definite de utilizator în limbajul de interogare Hive.

Ce este Hive?

Apache Hive este un cadru de depozit de date pentru interogarea și analiza datelor stocate în HDFS. Este dezvoltat pe partea de sus a Hadoop. Hive este un software open-source pentru a analiza seturi mari de date pe Hadoop. Oferă un limbaj declarativ asemănător SQL, numit HiveQL, pentru a exprima interogări. Folosind Hive-QL, utilizatorii asociati cu SQL poate efectua foarte ușor analiza datelor.

Hive Vs Map Reduce

Înainte de a alege una dintre aceste două opțiuni, trebuie să ne uităm la unele dintre caracteristicile lor.

Atunci când alegeți între Stup și Hartă reduceți următorii factori sunt luați în considerare;

  • Tipul de date
  • Cantitatea de date
  • Complexitatea Codului

Hive Vs Map Reduce?

Caracteristică Stup Reducere hartă
Limbă Suportă limbajul de interogare asemănător SQL pentru interacțiune și pentru modelarea datelor
  • Compilează limbajul cu două sarcini principale prezente în el. Una este sarcina de hartă, iar alta este un reductor.
  • Putem defini aceste sarcini folosind Java or Python
Nivelul de abstractizare Nivel mai ridicat de abstracție peste HDFS Nivel inferior de abstractizare
Eficiență în Cod Comparativ mai mică decât reducerea hărții Oferă eficiență ridicată
Extinderea codului Less numărul de linii de cod necesar pentru execuție Mai mult număr de linii de coduri de definit
Tipul de lucru de dezvoltare necesar Less Sunt necesare lucrări de dezvoltare Este nevoie de mai multă muncă de dezvoltare

Faceți clic pentru Următorul tutorial