Kaptár oktatóanyag kezdőknek: Tanuljon példákkal 3 nap alatt

Hive bemutató összefoglaló


Az Apache Hive segít a nagy adatkészletek gyors lekérdezésében és kezelésében. Ez egy ETL eszköz a Hadoop ökoszisztéma számára. Ebben az Apache Hive kezdőknek szóló oktatóanyagában elsajátíthatja a Hive alapjait és olyan fontos témákat, mint a HQL-lekérdezések, adatkinyerések, partíciók, tárolók és így tovább. Ez a Hive oktatóanyag-sorozat segít megtanulni a Hive fogalmait és alapjait.

Mit kell tudnom?


Ennek a Hive-lekérdezési oktatóanyagnak a megtanulásához alapvető ismeretekre van szüksége a következőről: SQL, Hadoop és más adatbázisok ismerete további segítséget jelent majd.

Hive Course Syllabus

Bevezetés

👍 LessA 1 Mi az a Hive? - Architecture & Modes
👍 LessA 2 Töltse le és telepítse a HIVE-t - Hogyan lehet letölteni és telepíteni a HIVE-t Ubuntu
👍 LessA 3 HIVE metastore konfiguráció — Miért kell használni MySQL?
👍 LessA 4 Hive adattípusok — Adatbázis létrehozása és eldobása a Hive-ben

Speciális dolgok

👍 LessA 1 Hive Táblázat létrehozása — Típusai és használata
👍 LessA 2 Kaptár válaszfalak és vödrök — Tanulj példával
👍 LessA 3 Kaptárindexek és nézet — Tanulj példával
👍 LessA 4 Hive Queries — Tanulj példával
👍 LessA 5 Hive Join & SubQuery oktatóanyag — Tanulj példával
👍 LessA 6 Hive Query Language Tutorial — Beépített Operatorzok
👍 LessA 7 Kaptár funkció — Beépített és felhasználó által meghatározott funkciók
👍 LessA 8 Hive ETL — JSON, XML, szöveges adatpéldák betöltése

Bevezetés a Hive-be

A Hive a Hadoop Map-Reduce keretrendszerre épülő adattárház-megoldásként fejlődött ki.

Az iparágban gyűjtött és elemzett adatkészletek mérete üzleti intelligencia növekszik, és bizonyos értelemben drágítja a hagyományos adattárházi megoldásokat. Hadoop A MapReduce keretrendszerrel alternatív megoldásként használják hatalmas méretű adatkészletek elemzésére. Bár a Hadoop hasznosnak bizonyult hatalmas adatkészleteken való munkavégzés során, a MapReduce keretrendszere nagyon alacsony szintű, és megköveteli a programozóktól, hogy olyan egyedi programokat írjanak, amelyeket nehéz karbantartani és újra felhasználni. Hive azért jön ide, hogy megmentse a programozókat.


Kaptár motor ezeket a lekérdezéseket Map-Reduce-feladatokká fordítja, amelyeket a Hadoop-on kell végrehajtani. Ezenkívül egyéni Map-Reduce szkriptek is csatlakoztathatók a lekérdezésekhez. A Hive olyan táblákban tárolt adatokon működik, amelyek primitív adattípusokból és gyűjtőadattípusokból, például tömbökből és térképekből állnak.

A Hive egy parancssori shell felülettel érkezik, amely táblák létrehozására és lekérdezések végrehajtására használható.

A Hive lekérdezési nyelve hasonló az SQL-hez, ahol támogatja az allekérdezéseket. A Hive lekérdezési nyelvvel lehetőség van MapReduce csatlakozásokra a Hive táblákon keresztül. Támogatja az egyszerűt SQL-szerű függvények– CONCAT, SUBSTR, ROUND stb., ill aggregációs függvények– SUM, COUNT, MAX stb. Támogatja a GROUP BY és a SORT BY záradékokat is. Lehetőség van a felhasználó által definiált függvények Hive lekérdezési nyelven történő írására is.

Mi az a Hive?

Apache Hive egy adattárház-keretrendszer a HDFS-ben tárolt adatok lekérdezésére és elemzésére. A Hadoop tetején fejlesztették ki. A Hive egy nyílt forráskódú szoftver a Hadoop nagy adatkészleteinek elemzésére. SQL-szerű deklaratív nyelvet, a HiveQL-t biztosít a lekérdezések kifejezéséhez. Hive-QL használatával a felhasználók társítva SQL nagyon könnyen végezhet adatelemzést.

Hive Vs Map Reduce

Mielőtt e két lehetőség közül választanánk, meg kell vizsgálnunk néhány jellemzőjüket.

A Hive és a Map csökkentése közötti választás során a következő tényezőket veszik figyelembe;

  • Az adatok típusa
  • Adatok mennyisége
  • A kód összetettsége

Hive vs Map Reduce?

Funkció Kaptár Térkép csökkentése
Nyelv Támogatja az SQL-hez hasonló lekérdezési nyelvet az interakcióhoz és az adatmodellezéshez
  • A nyelvet két fő feladattal állítja össze. Az egyik a térképfeladat, a másik pedig a reduktor.
  • segítségével definiálhatjuk ezeket a feladatokat Java or Python
Az absztrakció szintje Magasabb szintű absztrakció a HDFS-n felül Alacsonyabb absztrakciós szint
Hatékonyság a kódban Viszonylag kisebb, mint a Map Redukció Magas hatékonyságot biztosít
A kód terjedelme Less a végrehajtáshoz szükséges sorszám kódja Több kódsort kell meghatározni
A szükséges fejlesztő munka típusa Less Fejlesztő munka szükséges További fejlesztési munkára van szükség
Kattintson a Következő oktatóanyag