Hive-Tutorial für Anfänger: Lernen Sie anhand von Beispielen in 3 Tagen

Zusammenfassung des Hive-Tutorials


Apache Hive hilft bei der schnellen Abfrage und Verwaltung großer Datenmengen. Es ist ein ETL-Tool für den Hadoop ecosSystem. In diesem Apache Hive-Tutorial für Anfänger lernen Sie die Hive-Grundlagen und wichtige Themen wie HQL-Abfragen, Datenextraktionen, Partitionen, Buckets usw. kennen. Diese Hive-Tutorialreihe hilft Ihnen beim Erlernen der Hive-Konzepte und -Grundlagen.

Was sollte ich wissen?


Um dieses Hive-Abfrage-Tutorial zu erlernen, benötigen Sie Grundkenntnisse SQL-, Hadoop und Kenntnisse anderer Datenbanken sind von zusätzlichem Nutzen.

Lehrplan für den Hive-Kurs

Einleitung

👉 Lektion 1 Was ist Hive? - Architektur & Modi
👉 Lektion 2 HIVE herunterladen und installieren – So laden Sie HIVE unter Ubuntu herunter und installieren es
👉 Lektion 3 HIVE-Metastore-Konfiguration — Warum MySQL verwenden?
👉 Lektion 4 Hive-Datentypen – Datenbank in Hive erstellen und löschen

Fortgeschrittene Sachen

👉 Lektion 1 Hive Tabelle erstellen – Typen und ihre Verwendung
👉 Lektion 2 Hive-Partitionen und -Eimer – Lernen Sie anhand von Beispielen
👉 Lektion 3 Hive-Indizes und -Ansicht – Lernen Sie anhand von Beispielen
👉 Lektion 4 Hive-Abfragen – Lernen Sie anhand von Beispielen
👉 Lektion 5 Hive-Join- und SubQuery-Tutorial – Lernen Sie anhand von Beispielen
👉 Lektion 6 Tutorial zur Hive-Abfragesprache — Integrierte Operatoren
👉 Lektion 7 Hive-Funktion — Integrierte und benutzerdefinierte Funktionen
👉 Lektion 8 Hive ETL – Laden von JSON-, XML- und Textdatenbeispielen

Einführung in Hive

Hive entwickelte sich zu einer Data-Warehousing-Lösung, die auf dem Hadoop Map-Reduce-Framework aufbaut.

Die Größe der Datensätze, die in der Branche gesammelt und analysiert werden Business Intelligence ist growing Und in gewisser Weise verteuert es herkömmliche Data-Warehousing-Lösungen. Hadoop mit dem MapReduce-Framework wird als alternative Lösung für die Analyse großer Datensätze verwendet. Obwohl sich Hadoop für die Arbeit an großen Datenmengen als nützlich erwiesen hat, ist sein MapReduce-Framework sehr niedrig und erfordert von Programmierern das Schreiben benutzerdefinierter Programme, die schwierig zu warten und wiederzuverwenden sind. Hive kommt hierher, um Programmierer zu retten.


Hive-Motor kompiliert diese Abfragen in Map-Reduce-Jobs, die auf Hadoop ausgeführt werden. Darüber hinaus können auch benutzerdefinierte Map-Reduce-Skripte in Abfragen eingebunden werden. Hive arbeitet mit in Tabellen gespeicherten Daten, die aus primitiven Datentypen und Sammlungsdatentypen wie Arrays und Karten bestehen.

Hive verfügt über eine Befehlszeilen-Shell-Schnittstelle, mit der Tabellen erstellt und Abfragen ausgeführt werden können.

Die Hive-Abfragesprache ähnelt SQL und unterstützt Unterabfragen. Mit der Hive-Abfragesprache ist es möglich, MapReduce-Joins über Hive-Tabellen hinweg durchzuführen. Es hat eine Unterstützung für einfach SQL-ähnliche Funktionen– CONCAT, SUBSTR, ROUND usw., und Aggregationsfunktionen– SUM, COUNT, MAX usw. Es werden auch die Klauseln GROUP BY und SORT BY unterstützt. Es ist auch möglich, benutzerdefinierte Funktionen in der Hive-Abfragesprache zu schreiben.

Was ist Hive?

Apache Hive ist ein Data-Warehouse-Framework zum Abfragen und Analysieren von in HDFS gespeicherten Daten. Es wurde auf Basis von Hadoop entwickelt. Hive ist eine Open-Source-Software zur Analyse großer Datenmengen auf Hadoop. Es bietet eine SQL-ähnliche deklarative Sprache namens HiveQL, um Abfragen auszudrücken. Mit Hive-QL verknüpfte Benutzer mit SQL kann Datenanalysen sehr einfach durchführen.

Hive vs. Kartenreduzierung

Bevor wir uns für eine dieser beiden Optionen entscheiden, müssen wir uns einige ihrer Funktionen ansehen.

Während Sie zwischen Hive und Map wählen, reduzieren Sie Following Faktoren werden berücksichtigt;

  • Art der Daten
  • Datenmenge
  • Mitplexität des Codes

Hive vs. Kartenreduzierung?

Serienmäßige Funktionen Bienenstock Karte verkleinern
Sprache Es unterstützt eine SQL-ähnliche Abfragesprache für die Interaktion und Datenmodellierung
  • Es kompiliert eine Sprache mit zwei darin enthaltenen Hauptaufgaben. Eine davon ist eine Kartenaufgabe und eine andere ist ein Reduzierer.
  • Wir können diese Aufgaben mit Java oder Python definieren
Abstraktionsebene Höhere Abstraktionsebene zusätzlich zu HDFS Niedrigere Abstraktionsebene
Effizienz im Code Vergleichsweise geringer als Map Reduce Bietet hohe Effizienz
Umfang des Codes Für die Ausführung sind weniger Codezeilen erforderlich Es müssen mehr Codezeilen definiert werden
Art der erforderlichen Entwicklungsarbeit Weniger Entwicklungsarbeit erforderlich Weitere Entwicklungsarbeit erforderlich
Klicken Sie für die Nächstes Tutorial