初心者向けの Hive チュートリアル: 3 日間で例を使って学ぶ

Hive チュートリアルの概要


Apache Hive は、大規模なデータセットのクエリと管理を高速に行うのに役立ちます。 それは ETLツール Hadoop用 ecosシステム。この初心者向けの Apache Hive チュートリアルでは、Hive の基本と、HQL クエリ、データ抽出、パーティション、バケットなどの重要なトピックについて学びます。この Hive チュートリアル シリーズは、Hive の学習に役立ちます concepts そして基本。

何を知っておくべきですか?


この Hive クエリ チュートリアルを学習するには、次の基本的な知識が必要です。 SQL、 Hadoopの 他のデータベースに関する知識もさらに役立ちます。

ハイブコースのシラバス

概要

👉 基礎学習 Hiveとは何ですか? - Archi構造とモード
👉 基礎学習 HIVE をダウンロードしてインストールする — HIVE をダウンロードしてインストールする方法 Ubuntu
👉 基礎学習 HIVE メタストアの構成 — 使用する理由 MySQL?
👉 基礎学習 ハイブのデータ型 — Hive でのデータベースの作成と削除

高度なもの

👉 基礎学習 ハイブ作成テーブル — 種類とその使い方
👉 基礎学習 Hive パーティションとバケット — 例で学ぶ
👉 基礎学習 Hive のインデックスとビュー — 例で学ぶ
👉 基礎学習 ハイブクエリ — 例で学ぶ
👉 基礎学習 Hive 結合とサブクエリのチュートリアル — 例で学ぶ
👉 基礎学習 Hive クエリ言語のチュートリアル — 内蔵 Operaトー
👉 基礎学習 ハイブ機能 — 組み込み関数とユーザー定義関数
👉 基礎学習 ハイブETL — JSON、XML、テキスト データのサンプルのロード

ハイブの紹介

Hive は、Hadoop Map-Reduce フレームワーク上に構築されたデータ ウェアハウジング ソリューションとして進化しました。

業界で収集および分析されているデータセットのサイズ ビジネス・インテリジェンス グロですwing そしてある意味、従来のデータ ウェアハウス ソリューションのコストが高くなっています。 Hadoopの MapReduce フレームワークを使用した、巨大なサイズのデータ​​セットを分析するための代替ソリューションとして使用されています。 Hadoop は巨大なデータ セットを扱うのに便利であることが証明されていますが、その MapReduce フレームワークは非常に低レベルであり、プログラマは保守や再利用が難しいカスタム プログラムを作成する必要があります。 ハイブはプログラマーを救出するためにここにやって来ます。


ハイブエンジン これらのクエリを Map-Reduce ジョブにコンパイルし、Hadoop で実行します。さらに、カスタム Map-Reduce スクリプトをクエリに組み込むこともできます。ハイブ operaプリミティブ データ型と配列やマップなどのコレクション データ型で構成されるテーブルに格納されたデータに対するテスト。

Hive には、テーブルの作成やクエリの実行に使用できるコマンドライン シェル インターフェイスが付属しています。

Hive クエリ言語は SQL に似ており、サブクエリをサポートします。 Hive クエリ言語を使用すると、Hive テーブル間で MapReduce 結合を行うことができます。 簡単なサポートがあります SQL のような関数– CONCAT、SUBSTR、ROUND など、および 集計関数– SUM、COUNT、MAX など。GROUP BY 句や SORT BY 句もサポートされます。 Hive クエリ言語でユーザー定義関数を記述することもできます。

Hiveとは何ですか?

ApacheHive HDFS に保存されているデータのクエリと分析を行うためのデータ ウェアハウス フレームワークです。 Hadoop 上で開発されています。 Hive は、Hadoop 上の大規模なデータ セットを分析するためのオープンソース ソフトウェアです。 これは、クエリを表現するための HiveQL と呼ばれる SQL に似た宣言言語を提供します。 Hive-QL を使用すると、ユーザーは SQL 非常に簡単にデータ分析を実行できます。

Hive と Map Reduce の比較

これら XNUMX つのオプションのいずれかを選択する前に、その機能のいくつかを確認する必要があります。

Hive と Map のどちらかを選択するときは、次のことを行いますwing 要因が考慮されます。

  • データの種類
  • データ量
  • とplexコードの性質

Hive と Map Reduce?

特徴 ハイブ MapReduce
言語設定 インタラクションとデータモデリングのために SQL のようなクエリ言語をサポートします
  • XNUMX つの主要なタスクを含む言語をコンパイルします。 XNUMX つはマップ タスク、もう XNUMX つはリデューサーです。
  • これらのタスクは Java または Python を使用して定義できます。
抽象化のレベル HDFS 上のより高いレベルの抽象化 より低いレベルの抽象化
コードの効率化 マップリデュースよりも比較的小さい 高効率を実現
コードの範囲 実行に必要なコードの行数が少なくなる 定義するコードの行数が増える
必要な開発作業の種類 必要な開発作業が少なくなる さらなる開発作業が必要
クリックして 次のチュートリアル