初心者向けの Hive チュートリアル: 3 日間で例を使って学ぶ
Hive チュートリアルの概要
Apache Hive は、大規模なデータセットのクエリと管理を高速に行うのに役立ちます。 それは ETLツール Hadoop エコシステム向け。この初心者向け Apache Hive チュートリアルでは、Hive の基本と、HQL クエリ、データ抽出、パーティション、バケットなどの重要なトピックについて学習します。この Hive チュートリアル シリーズは、Hive の概念と基本を学習するのに役立ちます。
何を知っておくべきですか?
この Hive クエリ チュートリアルを学習するには、次の基本的な知識が必要です。 SQL、 Hadoopの 他のデータベースに関する知識もさらに役立ちます。
ハイブコースのシラバス
概要
👉 基礎学習 | Hiveとは何ですか? - Archi構造とモード |
👉 基礎学習 | HIVE をダウンロードしてインストールする — HIVE をダウンロードしてインストールする方法 Ubuntu |
👉 基礎学習 | HIVE メタストアの構成 — 使用する理由 MySQL? |
👉 基礎学習 | ハイブのデータ型 — Hive でのデータベースの作成と削除 |
高度なもの
👉 基礎学習 | ハイブ作成テーブル — 種類とその使い方 |
👉 基礎学習 | Hive パーティションとバケット — 例で学ぶ |
👉 基礎学習 | Hive のインデックスとビュー — 例で学ぶ |
👉 基礎学習 | ハイブクエリ — 例で学ぶ |
👉 基礎学習 | Hive 結合とサブクエリのチュートリアル — 例で学ぶ |
👉 基礎学習 | Hive クエリ言語のチュートリアル — 内蔵 Operaトー |
👉 基礎学習 | ハイブ機能 — 組み込み関数とユーザー定義関数 |
👉 基礎学習 | ハイブETL — JSON、XML、テキスト データのサンプルのロード |
ハイブの紹介
Hive は、Hadoop Map-Reduce フレームワーク上に構築されたデータ ウェアハウジング ソリューションとして進化しました。
業界で収集および分析されているデータセットのサイズ ビジネス・インテリジェンス 成長しており、ある意味では、従来のデータ ウェアハウス ソリューションのコストが高くなっています。 Hadoopの MapReduce フレームワークを使用した、巨大なサイズのデータセットを分析するための代替ソリューションとして使用されています。 Hadoop は巨大なデータ セットを扱うのに便利であることが証明されていますが、その MapReduce フレームワークは非常に低レベルであり、プログラマは保守や再利用が難しいカスタム プログラムを作成する必要があります。 ハイブはプログラマーを救出するためにここにやって来ます。
ハイブエンジン これらのクエリを Map-Reduce ジョブにコンパイルし、Hadoop で実行します。さらに、カスタム Map-Reduce スクリプトをクエリにプラグインすることもできます。Hive は、プリミティブ データ型と、配列やマップなどのコレクション データ型で構成されるテーブルに格納されたデータを操作します。
Hive には、テーブルの作成やクエリの実行に使用できるコマンドライン シェル インターフェイスが付属しています。
Hive クエリ言語は SQL に似ており、サブクエリをサポートします。 Hive クエリ言語を使用すると、Hive テーブル間で MapReduce 結合を行うことができます。 簡単なサポートがあります SQL のような関数– CONCAT、SUBSTR、ROUND など、および 集計関数– SUM、COUNT、MAX など。GROUP BY 句や SORT BY 句もサポートされます。 Hive クエリ言語でユーザー定義関数を記述することもできます。
Hiveとは何ですか?
ApacheHive HDFS に保存されているデータのクエリと分析を行うためのデータ ウェアハウス フレームワークです。 Hadoop 上で開発されています。 Hive は、Hadoop 上の大規模なデータ セットを分析するためのオープンソース ソフトウェアです。 これは、クエリを表現するための HiveQL と呼ばれる SQL に似た宣言言語を提供します。 Hive-QL を使用すると、ユーザーは SQL 非常に簡単にデータ分析を実行できます。
Hive と Map Reduce の比較
これら XNUMX つのオプションのいずれかを選択する前に、その機能のいくつかを確認する必要があります。
Hive と Map Reduce のどちらを選択するかは、次の要素を考慮して決定されます。
- データの種類
- データ量
- コードの複雑さ
Hive と Map Reduce?
機能 | ハイブ | MapReduce |
---|---|---|
言語 | インタラクションとデータモデリングのために SQL のようなクエリ言語をサポートします |
|
抽象化のレベル | HDFS 上のより高いレベルの抽象化 | より低いレベルの抽象化 |
コードの効率化 | マップリデュースよりも比較的小さい | 高効率を実現 |
コードの範囲 | Less 実行に必要なコードの行数 | 定義するコードの行数が増える |
必要な開発作業の種類 | Less 必要な開発作業 | さらなる開発作業が必要 |