Tutorial Hive untuk Pemula: Belajar dengan Contoh dalam 3 Hari
Ringkasan Tutorial Sarang
Apache Hive membantu membuat kueri dan mengelola kumpulan data besar dengan sangat cepat. Ini adalah sebuah alat ETL untuk ekosistem Hadoop. Dalam tutorial Apache Hive untuk pemula ini, Anda akan mempelajari dasar-dasar Hive dan topik-topik penting seperti kueri HQL, ekstraksi data, partisi, bucket, dan sebagainya. Rangkaian tutorial Hive ini akan membantu Anda mempelajari konsep dan dasar-dasar Hive.
Apa yang harus saya ketahui?
Untuk mempelajari tutorial kueri Hive ini, Anda memerlukan pengetahuan dasar tentang SQL, Hadoop dan pengetahuan tentang database lain akan sangat membantu.
Silabus Kursus Sarang
Pengantar
👉 Lesspada 1 | Apa itu Hive? - Architekstur & Mode |
👉 Lesspada 2 | Unduh & Instal HIVE — Cara Mengunduh & Menginstal HIVE di Ubuntu |
👉 Lesspada 3 | Konfigurasi Metastore HIVE — Mengapa Menggunakan MySQL? |
👉 Lesspada 4 | Tipe Data Sarang — Buat & Jatuhkan Basis Data di Hive |
Barang Tingkat Lanjut
👉 Lesspada 1 | Tabel Pembuatan Sarang — Jenis dan Kegunaannya |
👉 Lesspada 2 | Partisi & Ember Sarang — Belajar dengan Contoh |
👉 Lesspada 3 | Indeks dan Tampilan Hive — Belajar dengan Contoh |
👉 Lesspada 4 | Pertanyaan Sarang — Belajar dengan Contoh |
👉 Lesspada 5 | Tutorial Gabung & Subkueri Hive — Belajar dengan Contoh |
👉 Lesspada 6 | Tutorial Bahasa Kueri Hive — Tertanam Operatorso |
👉 Lesspada 7 | Fungsi Sarang — Fungsi Bawaan & Buatan Pengguna |
👉 Lesspada 8 | sarang ETL — Memuat JSON, XML, Contoh Data Teks |
Pengantar Sarang
Hive berevolusi sebagai solusi pergudangan data yang dibangun di atas kerangka Hadoop Map-Reduce.
Ukuran kumpulan data yang dikumpulkan dan dianalisis di industri intelijen bisnis berkembang dan pada sisi tertentu, hal ini membuat solusi pergudangan data tradisional menjadi lebih mahal. Hadoop dengan framework MapReduce, digunakan sebagai solusi alternatif untuk menganalisis kumpulan data dengan ukuran besar. Meskipun Hadoop telah terbukti berguna untuk mengerjakan kumpulan data yang besar, kerangka kerja MapReduce-nya berada pada level yang sangat rendah dan mengharuskan pemrogram untuk menulis program khusus yang sulit dipelihara dan digunakan kembali. Hive datang ke sini untuk menyelamatkan programmer.
Mesin sarang mengkompilasi kueri ini menjadi pekerjaan Map-Reduce yang akan dieksekusi di Hadoop. Selain itu, skrip Map-Reduce kustom juga dapat dimasukkan ke dalam kueri. Hive beroperasi pada data yang disimpan dalam tabel yang terdiri dari tipe data primitif dan tipe data koleksi seperti array dan peta.
Hive hadir dengan antarmuka shell baris perintah yang dapat digunakan untuk membuat tabel dan menjalankan kueri.
Bahasa kueri Hive mirip dengan SQL yang mendukung subkueri. Dengan bahasa kueri Hive, dimungkinkan untuk mengambil gabungan MapReduce di seluruh tabel Hive. Ini memiliki dukungan untuk yang sederhana Fungsi seperti SQL– CONCAT, SUBSTR, ROUND dll, dan fungsi agregasi– SUM, COUNT, MAX dll. Ini juga mendukung klausa GROUP BY dan SORT BY. Dimungkinkan juga untuk menulis fungsi yang ditentukan pengguna dalam bahasa kueri Hive.
Apa itu Hive?
Sarang Apache adalah kerangka gudang data untuk menanyakan dan menganalisis data yang disimpan di HDFS. Ini dikembangkan di atas Hadoop. Hive adalah perangkat lunak sumber terbuka untuk menganalisis kumpulan data besar di Hadoop. Ini menyediakan bahasa deklaratif seperti SQL, yang disebut HiveQL, untuk mengekspresikan pertanyaan. Menggunakan Hive-QL, pengguna yang terkait dengan SQL dapat melakukan analisis data dengan sangat mudah.
Pengurangan Peta Sarang Vs
Sebelum memilih salah satu dari dua opsi ini, kita harus melihat beberapa fiturnya.
Saat memilih antara Hive dan Map, faktor-faktor berikut dipertimbangkan;
- Jenis Data
- Jumlah Data
- Kompleksitas Kode
Pengurangan Peta Sarang Vs?
Fitur | Sarang lebah | Pengurangan Peta |
---|---|---|
Bahasa | Mendukung SQL seperti bahasa kueri untuk interaksi dan pemodelan data |
|
Tingkat abstraksi | Tingkat Abstraksi yang lebih tinggi di atas HDFS | Tingkat abstraksi yang lebih rendah |
Efisiensi dalam Kode | Relatif lebih kecil dari pengurangan Peta | Memberikan efisiensi tinggi |
Luasnya kode | Less jumlah baris kode yang diperlukan untuk eksekusi | Lebih banyak jumlah baris kode yang harus didefinisikan |
Jenis pekerjaan Pengembangan yang diperlukan | Less Pekerjaan pengembangan diperlukan | Dibutuhkan lebih banyak pekerjaan pengembangan |