Tutoriel Hive pour les débutants : apprenez avec des exemples en 3 jours

Résumé du didacticiel Hive


Apache Hive permet d'interroger et de gérer très rapidement de grands ensembles de données. C'est un Outil ETL pour l'écosystème Hadoop. Dans ce didacticiel Apache Hive destiné aux débutants, vous apprendrez les bases de Hive et des sujets importants tels que les requêtes HQL, les extractions de données, les partitions, les buckets, etc. Cette série de didacticiels Hive vous aidera à apprendre les concepts et les bases de Hive.

Que dois-je savoir ?


Pour apprendre ce didacticiel sur les requêtes Hive, vous devez avoir des connaissances de base sur SQL, Hadoop et la connaissance d'autres bases de données sera d'une aide supplémentaire.

Programme de cours sur la Ruche

Introduction

👉 Lesssur 1 Qu'est-ce que Hive? - Archiconfiguration et modes
👉 Lesssur 2 Téléchargez et installez HIVE - Comment télécharger et installer HIVE sur Ubuntu
👉 Lesssur 3 Configuration du métastore HIVE - Pourquoi utiliser MySQL?
👉 Lesssur 4 Types de données de la ruche - Créer et supprimer une base de données dans Hive

Trucs avancés

👉 Lesssur 1 Table de création de ruche — Types et son utilisation
👉 Lesssur 2 Partitions et compartiments de ruche — Apprenez avec l'exemple
👉 Lesssur 3 Index et vue Hive — Apprenez avec l'exemple
👉 Lesssur 4 Requêtes de ruche — Apprenez avec l'exemple
👉 Lesssur 5 Tutoriel de jointure Hive et de sous-requête — Apprenez avec l'exemple
👉 Lesssur 6 Tutoriel sur le langage de requête Hive — Intégré Operajeudi
👉 Lesssur 7 Fonction Ruche — Fonctions intégrées et définies par l'utilisateur
👉 Lesssur 8 ETL de la ruche — Chargement d'exemples de données JSON, XML et texte

Présentation de la ruche

Hive a évolué en tant que solution d'entreposage de données construite sur le framework Hadoop Map-Reduce.

La taille des ensembles de données collectées et analysées dans l'industrie pour l'intelligence d'entreprise est en pleine croissance et, d’une certaine manière, cela rend les solutions traditionnelles d’entreposage de données plus coûteuses. Hadoop avec le framework MapReduce, est utilisé comme solution alternative pour analyser des ensembles de données de grande taille. Bien que Hadoop se soit révélé utile pour travailler sur d'énormes ensembles de données, son framework MapReduce est de très bas niveau et oblige les programmeurs à écrire des programmes personnalisés difficiles à maintenir et à réutiliser. Hive vient ici pour sauver les programmeurs.


Moteur de ruche compile ces requêtes en tâches Map-Reduce à exécuter sur Hadoop. De plus, des scripts Map-Reduce personnalisés peuvent également être intégrés aux requêtes. Hive fonctionne sur des données stockées dans des tables constituées de types de données primitifs et de types de données de collection tels que des tableaux et des cartes.

Hive est livré avec une interface shell de ligne de commande qui peut être utilisée pour créer des tables et exécuter des requêtes.

Le langage de requête Hive est similaire à SQL dans lequel il prend en charge les sous-requêtes. Avec le langage de requête Hive, il est possible d'effectuer des jointures MapReduce sur les tables Hive. Il a un support pour simple Fonctions de type SQL– CONCAT, SUBSTR, ROUND etc., et fonctions d'agrégation– SUM, COUNT, MAX etc. Il prend également en charge les clauses GROUP BY et SORT BY. Il est également possible d'écrire des fonctions définies par l'utilisateur dans le langage de requête Hive.

Qu'est-ce que Hive?

Ruche Apache est un framework d'entrepôt de données pour l'interrogation et l'analyse des données stockées dans HDFS. Il est développé sur Hadoop. Hive est un logiciel open source permettant d'analyser de grands ensembles de données sur Hadoop. Il fournit un langage déclaratif de type SQL, appelé HiveQL, pour exprimer des requêtes. À l'aide de Hive-QL, les utilisateurs associés à SQL peut effectuer une analyse de données très facilement.

Hive Vs Map Réduire

Avant de choisir l’une de ces deux options, il faut examiner certaines de leurs caractéristiques.

Lors du choix entre Hive et Map, les facteurs suivants sont pris en compte :

  • Type de données
  • Quantité de données
  • Complexité du code

Hive Vs Map Réduire ?

Fonctionnalité Ruche Réduire la carte
Langue Il prend en charge le langage de requête de type SQL pour l'interaction et la modélisation des données.
  • Il compile un langage avec deux tâches principales présentes. L’une est une tâche de cartographie et l’autre est un réducteur.
  • Nous pouvons définir ces tâches en utilisant Java or Python
Niveau d'abstraction Niveau d'abstraction plus élevé en plus de HDFS Niveau d'abstraction inférieur
Efficacité du code Comparativement inférieur à la réduction de la carte Fournit une haute efficacité
Étendue du code Less nombre de lignes de code nécessaires à l'exécution Plus de lignes de codes à définir
Type de travaux de développement requis Less Travaux de développement requis Plus de travail de développement nécessaire
Cliquez pour le Tutoriel suivant