Hive-zelfstudie voor beginners
Samenvatting van de Hive-zelfstudie
Apache Hive helpt bij het snel opvragen en beheren van grote datasets. Het is een ETL-tool voor het Hadoop-ecosysteem. In deze Apache Hive-zelfstudie voor beginners leert u de basisbeginselen van Hive en belangrijke onderwerpen zoals HQL-query's, gegevensextracties, partities, buckets, enzovoort. Deze Hive-zelfstudiereeks helpt u de concepten en basisbeginselen van Hive te leren.
Wat moet ik weten?
Om deze zelfstudie over Hive-query's te leren, hebt u basiskennis nodig van SQL, Hadoop en kennis van andere databases zal een extra hulp zijn.
Hive-cursussyllabus
Introductie
👉 Lessop 1 | Wat is Hive? - Architectuur en modi |
👉 Lessop 2 | HIVE downloaden en installeren - HIVE downloaden en installeren op Ubuntu |
👉 Lessop 3 | HIVE-metastore-configuratie - Waarom gebruiken MySQL? |
👉 Lessop 4 | Hive-gegevenstypen - Database maken en neerzetten in Hive |
Geavanceerde dingen
👉 Lessop 1 | Hive Tabel maken - Typen en het gebruik ervan |
👉 Lessop 2 | Hive-partities en -emmers - Leer met voorbeeld |
👉 Lessop 3 | Hive-indexen en -weergave - Leer met voorbeeld |
👉 Lessop 4 | Hive-query's - Leer met voorbeeld |
👉 Lessop 5 | Hive Join & SubQuery-zelfstudie - Leer met voorbeeld |
👉 Lessop 6 | Hive Query-taaltutorial — Ingebouwd Operaverdraaid |
👉 Lessop 7 | Hive-functie — Ingebouwde en door de gebruiker gedefinieerde functies |
👉 Lessop 8 | Bijenkorf ETL — Laden van JSON-, XML- en tekstgegevensvoorbeelden |
Inleiding tot Hive
Hive is geëvolueerd als een datawarehousing-oplossing gebouwd bovenop het Hadoop Map-Reduce-framework.
De omvang van de datasets die in de branche worden verzameld en geanalyseerd business intelligence groeit en maakt traditionele datawarehousingoplossingen in zekere zin duurder. Hadoop met MapReduce-framework, wordt gebruikt als een alternatieve oplossing voor het analyseren van datasets met enorme omvang. Hoewel Hadoop nuttig is gebleken bij het werken aan enorme datasets, is het MapReduce-framework van een zeer laag niveau en vereist het dat programmeurs aangepaste programma's schrijven die moeilijk te onderhouden en opnieuw te gebruiken zijn. Hive komt hier om programmeurs te redden.
Hive-motor compileert deze query's in Map-Reduce-jobs die op Hadoop worden uitgevoerd. Daarnaast kunnen aangepaste Map-Reduce-scripts ook in query's worden geplugd. Hive werkt op gegevens die zijn opgeslagen in tabellen die bestaan uit primitieve gegevenstypen en verzamelingsgegevenstypen zoals arrays en maps.
Hive wordt geleverd met een opdrachtregelshellinterface die kan worden gebruikt om tabellen te maken en query's uit te voeren.
Hive-querytaal is vergelijkbaar met SQL en ondersteunt subquery's. Met de Hive-querytaal is het mogelijk om MapReduce-joins te nemen in Hive-tabellen. Het heeft een ondersteuning voor eenvoudig SQL-achtige functies– CONCAT, SUBSTR, RONDE enz., en aggregatiefuncties– SUM, COUNT, MAX etc. Het ondersteunt ook GROUP BY- en SORT BY-clausules. Het is ook mogelijk om door de gebruiker gedefinieerde functies te schrijven in de Hive-querytaal.
Wat is Hive?
Apache-bijenkorf is een datawarehouse-framework voor het opvragen en analyseren van gegevens die zijn opgeslagen in HDFS. Het is ontwikkeld bovenop Hadoop. Hive is open-sourcesoftware om grote datasets op Hadoop te analyseren. Het biedt SQL-achtige declaratieve taal, genaamd HiveQL, om vragen uit te drukken. Met behulp van Hive-QL kunnen gebruikers die zijn gekoppeld aan SQL kan zeer eenvoudig data-analyses uitvoeren.
Hive versus kaart verkleinen
Voordat we een van deze twee opties kiezen, moeten we enkele van hun kenmerken bekijken.
Bij de keuze tussen Hive en Map Reduction worden de volgende factoren in overweging genomen;
- Type gegevens
- Hoeveelheid gegevens
- Complexiteit van de code
Hive versus kaart verkleinen?
Kenmerk | Bijenkorf | Kaart verkleinen |
---|---|---|
Taal | Het ondersteunt SQL-achtige querytaal voor interactie en voor gegevensmodellering |
|
Niveau van abstractie | Hoger abstractieniveau bovenop HDFS | Lager abstractieniveau |
Efficiëntie in code | Relatief minder dan Kaartreductie | Biedt hoge efficiëntie |
Omvang van de code | Less aantal regels code vereist voor uitvoering | Er moet een groter aantal regels codes worden gedefinieerd |
Type ontwikkelingswerk vereist | Less Ontwikkelingswerk vereist | Er is meer ontwikkelingswerk nodig |