Hive Tutorial för nybörjare: Lär dig med exempel på 3 dagar

Sammanfattning av Hive Handledning


Apache Hive hjälper till med att söka och hantera stora datamängder riktigt snabbt. Det är en ETL-verktyg för Hadoop-ekosystemet. I denna Apache Hive-handledning för nybörjare kommer du att lära dig Hives grunder och viktiga ämnen som HQL-frågor, dataextraktioner, partitioner, hinkar och så vidare. Denna Hive-handledningsserie hjälper dig att lära dig Hive-koncept och grunder.

Vad ska jag veta?


För att lära dig denna Hive-frågehandledning behöver du grundläggande kunskaper om SQL, Hadoop och kunskap om andra databaser kommer att vara till ytterligare hjälp.

Hive Kursplan

Beskrivning

👉 Lesspå 1 Vad är Hive? - Architecture & Modes
👉 Lesspå 2 Ladda ner och installera HIVE — Hur man laddar ner och installerar HIVE på Ubuntu
👉 Lesspå 3 HIVE Metastore-konfiguration - Varför använda MySQL?
👉 Lesspå 4 Hive datatyper — Skapa och släpp databas i Hive

Avancerade saker

👉 Lesspå 1 Hive Skapa tabell — Typer och dess användning
👉 Lesspå 2 Hive skiljeväggar och hinkar — Lär dig med exempel
👉 Lesspå 3 Hive Index och Visa — Lär dig med exempel
👉 Lesspå 4 Hive-frågor — Lär dig med exempel
👉 Lesspå 5 Hive Gå med & SubQuery Handledning — Lär dig med exempel
👉 Lesspå 6 Handledning för Hive Query Language — Inbyggd Operatorer
👉 Lesspå 7 Hive funktion — Inbyggda och användardefinierade funktioner
👉 Lesspå 8 Hive ETL — Laddar JSON, XML, textdataexempel

Introduktion till Hive

Hive utvecklades som en datalagerlösning byggd ovanpå Hadoop Map-Reduce-ramverket.

Storleken på datamängder som samlas in och analyseras i branschen för business intelligence växer och på sätt och vis gör det traditionella datalagerlösningar dyrare. Hadoop med MapReduce-ramverket, används som en alternativ lösning för att analysera datamängder med enorm storlek. Även om Hadoop har visat sig vara användbart för att arbeta med stora datamängder, är dess MapReduce-ramverk mycket låg nivå och det kräver att programmerare skriver anpassade program som är svåra att underhålla och återanvända. Hive kommer hit för att rädda programmerare.


Hive motor sammanställer dessa frågor till Map-Reduce-jobb som ska köras på Hadoop. Dessutom kan anpassade Map-Reduce-skript också kopplas in i frågor. Hive arbetar på data lagrad i tabeller som består av primitiva datatyper och insamlingsdatatyper som arrayer och kartor.

Hive kommer med ett kommandoradsskal-gränssnitt som kan användas för att skapa tabeller och köra frågor.

Hive-frågespråk liknar SQL där det stöder underfrågor. Med Hive-frågespråk är det möjligt att ta en MapReduce-kopplingar över Hive-tabeller. Den har ett stöd för enkel SQL-liknande funktioner– CONCAT, SUBSTR, ROUND etc., och aggregeringsfunktioner– SUM, COUNT, MAX etc. Den stöder även satserna GROUP BY och SORT BY. Det är också möjligt att skriva användardefinierade funktioner i Hive-frågespråk.

Vad är Hive?

Apache-bikupan är ett datalagerramverk för sökning och analys av data lagrad i HDFS. Den är utvecklad ovanpå Hadoop. Hive är en öppen källkod för att analysera stora datamängder på Hadoop. Det tillhandahåller SQL-liknande deklarativt språk, kallat HiveQL, för att uttrycka frågor. Använder Hive-QL, användare associerade med SQL kan utföra dataanalys mycket enkelt.

Hive Vs Map Reduce

Innan vi väljer ett av dessa två alternativ måste vi titta på några av deras funktioner.

När du väljer mellan Hive och Map ska du minska följande faktorer;

  • Typ av data
  • Datamängd
  • Kodens komplexitet

Hive vs Map Reduce?

Leverans Bikupa Karta minska
Språk Det stöder SQL-liknande frågespråk för interaktion och för datamodellering
  • Den sammanställer språk med två huvuduppgifter som finns i det. En är kartuppgift, och en annan är en reducering.
  • Vi kan definiera dessa uppgifter med hjälp av Java or Python
Abstraktionsnivå Högre abstraktionsnivå ovanpå HDFS Lägre abstraktionsnivå
Effektivitet i kod Jämförelsevis mindre än Map reduce Ger hög effektivitet
Kodens omfattning Less antal rader kod som krävs för exekvering Fler antal rader med koder ska definieras
Typ av utvecklingsarbete som krävs Less Utvecklingsarbete krävs Mer utvecklingsarbete behövs
Klicka för Nästa handledning