Hive Tutorial för nybörjare: Lär dig med exempel på 3 dagar
Sammanfattning av Hive Handledning
Apache Hive hjälper till med att söka och hantera stora datamängder riktigt snabbt. Det är en ETL-verktyg för Hadoop-ekosystemet. I denna Apache Hive-handledning för nybörjare kommer du att lära dig Hives grunder och viktiga ämnen som HQL-frågor, dataextraktioner, partitioner, hinkar och så vidare. Denna Hive-handledningsserie hjälper dig att lära dig Hive-koncept och grunder.
Vad ska jag veta?
För att lära dig denna Hive-frågehandledning behöver du grundläggande kunskaper om SQL, Hadoop och kunskap om andra databaser kommer att vara till ytterligare hjälp.
Hive Kursplan
Beskrivning
👉 Lesspå 1 | Vad är Hive? - Architecture & Modes |
👉 Lesspå 2 | Ladda ner och installera HIVE — Hur man laddar ner och installerar HIVE på Ubuntu |
👉 Lesspå 3 | HIVE Metastore-konfiguration - Varför använda MySQL? |
👉 Lesspå 4 | Hive datatyper — Skapa och släpp databas i Hive |
Avancerade saker
👉 Lesspå 1 | Hive Skapa tabell — Typer och dess användning |
👉 Lesspå 2 | Hive skiljeväggar och hinkar — Lär dig med exempel |
👉 Lesspå 3 | Hive Index och Visa — Lär dig med exempel |
👉 Lesspå 4 | Hive-frågor — Lär dig med exempel |
👉 Lesspå 5 | Hive Gå med & SubQuery Handledning — Lär dig med exempel |
👉 Lesspå 6 | Handledning för Hive Query Language — Inbyggd Operatorer |
👉 Lesspå 7 | Hive funktion — Inbyggda och användardefinierade funktioner |
👉 Lesspå 8 | Hive ETL — Laddar JSON, XML, textdataexempel |
Introduktion till Hive
Hive utvecklades som en datalagerlösning byggd ovanpå Hadoop Map-Reduce-ramverket.
Storleken på datamängder som samlas in och analyseras i branschen för business intelligence växer och på sätt och vis gör det traditionella datalagerlösningar dyrare. Hadoop med MapReduce-ramverket, används som en alternativ lösning för att analysera datamängder med enorm storlek. Även om Hadoop har visat sig vara användbart för att arbeta med stora datamängder, är dess MapReduce-ramverk mycket låg nivå och det kräver att programmerare skriver anpassade program som är svåra att underhålla och återanvända. Hive kommer hit för att rädda programmerare.
Hive motor sammanställer dessa frågor till Map-Reduce-jobb som ska köras på Hadoop. Dessutom kan anpassade Map-Reduce-skript också kopplas in i frågor. Hive arbetar på data lagrad i tabeller som består av primitiva datatyper och insamlingsdatatyper som arrayer och kartor.
Hive kommer med ett kommandoradsskal-gränssnitt som kan användas för att skapa tabeller och köra frågor.
Hive-frågespråk liknar SQL där det stöder underfrågor. Med Hive-frågespråk är det möjligt att ta en MapReduce-kopplingar över Hive-tabeller. Den har ett stöd för enkel SQL-liknande funktioner– CONCAT, SUBSTR, ROUND etc., och aggregeringsfunktioner– SUM, COUNT, MAX etc. Den stöder även satserna GROUP BY och SORT BY. Det är också möjligt att skriva användardefinierade funktioner i Hive-frågespråk.
Vad är Hive?
Apache-bikupan är ett datalagerramverk för sökning och analys av data lagrad i HDFS. Den är utvecklad ovanpå Hadoop. Hive är en öppen källkod för att analysera stora datamängder på Hadoop. Det tillhandahåller SQL-liknande deklarativt språk, kallat HiveQL, för att uttrycka frågor. Använder Hive-QL, användare associerade med SQL kan utföra dataanalys mycket enkelt.
Hive Vs Map Reduce
Innan vi väljer ett av dessa två alternativ måste vi titta på några av deras funktioner.
När du väljer mellan Hive och Map ska du minska följande faktorer;
- Typ av data
- Datamängd
- Kodens komplexitet
Hive vs Map Reduce?
Leverans | Bikupa | Karta minska |
---|---|---|
Språk | Det stöder SQL-liknande frågespråk för interaktion och för datamodellering |
|
Abstraktionsnivå | Högre abstraktionsnivå ovanpå HDFS | Lägre abstraktionsnivå |
Effektivitet i kod | Jämförelsevis mindre än Map reduce | Ger hög effektivitet |
Kodens omfattning | Less antal rader kod som krävs för exekvering | Fler antal rader med koder ska definieras |
Typ av utvecklingsarbete som krävs | Less Utvecklingsarbete krävs | Mer utvecklingsarbete behövs |