Hive-vejledning for begyndere
Resumé af Hive-tutorial
Apache Hive hjælper med at forespørge og administrere store datasæt rigtig hurtigt. Det er en ETL værktøj for Hadoop-økosystemet. I denne Apache Hive-tutorial for begyndere vil du lære Hive-grundlæggende og vigtige emner som HQL-forespørgsler, dataudtræk, partitioner, buckets og så videre. Denne Hive-tutorialserie hjælper dig med at lære Hive-koncepter og grundlæggende.
Hvad skal jeg vide?
For at lære denne Hive-forespørgselstutorial skal du have grundlæggende viden om SQL, Hadoop og kendskab til andre databaser vil være en yderligere hjælp.
Hive kursus pensum
Introduktion
👍 Lesspå 1 | Hvad er Hive? — Architecture & Modes |
👍 Lesspå 2 | Download og installer HIVE — Sådan downloades og installeres HIVE på Ubuntu |
👍 Lesspå 3 | HIVE Metastore-konfiguration - Hvorfor bruge MySQL? |
👍 Lesspå 4 | Hive-datatyper — Opret og slip database i Hive |
Avancerede ting
👍 Lesspå 1 | Hive Opret tabel — Typer og dens Anvendelse |
👍 Lesspå 2 | Hive skillevægge og spande — Lær med eksempel |
👍 Lesspå 3 | Hive-indekser og visning — Lær med eksempel |
👍 Lesspå 4 | Hive-forespørgsler — Lær med eksempel |
👍 Lesspå 5 | Hive-deltagelse og underforespørgsel selvstudie — Lær med eksempel |
👍 Lesspå 6 | Hive Query Language Tutorial — Indbygget Operatorer |
👍 Lesspå 7 | Hive funktion — Indbyggede og brugerdefinerede funktioner |
👍 Lesspå 8 | Hive ETL — Indlæsning af JSON, XML, tekstdataeksempler |
Introduktion til Hive
Hive udviklede sig som en data warehousing-løsning bygget oven på Hadoop Map-Reduce framework.
Størrelsen af datasæt, der indsamles og analyseres i branchen for business intelligence er i vækst og på en måde gør det traditionelle data warehousing-løsninger dyrere. Hadoop med MapReduce framework, bliver brugt som en alternativ løsning til at analysere datasæt med enorm størrelse. Selvom Hadoop har vist sig nyttig til at arbejde med enorme datasæt, er dens MapReduce-ramme på meget lavt niveau, og det kræver, at programmører skriver brugerdefinerede programmer, som er svære at vedligeholde og genbruge. Hive kommer her for at redde programmører.
Hive motor kompilerer disse forespørgsler til Map-Reduce-job, der skal udføres på Hadoop. Derudover kan brugerdefinerede Map-Reduce-scripts også tilsluttes forespørgsler. Hive opererer på data gemt i tabeller, som består af primitive datatyper og indsamlingsdatatyper som arrays og kort.
Hive kommer med en kommandolinje-shell-grænseflade, som kan bruges til at oprette tabeller og udføre forespørgsler.
Hive-forespørgselssprog ligner SQL, hvor det understøtter underforespørgsler. Med Hive forespørgselssprog er det muligt at tage en MapReduce joins på tværs af Hive-tabeller. Det har en understøttelse for simple SQL-lignende funktioner– CONCAT, SUBSTR, ROUND osv., og aggregeringsfunktioner– SUM, COUNT, MAX osv. Det understøtter også GROUP BY- og SORT BY-sætninger. Det er også muligt at skrive brugerdefinerede funktioner i Hive-forespørgselssprog.
Hvad er Hive?
Apache Hive er en datavarehusramme til forespørgsel og analyse af data, der er lagret i HDFS. Den er udviklet oven på Hadoop. Hive er en open source-software til at analysere store datasæt på Hadoop. Det giver SQL-lignende deklarativt sprog, kaldet HiveQL, til at udtrykke forespørgsler. Ved hjælp af Hive-QL, brugere tilknyttet SQL kan udføre dataanalyse meget nemt.
Hive Vs Kort Reducer
Inden vi vælger en af disse to muligheder, skal vi se på nogle af deres funktioner.
Mens du vælger mellem Hive og Map, tages der hensyn til følgende faktorer;
- Datatype
- Mængde af data
- Kodens kompleksitet
Hive vs Map Reducer?
Feature | Hive | Kort Reducer |
---|---|---|
Sprog | Det understøtter SQL-lignende forespørgselssprog til interaktion og til datamodellering |
|
Abstraktionsniveau | Højere abstraktionsniveau oven på HDFS | Lavere abstraktionsniveau |
Effektivitet i kode | Forholdsvis mindre end Map-reduktion | Giver høj effektivitet |
Udstrækning af kode | Less antal linjer kode påkrævet for udførelse | Flere antal linjer med koder skal defineres |
Type udviklingsarbejde påkrævet | Less Udviklingsarbejde påkrævet | Der er brug for mere udviklingsarbejde |