Hive-opplæring for nybegynnere

Sammendrag av opplæringsprogrammet for Hive


Apache Hive hjelper deg med å spørre og administrere store datasett veldig raskt. Det er en ETL-verktøy for Hadoop-økosystemet. I denne Apache Hive-opplæringen for nybegynnere vil du lære Hive-grunnleggende og viktige emner som HQL-spørringer, dataekstraksjoner, partisjoner, bøtter og så videre. Denne Hive-opplæringsserien vil hjelpe deg å lære Hive-konsepter og grunnleggende.

Hva bør jeg vite?


For å lære denne Hive-spørringsveiledningen trenger du grunnleggende kunnskap om SQL, Hadoop og kunnskap om andre databaser vil være en ekstra hjelp.

Hive-kurspensum

Introduksjon

👉 Lesspå 1 Hva er Hive? - Architecture & Modes
👉 Lesspå 2 Last ned og installer HIVE — Hvordan laste ned og installere HIVE på Ubuntu
👉 Lesspå 3 HIVE Metastore-konfigurasjon – Hvorfor bruke MySQL?
👉 Lesspå 4 Hive-datatyper — Opprett og slipp database i Hive

Avanserte ting

👉 Lesspå 1 Hive Lag tabell - Typer og dens bruk
👉 Lesspå 2 Hive skillevegger og bøtter — Lær med eksempel
👉 Lesspå 3 Hive-indekser og visning — Lær med eksempel
👉 Lesspå 4 Hive-spørringer — Lær med eksempel
👉 Lesspå 5 Hive Bli med og SubQuery veiledning — Lær med eksempel
👉 Lesspå 6 Hive Query Language Tutorial — Innebygd Operatorer
👉 Lesspå 7 Hive funksjon — Innebygde og brukerdefinerte funksjoner
👉 Lesspå 8 Hive ETL — Laster JSON, XML, tekstdataeksempler

Introduksjon til Hive

Hive utviklet seg som en datavarehusløsning bygget på toppen av Hadoop Map-Reduce-rammeverket.

Størrelsen på datasett som samles inn og analyseres i bransjen for business intelligence vokser og på en måte gjør det tradisjonelle datavarehusløsninger dyrere. Hadoop med MapReduce-rammeverket, brukes som en alternativ løsning for å analysere datasett med stor størrelse. Selv om Hadoop har vist seg nyttig for å jobbe med store datasett, er MapReduce-rammeverket på svært lavt nivå, og det krever at programmerere skriver tilpassede programmer som er vanskelige å vedlikeholde og gjenbruke. Hive kommer hit for å redde programmerere.


Hive motor kompilerer disse spørringene til Map-Reduce-jobber som skal utføres på Hadoop. I tillegg kan tilpassede Map-Reduce-skript også kobles til spørringer. Hive opererer på data lagret i tabeller som består av primitive datatyper og innsamlingsdatatyper som matriser og kart.

Hive kommer med et kommandolinjeskallgrensesnitt som kan brukes til å lage tabeller og utføre spørringer.

Hive-spørringsspråk ligner på SQL der det støtter underspørringer. Med Hive-spørringsspråk er det mulig å ta en MapReduce-koblinger på tvers av Hive-tabeller. Den har en støtte for enkel SQL-lignende funksjoner– CONCAT, SUBSTR, ROUND etc., og aggregeringsfunksjoner– SUM, COUNT, MAX osv. Den støtter også GROUP BY og SORT BY klausuler. Det er også mulig å skrive brukerdefinerte funksjoner i Hive spørringsspråk.

Hva er Hive?

Apache Hive er et datavarehus-rammeverk for spørring og analyse av data lagret i HDFS. Den er utviklet på toppen av Hadoop. Hive er en åpen kildekode-programvare for å analysere store datasett på Hadoop. Det gir SQL-lignende deklarativt språk, kalt HiveQL, for å uttrykke spørringer. Ved å bruke Hive-QL, brukere tilknyttet SQL kan utføre dataanalyse veldig enkelt.

Hive Vs Map Reduser

Før vi velger ett av disse to alternativene, må vi se på noen av funksjonene deres.

Mens du velger mellom Hive og Map, blir følgende faktorer tatt i betraktning;

  • Type data
  • Datamengde
  • Kodens kompleksitet

Hive vs Map Reduser?

Trekk Hive Kart reduksjon
Språk Den støtter SQL-lignende spørrespråk for interaksjon og for datamodellering
  • Den kompilerer språk med to hovedoppgaver til stede i det. En er kartoppgave, og en annen er en redusering.
  • Vi kan definere disse oppgavene ved hjelp av Java or Python
Abstraksjonsnivå Høyere abstraksjonsnivå på toppen av HDFS Lavere abstraksjonsnivå
Effektivitet i kode Forholdsvis mindre enn Map-reduksjon Gir høy effektivitet
Omfang av kode Less antall linjer kode som kreves for utførelse Flere linjer med koder skal defineres
Type utviklingsarbeid som kreves Less Utviklingsarbeid kreves Det trengs mer utviklingsarbeid

Klikk for Neste opplæring