Hive-opplæring for nybegynnere
Sammendrag av opplæringsprogrammet for Hive
Apache Hive hjelper deg med å spørre og administrere store datasett veldig raskt. Det er en ETL-verktøy for Hadoop-økosystemet. I denne Apache Hive-opplæringen for nybegynnere vil du lære Hive-grunnleggende og viktige emner som HQL-spørringer, dataekstraksjoner, partisjoner, bøtter og så videre. Denne Hive-opplæringsserien vil hjelpe deg å lære Hive-konsepter og grunnleggende.
Hva bør jeg vite?
For å lære denne Hive-spørringsveiledningen trenger du grunnleggende kunnskap om SQL, Hadoop og kunnskap om andre databaser vil være en ekstra hjelp.
Hive-kurspensum
Introduksjon
👉 Lesspå 1 | Hva er Hive? - Architecture & Modes |
👉 Lesspå 2 | Last ned og installer HIVE — Hvordan laste ned og installere HIVE på Ubuntu |
👉 Lesspå 3 | HIVE Metastore-konfigurasjon – Hvorfor bruke MySQL? |
👉 Lesspå 4 | Hive-datatyper — Opprett og slipp database i Hive |
Avanserte ting
👉 Lesspå 1 | Hive Lag tabell - Typer og dens bruk |
👉 Lesspå 2 | Hive skillevegger og bøtter — Lær med eksempel |
👉 Lesspå 3 | Hive-indekser og visning — Lær med eksempel |
👉 Lesspå 4 | Hive-spørringer — Lær med eksempel |
👉 Lesspå 5 | Hive Bli med og SubQuery veiledning — Lær med eksempel |
👉 Lesspå 6 | Hive Query Language Tutorial — Innebygd Operatorer |
👉 Lesspå 7 | Hive funksjon — Innebygde og brukerdefinerte funksjoner |
👉 Lesspå 8 | Hive ETL — Laster JSON, XML, tekstdataeksempler |
Introduksjon til Hive
Hive utviklet seg som en datavarehusløsning bygget på toppen av Hadoop Map-Reduce-rammeverket.
Størrelsen på datasett som samles inn og analyseres i bransjen for business intelligence vokser og på en måte gjør det tradisjonelle datavarehusløsninger dyrere. Hadoop med MapReduce-rammeverket, brukes som en alternativ løsning for å analysere datasett med stor størrelse. Selv om Hadoop har vist seg nyttig for å jobbe med store datasett, er MapReduce-rammeverket på svært lavt nivå, og det krever at programmerere skriver tilpassede programmer som er vanskelige å vedlikeholde og gjenbruke. Hive kommer hit for å redde programmerere.
Hive motor kompilerer disse spørringene til Map-Reduce-jobber som skal utføres på Hadoop. I tillegg kan tilpassede Map-Reduce-skript også kobles til spørringer. Hive opererer på data lagret i tabeller som består av primitive datatyper og innsamlingsdatatyper som matriser og kart.
Hive kommer med et kommandolinjeskallgrensesnitt som kan brukes til å lage tabeller og utføre spørringer.
Hive-spørringsspråk ligner på SQL der det støtter underspørringer. Med Hive-spørringsspråk er det mulig å ta en MapReduce-koblinger på tvers av Hive-tabeller. Den har en støtte for enkel SQL-lignende funksjoner– CONCAT, SUBSTR, ROUND etc., og aggregeringsfunksjoner– SUM, COUNT, MAX osv. Den støtter også GROUP BY og SORT BY klausuler. Det er også mulig å skrive brukerdefinerte funksjoner i Hive spørringsspråk.
Hva er Hive?
Apache Hive er et datavarehus-rammeverk for spørring og analyse av data lagret i HDFS. Den er utviklet på toppen av Hadoop. Hive er en åpen kildekode-programvare for å analysere store datasett på Hadoop. Det gir SQL-lignende deklarativt språk, kalt HiveQL, for å uttrykke spørringer. Ved å bruke Hive-QL, brukere tilknyttet SQL kan utføre dataanalyse veldig enkelt.
Hive Vs Map Reduser
Før vi velger ett av disse to alternativene, må vi se på noen av funksjonene deres.
Mens du velger mellom Hive og Map, blir følgende faktorer tatt i betraktning;
- Type data
- Datamengde
- Kodens kompleksitet
Hive vs Map Reduser?
Trekk | Hive | Kart reduksjon |
---|---|---|
Språk | Den støtter SQL-lignende spørrespråk for interaksjon og for datamodellering |
|
Abstraksjonsnivå | Høyere abstraksjonsnivå på toppen av HDFS | Lavere abstraksjonsnivå |
Effektivitet i kode | Forholdsvis mindre enn Map-reduksjon | Gir høy effektivitet |
Omfang av kode | Less antall linjer kode som kreves for utførelse | Flere linjer med koder skal defineres |
Type utviklingsarbeid som kreves | Less Utviklingsarbeid kreves | Det trengs mer utviklingsarbeid |
Klikk for Neste opplæring