Kaptár válaszfalak és vödrök példával

A táblák, partíciók és gyűjtők a Hive-adatmodellezés részei.

Mi az a partíciók?

A Hive Partitions segítségével a táblákat partíciókba rendezheti úgy, hogy a táblákat a partíciókulcsok alapján különböző részekre osztja.

A partíció akkor hasznos, ha a tábla egy vagy több partíciókulccsal rendelkezik. A partíciós kulcsok alapvető elemek az adatok táblázatban való tárolásának meghatározásához.

Például: -

„Az ügyfél rendelkezik bizonyos e-kereskedelmi adatokkal, amelyek az indiai műveletekhez tartoznak, amelyekben az egyes államok (38 állam) összességében szerepelnek. Ha az állapotoszlopot partíciós kulcsnak vesszük, és az összes indiai adaton partíciókat hajtunk végre, akkor megkaphatjuk a Partíciók száma (38 partíció) értéket, amely megegyezik az Indiában jelenlévő államok számával (38). Olyan, hogy az egyes állapotadatok külön-külön megtekinthetők partíciós táblákban.

Minta kódrészlet a partíciókhoz

  1. Minden állapot táblázat létrehozása
create table all states(state string, District string,Enrolments string)

row format delimited

fields terminated by ',';
  1. Adatok betöltése a létrehozott táblába minden állapot
Load data local inpath '/home/hduser/Desktop/AllStates.csv' into table allstates;
  1. Partíciós tábla létrehozása
create table state_part(District string,Enrolments string) PARTITIONED BY(state string);
  1. A partícióhoz be kell állítanunk ezt a tulajdonságot
    set hive.exec.dynamic.partition.mode=nonstrict
  2. Adatok betöltése partíciós táblába
INSERT OVERWRITE TABLE state_part PARTITION(state)
SELECT district,enrolments,state from  allstates;
  1. A partíciós táblák tényleges feldolgozása és kialakítása partíciós kulcsként állapot alapján
  2. A HDFS-tárolóban 38 partíciókimenet lesz, amelyeknek a fájlneve lesz az állapotnév. Ebben a lépésben ezt ellenőrizzük

A következő képernyőképek a fent említett kód végrehajtását mutatják be

Kaptár partíciók

Kaptár partíciók

Kaptár partíciók

Kaptár partíciók

A fenti kódból a következőket tesszük

  1. Minden állam tábla létrehozása 3 oszlopnévvel, például állam, körzet és beiratkozás
  2. Adatok betöltése a táblába minden állapot
  3. Partíciós tábla létrehozása partíciókulcsként állapottal
  4. Ebben a lépésben a partíciós mód beállítása nem szigorúnak (Ez a mód aktiválja a dinamikus partíciós módot)
  5. Adatok betöltése a táblaállapot_rész partícióba
  6. A partíciós táblák tényleges feldolgozása és kialakítása partíciós kulcsként állapot alapján
  7. A HDFS tárolóban 38 partíciós kimenet található, a fájlnév állapotnévként. Ebben a lépésben ezt ellenőrizzük. Ebben a lépésben a 38 partíciókimenetet látjuk a HDFS-ben

Mi az a Buckets?

A kaptárban lévő vödrök a kaptártábla-adatok több fájlba vagy könyvtárba történő elkülönítésére szolgálnak. hatékony lekérdezésre szolgál.

  • A partíciókban található adatok tovább oszthatók gyűjtőhelyekre
  • A felosztás a táblázatban kiválasztott oszlopok hash-je alapján történik.
  • A gyűjtők a háttérben valamilyen kivonatolási algoritmust használnak az egyes rekordok beolvasására és gyűjtőhelyekbe helyezésére
  • A Hive-ben engedélyeznünk kell a vödröket a set.hive.enforce.bucketing=true;

Step 1) Vödör létrehozása az alábbiak szerint.

Kaptáros vödrök

A fenti képernyőképből

  • Létrehozzuk a sample_bucket-et olyan oszlopnevekkel, mint keresztnév, job_id, osztály, fizetés és ország
  • Itt 4 vödröt hozunk létre.
  • Miután az adatok automatikusan betöltődnek, helyezze az adatokat 4 vödörbe

Step 2) Adatok betöltése a táblázat mintagyűjtőjébe

Feltéve, hogy a Hive rendszerben már létrehozott „Alkalmazotti táblázat”. Ebben a lépésben látni fogjuk az Adatok az alkalmazottaktól tábla betöltését a táblaminta-vödörbe.

Mielőtt elkezdené az alkalmazottak adatainak gyűjtőzónákra való áthelyezését, győződjön meg arról, hogy az oszlopnevekből áll, például keresztnév, job_id, osztály, fizetés és ország.

Itt az alkalmazottak táblázatából töltjük be az adatokat a mintagyűjtőbe.

Kaptáros vödrök

Step 3)Az 4. lépésben létrehozott 1 vödör megjelenítése

Kaptáros vödrök

A fenti képernyőképen láthatjuk, hogy az alkalmazottak táblájából az adatok átkerülnek az 4. lépésben létrehozott 1 vödörbe.

Napi Guru99 hírlevél

Kezdje a napját a legfrissebb és legfontosabb mesterséges intelligenciával kapcsolatos hírekkel, amelyeket azonnal kézbesítünk.