Mi az a Data Lake? ez van Architecture: Data Lake Tutorial

Mi az a Data Lake?

A Data Lake egy olyan tárolási adattár, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adat tárolására képes. Ez egy olyan hely, ahol minden típusú adatot natív formátumban tárolhatunk, a számlaméret vagy a fájl rögzített korlátai nélkül. Nagy adatmennyiséget kínál az analitikai teljesítmény és a natív integráció növelése érdekében.

A Data Lake olyan, mint egy nagy konténer, amely nagyon hasonlít a valódi tóhoz és folyókhoz. Csakúgy, mint egy tóba, ahol több mellékfolyó érkezik, az adattóban is vannak strukturált adatok, strukturálatlan adatok, gépről gépre, valós időben áramló naplók.

adattó
adattó

A Data Lake demokratizálja az adatokat, és költséghatékony módja a szervezet összes adatának tárolásának későbbi feldolgozás céljából. A kutatóelemző az adatok jelentésmintáinak megtalálására összpontosíthat, nem pedig magára az adatra.

Ellentétben a hierarchiával Adattárház ahol az adatok a Fájlokban és mappákban tárolódnak, a Data Lake lapos architektúrájú. A Data Lake minden adateleme egyedi azonosítót kap, és metaadat-információkkal van ellátva.

Miért a Data Lake?

Az adattó felépítésének fő célja, hogy finomítatlan képet nyújtson az adatokról az adatkutatóknak.

A Data Lake használatának okai a következők:

  • A tárolómotorok megjelenésével, mint a Hadoop a különböző információk tárolása egyszerűvé vált. Nem szükséges az adatokat egy vállalati szintű sémává modellezni Data Lake segítségével.
  • Az adatmennyiség, az adatminőség és a metaadatok növekedésével az elemzések minősége is javul.
  • A Data Lake üzleti agilitást kínál
  • Gépi tanulás és a mesterséges intelligencia felhasználható nyereséges előrejelzések készítésére.
  • Versenyelőnyt kínál a végrehajtó szervezetnek.
  • Nincs adatsiló-struktúra. A Data Lake 360 ​​fokos rálátást biztosít az ügyfelekre, és robusztusabbá teszi az elemzést.

adattó Architectúra

adattó Architectúra
adattó Architectúra

Az ábra egy Business Data Lake architektúráját mutatja. Az alsó szintek többnyire nyugalmi, míg a felső szintek valós idejű tranzakciós adatokat jelenítenek meg. Ezek az adatok késleltetés nélkül vagy kis késéssel áramlanak át a rendszeren. Az alábbiakban a Data Lake fontos szintjei találhatók Architectúra:

  1. Lenyelési szint: A bal oldalon lévő szintek az adatforrásokat ábrázolják. Az adatok kötegekben vagy valós időben tölthetők be az adattóba
  2. Insights szint: A jobb oldali szintek azt a kutatási oldalt képviselik, ahol a rendszerből származó betekintést használják. SQL, NoSQL lekérdezések, vagy akár excel is használható adatelemzésre.
  3. HDFS költséghatékony megoldás mind a strukturált, mind a strukturálatlan adatokhoz. Ez egy leszállózóna minden olyan adat számára, amely a rendszerben nyugalomban van.
  4. Desztillációs szint adatokat vesz a tároló gumiabroncsból, és strukturált adatokká alakítja át a könnyebb elemzés érdekében.
  5. Feldolgozási szint elemző algoritmusok és felhasználói lekérdezések futtatása változó valós idejű, interaktív, kötegelt strukturált adatok létrehozásához a könnyebb elemzés érdekében.
  6. Egységes műveleti szint szabályozza a rendszer kezelését és felügyeletét. Tartalmazza az auditálást és a jártasságkezelést, az adatkezelést, munkafolyamat-menedzsment.

Key Data Lake Concepts

Az alábbiakban a Data Lake kulcsfontosságú fogalmait ismertetjük, amelyeket meg kell érteni a Data Lake teljes megértéséhez Architectúra

Kulcs Concepts a Data Lake
Kulcs Concepts a Data Lake

Adatbevitel

Az adatfeldolgozás lehetővé teszi az összekötők számára, hogy adatokat szerezzenek be különböző adatforrásokból, és betöltsék a Data Lake-be.

Az adatbevitel támogatja:

  • Minden típusú strukturált, félig strukturált és strukturálatlan adat.
  • Többszöri feldolgozás, például kötegelt, valós idejű, egyszeri betöltés.
  • Sokféle adatforrás, például adatbázisok, webszerverek, e-mailek, Tárgyak internete, és FTP.

Adattárolás

Az adattárolásnak méretezhetőnek kell lennie, költséghatékony tárolást kell kínálnia, és lehetővé kell tennie az adatok gyors elérését. Támogatnia kell a különféle adatformátumokat.

Adatkezelés

Az adatkezelés a szervezetben használt adatok elérhetőségének, használhatóságának, biztonságának és integritásának kezelésére szolgáló folyamat.

Biztonság

A biztonságot a Data Lake minden rétegében meg kell valósítani. A tárolással, a feltárással és a fogyasztással kezdődik. Az alapvető szükséglet az illetéktelen felhasználók hozzáférésének leállítása. Támogatnia kell a különböző eszközöket az adatokhoz való hozzáféréshez, könnyen navigálható grafikus felhasználói felülettel és irányítópultokkal.

A hitelesítés, a könyvelés, az engedélyezés és az adatvédelem néhány fontos jellemzője a Data Lake biztonságának.

Adatminőség

Az adatminőség a Data Lake architektúra alapvető összetevője. Az adatok az üzleti érték pontosítására szolgálnak. A rossz minőségű adatokból származó információk kinyerése rossz minőségű betekintést eredményez.

Adatfeltárás

Az adatfeltárás egy másik fontos lépés az adatok előkészítésének vagy elemzésének megkezdése előtt. Ebben a szakaszban a címkézési technikát használják az adatmegértés kifejezésére, az Adattóban bevitt adatok rendszerezésével és értelmezésével.

Adatauditálás

Két fő adatnaplózási feladat a kulcsadatkészlet változásainak nyomon követése.

  1. A fontos adatkészlet-elemek változásainak nyomon követése
  2. Rögzíti, hogyan/mikor/ és ki változtatja meg ezeket az elemeket.

Az adataudit segít a kockázatok és a megfelelőség értékelésében.

Adatvonal

Ez az összetevő az adatok eredetével foglalkozik. Főleg azzal foglalkozik, hogy az idő múlásával hol mozog, és mi történik vele. Megkönnyíti a hibajavításokat az adatelemzési folyamatban a forrástól a célig.

Adatfeltárás

Ez az adatelemzés kezdeti szakasza. Segít azonosítani a megfelelő adatkészletet, amely létfontosságú az adatfeltárás megkezdése előtt.

Minden adott összetevőnek együtt kell működnie ahhoz, hogy fontos szerepet játszhasson a Data Lake épületében, amely könnyen fejlődhet és felfedezheti a környezetet.

A Data Lake érettségi szakaszai

A Data Lake érettségi szakaszainak meghatározása tankönyvenként eltérő. Bár a lényeg ugyanaz marad. Az érettséget követõen a színpad meghatározása laikus szemszögbõl.

A Data Lake érettségi szakaszai
A Data Lake érettségi szakaszai

1. szakasz: Adatok kezelése és lenyelése nagy léptékben

Az adatérettség ezen első szakasza magában foglalja az adatok átalakításának és elemzésének képességének javítását. Itt a cégtulajdonosoknak meg kell találniuk a készségeiknek megfelelő eszközöket, hogy több adatot szerezzenek és elemző alkalmazásokat készítsenek.

2. szakasz: Az analitikus izom felépítése

Ez egy második szakasz, amely magában foglalja az adatok átalakításának és elemzésének képességének javítását. Ebben a szakaszban a vállalatok azt az eszközt használják, amely a legmegfelelőbb készségeiknek. Elkezdenek több adatot gyűjteni és alkalmazásokat építeni. Itt a vállalati adattárház és a Data Lake képességei együtt kerülnek felhasználásra.

3. szakasz: Az EDW és a Data Lake egységesen működik

Ez a lépés azt jelenti, hogy az adatok és az elemzések a lehető legtöbb ember kezébe kerüljenek. Ebben a szakaszban a Data Lake és a vállalati adattárház egy szakszervezetben kezd működni. Mindkettő szerepet játszik az elemzésben

4. szakasz: Vállalkozási képesség a tóban

Az adattó ezen érettségi szakaszában a vállalati képességek hozzáadódnak a Data Lake-hez. Az információirányítás, az információs életciklus-kezelési képességek és a metaadatkezelés elfogadása. Ezt az érettségi szintet azonban nagyon kevés szervezet tudja elérni, de ez az arány a jövőben növekedni fog.

A Data Lake megvalósításának legjobb gyakorlatai

  • ArchiA szerkezeti összetevőknek, interakciójuknak és azonosított termékeknek támogatniuk kell a natív adattípusokat
  • A Data Lake tervezését a szükséges helyett a rendelkezésre állónak kell vezérelnie. A séma és az adatigény nincs meghatározva, amíg le nem kérdezik
  • A tervezést a szolgáltatás API-val integrált eldobható alkatrészeknek kell vezérelnie.
  • Az adatfeltárást, -feldolgozást, -tárolást, -felügyeletet, -minőséget, -átalakítást és -vizualizációt egymástól függetlenül kell kezelni.
  • A Data Lake architektúrát egy adott iparághoz kell igazítani. Biztosítania kell, hogy az adott tartományhoz szükséges képességek a tervezés szerves részét képezzék
  • Fontos az újonnan felfedezett adatforrások gyorsabb felvétele
  • A Data Lake személyre szabott kezelést nyújt a maximális érték kinyeréséhez
  • A Data Lake-nek támogatnia kell a meglévő vállalati adatkezelési technikákat és módszereket

Az adattó felépítésének kihívásai:

  • A Data Lake-ben az adatmennyiség nagyobb, így a folyamatnak jobban kell támaszkodnia a programozott adminisztrációra
  • Nehéz kezelni a ritka, hiányos, ingadozó adatokat
  • Az adatkészlet és a forrás szélesebb köre nagyobb adatkezelést és támogatást igényel

Különbség a Data Lakes és az adattárház között

paraméterek adattavak Adattárház
dátum Az adattavak mindent tárolnak. A Data Warehouse csak az üzleti folyamatokra összpontosít.
Feldolgozás Az adatok többnyire feldolgozatlanok Magasan feldolgozott adatok.
Az adatok típusa Lehet strukturálatlan, félig strukturált és strukturált. Leginkább táblázatos formában és felépítésű.
Feladat Adatkezelés megosztása Adatkeresésre optimalizálva
Agilitás Rendkívül agilis, szükség szerint konfigurálható és újrakonfigurálható. A Data Lake-hez képest kevésbé agilis és rögzített konfigurációval rendelkezik.
felhasználók A Data Lake-et leginkább a Data Scientist használja Az üzleti szakemberek széles körben használják az adattárházat
Tárolás Data Lakes tervezés alacsony költségű tároláshoz. Drága tárhelyet használnak, amely gyors válaszidőt biztosít
Biztonság Kevésbé irányítást biztosít. Lehetővé teszi az adatok jobb ellenőrzését.
EDW csere A Data Lake az EDW forrása lehet Kiegészíti az EDW-t (nem csere)
Séma Olvasási séma (nincs előre meghatározott séma) Séma írás közben (előre meghatározott sémák)
Adatfeldolgozás Segít az új adatok gyors bevitelében. Új tartalom bevezetése időigényes.
Adatok részletessége Alacsony részletességű vagy részletességű adatok. Adatok összefoglaló vagy összesített részletezettségi szinten.
Eszközök Használhat nyílt forráskódú eszközöket, például Hadoop/Map Reduce Leginkább kereskedelmi eszközök.

A Data Lake használatának előnyei és kockázatai

Íme néhány fő előny a Data Lake használatából:

  • Teljes mértékben segít a termék ionizálásában és a fejlett elemzésekben
  • Költséghatékony méretezhetőséget és rugalmasságot kínál
  • Korlátlan adattípusból kínál értéket
  • Csökkenti a hosszú távú fenntartási költségeket
  • Lehetővé teszi a fájlok gazdaságos tárolását
  • Gyorsan alkalmazkodik a változásokhoz
  • A Data Lake fő előnye az központosítás különböző tartalomforrásokból
  • A különböző részlegekből származó felhasználók szétszóródhatnak a világon rugalmas hozzáférés az adatokhoz

A Data Lake használatának kockázata:

  • Egy idő után a Data Lake elveszítheti jelentőségét és lendületét
  • A Data Lake tervezése során nagyobb kockázatot rejt magában
  • A strukturálatlan adatok kormányozatlan káoszhoz, használhatatlan adatokhoz, eltérő és összetett eszközökhöz, vállalati szintű együttműködéshez, egységes, következetes és közös
  • Ezenkívül növeli a tárolási és számítási költségeket
  • Nincs lehetőség arra, hogy betekintést nyerjen másoktól, akik dolgoztak az adatokkal, mert nincs beszámoló a korábbi elemzők megállapításainak származásáról.
  • A Data Lake-ek legnagyobb kockázata a biztonság és a hozzáférés-szabályozás. Néha az adatok felügyelet nélkül helyezhetők el egy tóba, mivel egyes adatoknak magánéleti és szabályozási igények lehetnek

Összegzésként

  • A Data Lake egy olyan tárolási adattár, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adat tárolására képes.
  • Az adattó felépítésének fő célja, hogy finomítatlan képet nyújtson az adatokról az adatkutatóknak.
  • Az egyesített műveleti szint, a feldolgozási szint, a lepárlási szint és a HDFS a Data Lake fontos rétegei Architectúra
  • Adatfeldolgozás, adattárolás, adatminőség, adataudit, adatfeltárás, adatfelderítés a Data Lake néhány fontos összetevője Architectúra
  • A Data Lake tervezését a szükséges helyett a rendelkezésre állónak kell vezérelnie.
  • A Data Lake csökkenti a hosszú távú birtoklási költségeket, és lehetővé teszi a fájlok gazdaságos tárolását
  • A Data Lake-ek legnagyobb kockázata a biztonság és a hozzáférés-szabályozás. Néha az adatok felügyelet nélkül helyezhetők el egy tóba, mivel egyes adatoknak magánéleti és szabályozási igénye lehet.