Mi az a Data Lake? ez van Architecture: Data Lake Tutorial
Mi az a Data Lake?
A Data Lake egy olyan tárolási adattár, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adat tárolására képes. Ez egy olyan hely, ahol minden típusú adatot natív formátumban tárolhatunk, a számlaméret vagy a fájl rögzített korlátai nélkül. Nagy adatmennyiséget kínál az analitikai teljesítmény és a natív integráció növelése érdekében.
A Data Lake olyan, mint egy nagy konténer, amely nagyon hasonlít a valódi tóhoz és folyókhoz. Csakúgy, mint egy tóba, ahol több mellékfolyó érkezik, az adattóban is vannak strukturált adatok, strukturálatlan adatok, gépről gépre, valós időben áramló naplók.

A Data Lake demokratizálja az adatokat, és költséghatékony módja a szervezet összes adatának tárolásának későbbi feldolgozás céljából. A kutatóelemző az adatok jelentésmintáinak megtalálására összpontosíthat, nem pedig magára az adatra.
Ellentétben a hierarchiával Adattárház ahol az adatok a Fájlokban és mappákban tárolódnak, a Data Lake lapos architektúrájú. A Data Lake minden adateleme egyedi azonosítót kap, és metaadat-információkkal van ellátva.
Miért a Data Lake?
Az adattó felépítésének fő célja, hogy finomítatlan képet nyújtson az adatokról az adatkutatóknak.
A Data Lake használatának okai a következők:
- A tárolómotorok megjelenésével, mint a Hadoop a különböző információk tárolása egyszerűvé vált. Nem szükséges az adatokat egy vállalati szintű sémává modellezni Data Lake segítségével.
- Az adatmennyiség, az adatminőség és a metaadatok növekedésével az elemzések minősége is javul.
- A Data Lake üzleti agilitást kínál
- Gépi tanulás és a mesterséges intelligencia felhasználható nyereséges előrejelzések készítésére.
- Versenyelőnyt kínál a végrehajtó szervezetnek.
- Nincs adatsiló-struktúra. A Data Lake 360 fokos rálátást biztosít az ügyfelekre, és robusztusabbá teszi az elemzést.
adattó Architectúra
Az ábra egy Business Data Lake architektúráját mutatja. Az alsó szintek többnyire nyugalmi, míg a felső szintek valós idejű tranzakciós adatokat jelenítenek meg. Ezek az adatok késleltetés nélkül vagy kis késéssel áramlanak át a rendszeren. Az alábbiakban a Data Lake fontos szintjei találhatók Architectúra:
- Lenyelési szint: A bal oldalon lévő szintek az adatforrásokat ábrázolják. Az adatok kötegekben vagy valós időben tölthetők be az adattóba
- Insights szint: A jobb oldali szintek azt a kutatási oldalt képviselik, ahol a rendszerből származó betekintést használják. SQL, NoSQL lekérdezések, vagy akár excel is használható adatelemzésre.
- HDFS költséghatékony megoldás mind a strukturált, mind a strukturálatlan adatokhoz. Ez egy leszállózóna minden olyan adat számára, amely a rendszerben nyugalomban van.
- Desztillációs szint adatokat vesz a tároló gumiabroncsból, és strukturált adatokká alakítja át a könnyebb elemzés érdekében.
- Feldolgozási szint elemző algoritmusok és felhasználói lekérdezések futtatása változó valós idejű, interaktív, kötegelt strukturált adatok létrehozásához a könnyebb elemzés érdekében.
- Egységes műveleti szint szabályozza a rendszer kezelését és felügyeletét. Tartalmazza az auditálást és a jártasságkezelést, az adatkezelést, munkafolyamat-menedzsment.
Key Data Lake Concepts
Az alábbiakban a Data Lake kulcsfontosságú fogalmait ismertetjük, amelyeket meg kell érteni a Data Lake teljes megértéséhez Architectúra
Adatbevitel
Az adatfeldolgozás lehetővé teszi az összekötők számára, hogy adatokat szerezzenek be különböző adatforrásokból, és betöltsék a Data Lake-be.
Az adatbevitel támogatja:
- Minden típusú strukturált, félig strukturált és strukturálatlan adat.
- Többszöri feldolgozás, például kötegelt, valós idejű, egyszeri betöltés.
- Sokféle adatforrás, például adatbázisok, webszerverek, e-mailek, Tárgyak internete, és FTP.
Adattárolás
Az adattárolásnak méretezhetőnek kell lennie, költséghatékony tárolást kell kínálnia, és lehetővé kell tennie az adatok gyors elérését. Támogatnia kell a különféle adatformátumokat.
Adatkezelés
Az adatkezelés a szervezetben használt adatok elérhetőségének, használhatóságának, biztonságának és integritásának kezelésére szolgáló folyamat.
Biztonság
A biztonságot a Data Lake minden rétegében meg kell valósítani. A tárolással, a feltárással és a fogyasztással kezdődik. Az alapvető szükséglet az illetéktelen felhasználók hozzáférésének leállítása. Támogatnia kell a különböző eszközöket az adatokhoz való hozzáféréshez, könnyen navigálható grafikus felhasználói felülettel és irányítópultokkal.
A hitelesítés, a könyvelés, az engedélyezés és az adatvédelem néhány fontos jellemzője a Data Lake biztonságának.
Adatminőség
Az adatminőség a Data Lake architektúra alapvető összetevője. Az adatok az üzleti érték pontosítására szolgálnak. A rossz minőségű adatokból származó információk kinyerése rossz minőségű betekintést eredményez.
Adatfeltárás
Az adatfeltárás egy másik fontos lépés az adatok előkészítésének vagy elemzésének megkezdése előtt. Ebben a szakaszban a címkézési technikát használják az adatmegértés kifejezésére, az Adattóban bevitt adatok rendszerezésével és értelmezésével.
Adatauditálás
Két fő adatnaplózási feladat a kulcsadatkészlet változásainak nyomon követése.
- A fontos adatkészlet-elemek változásainak nyomon követése
- Rögzíti, hogyan/mikor/ és ki változtatja meg ezeket az elemeket.
Az adataudit segít a kockázatok és a megfelelőség értékelésében.
Adatvonal
Ez az összetevő az adatok eredetével foglalkozik. Főleg azzal foglalkozik, hogy az idő múlásával hol mozog, és mi történik vele. Megkönnyíti a hibajavításokat az adatelemzési folyamatban a forrástól a célig.
Adatfeltárás
Ez az adatelemzés kezdeti szakasza. Segít azonosítani a megfelelő adatkészletet, amely létfontosságú az adatfeltárás megkezdése előtt.
Minden adott összetevőnek együtt kell működnie ahhoz, hogy fontos szerepet játszhasson a Data Lake épületében, amely könnyen fejlődhet és felfedezheti a környezetet.
A Data Lake érettségi szakaszai
A Data Lake érettségi szakaszainak meghatározása tankönyvenként eltérő. Bár a lényeg ugyanaz marad. Az érettséget követõen a színpad meghatározása laikus szemszögbõl.
1. szakasz: Adatok kezelése és lenyelése nagy léptékben
Az adatérettség ezen első szakasza magában foglalja az adatok átalakításának és elemzésének képességének javítását. Itt a cégtulajdonosoknak meg kell találniuk a készségeiknek megfelelő eszközöket, hogy több adatot szerezzenek és elemző alkalmazásokat készítsenek.
2. szakasz: Az analitikus izom felépítése
Ez egy második szakasz, amely magában foglalja az adatok átalakításának és elemzésének képességének javítását. Ebben a szakaszban a vállalatok azt az eszközt használják, amely a legmegfelelőbb készségeiknek. Elkezdenek több adatot gyűjteni és alkalmazásokat építeni. Itt a vállalati adattárház és a Data Lake képességei együtt kerülnek felhasználásra.
3. szakasz: Az EDW és a Data Lake egységesen működik
Ez a lépés azt jelenti, hogy az adatok és az elemzések a lehető legtöbb ember kezébe kerüljenek. Ebben a szakaszban a Data Lake és a vállalati adattárház egy szakszervezetben kezd működni. Mindkettő szerepet játszik az elemzésben
4. szakasz: Vállalkozási képesség a tóban
Az adattó ezen érettségi szakaszában a vállalati képességek hozzáadódnak a Data Lake-hez. Az információirányítás, az információs életciklus-kezelési képességek és a metaadatkezelés elfogadása. Ezt az érettségi szintet azonban nagyon kevés szervezet tudja elérni, de ez az arány a jövőben növekedni fog.
A Data Lake megvalósításának legjobb gyakorlatai
- ArchiA szerkezeti összetevőknek, interakciójuknak és azonosított termékeknek támogatniuk kell a natív adattípusokat
- A Data Lake tervezését a szükséges helyett a rendelkezésre állónak kell vezérelnie. A séma és az adatigény nincs meghatározva, amíg le nem kérdezik
- A tervezést a szolgáltatás API-val integrált eldobható alkatrészeknek kell vezérelnie.
- Az adatfeltárást, -feldolgozást, -tárolást, -felügyeletet, -minőséget, -átalakítást és -vizualizációt egymástól függetlenül kell kezelni.
- A Data Lake architektúrát egy adott iparághoz kell igazítani. Biztosítania kell, hogy az adott tartományhoz szükséges képességek a tervezés szerves részét képezzék
- Fontos az újonnan felfedezett adatforrások gyorsabb felvétele
- A Data Lake személyre szabott kezelést nyújt a maximális érték kinyeréséhez
- A Data Lake-nek támogatnia kell a meglévő vállalati adatkezelési technikákat és módszereket
Az adattó felépítésének kihívásai:
- A Data Lake-ben az adatmennyiség nagyobb, így a folyamatnak jobban kell támaszkodnia a programozott adminisztrációra
- Nehéz kezelni a ritka, hiányos, ingadozó adatokat
- Az adatkészlet és a forrás szélesebb köre nagyobb adatkezelést és támogatást igényel
Különbség a Data Lakes és az adattárház között
paraméterek | adattavak | Adattárház |
---|---|---|
dátum | Az adattavak mindent tárolnak. | A Data Warehouse csak az üzleti folyamatokra összpontosít. |
Feldolgozás | Az adatok többnyire feldolgozatlanok | Magasan feldolgozott adatok. |
Az adatok típusa | Lehet strukturálatlan, félig strukturált és strukturált. | Leginkább táblázatos formában és felépítésű. |
Feladat | Adatkezelés megosztása | Adatkeresésre optimalizálva |
Agilitás | Rendkívül agilis, szükség szerint konfigurálható és újrakonfigurálható. | A Data Lake-hez képest kevésbé agilis és rögzített konfigurációval rendelkezik. |
felhasználók | A Data Lake-et leginkább a Data Scientist használja | Az üzleti szakemberek széles körben használják az adattárházat |
Tárolás | Data Lakes tervezés alacsony költségű tároláshoz. | Drága tárhelyet használnak, amely gyors válaszidőt biztosít |
Biztonság | Kevésbé irányítást biztosít. | Lehetővé teszi az adatok jobb ellenőrzését. |
EDW csere | A Data Lake az EDW forrása lehet | Kiegészíti az EDW-t (nem csere) |
Séma | Olvasási séma (nincs előre meghatározott séma) | Séma írás közben (előre meghatározott sémák) |
Adatfeldolgozás | Segít az új adatok gyors bevitelében. | Új tartalom bevezetése időigényes. |
Adatok részletessége | Alacsony részletességű vagy részletességű adatok. | Adatok összefoglaló vagy összesített részletezettségi szinten. |
Eszközök | Használhat nyílt forráskódú eszközöket, például Hadoop/Map Reduce | Leginkább kereskedelmi eszközök. |
A Data Lake használatának előnyei és kockázatai
Íme néhány fő előny a Data Lake használatából:
- Teljes mértékben segít a termék ionizálásában és a fejlett elemzésekben
- Költséghatékony méretezhetőséget és rugalmasságot kínál
- Korlátlan adattípusból kínál értéket
- Csökkenti a hosszú távú fenntartási költségeket
- Lehetővé teszi a fájlok gazdaságos tárolását
- Gyorsan alkalmazkodik a változásokhoz
- A Data Lake fő előnye az központosítás különböző tartalomforrásokból
- A különböző részlegekből származó felhasználók szétszóródhatnak a világon rugalmas hozzáférés az adatokhoz
A Data Lake használatának kockázata:
- Egy idő után a Data Lake elveszítheti jelentőségét és lendületét
- A Data Lake tervezése során nagyobb kockázatot rejt magában
- A strukturálatlan adatok kormányozatlan káoszhoz, használhatatlan adatokhoz, eltérő és összetett eszközökhöz, vállalati szintű együttműködéshez, egységes, következetes és közös
- Ezenkívül növeli a tárolási és számítási költségeket
- Nincs lehetőség arra, hogy betekintést nyerjen másoktól, akik dolgoztak az adatokkal, mert nincs beszámoló a korábbi elemzők megállapításainak származásáról.
- A Data Lake-ek legnagyobb kockázata a biztonság és a hozzáférés-szabályozás. Néha az adatok felügyelet nélkül helyezhetők el egy tóba, mivel egyes adatoknak magánéleti és szabályozási igények lehetnek
Összegzésként
- A Data Lake egy olyan tárolási adattár, amely nagy mennyiségű strukturált, félig strukturált és strukturálatlan adat tárolására képes.
- Az adattó felépítésének fő célja, hogy finomítatlan képet nyújtson az adatokról az adatkutatóknak.
- Az egyesített műveleti szint, a feldolgozási szint, a lepárlási szint és a HDFS a Data Lake fontos rétegei Architectúra
- Adatfeldolgozás, adattárolás, adatminőség, adataudit, adatfeltárás, adatfelderítés a Data Lake néhány fontos összetevője Architectúra
- A Data Lake tervezését a szükséges helyett a rendelkezésre állónak kell vezérelnie.
- A Data Lake csökkenti a hosszú távú birtoklási költségeket, és lehetővé teszi a fájlok gazdaságos tárolását
- A Data Lake-ek legnagyobb kockázata a biztonság és a hozzáférés-szabályozás. Néha az adatok felügyelet nélkül helyezhetők el egy tóba, mivel egyes adatoknak magánéleti és szabályozási igénye lehet.