Co je Data Lake? Své Architecture: Data Lake Tutorial

Co je Data Lake?

Data Lake je úložiště úložiště, které může ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných dat. Je to místo pro ukládání všech typů dat v jejich nativním formátu bez pevných omezení velikosti účtu nebo souboru. Nabízí velké množství dat pro zvýšení analytického výkonu a nativní integrace.

Data Lake je jako velký kontejner, který je velmi podobný skutečnému jezeru a řekám. Stejně jako do jezera přichází několik přítoků, datové jezero má strukturovaná data, nestrukturovaná data, stroj od stroje, protokoly protékající v reálném čase.

Datové jezero
Datové jezero

Data Lake demokratizuje data a je nákladově efektivním způsobem, jak uložit všechna data organizace pro pozdější zpracování. Research Analyst se může zaměřit na hledání vzorců významu v datech a ne na data samotná.

Na rozdíl od hierarchie Datový sklad kde jsou data uložena v Files and Folder, Data lake má plochou architekturu. Každému datovému prvku v Data Lake je přidělen jedinečný identifikátor a je označen sadou informací metadat.

Proč Data Lake?

Hlavním cílem budování datového jezera je nabídnout datovým vědcům neupravený pohled na data.

Důvody pro použití Data Lake jsou:

  • S nástupem skladovacích motorů jako Hadoop ukládání nesourodých informací se stalo snadným. Není potřeba modelovat data do celopodnikového schématu pomocí Data Lake.
  • S nárůstem objemu dat, kvality dat a metadat se zvyšuje i kvalita analýz.
  • Data Lake nabízí obchodní Agility
  • Strojové učení a umělou inteligenci lze použít k vytváření ziskových předpovědí.
  • Provádějící organizaci nabízí konkurenční výhodu.
  • Neexistuje žádná struktura datového sila. Data Lake poskytuje 360stupňový pohled na zákazníky a činí analýzu robustnější.

Datové jezero Architecture

Datové jezero Architecture
Datové jezero Architecture

Obrázek ukazuje architekturu Business Data Lake. Spodní úrovně představují data, která jsou většinou v klidu, zatímco horní úrovně ukazují transakční data v reálném čase. Tato data procházejí systémem s žádnou nebo malou latencí. Následují důležité úrovně v Data Lake Archistruktura:

  1. Úroveň požití: Úrovně na levé straně zobrazují zdroje dat. Data lze do datového jezera načítat v dávkách nebo v reálném čase
  2. Úroveň statistik: Úrovně napravo představují stranu výzkumu, kde se používají poznatky ze systému. SQL, NoSQL dotazy nebo dokonce Excel lze použít pro analýzu dat.
  3. HDFS je cenově výhodné řešení pro strukturovaná i nestrukturovaná data. Je to přistávací zóna pro všechna data, která jsou v systému v klidu.
  4. Destilační vrstva bere data ze skladové pneumatiky a převádí je na strukturovaná data pro snadnější analýzu.
  5. Úroveň zpracování spouštějte analytické algoritmy a uživatelské dotazy v různém reálném čase, interaktivní, dávkové generování strukturovaných dat pro snadnější analýzu.
  6. Jednotná úroveň operací řídí správu a monitorování systému. Zahrnuje auditování a správu odbornosti, správu dat, řízení pracovního toku.

Jezero klíčových dat Concepts

Následují klíčové koncepty Data Lake, kterým člověk musí porozumět, aby zcela porozuměl Data Lake Architecture

Klíč Concepts z Data Lake
Klíč Concepts z Data Lake

Zpracování dat

Zpracování dat umožňuje konektorům získat data z různých zdrojů dat a načíst je do datového jezera.

Zpracování dat podporuje:

  • Všechny typy strukturovaných, polostrukturovaných a nestrukturovaných dat.
  • Vícenásobné zpracování, jako je dávkové, v reálném čase, jednorázové načtení.
  • Mnoho typů zdrojů dat, jako jsou databáze, webové servery, e-maily, IoTa FTP.

Data Storage

Datové úložiště by mělo být škálovatelné, nabízí nákladově efektivní úložiště a umožňuje rychlý přístup k průzkumu dat. Měl by podporovat různé datové formáty.

Správa dat

Data governance je proces správy dostupnosti, použitelnosti, zabezpečení a integrity dat používaných v organizaci.

Bezpečnost

Bezpečnost musí být implementována v každé vrstvě datového jezera. Začíná to Storage, Unearthing a Consumption. Základní potřebou je zastavit přístup neoprávněným uživatelům. Měl by podporovat různé nástroje pro přístup k datům se snadnou navigací GUI a řídicími panely.

Autentizace, účetnictví, autorizace a ochrana dat jsou některé důležité funkce zabezpečení datového jezera.

Kvalita dat

Kvalita dat je základní součástí architektury Data Lake. Data se používají k přesnému stanovení obchodní hodnoty. Získávání statistik z nekvalitních dat povede k nekvalitním statistikám.

Zjišťování dat

Zjišťování dat je další důležitou fází, než začnete připravovat data nebo analýzu. V této fázi se k vyjádření porozumění datům používá technika označování, a to organizováním a interpretací dat přijatých v datovém jezeře.

Audit dat

Dvě hlavní úlohy auditu dat jsou sledování změn klíčové datové sady.

  1. Sledování změn důležitých prvků datové sady
  2. Zachycuje, jak/kdy/ a kdo se na tyto prvky mění.

Audit dat pomáhá vyhodnotit rizika a shodu.

Datum linie

Tato komponenta se zabývá původem dat. Řeší hlavně to, kam se v čase posouvá a co se s tím děje. Usnadňuje opravy chyb v procesu analýzy dat od původu až po místo určení.

Průzkum dat

Je to počáteční fáze analýzy dat. Pomáhá identifikovat správnou datovou sadu, která je životně důležitá před zahájením průzkumu dat.

Všechny dané komponenty musí spolupracovat, aby mohly hrát důležitou roli v budování Data Lake, snadno se vyvíjet a zkoumat prostředí.

Fáze zralosti Data Lake

Definice fází zralosti Data Lake se v jednotlivých učebnicích liší. I když jádro zůstává stejné. Po zralosti je vymezení stádia z laického hlediska.

Fáze zralosti Data Lake
Fáze zralosti Data Lake

Fáze 1: Zpracování a příjem dat v měřítku

Tato první fáze zralosti dat zahrnuje zlepšení schopnosti transformovat a analyzovat data. Majitelé firem zde potřebují najít nástroje podle svých dovedností pro získávání více dat a vytváření analytických aplikací.

Fáze 2: Budování analytických svalů

Toto je druhá fáze, která zahrnuje zlepšení schopnosti transformovat a analyzovat data. V této fázi firmy používají nástroj, který nejvíce odpovídá jejich dovednostem. Začnou získávat více dat a vytvářet aplikace. Zde se společně využívají možnosti podnikového datového skladu a datového jezera.

Fáze 3: EDW a Data Lake pracují společně

Tento krok zahrnuje získání dat a analýz do rukou co největšího počtu lidí. V této fázi začnou datové jezero a podnikový datový sklad fungovat ve spojení. Oba hrají svou roli v analýze

Fáze 4: Schopnost podniku v jezeře

V této fázi vyspělosti datového jezera jsou k datovému jezeru přidány podnikové funkce. Přijetí správy informací, možností správy životního cyklu informací a správy metadat. Jen velmi málo organizací však může dosáhnout této úrovně vyspělosti, ale tento počet se v budoucnu zvýší.

Osvědčené postupy pro implementaci Data Lake

  • Architecturální komponenty, jejich interakce a identifikované produkty by měly podporovat nativní datové typy
  • Návrh Data Lake by se měl řídit tím, co je k dispozici, místo toho, co je požadováno. Požadavek na schéma a data není definován, dokud není dotazován
  • Návrh by se měl řídit jednorázovými komponentami integrovanými se servisním API.
  • Zjišťování, přijímání, ukládání, správa, kvalita, transformace a vizualizace dat by měly být řízeny nezávisle.
  • Architektura Data Lake by měla být přizpůsobena konkrétnímu odvětví. Mělo by zajistit, že schopnosti nezbytné pro tuto doménu jsou nedílnou součástí návrhu
  • Důležité je rychlejší on-boarding nově objevených datových zdrojů
  • Data Lake pomáhá přizpůsobené správě získat maximální hodnotu
  • Data Lake by měl podporovat stávající techniky a metody správy podnikových dat

Výzvy při budování datového jezera:

  • V Data Lake je objem dat vyšší, takže proces musí být více závislý na programové administraci
  • Je obtížné vypořádat se s řídkými, neúplnými a nestálými daty
  • Širší rozsah datové sady a zdroje vyžaduje větší správu a podporu dat

Rozdíl mezi datovými jezery a datovým skladem

parametry datová jezera Datový sklad
Data Datová jezera ukládají vše. Data Warehouse se zaměřuje pouze na obchodní procesy.
Zpracování Data jsou převážně nezpracovaná Vysoce zpracovaná data.
Typ dat Může být nestrukturovaný, polostrukturovaný a strukturovaný. Většinou má tabulkovou formu a strukturu.
Úkol Sdílení správy dat Optimalizováno pro získávání dat
Hbitost Vysoce agilní, konfigurujte a překonfigurujte podle potřeby. Ve srovnání s Data lakem je méně agilní a má pevnou konfiguraci.
uživatelé Data Lake většinou používá Data Scientist Obchodní profesionálové široce využívají datový sklad
Skladování Design datových jezer pro nízkonákladové úložiště. Používá se drahé úložiště, které poskytuje rychlou odezvu
Bezpečnost Nabízí menší kontrolu. Umožňuje lepší kontrolu nad daty.
Výměna EDW Data lake může být zdrojem pro EDW Doplňkové k EDW (není náhrada)
Schéma Schéma při čtení (žádná předdefinovaná schémata) Schéma při zápisu (předdefinovaná schémata)
Zpracování dat Pomáhá k rychlému příjmu nových dat. Zavádění nového obsahu je časově náročné.
Granularita dat Data na nízké úrovni detailů nebo granularity. Údaje na souhrnné nebo agregované úrovni podrobností.
Tools Může používat open source/nástroje jako Hadoop/ Map Reduce Většinou komerční nástroje.

Výhody a rizika používání Data Lake

Zde jsou některé hlavní výhody používání Data Lake:

  • Plně pomáhá s ionizací produktu a pokročilou analýzou
  • Nabízí nákladově efektivní škálovatelnost a flexibilitu
  • Nabízí hodnotu z neomezených datových typů
  • Snižuje dlouhodobé náklady na vlastnictví
  • Umožňuje ekonomické ukládání souborů
  • Rychle přizpůsobitelné změnám
  • Hlavní výhodou datového jezera je centralizace z různých zdrojů obsahu
  • Uživatelé z různých oddělení mohou být rozptýleni po celém světě flexibilní přístup k datům

Riziko používání Data Lake:

  • Po nějaké době může Data Lake ztratit význam a dynamiku
  • Při navrhování Data Lake je spojeno větší riziko
  • Nestrukturovaná data mohou vést k nekontrolovanému chaosu, nepoužitelným datům, různorodým a komplexním nástrojům, celopodnikové spolupráci, sjednoceným, konzistentním a společným
  • To také zvyšuje náklady na úložiště a výpočty
  • Neexistuje způsob, jak získat poznatky od ostatních, kteří s daty pracovali, protože neexistuje žádný přehled o linii zjištění předchozích analytiků.
  • Největším rizikem datových jezer je zabezpečení a kontrola přístupu. Někdy mohou být data umístěna do jezera bez jakéhokoli dohledu, protože některá data mohou vyžadovat soukromí a regulační potřeby

Shrnutí

  • Data Lake je úložiště úložiště, které může ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných dat.
  • Hlavním cílem budování datového jezera je nabídnout datovým vědcům neupravený pohled na data.
  • Vrstva sjednocených operací, vrstva zpracování, vrstva destilace a HDFS jsou důležité vrstvy Data Lake Architecture
  • Příjem dat, ukládání dat, kvalita dat, audit dat, průzkum dat, objevování dat jsou některé důležité součásti Data Lake Architecture
  • Návrh Data Lake by se měl řídit tím, co je k dispozici, místo toho, co je požadováno.
  • Data Lake snižuje dlouhodobé náklady na vlastnictví a umožňuje ekonomické ukládání souborů
  • Největším rizikem datových jezer je zabezpečení a kontrola přístupu. Někdy mohou být data umístěna do jezera bez jakéhokoli dohledu, protože některá data mohou vyžadovat soukromí a regulační potřeby.

Shrňte tento příspěvek takto: