Što je Data Lake? to je Architekstura: Vodič za Data Lake
Što je Data Lake?
Podatkovno jezero je spremište za pohranu koje može pohraniti velike količine strukturiranih, polustrukturiranih i nestrukturiranih podataka. To je mjesto za pohranu svake vrste podataka u izvornom formatu bez fiksnih ograničenja veličine računa ili datoteke. Nudi veliku količinu podataka za povećanje analitičke izvedbe i izvorne integracije.
Data Lake je poput velikog spremnika koji je vrlo sličan pravom jezeru i rijekama. Baš kao što u jezeru imate više pritoka, podatkovno jezero ima strukturirane podatke, nestrukturirane podatke, stroj do stroja, zapise koji teku u stvarnom vremenu.

Podatkovno jezero demokratizira podatke i isplativ je način za pohranu svih podataka organizacije za kasniju obradu. Istraživački analitičar može se usredotočiti na pronalaženje obrazaca značenja u podacima, a ne na same podatke.
Za razliku od hijerarhijskog Skladište podataka gdje su podaci pohranjeni u datotekama i mapama, podatkovno jezero ima ravnu arhitekturu. Svaki podatkovni element u podatkovnom jezeru dobiva jedinstveni identifikator i označen je skupom metapodataka.
Zašto Data Lake?
Glavni cilj izgradnje podatkovnog jezera je ponuditi nerafiniran pogled na podatke znanstvenicima koji se bave podacima.
Razlozi za korištenje Data Lakea su:
- S pojavom motora za pohranu poput Hadoop pohranjivanje različitih informacija postalo je jednostavno. Nema potrebe modelirati podatke u shemu za cijelo poduzeće s Data Lakeom.
- S povećanjem količine podataka, kvalitete podataka i metapodataka, raste i kvaliteta analiza.
- Data Lake nudi poslovnu agilnost
- Strojno učenje a umjetna inteligencija može se koristiti za izradu isplativih predviđanja.
- Nudi konkurentsku prednost organizaciji koja provodi.
- Ne postoji struktura silosa podataka. Data Lake pruža pogled od 360 stupnjeva na kupce i čini analizu robusnijom.
Jezero podataka Architektura
Slika prikazuje arhitekturu jezera poslovnih podataka. Niže razine predstavljaju podatke koji uglavnom miruju, dok gornje razine prikazuju podatke o transakcijama u stvarnom vremenu. Ovi podaci teku kroz sustav bez ili s malim kašnjenjem. Slijede važne razine u Data Lakeu Architekstura:
- Razina unosa: Razine s lijeve strane prikazuju izvore podataka. Podaci se mogu učitavati u podatkovno jezero u serijama ili u stvarnom vremenu
- Razina uvida: Razine s desne strane predstavljaju stranu istraživanja gdje se koriste uvidi iz sustava. SQL, NoSQL upiti ili čak excel mogu se koristiti za analizu podataka.
- HDFS je isplativo rješenje za strukturirane i nestrukturirane podatke. To je zona slijetanja za sve podatke koji miruju u sustavu.
- Sloj destilacije preuzima podatke iz gume za pohranu i pretvara ih u strukturirane podatke radi lakše analize.
- Razina obrade pokrenuti analitičke algoritme i korisničke upite s različitim interaktivnim, grupnim u stvarnom vremenu za generiranje strukturiranih podataka za lakšu analizu.
- Razina objedinjenih operacija upravlja upravljanjem i nadzorom sustava. Uključuje reviziju i upravljanje stručnošću, upravljanje podacima, upravljanje radnim tokovima.
Jezero ključnih podataka Concepts
Slijede ključni koncepti Data Lakea koje je potrebno razumjeti da biste u potpunosti razumjeli Data Lake Architektura
Gutanje podataka
Ubacivanje podataka omogućuje konektorima da dobiju podatke iz različitih izvora podataka i učitaju ih u podatkovno jezero.
Ubacivanje podataka podržava:
- Sve vrste strukturiranih, polustrukturiranih i nestrukturiranih podataka.
- Višestruko učitavanje kao što je Batch, Real-Time, Jednokratno učitavanje.
- Mnoge vrste izvora podataka poput baza podataka, web poslužitelja, e-pošte, IOTi FTP.
Pohranu podataka
Pohrana podataka trebala bi biti skalabilna, nuditi isplativu pohranu i omogućiti brz pristup istraživanju podataka. Trebao bi podržavati različite formate podataka.
Upravljanje podacima
Upravljanje podacima je proces upravljanja dostupnošću, upotrebljivošću, sigurnošću i cjelovitošću podataka koji se koriste u organizaciji.
Sigurnost
Sigurnost se mora implementirati u svaki sloj podatkovnog jezera. Počinje s pohranom, iskopavanjem i potrošnjom. Osnovna potreba je spriječiti pristup neovlaštenim korisnicima. Trebao bi podržavati različite alate za pristup podacima s jednostavnim GUI-jem i nadzornim pločama.
Autentifikacija, računovodstvo, autorizacija i zaštita podataka neke su važne značajke sigurnosti podatkovnog jezera.
Kvaliteta podataka
Kvaliteta podataka bitna je komponenta Data Lake arhitekture. Podaci se koriste za točnu poslovnu vrijednost. Izvlačenje uvida iz podataka loše kvalitete dovest će do uvida loše kvalitete.
Otkrivanje podataka
Otkrivanje podataka još je jedna važna faza prije nego počnete pripremati podatke ili analizu. U ovoj fazi koristi se tehnika označavanja za izražavanje razumijevanja podataka, organiziranjem i tumačenjem podataka unesenih u podatkovno jezero.
Revizija podataka
Dva glavna zadatka revizije podataka su praćenje promjena u ključnom skupu podataka.
- Praćenje promjena važnih elemenata skupa podataka
- Bilježi kako/kada/i tko mijenja te elemente.
Revizija podataka pomaže u procjeni rizika i usklađenosti.
Data Lineage
Ova komponenta bavi se podrijetlom podataka. Uglavnom se bavi time gdje se kreće tijekom vremena i što se s njim događa. Olakšava ispravljanje pogrešaka u procesu analitike podataka od izvora do odredišta.
Istraživanje podataka
To je početna faza analize podataka. Pomaže u prepoznavanju pravog skupa podataka koji je ključan prije pokretanja istraživanja podataka.
Sve dane komponente moraju raditi zajedno kako bi imale važnu ulogu u izgradnji Data lakea, lako se razvijale i istraživale okoliš.
Faze zrelosti Data Lake
Definicija faza zrelosti podatkovnog jezera razlikuje se od udžbenika do drugog. Iako suština ostaje ista. Nakon zrelosti, definicija faze je s laičkog gledišta.
Faza 1: Rukovanje i unos podataka u velikom broju
Ova prva faza zrelosti podataka uključuje poboljšanje sposobnosti transformacije i analize podataka. Ovdje vlasnici tvrtki trebaju pronaći alate u skladu sa svojim vještinama za dobivanje više podataka i izradu analitičkih aplikacija.
Faza 2: Izgradnja analitičkog mišića
Ovo je druga faza koja uključuje poboljšanje sposobnosti transformacije i analize podataka. U ovoj fazi tvrtke koriste alat koji je najprikladniji za njihov skup vještina. Počinju skupljati više podataka i izrađivati aplikacije. Ovdje se zajedno koriste mogućnosti skladišta podataka poduzeća i podatkovnog jezera.
Faza 3: EDW i Data Lake rade usklađeno
Ovaj korak uključuje stavljanje podataka i analitike u ruke što većeg broja ljudi. U ovoj fazi, jezero podataka i skladište podataka poduzeća počinju raditi u uniji. Oboje igraju svoju ulogu u analitici
Faza 4: Sposobnost poduzeća u jezeru
U ovoj fazi zrelosti podatkovnog jezera, mogućnosti poduzeća se dodaju podatkovnom jezeru. Usvajanje upravljanja informacijama, sposobnosti upravljanja životnim ciklusom informacija i upravljanje metapodacima. Međutim, vrlo malo organizacija može doseći ovu razinu zrelosti, ali taj broj će se povećati u budućnosti.
Najbolje prakse za implementaciju Data Lake
- Archistrukturne komponente, njihova interakcija i identificirani proizvodi trebaju podržavati izvorne tipove podataka
- Dizajn podatkovnog jezera trebao bi se voditi onim što je dostupno umjesto onim što je potrebno. Zahtjev za shemu i podatke nije definiran dok se ne postavi upit
- Dizajn bi trebao biti vođen komponentama za jednokratnu upotrebu integriranim s API-jem usluge.
- Otkrivanjem podataka, unosom, pohranom, administracijom, kvalitetom, transformacijom i vizualizacijom treba upravljati neovisno.
- Arhitektura Data Lake treba biti prilagođena specifičnoj industriji. Trebao bi osigurati da su sposobnosti potrebne za tu domenu sastavni dio dizajna
- Važno je brže uključivanje novootkrivenih izvora podataka
- Data Lake pomaže prilagođenom upravljanju da izvuče maksimalnu vrijednost
- Podatkovno jezero trebalo bi podržavati postojeće tehnike i metode upravljanja podacima poduzeća
Izazovi izgradnje podatkovnog jezera:
- U Data Lakeu, količina podataka je veća, pa se proces mora više oslanjati na programsku administraciju
- Teško je nositi se s oskudnim, nepotpunim, promjenjivim podacima
- Širi opseg skupa podataka i izvora zahtijeva veće upravljanje podacima i podršku
Razlika između podatkovnih jezera i skladišta podataka
Parametri | Podatkovna jezera | Skladište podataka |
---|---|---|
Datum | Podatkovna jezera pohranjuju sve. | Data Warehouse se fokusira samo na poslovne procese. |
Obrada | Podaci su uglavnom neobrađeni | Visoko obrađeni podaci. |
Vrsta podataka | Može biti nestrukturiran, polustrukturiran i strukturiran. | Uglavnom je u tabelarnom obliku i strukturi. |
Zadatak | Dijelite upravljanje podacima | Optimizirano za dohvaćanje podataka |
Agilnost | Vrlo agilan, konfigurirajte i rekonfigurirajte prema potrebi. | U usporedbi s Data lakeom manje je agilan i ima fiksnu konfiguraciju. |
korisnici | Data Lake uglavnom koristi Data Scientist | Poslovni profesionalci naširoko koriste skladište podataka |
Čuvanje | Dizajn podatkovnih jezera za jeftinu pohranu. | Koristi se skupa pohrana koja daje brzo vrijeme odziva |
Sigurnost | Nudi manju kontrolu. | Omogućuje bolju kontrolu podataka. |
Zamjena EDW | Jezero podataka može biti izvor za EDW | Dopuna EDW-u (nije zamjena) |
Shema | Shema pri čitanju (nema unaprijed definiranih shema) | Shema pri pisanju (unaprijed definirane sheme) |
Obrada podataka | Pomaže pri brzom unosu novih podataka. | Uvođenje novog sadržaja oduzima puno vremena. |
Granularnost podataka | Podaci na niskoj razini detalja ili granularnosti. | Podaci na sažetoj ili agregiranoj razini detalja. |
Alati | Može koristiti open source/alate poput Hadoop/Map Reduce | Uglavnom komercijalni alati. |
Prednosti i rizici korištenja Data Lakea
Evo nekoliko glavnih prednosti korištenja podatkovnog jezera:
- U potpunosti pomaže s ionizacijom proizvoda i naprednom analitikom
- Nudi ekonomičnu skalabilnost i fleksibilnost
- Nudi vrijednost iz neograničenih vrsta podataka
- Smanjuje dugoročne troškove vlasništva
- Omogućuje ekonomično skladištenje datoteka
- Brzo prilagodljiv promjenama
- Glavna prednost podatkovnog jezera je centralizacija različitih izvora sadržaja
- Korisnici, iz raznih odjela, mogu biti raštrkani po cijelom svijetu fleksibilan pristup na podatke
Rizik korištenja podatkovnog jezera:
- Nakon nekog vremena Data Lake može izgubiti važnost i zamah
- Prilikom projektiranja Data Lakea postoji veći rizik
- Nestrukturirani podaci mogu dovesti do neupravljanog kaosa, neupotrebljivih podataka, različitih i složenih alata, suradnje na razini poduzeća, unificiranih, dosljednih i zajedničkih
- Također povećava troškove pohrane i računanja
- Ne postoji način da dobijete uvide od drugih koji su radili s podacima jer nema opisa loze nalaza prethodnih analitičara
- Najveći rizik podatkovnih jezera je sigurnost i kontrola pristupa. Ponekad se podaci mogu staviti u jezero bez ikakvog nadzora, budući da neki od podataka mogu imati privatnost i regulatornu potrebu
rezime
- Podatkovno jezero je spremište za pohranu koje može pohraniti velike količine strukturiranih, polustrukturiranih i nestrukturiranih podataka.
- Glavni cilj izgradnje podatkovnog jezera je ponuditi nerafiniran pogled na podatke znanstvenicima koji se bave podacima.
- Sloj objedinjenih operacija, sloj obrade, destilacijski sloj i HDFS važni su slojevi Data Lakea Architektura
- Unos podataka, pohrana podataka, kvaliteta podataka, revizija podataka, istraživanje podataka, otkrivanje podataka neke su od važnih komponenti Data Lakea Architektura
- Dizajn podatkovnog jezera trebao bi se voditi onim što je dostupno umjesto onim što je potrebno.
- Data Lake smanjuje dugoročne troškove vlasništva i omogućuje ekonomičnu pohranu datoteka
- Najveći rizik podatkovnih jezera je sigurnost i kontrola pristupa. Ponekad se podaci mogu staviti u jezero bez ikakvog nadzora, budući da neki od podataka mogu imati privatnost i regulatornu potrebu.