Ce este Data Lake? este Architectura: Tutorial Data Lake

Ce este Data Lake?

Un lac de date este un depozit de stocare care poate stoca o cantitate mare de date structurate, semi-structurate și nestructurate. Este un loc pentru a stoca orice tip de date în formatul său nativ, fără limite fixe privind dimensiunea contului sau fișierul. Oferă o cantitate mare de date pentru a crește performanța analitică și integrarea nativă.

Data Lake este ca un container mare care este foarte asemănător cu lacul și râurile reale. La fel ca într-un lac în care vin mai mulți afluenți, un lac de date are date structurate, date nestructurate, de la mașină la mașină, bușteni care curg în timp real.

Lacul de date
Lacul de date

Data Lake democratizează datele și este o modalitate rentabilă de a stoca toate datele unei organizații pentru procesare ulterioară. Research Analyst se poate concentra pe găsirea de modele de semnificații în date și nu pe datele în sine.

Spre deosebire de un ierarhal Depozitul de date unde datele sunt stocate în fișiere și foldere, Data lake are o arhitectură plată. Fiecare element de date dintr-un lac de date primește un identificator unic și etichetat cu un set de informații despre metadate.

De ce Data Lake?

Obiectivul principal al construirii unui lac de date este de a oferi oamenilor de știință de date o vedere nerafinată a datelor.

Motivele pentru utilizarea Data Lake sunt:

  • Odată cu apariția motoarelor de stocare ca Hadoop stocarea informațiilor disparate a devenit ușoară. Nu este nevoie să modelați datele într-o schemă la nivel de întreprindere cu un Data Lake.
  • Odată cu creșterea volumului datelor, a calității datelor și a metadatelor, și calitatea analizelor crește.
  • Data Lake oferă Agilitate pentru afaceri
  • Invatare mecanica iar Inteligența artificială poate fi folosită pentru a face predicții profitabile.
  • Oferă un avantaj competitiv organizației de implementare.
  • Nu există o structură de siloz de date. Data Lake oferă o vedere la 360 de grade asupra clienților și face analiza mai robustă.

Lacul de date Architectură

Lacul de date Architectură
Lacul de date Architectură

Figura arată arhitectura unui Business Data Lake. Nivelurile inferioare reprezintă date care sunt în mare parte în repaus, în timp ce nivelurile superioare arată date tranzacționale în timp real. Aceste date circulă prin sistem fără latență sau fără latență. Următoarele sunt niveluri importante în Data Lake Architectura:

  1. Nivelul de ingestie: nivelurile din partea stângă descriu sursele de date. Datele ar putea fi încărcate în lacul de date în loturi sau în timp real
  2. Nivelul statistici: Nivelurile din dreapta reprezintă partea de cercetare în care sunt utilizate informațiile din sistem. SQL, interogările NoSQL sau chiar excel pot fi folosite pentru analiza datelor.
  3. HDFS este o soluție rentabilă atât pentru datele structurate, cât și pentru cele nestructurate. Este o zonă de aterizare pentru toate datele care sunt în repaus în sistem.
  4. Nivelul de distilare preia datele din anvelopa de stocare și le convertește în date structurate pentru o analiză mai ușoară.
  5. Nivelul de procesare rulați algoritmi analitici și interogări utilizatorilor cu diferite în timp real, interactive, lot pentru a genera date structurate pentru o analiză mai ușoară.
  6. Nivelul de operațiuni unificate guvernează managementul și monitorizarea sistemului. Include auditul și managementul competențelor, gestionarea datelor, managementul fluxului de lucru.

Key Data Lake Concepts

Următoarele sunt concepte cheie ale lacului de date pe care trebuie să le înțelegeți pentru a înțelege complet Data Lake Architectură

Cheie Concepts de Data Lake
Cheie Concepts de Data Lake

Ingestie de date

Data Ingestion permite conectorilor să obțină date din surse diferite de date și să se încarce în Data Lake.

Ingestia de date acceptă:

  • Toate tipurile de date structurate, semi-structurate și nestructurate.
  • Ingerări multiple, cum ar fi încărcare în lot, în timp real, o singură dată.
  • Multe tipuri de surse de date, cum ar fi baze de date, servere web, e-mailuri, IoT, și FTP.

Stocarea datelor

Stocarea datelor ar trebui să fie scalabilă, să ofere stocare rentabilă și să permită acces rapid la explorarea datelor. Ar trebui să accepte diferite formate de date.

Administrarea datelor

Guvernarea datelor este un proces de gestionare a disponibilității, gradului de utilizare, securității și integrității datelor utilizate într-o organizație.

Securitate

Securitatea trebuie implementată în fiecare strat al lacului de date. Începe cu Stocare, Dezgropare și Consum. Necesitatea de bază este de a opri accesul utilizatorilor neautorizați. Ar trebui să accepte diferite instrumente pentru a accesa date cu GUI și tablouri de bord ușor de navigat.

Autentificarea, Contabilitatea, Autorizarea și Protecția datelor sunt câteva caracteristici importante ale securității lacului de date.

Calitatea datelor

Calitatea datelor este o componentă esențială a arhitecturii Data Lake. Datele sunt folosite pentru a exact valoarea afacerii. Extragerea informațiilor din date de calitate slabă va duce la informații de calitate slabă.

Descoperirea datelor

Descoperirea datelor este o altă etapă importantă înainte de a putea începe pregătirea datelor sau analizei. În această etapă, tehnica de etichetare este utilizată pentru a exprima înțelegerea datelor, prin organizarea și interpretarea datelor ingerate în Data lake.

Auditarea datelor

Două sarcini majore de auditare a datelor sunt urmărirea modificărilor aduse setului de date cheie.

  1. Urmărirea modificărilor aduse elementelor importante ale setului de date
  2. Captează cum/când/și cine schimbă aceste elemente.

Auditul datelor ajută la evaluarea riscului și a conformității.

Linia de date

Această componentă se ocupă de originile datelor. Se ocupă în principal de unde se mișcă în timp și de ce se întâmplă cu el. Ușurează corectarea erorilor într-un proces de analiză a datelor de la origine la destinație.

Explorarea datelor

Este etapa de început a analizei datelor. Ajută la identificarea setului de date corect este vital înainte de a începe Explorarea datelor.

Toate componentele date trebuie să lucreze împreună pentru a juca un rol important în construirea lacului de date să evolueze și să exploreze cu ușurință mediul.

Stadiile de maturitate ale Data Lake

Definiția stadiilor de maturitate Data Lake diferă de la un manual la altul. Deși miezul rămâne același. După maturitate, definirea etapei este din punct de vedere laic.

Stadiile de maturitate ale Data Lake
Stadiile de maturitate ale Data Lake

Etapa 1: Gestionați și asimilați date la scară

Această primă etapă a maturității datelor implică îmbunătățirea capacității de a transforma și analiza datele. Aici, proprietarii de afaceri trebuie să găsească instrumentele în funcție de setul lor de abilități pentru a obține mai multe date și pentru a construi aplicații analitice.

Etapa 2: Construirea mușchiului analitic

Aceasta este o a doua etapă care implică îmbunătățirea capacității de a transforma și analiza datele. În această etapă, companiile folosesc instrumentul care este cel mai potrivit setului lor de competențe. Încep să achiziționeze mai multe date și să creeze aplicații. Aici, capabilitățile depozitului de date al întreprinderii și ale lacului de date sunt utilizate împreună.

Etapa 3: EDW și Data Lake lucrează la unison

Acest pas implică obținerea datelor și a analizelor în mâinile cât mai multor oameni. În această etapă, lacul de date și depozitul de date al întreprinderii încep să funcționeze într-o uniune. Ambii își joacă rolul în analiză

Etapa 4: Capacitatea întreprinderii în lac

În această etapă de maturitate a lacului de date, capacitățile întreprinderii sunt adăugate lacului de date. Adoptarea guvernanței informațiilor, a capabilităților de gestionare a ciclului de viață a informațiilor și a gestionării metadatelor. Cu toate acestea, foarte puține organizații pot atinge acest nivel de maturitate, dar acest număr va crește în viitor.

Cele mai bune practici pentru implementarea lacului de date

  • Archicomponentele tehnice, interacțiunea lor și produsele identificate ar trebui să accepte tipuri de date native
  • Proiectarea Data Lake ar trebui să fie condusă de ceea ce este disponibil în loc de ceea ce este necesar. Schema și cerințele de date nu sunt definite până când nu sunt interogate
  • Designul ar trebui să fie ghidat de componente de unică folosință integrate cu API-ul de serviciu.
  • Descoperirea datelor, asimilarea, stocarea, administrarea, calitatea, transformarea și vizualizarea ar trebui gestionate independent.
  • Arhitectura Data Lake ar trebui să fie adaptată unei anumite industrii. Ar trebui să se asigure că capacitățile necesare pentru acel domeniu sunt o parte inerentă a proiectării
  • Este importantă o integrare mai rapidă a surselor de date nou descoperite
  • Data Lake ajută la managementul personalizat pentru a extrage valoare maximă
  • Data Lake ar trebui să susțină tehnicile și metodele existente de gestionare a datelor de întreprindere

Provocări ale construirii unui lac de date:

  • În Data Lake, volumul de date este mai mare, așa că procesul trebuie să se bazeze mai mult pe administrarea programatică
  • Este dificil să faci față cu date rare, incomplete și volatile
  • O gamă mai largă de seturi de date și surse necesită guvernare și asistență mai mare a datelor

Diferența dintre lacurile de date și depozitul de date

parametrii lacuri de date Depozitul de date
Date Lacurile de date stochează totul. Data Warehouse se concentrează doar pe procesele de afaceri.
Prelucrare Datele sunt în principal neprelucrate Date foarte procesate.
Tipul de date Poate fi nestructurat, semistructurat și structurat. Este în mare parte sub formă și structură tabelară.
Sarcină Partajați administrarea datelor Optimizat pentru preluarea datelor
Agilitate Foarte agil, configurați și reconfigurați după cum este necesar. Comparativ cu Data lake, este mai puțin agil și are configurație fixă.
Utilizatori Data Lake este utilizat în cea mai mare parte de către Data Scientist Profesioniștii de afaceri folosesc pe scară largă Data Warehouse
Depozitare Design lacurile de date pentru stocare la costuri reduse. Se utilizează stocare scumpă, care oferă timpi de răspuns rapid
Securitate Oferă un control mai mic. Permite un control mai bun al datelor.
Înlocuirea EDW Lacul de date poate fi sursa pentru EDW Complementar cu EDW (nu înlocuitor)
Schemă Schemă la citire (fără scheme predefinite) Schemă la scriere (scheme predefinite)
Procesarea datelor Ajută la ingerarea rapidă a datelor noi. Introducerea de conținut nou necesită timp.
Granularitatea datelor Date la un nivel scăzut de detaliu sau granularitate. Date la nivel de detaliu rezumat sau agregat.
Instrumente Poate folosi sursă deschisă/instrumente precum Hadoop/ Map Reduce În mare parte instrumente comerciale.

Beneficiile și riscurile utilizării Data Lake

Iată câteva beneficii majore în utilizarea unui Data Lake:

  • Ajută pe deplin la ionizarea produsului și la analiza avansată
  • Oferă scalabilitate și flexibilitate rentabile
  • Oferă valoare din tipuri nelimitate de date
  • Reduce costul de proprietate pe termen lung
  • Permite stocarea economică a fișierelor
  • Adaptabil rapid la schimbări
  • Principalul avantaj al lacului de date este centralizare din diferite surse de conținut
  • Utilizatorii, din diverse departamente, pot fi împrăștiați pe tot globul acces flexibil la date

Riscul utilizării Data Lake:

  • După ceva timp, Data Lake își poate pierde relevanța și impulsul
  • Există un risc mai mare implicat în timpul proiectării Data Lake
  • Datele nestructurate pot duce la un hao neguvernat, date inutilizabile, instrumente disperate și complexe, colaborare la nivel de întreprindere, unificate, consecvente și comune
  • De asemenea, crește costurile de stocare și de calcul
  • Nu există nicio modalitate de a obține informații de la alții care au lucrat cu datele, deoarece nu există nicio relatare a descendenței constatărilor analiștilor anteriori.
  • Cel mai mare risc al lacurilor de date este securitatea și controlul accesului. Uneori, datele pot fi plasate într-un lac fără nicio supraveghere, deoarece unele dintre date pot avea nevoie de confidențialitate și de reglementare.

Rezumat

  • Un lac de date este un depozit de stocare care poate stoca o cantitate mare de date structurate, semi-structurate și nestructurate.
  • Obiectivul principal al construirii unui lac de date este de a oferi oamenilor de știință de date o vedere nerafinată a datelor.
  • Nivelul de operațiuni unificate, nivelul de procesare, nivelul de distilare și HDFS sunt straturi importante ale Data Lake Architectură
  • Ingerarea datelor, stocarea datelor, calitatea datelor, auditarea datelor, explorarea datelor, descoperirea datelor sunt câteva componente importante ale Data Lake Architectură
  • Proiectarea Data Lake ar trebui să fie condusă de ceea ce este disponibil în loc de ceea ce este necesar.
  • Data Lake reduce costul de proprietate pe termen lung și permite stocarea economică a fișierelor
  • Cel mai mare risc al lacurilor de date este securitatea și controlul accesului. Uneori, datele pot fi plasate într-un lac fără nicio supraveghere, deoarece unele dintre date pot avea nevoie de confidențialitate și de reglementare.