Cos'è Data Lake? Suo Architecnologia: esercitazione su Data Lake

Cos'è Data Lake?

Un Data Lake è un repository di archiviazione in grado di archiviare grandi quantità di dati strutturati, semistrutturati e non strutturati. È un luogo in cui archiviare ogni tipo di dati nel suo formato nativo senza limiti fissi sulla dimensione dell'account o del file. Offre un'elevata quantità di dati per aumentare le prestazioni analitiche e l'integrazione nativa.

Il Data Lake è come un grande contenitore che è molto simile a veri laghi e fiumi. Proprio come in un lago ci sono più affluenti in arrivo, un data lake ha dati strutturati, dati non strutturati, macchina a macchina, log che scorrono in tempo reale.

Lago di dati
Lago di dati

Il Data Lake democratizza i dati ed è un modo conveniente per archiviare tutti i dati di un'organizzazione per elaborarli in seguito. Il Research Analyst può concentrarsi sulla ricerca di pattern di significato nei dati e non sui dati stessi.

A differenza di un gerarchico magazzino dati dove i dati sono archiviati in File e Cartelle, Data Lake ha un'architettura piatta. A ogni elemento dati in un Data Lake viene assegnato un identificatore univoco e contrassegnato con un set di informazioni sui metadati.

Perché Data Lake?

L'obiettivo principale della creazione di un data Lake è offrire una visione non raffinata dei dati ai data scientist.

I motivi per utilizzare Data Lake sono:

  • Con l'avvento dei motori di archiviazione come Hadoop memorizzare informazioni disparate è diventato facile. Non è necessario modellare i dati in uno schema a livello aziendale con un Data Lake.
  • Con l’aumento del volume dei dati, della qualità dei dati e dei metadati, aumenta anche la qualità delle analisi.
  • Data Lake offre agilità aziendale
  • machine Learning e l’intelligenza artificiale può essere utilizzata per fare previsioni redditizie.
  • Offre un vantaggio competitivo all’organizzazione che lo implementa.
  • Non esiste una struttura di silo di dati. Data Lake offre una visione a 360 gradi dei clienti e rende l'analisi più solida.

Lago di dati Architectura

Lago di dati Architectura
Lago di dati Architectura

La figura mostra l'architettura di un Business Data Lake. I livelli inferiori rappresentano dati che sono per lo più a riposo mentre i livelli superiori mostrano dati transazionali in tempo reale. Questi dati scorrono attraverso il sistema con latenza nulla o minima. Di seguito sono riportati i livelli importanti in Data Lake Architecnologia:

  1. Livello di acquisizione: i livelli sul lato sinistro rappresentano le origini dati. I dati potrebbero essere caricati nel data Lake in batch o in tempo reale
  2. Livello di approfondimenti: I livelli a destra rappresentano il lato della ricerca in cui vengono utilizzati gli approfondimenti del sistema. SQL, query NoSQL o persino Excel potrebbero essere utilizzati per l'analisi dei dati.
  3. HDFS è una soluzione conveniente sia per i dati strutturati che per quelli non strutturati. È una zona di destinazione per tutti i dati inattivi nel sistema.
  4. Livello di distillazione prende i dati dal pneumatico di stoccaggio e li converte in dati strutturati per un'analisi più semplice.
  5. Livello di elaborazione eseguire algoritmi analitici e query degli utenti con variabili batch in tempo reale, interattive, per generare dati strutturati per un'analisi più semplice.
  6. Livello operativo unificato regola la gestione e il monitoraggio del sistema. Comprende auditing e gestione delle competenze, gestione dei dati, gestione del flusso di lavoro.

Lago dati chiave Concepts

Di seguito sono riportati i concetti chiave del Data Lake che è necessario comprendere per comprendere appieno il Data Lake Architectura

Le Concepts di Data Lake
Le Concepts di Data Lake

Ingestione dei dati

L'inserimento dei dati consente ai connettori di ottenere dati da origini dati diverse e di caricarli nel Data Lake.

L'acquisizione dati supporta:

  • Tutti i tipi di dati strutturati, semistrutturati e non strutturati.
  • Acquisizioni multiple come batch, in tempo reale, caricamento una tantum.
  • Molti tipi di fonti di dati come database, server Web, e-mail, IoTe FTP.

Archiviazione dei dati  

L'archiviazione dei dati dovrebbe essere scalabile, offrire uno spazio di archiviazione conveniente e consentire un accesso rapido all'esplorazione dei dati. Dovrebbe supportare vari formati di dati.

Data Governance

La governance dei dati è un processo di gestione della disponibilità, usabilità, sicurezza e integrità dei dati utilizzati in un'organizzazione.

Sicurezza

La sicurezza deve essere implementata a ogni livello del Data Lake. Si inizia con l'immagazzinamento, il dissotterramento e il consumo. L'esigenza fondamentale è impedire l'accesso agli utenti non autorizzati. Dovrebbe supportare diversi strumenti per accedere ai dati con GUI e dashboard facili da navigare.

Autenticazione, contabilità, autorizzazione e protezione dei dati sono alcune caratteristiche importanti della sicurezza del data Lake.

Qualità dei dati

La qualità dei dati è una componente essenziale dell'architettura del Data Lake. I dati vengono utilizzati per ottenere valore aziendale. L'estrazione di insight da dati di scarsa qualità porterà ad insight di scarsa qualità.

Scoperta dei dati

Il Data Discovery è un'altra fase importante prima di poter iniziare a preparare i dati o l'analisi. In questa fase viene utilizzata la tecnica del tagging per esprimere la comprensione dei dati, organizzando e interpretando i dati inseriti nel Data Lake.

Controllo dei dati

Due attività principali di controllo dei dati tengono traccia delle modifiche al set di dati chiave.

  1. Monitoraggio delle modifiche agli elementi importanti del set di dati
  2. Cattura come/quando/e chi modifica questi elementi.

Il controllo dei dati aiuta a valutare il rischio e la conformità.

Data Lignaggio

Questo componente si occupa delle origini dei dati. Si occupa principalmente di dove si muove nel tempo e di cosa gli succede. Facilita la correzione degli errori in un processo di analisi dei dati dall'origine alla destinazione.

Esplorazione dei dati

È la fase iniziale dell’analisi dei dati. Aiuta a identificare il set di dati corretto è fondamentale prima di iniziare l'esplorazione dei dati.

Tutti i componenti indicati devono lavorare insieme per svolgere un ruolo importante nella creazione di Data Lake, che si evolvono facilmente ed esplorano l'ambiente.

Fasi di maturità di Data Lake

La definizione degli stadi di maturità del Data Lake varia da un libro di testo all'altro. Tuttavia, il nocciolo della questione rimane lo stesso. Dopo la maturità, la definizione dello stadio è da un punto di vista profano.

Fasi di maturità di Data Lake
Fasi di maturità di Data Lake

Fase 1: gestire e acquisire dati su larga scala

Questa prima fase della maturità dei dati prevede il miglioramento della capacità di trasformare e analizzare i dati. Qui, gli imprenditori devono trovare gli strumenti in base alle proprie competenze per ottenere più dati e creare applicazioni analitiche.

Fase 2: costruire la forza analitica

Questa è una seconda fase che prevede il miglioramento della capacità di trasformazione e analisi dei dati. In questa fase le aziende utilizzano lo strumento più adeguato alle proprie competenze. Iniziano ad acquisire più dati e a creare applicazioni. In questo caso, le funzionalità del data warehouse aziendale e del data Lake vengono utilizzate insieme.

Fase 3: EDW e Data Lake lavorano all'unisono

Questo passaggio implica mettere i dati e le analisi nelle mani di quante più persone possibile. In questa fase, il data Lake e il data warehouse aziendale iniziano a lavorare in unione. Entrambi fanno la loro parte nell'analisi

Fase 4: capacità aziendale nel lago

In questa fase di maturità del Data Lake, le funzionalità aziendali vengono aggiunte al Data Lake. Adozione di governance delle informazioni, funzionalità di gestione del ciclo di vita delle informazioni e gestione dei metadati. Tuttavia, pochissime organizzazioni possono raggiungere questo livello di maturità, ma questo numero aumenterà in futuro.

migliori pratiche per l'implementazione del Data Lake

  • Archii componenti strutturali, la loro interazione e i prodotti identificati dovrebbero supportare i tipi di dati nativi
  • La progettazione di Data Lake dovrebbe essere guidata da ciò che è disponibile anziché da ciò che è richiesto. Lo schema e i requisiti dei dati non vengono definiti finché non vengono interrogati
  • La progettazione dovrebbe essere guidata da componenti monouso integrati con l'API del servizio.
  • Il rilevamento, l'acquisizione, l'archiviazione, l'amministrazione, la qualità, la trasformazione e la visualizzazione dei dati dovrebbero essere gestiti in modo indipendente.
  • L'architettura del Data Lake dovrebbe essere adattata a un settore specifico. Dovrebbe garantire che le capacità necessarie per quel dominio siano una parte intrinseca del design
  • È importante un onboarding più rapido delle origini dati appena scoperte
  • Data Lake aiuta la gestione personalizzata a ottenere il massimo valore
  • Il Data Lake dovrebbe supportare le tecniche e i metodi di gestione dei dati aziendali esistenti

Sfide legate alla costruzione di un data Lake:

  • In Data Lake, il volume dei dati è maggiore, quindi il processo deve dipendere maggiormente dall'amministrazione programmatica
  • È difficile gestire dati sparsi, incompleti e volatili
  • Un ambito più ampio di set di dati e fonti richiede una governance e un supporto dei dati più ampi

Differenza tra Data Lake e Data Warehouse

Scheda Sintetica Laghi di dati magazzino dati
Dati I data Lake memorizzano tutto. Il Data Warehouse si concentra solo sui processi aziendali.
Processando I dati sono prevalentemente non trattati Dati altamente elaborati.
Tipo di dati Può essere Non strutturato, semistrutturato e strutturato. È principalmente in forma e struttura tabellare.
Task Condividi la gestione dei dati Ottimizzato per il recupero dei dati
Agilità Altamente agile, configura e riconfigura secondo necessità. Rispetto a Data Lake è meno agile e ha una configurazione fissa.
Utenti Data Lake è utilizzato principalmente da Data Scientist I professionisti aziendali utilizzano ampiamente il data warehouse
Archiviazione Progettazione di data lake per l'archiviazione a basso costo. Viene utilizzato uno spazio di archiviazione costoso che offre tempi di risposta rapidi
Sicurezza Offre un controllo minore. Consente un migliore controllo dei dati.
Sostituzione dell'EDW Il data Lake può essere fonte per EDW Complementare a EDW (non sostitutivo)
Schema Schema sulla lettura (nessuno schema predefinito) Schema in scrittura (schemi predefiniti)
Elaborazione dati Aiuta per l'acquisizione rapida di nuovi dati. Richiede molto tempo per introdurre nuovi contenuti.
Granularità dei dati Dati con un basso livello di dettaglio o granularità. Dati a livello di dettaglio riepilogativo o aggregato.
Strumenti Può utilizzare strumenti/open source come Hadoop/Map Reduce Per lo più strumenti commerciali.

Vantaggi e rischi dell'utilizzo di Data Lake

Ecco alcuni dei principali vantaggi derivanti dall'utilizzo di un Data Lake:

  • Aiuta completamente con la ionizzazione del prodotto e l'analisi avanzata
  • Offre scalabilità e flessibilità convenienti
  • Offre valore da un numero illimitato di tipi di dati
  • Riduce il costo di proprietà a lungo termine
  • Consente l'archiviazione economica dei file
  • Adattabile rapidamente ai cambiamenti
  • Il vantaggio principale del Data Lake è il centralizzazione di diverse fonti di contenuto
  • Gli utenti, provenienti da vari dipartimenti, possono essere sparsi in tutto il mondo accesso flessibile ai dati

Rischio derivante dall'utilizzo di Data Lake:

  • Dopo un po' di tempo, Data Lake potrebbe perdere rilevanza e slancio
  • I rischi associati alla progettazione di Data Lake sono maggiori
  • I dati non strutturati possono portare a caos non governato, dati inutilizzabili, strumenti disparati e complessi, collaborazione a livello aziendale, unificata, coerente e comune
  • Aumenta anche i costi di archiviazione ed elaborazione
  • Non è possibile ottenere approfondimenti da altri che hanno lavorato con i dati perché non vi è alcun resoconto della discendenza dei risultati dei precedenti analisti
  • Il rischio maggiore dei data Lake è la sicurezza e il controllo degli accessi. A volte i dati possono essere inseriti in un lago senza alcuna supervisione, poiché alcuni dati potrebbero avere esigenze di privacy e normative

Sintesi

  • Un Data Lake è un repository di archiviazione in grado di archiviare grandi quantità di dati strutturati, semistrutturati e non strutturati.
  • L'obiettivo principale della creazione di un data Lake è offrire una visione non raffinata dei dati ai data scientist.
  • Il livello operazioni unificate, il livello di elaborazione, il livello di distillazione e HDFS sono livelli importanti di Data Lake Architectura
  • Ingestione di dati, archiviazione di dati, qualità dei dati, controllo dei dati, esplorazione dei dati, individuazione dei dati sono alcuni componenti importanti di Data Lake Architectura
  • La progettazione di Data Lake dovrebbe essere guidata da ciò che è disponibile anziché da ciò che è richiesto.
  • Data Lake riduce i costi di proprietà a lungo termine e consente l'archiviazione economica dei file
  • Il rischio maggiore dei data Lake è la sicurezza e il controllo degli accessi. A volte i dati possono essere inseriti in un lago senza alcuna supervisione, poiché alcuni dati potrebbero avere esigenze di privacy e normative.