O que é DataLake? Isso é Archiestrutura: Tutorial do Data Lake

O que é Data Lake?

Um Data Lake é um repositório de armazenamento que pode armazenar uma grande quantidade de dados estruturados, semiestruturados e não estruturados. É um local para armazenar todos os tipos de dados em seu formato nativo, sem limites fixos de tamanho de conta ou arquivo. Oferece alta quantidade de dados para aumentar o desempenho analítico e integração nativa.

Data Lake é como um grande contêiner muito semelhante a lagos e rios reais. Assim como em um lago, você recebe vários afluentes, um data lake possui dados estruturados, dados não estruturados, máquina a máquina, registros fluindo em tempo real.

lago data
lago data

O Data Lake democratiza os dados e é uma forma econômica de armazenar todos os dados de uma organização para processamento posterior. O analista de pesquisa pode se concentrar em encontrar padrões de significado nos dados e não nos dados em si.

Ao contrário de uma hierarquia Armazém de dados onde os dados são armazenados em arquivos e pastas, o Data Lake tem uma arquitetura plana. Cada elemento de dados em um Data Lake recebe um identificador exclusivo e é marcado com um conjunto de informações de metadados.

Por que DataLake?

O principal objetivo da construção de um data lake é oferecer uma visão não refinada dos dados aos cientistas de dados.

Os motivos para usar o Data Lake são:

  • Com o surgimento de mecanismos de armazenamento como Hadoop armazenar informações díspares tornou-se fácil. Não há necessidade de modelar dados em um esquema empresarial com um Data Lake.
  • Com o aumento do volume de dados, da qualidade dos dados e dos metadados, a qualidade das análises também aumenta.
  • Data Lake oferece agilidade aos negócios
  • Machine Learning e a Inteligência Artificial pode ser usada para fazer previsões lucrativas.
  • Oferece uma vantagem competitiva para a organização implementadora.
  • Não há estrutura de silo de dados. O Data Lake oferece uma visão de 360 ​​graus dos clientes e torna a análise mais robusta.

lago data Archiarquitetura

lago data Archiarquitetura
lago data Archiarquitetura

A figura mostra a arquitetura de um Business Data Lake. Os níveis mais baixos representam dados que estão principalmente em repouso, enquanto os níveis mais altos mostram dados transacionais em tempo real. Esses dados fluem pelo sistema com pouca ou nenhuma latência. A seguir estão as camadas importantes no Data Lake Architextura:

  1. Nível de ingestão: as camadas do lado esquerdo representam as fontes de dados. Os dados podem ser carregados no data lake em lotes ou em tempo real
  2. Nível de insights: As camadas à direita representam o lado da pesquisa onde os insights do sistema são usados. SQL, consultas NoSQL ou mesmo Excel podem ser usadas para análise de dados.
  3. HDFS é uma solução econômica para dados estruturados e não estruturados. É uma zona de destino para todos os dados que estão inativos no sistema.
  4. Nível de destilação pega dados do pneu de armazenamento e os converte em dados estruturados para facilitar a análise.
  5. Camada de processamento execute algoritmos analíticos e consultas de usuários em lotes interativos e variados em tempo real para gerar dados estruturados para análise mais fácil.
  6. Camada de operações unificadas rege o gerenciamento e monitoramento do sistema. Inclui auditoria e gerenciamento de proficiência, gerenciamento de dados, Gestão de fluxo de trabalho.

Lago de dados chave Concepts

A seguir estão os principais conceitos do Data Lake que é preciso entender para entender completamente o Data Lake Archiarquitetura

Chave Concepts do Lago de Dados
Chave Concepts do Lago de Dados

Ingestão de Dados

A ingestão de dados permite que os conectores obtenham dados de diferentes fontes de dados e carreguem no Data Lake.

A ingestão de dados suporta:

  • Todos os tipos de dados estruturados, semiestruturados e não estruturados.
  • Múltiplas ingestões, como lote, tempo real e carregamento único.
  • Muitos tipos de fontes de dados, como bancos de dados, servidores Web, e-mails, Internet das coisase FTP.

Armazenamento de dados

O armazenamento de dados deve ser escalável, oferecer armazenamento econômico e permitir acesso rápido à exploração de dados. Deve suportar vários formatos de dados.

Governança de dados

A governança de dados é um processo de gerenciamento de disponibilidade, usabilidade, segurança e integridade dos dados usados ​​em uma organização.

Segurança

A segurança precisa ser implementada em todas as camadas do Data Lake. Tudo começa com armazenamento, desenterramento e consumo. A necessidade básica é impedir o acesso de usuários não autorizados. Deve suportar diferentes ferramentas para acessar dados com GUI e painéis fáceis de navegar.

Autenticação, contabilidade, autorização e proteção de dados são alguns recursos importantes da segurança do data lake.

Qualidade de dados

A qualidade dos dados é um componente essencial da arquitetura do Data Lake. Os dados são usados ​​para determinar o valor do negócio. Extrair insights de dados de baixa qualidade levará a insights de baixa qualidade.

Descoberta de dados

A descoberta de dados é outro estágio importante antes de começar a preparar dados ou análises. Nesta etapa, a técnica de tagging é utilizada para expressar a compreensão dos dados, organizando e interpretando os dados ingeridos no Data lake.

Auditoria de dados

Duas tarefas principais de auditoria de dados são rastrear alterações no conjunto de dados principal.

  1. Rastreando alterações em elementos importantes do conjunto de dados
  2. Captura como/quando/e quem muda esses elementos.

A auditoria de dados ajuda a avaliar o risco e a conformidade.

Linhagem de Dados

Este componente trata das origens dos dados. Trata principalmente de onde ele se move ao longo do tempo e o que acontece com ele. Facilita a correção de erros em um processo de análise de dados, da origem ao destino.

Exploração de Dados

É o estágio inicial da análise de dados. Ajuda a identificar o conjunto de dados correto, é vital antes de iniciar a exploração de dados.

Todos os componentes fornecidos precisam trabalhar juntos para desempenhar um papel importante na construção do Data Lake, evoluir e explorar facilmente o ambiente.

Estágios de maturidade do Data Lake

A definição dos estágios de maturidade do Data Lake difere de livro para outro. Embora o ponto crucial permaneça o mesmo. Após a maturidade, a definição do estágio é do ponto de vista leigo.

Estágios de maturidade do Data Lake
Estágios de maturidade do Data Lake

Estágio 1: Processar e ingerir dados em escala

Esta primeira etapa da Maturidade de Dados envolve melhorar a capacidade de transformar e analisar dados. Aqui, os empresários precisam encontrar as ferramentas de acordo com suas habilidades para obter mais dados e construir aplicativos analíticos.

Etapa 2: Construindo o músculo analítico

Esta é uma segunda etapa que envolve melhorar a capacidade de transformar e analisar dados. Nesta fase, as empresas utilizam a ferramenta mais adequada ao seu conjunto de competências. Eles começam a adquirir mais dados e a construir aplicativos. Aqui, os recursos do data warehouse corporativo e do data lake são usados ​​juntos.

Estágio 3: EDW e Data Lake trabalham em uníssono

Esta etapa envolve colocar dados e análises nas mãos do maior número de pessoas possível. Nesta fase, o data lake e o data warehouse corporativo passam a funcionar em união. Ambos desempenhando seu papel na análise

Estágio 4: Capacidade empresarial no lago

Neste estágio de maturidade do data lake, os recursos empresariais são adicionados ao Data Lake. Adoção de governança da informação, capacidades de gerenciamento do ciclo de vida da informação e gerenciamento de metadados. No entanto, muito poucas organizações conseguem atingir este nível de maturidade, mas este número aumentará no futuro.

Melhores práticas para implementação de Data Lake

  • Archicomponentes estruturais, sua interação e produtos identificados devem suportar tipos de dados nativos
  • O design do Data Lake deve ser orientado pelo que está disponível e não pelo que é necessário. O esquema e o requisito de dados não são definidos até serem consultados
  • O design deve ser orientado por componentes descartáveis ​​integrados à API de serviço.
  • A descoberta, ingestão, armazenamento, administração, qualidade, transformação e visualização de dados devem ser gerenciados de forma independente.
  • A arquitetura do Data Lake deve ser adaptada a um setor específico. Deve garantir que as capacidades necessárias para esse domínio sejam uma parte inerente do projeto
  • A integração mais rápida de fontes de dados recém-descobertas é importante
  • Data Lake ajuda o gerenciamento personalizado para extrair o máximo valor
  • O Data Lake deve apoiar técnicas e métodos existentes de gerenciamento de dados corporativos

Desafios de construir um data lake:

  • No Data Lake, o volume de dados é maior, então o processo deve depender mais da administração programática
  • É difícil lidar com dados esparsos, incompletos e voláteis
  • Um escopo mais amplo de conjunto de dados e fonte precisa de maior governança e suporte de dados

Diferença entre data lakes e data warehouse

Parâmetros Técnicos Lagos de dados Armazém de dados
Dados Os data lakes armazenam tudo. Data Warehouse concentra-se apenas em Processos de Negócios.
Tratamento Os dados são principalmente não processados Dados altamente processados.
Tipo de dados Pode ser não estruturado, semiestruturado e estruturado. Está principalmente em forma e estrutura tabular.
Tarefa Compartilhe a administração de dados Otimizado para recuperação de dados
Agilidade Altamente ágil, configure e reconfigure conforme necessário. Comparado ao Data lake, é menos ágil e possui configuração fixa.
Utilizadores Data Lake é usado principalmente por cientistas de dados Profissionais de negócios usam amplamente o data warehouse
Armazenamento Projeto de data lakes para armazenamento de baixo custo. Armazenamento caro que oferece tempos de resposta rápidos é usado
Segurança Oferece menor controle. Permite melhor controle dos dados.
Substituição de EDW Data lake pode ser fonte para EDW Complementar ao EDW (não substituto)
Esquema Esquema na leitura (sem esquemas predefinidos) Esquema na gravação (esquemas predefinidos)
Processamento de dados Ajuda na ingestão rápida de novos dados. Demorado para apresentar novo conteúdo.
Granularidade de dados Dados com baixo nível de detalhe ou granularidade. Dados em nível de detalhe resumido ou agregado.
Ferramentas Pode usar código aberto/ferramentas como Hadoop/Map Reduce Principalmente ferramentas comerciais.

Benefícios e riscos do uso do Data Lake

Aqui estão alguns dos principais benefícios do uso de um Data Lake:

  • Ajuda totalmente com ionização de produtos e análises avançadas
  • Oferece escalabilidade econômica e flexibilidade
  • Oferece valor a partir de tipos de dados ilimitados
  • Reduz o custo de propriedade a longo prazo
  • Permite armazenamento econômico de arquivos
  • Rapidamente adaptável a mudanças
  • A principal vantagem do data lake é a centralização de diferentes fontes de conteúdo
  • Os usuários, de vários departamentos, podem estar espalhados pelo mundo e podem ter acesso flexível para os dados

Risco de usar Data Lake:

  • Depois de algum tempo, o Data Lake pode perder relevância e impulso
  • Há um risco maior envolvido ao projetar o Data Lake
  • Dados não estruturados podem levar ao caos desgovernado, dados inutilizáveis, ferramentas díspares e complexas, colaboração em toda a empresa, dados unificados, consistentes e comuns
  • Também aumenta os custos de armazenamento e computação
  • Não há como obter insights de outras pessoas que trabalharam com os dados porque não há um relato da linhagem das descobertas de analistas anteriores
  • O maior risco dos data lakes é a segurança e o controle de acesso. Às vezes, os dados podem ser colocados em um lago sem qualquer supervisão, pois alguns dos dados podem ter privacidade e necessidade regulatória

Resumo

  • Um Data Lake é um repositório de armazenamento que pode armazenar uma grande quantidade de dados estruturados, semiestruturados e não estruturados.
  • O principal objetivo da construção de um data lake é oferecer uma visão não refinada dos dados aos cientistas de dados.
  • Camada de operações unificadas, camada de processamento, camada de destilação e HDFS são camadas importantes do Data Lake Archiarquitetura
  • Ingestão de dados, armazenamento de dados, qualidade de dados, auditoria de dados, exploração de dados, descoberta de dados são alguns componentes importantes do Data Lake Archiarquitetura
  • O design do Data Lake deve ser orientado pelo que está disponível e não pelo que é necessário.
  • O Data Lake reduz o custo de propriedade a longo prazo e permite o armazenamento econômico de arquivos
  • O maior risco dos data lakes é a segurança e o controle de acesso. Às vezes, os dados podem ser colocados em um lago sem qualquer supervisão, pois alguns dos dados podem ter privacidade e necessidade regulatória.