O que é Data Mart em Data Warehouse? Tipos e exemplo

O que é DataMart?

A Datamart está focado em uma única área funcional de uma organização e contém um subconjunto de dados armazenados em um Data Warehouse. Um Data Mart é uma versão condensada do Data Warehouse e foi projetado para uso por um departamento, unidade ou conjunto específico de usuários em uma organização. Por exemplo, Marketing, Vendas, RH ou finanças. Freqüentemente, é controlado por um único departamento de uma organização.

O Data Mart geralmente extrai dados de apenas algumas fontes em comparação com um data warehouse. Os data marts são pequenos e mais flexíveis em comparação com um Datawarehouse.

Por que precisamos do Data Mart?

  • Data Mart ajuda a melhorar o tempo de resposta do usuário devido à redução no volume de dados
  • Ele fornece acesso fácil aos dados solicitados com frequência.
  • Data mart é mais simples de implementar quando comparado ao Datawarehouse corporativo. Ao mesmo tempo, o custo de implementação do Data Mart é certamente menor em comparação com a implementação de um data warehouse completo.
  • Comparado ao Data Warehouse, um datamart é ágil. Em caso de mudança de modelo, o datamart pode ser construído mais rapidamente devido ao seu tamanho menor.
  • Um Datamart é definido por um único especialista no assunto. Pelo contrário, o data warehouse é definido por PME interdisciplinares de vários domínios. Conseqüentemente, o Data Mart está mais aberto a mudanças em comparação ao Datawarehouse.
  • Os dados são particionados e permitem privilégios de controle de acesso muito granulares.
  • Os dados podem ser segmentados e armazenados em diferentes plataformas de hardware/software.

Tipos de datamart

Existem três tipos principais de datamart:

  1. Dependente: data marts dependentes são criados extraindo dados diretamente de fontes operacionais, externas ou de ambas.
  2. Independente: o data mart independente é criado sem o uso de um data warehouse central.
  3. HÍBRIDO: Este tipo de data marts pode obter dados de data warehouses ou sistemas operacionais.

Data Mart Dependente

Um data mart dependente permite obter dados da organização a partir de um único data warehouse. É um dos exemplos de data mart que oferece o benefício da centralização. Se precisar desenvolver um ou mais datamarts físicos, será necessário configurá-los como datamarts dependentes.

O Data Mart dependente no data warehouse pode ser construído de duas maneiras diferentes. Seja onde um usuário pode acessar o data mart e o data warehouse, dependendo da necessidade, ou onde o acesso é limitado apenas ao data mart. A segunda abordagem não é a ideal, pois às vezes é chamada de ferro-velho de dados. No ferro-velho de dados, todos os dados começam com uma fonte comum, mas são descartados e, em sua maioria, descartados.

Data Mart Dependente
Data Mart Dependente

Datamart independente

Um data mart independente é criado sem o uso de um data warehouse central. Este tipo de Data Mart é uma opção ideal para grupos menores dentro de uma organização.

Um data mart independente não tem relacionamento com o data warehouse corporativo nem com qualquer outro data mart. No Data Mart Independente, os dados são inseridos separadamente e suas análises também são realizadas de forma autônoma.

A implementação de data marts independentes é a antítese da motivação para construir um data warehouse. Em primeiro lugar, você precisa de um armazenamento consistente e centralizado de dados corporativos que possa ser analisado por vários usuários com interesses diferentes e que desejam informações amplamente variadas.

Datamart independente

Datamart independente

Data Mart Híbrido

Um data mart híbrido combina entradas de fontes diferentes do data warehouse. Isso pode ser útil quando você deseja integração ad hoc, como depois que um novo grupo ou produto é adicionado à organização.

É o melhor exemplo de data mart adequado para vários ambientes de banco de dados e rápido retorno de implementação para qualquer organização. Também requer menos esforço de limpeza de dados. O Data Mart Híbrido também oferece suporte a grandes estruturas de armazenamento e é mais adequado para aplicações flexíveis centradas em dados menores.

Data Mart Híbrido

Data Mart Híbrido

Etapas na implementação de um datamart

Etapas na implementação de um datamart

Implementar um Data Mart é um procedimento gratificante, mas complexo. Aqui estão as etapas detalhadas para implementar um Data Mart:

Desenho

O design é a primeira fase da implementação do Data Mart. Abrange todas as tarefas desde o início da solicitação de um data mart até a coleta de informações sobre os requisitos. Por fim, criamos o design lógico e físico do Data Mart.

A etapa de design envolve as seguintes tarefas:

  • Reunindo os requisitos técnicos e de negócios e identificando fontes de dados.
  • Selecionando o subconjunto apropriado de dados.
  • Projetar a estrutura lógica e física do data mart.

Os dados podem ser particionados com base nos seguintes critérios:

  • Data
  • Unidade de Negócio ou Funcional
  • Geografia
  • Qualquer combinação acima

Os dados podem ser particionados no nível do aplicativo ou do SGBD. Embora seja recomendado particionar no nível do Aplicativo, pois permite diferentes modelos de dados a cada ano com a mudança no ambiente de negócios.

Quais produtos e tecnologias você precisa?

Uma simples caneta e papel seriam suficientes. Embora as ferramentas que ajudam você a criar UML ou Diagrama ER também acrescentaria metadados em seus projetos lógicos e físicos.

Construindo

Esta é a segunda fase de implementação. Envolve criar o banco de dados físico e as estruturas lógicas.

Esta etapa envolve as seguintes tarefas:

  • Implementar o banco de dados físico projetado na fase anterior. Por exemplo, são criados objetos de esquema de banco de dados como tabelas, índices, visualizações, etc.

Quais produtos e tecnologias você precisa?

Você precisa de um sistema de gerenciamento de banco de dados relacional para construir um data mart. RDBMS possuem vários recursos necessários para o sucesso de um Data Mart.

  • Gerenciamento de armazenamento: Um RDBMS armazena e gerencia os dados para criar, adicionar e excluir dados.
  • Acesso rápido aos dados: Com uma consulta SQL você pode acessar facilmente dados com base em determinadas condições/filtros.
  • Proteção de dados: O sistema RDBMS também oferece uma maneira de recuperação de falhas do sistema, como falhas de energia. Também permite restaurar dados desses backups caso o disco falhe.
  • Suporte multiusuário: O sistema de gerenciamento de dados oferece acesso simultâneo, a capacidade de vários usuários acessarem e modificarem dados sem interferir ou substituir alterações feitas por outro usuário.
  • Segurança: O sistema RDMS também fornece uma forma de regular o acesso dos usuários a objetos e certos tipos de operações.

Povoando

Na terceira fase, os dados são preenchidos no data mart.

A etapa de preenchimento envolve as seguintes tarefas:

  • Mapeamento de dados de origem para dados de destino
  • Extração de dados de origem
  • Operações de limpeza e transformação nos dados
  • Carregando dados no datamart
  • Criando e armazenando metadados

Quais produtos e tecnologias você precisa?

Você realiza essas tarefas de população usando um Ferramenta ETL (Extrair Carga de Transformação). Essa ferramenta permite examinar as fontes de dados, realizar o mapeamento da origem ao destino, extrair os dados, transformá-los, limpá-los e carregá-los de volta no data mart.

No processo, a ferramenta também cria alguns metadados relacionados a coisas como a origem dos dados, quão recentes são, que tipo de alterações foram feitas nos dados e que nível de resumo foi feito.

Acessando

O acesso é uma quarta etapa que envolve colocar os dados em uso: consultar os dados, criar relatórios, gráficos e publicá-los. O usuário final envia consultas ao banco de dados e exibe os resultados das consultas

A etapa de acesso precisa executar as seguintes tarefas:

  • Configure uma meta camada que traduza estruturas de banco de dados e nomes de objetos em termos comerciais. Isso ajuda usuários não técnicos a acessar facilmente o data mart.
  • Configurar e manter estruturas de banco de dados.
  • Configure API e interfaces, se necessário

Quais produtos e tecnologias você precisa?

É possível acessar o datamart usando a linha de comandos ou a GUI. A GUI é preferida porque pode gerar gráficos facilmente e é fácil de usar em comparação com a linha de comando.

Gerenciando

Esta é a última etapa do processo de implementação do Data Mart. Esta etapa cobre tarefas de gerenciamento como-

  • Gerenciamento contínuo de acesso de usuários.
  • Otimizações e ajustes finos do sistema para obter desempenho aprimorado.
  • Adicionar e gerenciar dados novos no data mart.
  • Planejar cenários de recuperação e garantir a disponibilidade do sistema no caso de falha do sistema.

Quais produtos e tecnologias você precisa?

Você pode usar a GUI ou a linha de comando para gerenciamento de datamart.

Melhores práticas para implementação de data marts

A seguir estão as práticas recomendadas que você precisa seguir durante o processo de implementação do Data Mart:

  • A fonte de um Data Mart deve ser estruturada departamentalmente
  • O ciclo de implementação de um Data Mart deve ser medido em curtos períodos de tempo, ou seja, em semanas em vez de meses ou anos.
  • É importante envolver todas as partes interessadas na fase de planeamento e concepção, uma vez que a implementação do data mart pode ser complexa.
  • Os custos de hardware/software, rede e implementação do Data Mart devem ser orçados com precisão em seu plano
  • Mesmo que o Data Mart seja criado no mesmo hardware, eles podem precisar de algum software diferente para lidar com as consultas dos usuários. Requisitos adicionais de poder de processamento e armazenamento em disco devem ser avaliados para uma resposta rápida do usuário
  • Um data mart pode estar em um local diferente do data warehouse. É por isso que é importante garantir que eles tenham capacidade de rede suficiente para lidar com os volumes de dados necessários para transferir dados para o data mart..
  • O custo de implementação deve orçamentar o tempo necessário para o processo de carregamento do Datamart. O tempo de carregamento aumenta com o aumento da complexidade das transformações.

Vantagens e desvantagens de um data mart

Diferenciais

  • Os data marts contêm um subconjunto de dados de toda a organização. Esses dados são valiosos para um grupo específico de pessoas em uma organização.
  • São alternativas econômicas para um data warehouse, cuja construção pode exigir custos elevados.
  • Data Mart permite acesso mais rápido aos dados.
  • O Data Mart é fácil de usar, pois foi projetado especificamente para as necessidades de seus usuários. Assim, um data mart pode acelerar os processos de negócios.
  • Data Marts precisam de menos tempo de implementação em comparação com sistemas de Data Warehouse. É mais rápido implementar o Data Mart porque você só precisa concentrar um único subconjunto de dados.
  • Ele contém dados históricos que permitem ao analista determinar tendências de dados.

Desvantagens

  • Muitas vezes, as empresas criam muitos data marts díspares e não relacionados, sem muitos benefícios. Pode se tornar um grande obstáculo para manter.
  • O Data Mart não pode fornecer dados para toda a empresa análise de dados pois seu conjunto de dados é limitado.

Resumo

  • Definir Data Mart: Um Data Mart é definido como um subconjunto de Data Warehouse focado em uma única área funcional de uma organização.
  • O Data Mart ajuda a melhorar o tempo de resposta do usuário devido à redução no volume de dados.
  • Três tipos de data mart são 1) Dependente 2) Independente 3) Híbrido
  • Etapas importantes de implementação do Data Mart são 1) Projetar 2) Construir 3 Preencher 4) Acessar e 5) Gerenciar
  • O ciclo de implementação de um Data Mart deve ser medido em curtos períodos de tempo, ou seja, em semanas em vez de meses ou anos.
  • O data mart é uma alternativa econômica a um data warehouse, cuja construção pode exigir altos custos.
  • O Data Mart não pode fornecer análise de dados para toda a empresa, pois o conjunto de dados é limitado.