O que é armazém de dados? Tipos, definição e exemplo

O que é Data Warehousing?

A Data warehousing (DW) é um processo de coleta e gerenciamento de dados de fontes variadas para fornecer insights de negócios significativos. Um data warehouse normalmente é usado para conectar e analisar dados de negócios de fontes heterogêneas. O data warehouse é o núcleo do sistema de BI, construído para análise e relatórios de dados.

É uma mistura de tecnologias e componentes que auxilia no uso estratégico de dados. É o armazenamento eletrônico de uma grande quantidade de informações por uma empresa, projetado para consulta e análise em vez de processamento de transações. É um processo de transformar dados em informações e disponibilizá-los aos usuários em tempo hábil para fazer a diferença.

A base de dados de apoio à decisão (Data Warehouse) é mantida separada da base de dados operacional da organização. No entanto, o data warehouse não é um produto, mas um ambiente. É uma construção arquitetônica de um sistema de informação que fornece aos usuários informações atuais e históricas de apoio à decisão que são difíceis de acessar ou presentes no armazenamento de dados operacionais tradicional.

Muitos de vocês sabem que um banco de dados projetado por 3NF para um sistema de inventário possui tabelas relacionadas entre si. Por exemplo, um relatório sobre informações de inventário atual pode incluir mais de 12 condições unidas. Isso pode diminuir rapidamente o tempo de resposta da consulta e do relatório. Um data warehouse fornece um novo design que pode ajudar a reduzir o tempo de resposta e a melhorar o desempenho de consultas para relatórios e análises.

O sistema de data warehouse também é conhecido pelo seguinte nome:

  • Sistema de Apoio à Decisão (DSS)
  • Sistema de Informação Executiva
  • Sistema de Informação Gerencial
  • Solução de inteligência de negócios
  • Aplicação Analítica
  • Armazém de dados

Data warehousing

História do Datawarehouse

O Datawarehouse beneficia os usuários para compreender e aprimorar o desempenho de sua organização. A necessidade de armazenar dados evoluiu à medida que os sistemas informáticos se tornaram mais complexos e necessitaram de lidar com quantidades crescentes de informação. No entanto, Data Warehousing não é algo novo.

Aqui estão alguns eventos importantes na evolução do Data Warehouse-

  • 1960- Dartmouth e General Mills, em um projeto de pesquisa conjunto, desenvolvem os termos dimensões e fatos.
  • 1970- A Nielsen e a IRI introduzem data marts dimensionais para vendas no varejo.
  • 1983- A Tera Data Corporation apresenta um sistema de gerenciamento de banco de dados projetado especificamente para suporte à decisão
  • O armazenamento de dados começou no final da década de 1980, quando IBM os trabalhadores Paul Murphy e Barry Devlin desenvolveram o Business Data Warehouse.
  • No entanto, o verdadeiro conceito foi dado por Inmon Bill. Ele foi considerado o pai do data warehouse. Ele escreveu sobre uma variedade de tópicos para construção, uso e manutenção do armazém e da Fábrica de Informações Corporativas.

Como funciona o Datawarehouse?

Um Data Warehouse funciona como um repositório central onde as informações chegam de uma ou mais fontes de dados. Os dados fluem para um data warehouse a partir do sistema transacional e de outros bancos de dados relacionais.

Os dados podem ser:

  1. Estruturado
  2. Semi-estruturado
  3. Dados não estruturados

Os dados são processados, transformados e ingeridos para que os usuários possam acessar os dados processados ​​no Data Warehouse por meio de ferramentas de Business Intelligence, clientes SQL e planilhas. Um data warehouse mescla informações provenientes de diferentes fontes em um banco de dados abrangente.

Ao mesclar todas essas informações em um só lugar, uma organização pode analisar seus clientes de forma mais holística. Isto ajuda a garantir que todas as informações disponíveis foram consideradas. O armazenamento de dados torna possível a mineração de dados. A mineração de dados procura padrões nos dados que possam levar a maiores vendas e lucros.

Tipos de data warehouse

Três tipos principais de Data Warehouses (DWH) são:

1. Armazém de dados corporativos (EDW):

Enterprise Data Warehouse (EDW) é um armazém centralizado. Ele fornece serviço de suporte à decisão em toda a empresa. Ele oferece uma abordagem unificada para organizar e representar dados. Também permite classificar os dados de acordo com o assunto e dar acesso de acordo com essas divisões.

2. OperaArmazenamento de dados nacional:

OperaO armazenamento de dados nacional, também chamado de ODS, nada mais é do que armazenamento de dados necessário quando nem o data warehouse nem os sistemas OLTP oferecem suporte às necessidades de relatórios das organizações. No ODS, o data warehouse é atualizado em tempo real. Portanto, é amplamente preferido para atividades rotineiras, como armazenamento de registros dos Funcionários.

3. Datamart:

A data mart é um subconjunto do data warehouse. É especialmente projetado para uma determinada linha de negócios, como vendas, finanças, vendas ou finanças. Em um data mart independente, os dados podem ser coletados diretamente das fontes.

Etapas gerais do Data Warehouse

Anteriormente, as organizações iniciaram o uso relativamente simples de armazenamento de dados. No entanto, com o tempo, começou um uso mais sofisticado de armazenamento de dados.

A seguir estão os estágios gerais de uso do data warehouse (DWH):

off-line OperaBanco de dados nacional:

Nesta etapa, os dados são apenas copiados de um sistema operacional para outro servidor. Dessa forma, o carregamento, o processamento e o relatório dos dados copiados não afetam o desempenho do sistema operacional.

Armazém de dados off-line:

Os dados no Datawarehouse são atualizados regularmente a partir do OperaBanco de dados nacional. Os dados no Datawarehouse são mapeados e transformados para atender aos objetivos do Datawarehouse.

Armazém de dados em tempo real:

Nesta etapa, os data warehouses são atualizados sempre que ocorre alguma transação no banco de dados operacional. Por exemplo, sistema de reservas de companhias aéreas ou ferroviárias.

Armazém de dados integrado:

Nesta etapa, os Data Warehouses são atualizados continuamente quando o sistema operacional realiza uma transação. O Datawarehouse então gera transações que são repassadas ao sistema operacional.

Componentes do data warehouse

Quatro componentes de Data Warehouses são:

Gerenciador de carga: O gerenciador de carga também é chamado de componente frontal. Realiza todas as operações associadas à extração e carregamento de dados no warehouse. Essas operações incluem transformações para preparar os dados para entrada no Data Warehouse.

Gerente de armazém: O gerente do armazém executa operações associadas ao gerenciamento dos dados no armazém. Ele executa operações como análise de dados para garantir consistência, criação de índices e visualizações, geração de desnormalização e agregações, transformação e fusão de dados de origem e arquivamento e preparação de dados.

Gerenciador de consultas: O gerenciador de consultas também é conhecido como componente de back-end. Realiza todas as operações operacionais relacionadas ao gerenciamento das consultas dos usuários. As operações destes componentes do Data Warehouse são consultas diretas às tabelas apropriadas para agendamento da execução das consultas.

Ferramentas de acesso do usuário final:

Isso é categorizado em cinco grupos diferentes, como 1. Relatórios de dados 2. Ferramentas de consulta 3. Ferramentas de desenvolvimento de aplicativos 4. Ferramentas EIS, 5. Ferramentas OLAP e ferramentas de mineração de dados.

Quem precisa de data warehouse?

DWH (Data Warehouse) é necessário para todos os tipos de usuários, como:

  • Tomadores de decisão que dependem de grandes quantidades de dados
  • Usuários que utilizam processos personalizados e complexos para obter informações de diversas fontes de dados.
  • Também é usado por pessoas que desejam tecnologia simples para acessar os dados
  • Também é essencial para aquelas pessoas que desejam uma abordagem sistemática para a tomada de decisões.
  • Se o usuário deseja desempenho rápido em uma grande quantidade de dados, o que é necessário para relatórios, grades ou gráficos, o Data Warehouse é útil.
  • O data warehouse é o primeiro passo se você deseja descobrir 'padrões ocultos' de fluxos de dados e agrupamentos.

Para que serve um data warehouse?

Aqui estão os setores mais comuns onde o Data Warehouse é usado:

CIA aérea:

No sistema Companhia Aérea, é utilizado para fins operacionais como atribuição de tripulação, análises de rentabilidade de rotas, promoções de programas de passageiro frequente, etc.

Banca:

É amplamente utilizado no setor bancário para gerenciar de forma eficaz os recursos disponíveis na mesa. Poucos bancos também utilizam para pesquisa de mercado, análise de desempenho do produto e das operações.

Saúde:

O setor de saúde também usou o data warehouse para traçar estratégias e prever resultados, gerar relatórios de tratamento de pacientes, compartilhar dados com companhias de seguros vinculadas, serviços de assistência médica, etc.

Setor público:

No setor público, o data warehouse é usado para coleta de inteligência. Ajuda as agências governamentais a manter e analisar registros fiscais e registros de políticas de saúde de cada indivíduo.

Setor de Investimentos e Seguros:

Neste setor, os armazéns são utilizados principalmente para analisar padrões de dados, tendências de clientes e acompanhar movimentos de mercado.

Corrente de retenção:

Nas redes de varejo, o Data Warehouse é amplamente utilizado para distribuição e marketing. Também ajuda a rastrear itens, padrão de compra do cliente, promoções e também é usado para determinar a política de preços.

Telecomunicação:

Um data warehouse é utilizado neste setor para promoções de produtos, decisões de vendas e para tomar decisões de distribuição.

Indústria da hospitalidade:

Esta indústria utiliza serviços de armazém para projetar e estimar suas campanhas publicitárias e promocionais onde desejam atingir os clientes com base em seus comentários e padrões de viagem.

Etapas para implementar o data warehouse

A melhor maneira de lidar com o risco de negócios associado à implementação de Datawarehouse é empregar uma estratégia de três frentes, conforme abaixo

  1. estratégia empresarial: Aqui identificamos técnicas, incluindo arquitetura e ferramentas atuais. Também identificamos fatos, dimensões e atributos. O mapeamento e a transformação de dados também são passados.
  2. Entrega faseada: A implementação do datawarehouse deve ser faseada com base nas áreas temáticas. Entidades comerciais relacionadas, como reserva e cobrança, devem ser implementadas primeiro e depois integradas entre si.
  3. Prototipagem Iterativa: Em vez de uma abordagem big bang para implementação, o Datawarehouse deve ser desenvolvido e testado iterativamente.

Aqui estão as principais etapas na implementação do Datawarehouse, juntamente com seus resultados.

Passo tarefas Entregas
1 Necessidade de definir o escopo do projeto Definição de escopo
2 Necessidade de determinar as necessidades do negócio Modelo Lógico de Dados
3 Definir Operarequisitos nacionais do armazenamento de dados OperaModelo de armazenamento de dados nacional
4 Adquirir ou desenvolver ferramentas de extração Extrair ferramentas e software
5 Definir requisitos de dados do data warehouse Modelo de dados de transição
6 Documentar dados faltantes Lista de tarefas pendentes
7 mapas OperaData Store nacional para Data Warehouse Mapa de integração de dados D/W
8 Desenvolver design de banco de dados de data warehouse Projeto de banco de dados D/W
9 Extrair dados de Operaarmazenamento de dados nacional Extrações de dados D/W integradas
10 Carregar armazém de dados Carregamento inicial de dados
11 Manter armazém de dados Acesso contínuo a dados e carregamentos subsequentes

Melhores práticas para implementar um Data Warehouse

  • Decida um plano para testar a consistência, precisão e integridade dos dados.
  • O data warehouse deve estar bem integrado, bem definido e com data marcada.
  • Ao projetar o Datawarehouse, certifique-se de usar a ferramenta certa, seguir o ciclo de vida, tomar cuidado com conflitos de dados e estar pronto para aprender que você cometeu seus erros.
  • Nunca substitua sistemas operacionais e relatórios
  • Não perca muito tempo extraindo, limpando e carregando dados.
  • Certifique-se de envolver todas as partes interessadas, incluindo o pessoal comercial, no processo de implementação do Datawarehouse. Estabeleça que o armazenamento de dados é um projeto conjunto/de equipe. Você não deseja criar um data warehouse que não seja útil para os usuários finais.
  • Prepare um plano de treinamento para os usuários finais.

Por que precisamos de data warehouse? Vantagens desvantagens

Vantagens do Data Warehouse (DWH):

  • O data warehouse permite que os usuários empresariais acessem rapidamente dados críticos de algumas fontes, tudo em um só lugar.
  • O data warehouse fornece informações consistentes sobre diversas atividades multifuncionais. Ele também oferece suporte a relatórios e consultas ad-hoc.
  • O Data Warehouse ajuda a integrar muitas fontes de dados para reduzir o estresse no sistema de produção.
  • O data warehouse ajuda a reduzir o tempo total de resposta para análises e relatórios.
  • A reestruturação e a integração facilitam o uso do usuário para relatórios e análises.
  • O data warehouse permite que os usuários acessem dados críticos de várias fontes em um único lugar. Portanto, ele economiza tempo do usuário na recuperação de dados de múltiplas fontes.
  • O data warehouse armazena uma grande quantidade de dados históricos. Isso ajuda os usuários a analisar diferentes períodos de tempo e tendências para fazer previsões futuras.

Desvantagens do data warehouse:

  • Não é uma opção ideal para dados não estruturados.
  • A criação e implementação de data warehouse certamente é um assunto confuso.
  • O data warehouse pode ficar desatualizado com relativa rapidez
  • É difícil fazer alterações em tipos e intervalos de dados, esquema de fonte de dados, índices e consultas.
  • O data warehouse pode parecer fácil, mas na verdade é muito complexo para os usuários comuns.
  • Apesar dos melhores esforços no gerenciamento de projetos, o escopo do projeto de data warehousing sempre aumentará.
  • Às vezes, os usuários do warehouse desenvolverão regras de negócios diferentes.
  • As organizações precisam gastar muitos de seus recursos para fins de treinamento e implementação.

O futuro do armazenamento de dados

  • Mudança na Restrições regulatórias pode limitar a capacidade de combinar fontes de dados díspares. Estas fontes díspares podem incluir dados não estruturados que são difíceis de armazenar.
  • à medida que o tamanho das bases de dados cresce, as estimativas do que constitui uma base de dados muito grande continuam a crescer. É complexo construir e executar sistemas de data warehouse que estão sempre aumentando de tamanho. Os recursos de hardware e software disponíveis hoje não permitem manter uma grande quantidade de dados online.
  • Dados multimídia não podem ser facilmente manipulados como dados de texto, enquanto as informações textuais podem ser recuperadas pelo software relacional disponível hoje. Este poderia ser um tema de pesquisa.

Ferramentas de armazenamento de dados

Existem muitas ferramentas de Data Warehousing disponíveis no mercado. Aqui estão alguns dos mais proeminentes:

1. MarkLogic:

MarkLogic é uma solução útil de armazenamento de dados que torna a integração de dados mais fácil e rápida usando uma variedade de recursos empresariais. Esta ferramenta ajuda a realizar operações de pesquisa muito complexas. Ele pode consultar diferentes tipos de dados, como documentos, relacionamentos e metadados.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle é o banco de dados líder do setor. Ele oferece uma ampla variedade de soluções de data warehouse tanto no local quanto na nuvem. Ajuda a otimizar as experiências do cliente, aumentando a eficiência operacional.

https://www.oracle.com/index.html

3. Amazon VermelhoShift:

Amazon Redshift é uma ferramenta de data warehouse. É uma ferramenta simples e econômica para analisar todos os tipos de dados usando padrões SQL e ferramentas de BI existentes. Também permite executar consultas complexas em petabytes de dados estruturados, utilizando a técnica de otimização de consultas.

https://aws.amazon.com/redshift/?nc2=h_m1

Aqui está uma lista completa de úteis Ferramentas de datawarehouse.

APRENDIZAGEM CHAVE

  • Data Warehouse (DWH), também é conhecido como Enterprise Data Warehouse (EDW).
  • Um Data Warehouse é definido como um repositório central onde as informações vêm de uma ou mais fontes de dados.
  • Três tipos principais de data warehouse são Enterprise Data Warehouse (EDW), OperaData Store nacional e Data Mart.
  • O estado geral de um datawarehouse está offline OperaBanco de Dados Nacional, Data Warehouse Offline, Data Warehouse em Tempo Real e Data Warehouse Integrado.
  • Quatro componentes principais do Datawarehouse são Gerenciador de carga, Gerenciador de armazém, Gerenciador de consultas e ferramentas de acesso do usuário final
  • Datawarehouse é usado em diversos setores, como companhias aéreas, bancos, saúde, seguros, varejo, etc.
  • Implementar Datawarehosue é uma estratégia de três vertentes, a saber. Estratégia empresarial, entrega em fases e prototipagem iterativa.
  • O data warehouse permite que os usuários empresariais acessem rapidamente dados críticos de algumas fontes, tudo em um só lugar.