Armazém de dados Archiarquitetura, componentes e diagrama Concepts
Armazém de dados Concepts
O conceito básico de um Data Warehouse é facilitar uma versão única da verdade para uma empresa para tomada de decisões e previsões. Um data warehouse é um sistema de informação que contém dados históricos e comutativos de fontes únicas ou múltiplas. Armazém de dados Concepts simplificar o processo de relatórios e análises das organizações.
Características do armazém de dados
Armazém de dados Concepts têm as seguintes características:
- Orientado para o assunto
- Integral
- Tempo variável
- Não volátil
Orientado para o assunto
Um data warehouse é orientado por assunto, pois oferece informações sobre um tema em vez das operações em andamento das empresas. Esses assuntos podem ser vendas, marketing, distribuições, etc.
Um data warehouse nunca se concentra nas operações em andamento. Em vez disso, colocou ênfase na modelagem e análise de dados para tomada de decisão. Também fornece uma visão simples e concisa sobre o assunto específico, excluindo dados que não são úteis para apoiar o processo de decisão.
Integral
No Data Warehouse, integração significa o estabelecimento de uma unidade de medida comum para todos os dados semelhantes do banco de dados diferentes. Os dados também precisam ser armazenados no Datawarehouse de maneira comum e universalmente aceitável.
Um data warehouse é desenvolvido integrando dados de fontes variadas, como mainframe, bancos de dados relacionais, arquivos simples, etc. Além disso, ele deve manter convenções de nomenclatura, formato e codificação consistentes.
Essa integração ajuda na análise eficaz dos dados. A consistência nas convenções de nomenclatura, medidas de atributos, estrutura de codificação, etc. deve ser garantida. Considere o seguinte exemplo:
No exemplo acima, existem três aplicativos diferentes denominados A, B e C. As informações armazenadas nesses aplicativos são Gênero, Data e Saldo. No entanto, os dados de cada aplicativo são armazenados de maneira diferente.
- No aplicativo, um campo de gênero armazena valores lógicos como M ou F
- No Aplicativo B, o campo de gênero é um valor numérico,
- No aplicativo C, o campo de gênero é armazenado na forma de um valor de caractere.
- O mesmo acontece com Data e saldo
Porém, após o processo de transformação e limpeza, todos esses dados são armazenados em formato comum no Armazém de dados.
Tempo variável
O horizonte de tempo para o data warehouse é bastante extenso em comparação com os sistemas operacionais. Os dados coletados em um data warehouse são reconhecidos com um determinado período e oferecem informações do ponto de vista histórico. Ele contém um elemento de tempo, explícita ou implicitamente.
Um dos locais onde os dados do Datawarehouse exibem a variação de tempo está na estrutura da chave de registro. Cada chave primária contida no DW deve ter implícita ou explicitamente um elemento de tempo. Como o dia, mês da semana, etc.
Outro aspecto da variação de tempo é que, uma vez inseridos os dados no warehouse, eles não podem ser atualizados ou alterados.
Não volátil
O data warehouse também não é volátil, o que significa que os dados anteriores não são apagados quando novos dados são inseridos nele.
Os dados são somente leitura e atualizados periodicamente. Isso também ajuda a analisar dados históricos e entender o que e quando aconteceu. Não requer processo de transação, recuperação e mecanismos de controle de simultaneidade.
Atividades como exclusão, atualização e inserção executadas em um ambiente de aplicativo operacional são omitidas no ambiente de data warehouse. Apenas dois tipos de operações de dados realizadas no Data Warehousing são
- Carregamento de dados
- Acesso de dados
Aqui estão algumas diferenças importantes entre aplicativos e data warehouse
| Operaaplicação nacional | Armazém de dados |
|---|---|
| Programas complexos devem ser codificados para garantir que os processos de atualização de dados mantenham a alta integridade do produto final. | Este tipo de problema não acontece porque a atualização dos dados não é realizada. |
| Os dados são colocados em formato normalizado para garantir redundância mínima. | Os dados não são armazenados em formato normalizado. |
| Tecnologia necessária para suportar problemas de transações, recuperação de dados, reversão e resolução, pois seu impasse é bastante complexo. | Oferece relativa simplicidade em tecnologia. |
Armazém de dados Archiarquitetura
Armazém de dados Archiarquitetura é complexo porque é um sistema de informação que contém dados históricos e comutativos de múltiplas fontes. Existem 3 abordagens para a construção de camadas de data warehouse: camada única, duas camadas e três camadas. Esta arquitetura de 3 camadas do Data Warehouse é explicada abaixo.
Arquitetura de camada única
O objetivo de uma única camada é minimizar a quantidade de dados armazenados. Este objetivo é remover a redundância de dados. Esta arquitetura não é frequentemente usada na prática.
Arquitetura de duas camadas
A arquitetura de duas camadas é uma das camadas do Data Warehouse que separa as fontes fisicamente disponíveis e o data warehouse. Esta arquitetura não é expansível e também não suporta um grande número de usuários finais. Ele também apresenta problemas de conectividade devido a limitações de rede.
Armazém de dados de três camadas Archiarquitetura
Este é o mais utilizado Archiarquitetura de Data Warehouse.
Consiste nas camadas superior, intermediária e inferior.
- Camada inferior: O banco de dados dos servidores Datawarehouse como camada inferior. Geralmente é um sistema de banco de dados relacional. Os dados são limpos, transformados e carregados nesta camada usando ferramentas de back-end.
- Camada intermediária: A camada intermediária no Data Warehouse é um servidor OLAP implementado usando o modelo ROLAP ou MOLAP. Para um usuário, esta camada de aplicação apresenta uma visão abstrata do banco de dados. Essa camada também atua como mediadora entre o usuário final e o banco de dados.
- Nível superior: A camada superior é uma camada de cliente front-end. O nível superior são as ferramentas e a API que você conecta e obtém dados do data warehouse. Podem ser ferramentas de consulta, ferramentas de relatório, ferramentas de consulta gerenciada, ferramentas de análise e ferramentas de mineração de dados.
Componentes do datawarehouse
Aprenderemos sobre os componentes do Datawarehouse e Archiarquitetura de Data Warehouse com Diagrama conforme mostrado abaixo:

O Data Warehouse é baseado em um servidor RDBMS que é um repositório central de informações cercado por alguns componentes-chave do Data Warehousing para tornar todo o ambiente funcional, gerenciável e acessível.
Existem principalmente cinco componentes de data warehouse:
Banco de dados de data warehouse
O banco de dados central é a base do ambiente de data warehousing. Este banco de dados é implementado no RDBMS tecnologia. Embora este tipo de implementação seja limitado pelo fato de que o sistema RDBMS tradicional é otimizado para processamento de banco de dados transacional e não para armazenamento de dados. Por exemplo, consultas ad-hoc, junções de múltiplas tabelas e agregações consomem muitos recursos e diminuem o desempenho.
Portanto, abordagens alternativas para banco de dados são usadas conforme listado abaixo-
- Em um datawarehouse, os bancos de dados relacionais são implantados em paralelo para permitir escalabilidade. Bancos de dados relacionais paralelos também permitem modelo de memória compartilhada ou nada compartilhado em várias configurações de multiprocessador ou processadores massivamente paralelos.
- Novas estruturas de índice são usadas para ignorar a varredura de tabelas relacionais e melhorar a velocidade.
- Utilização de bancos de dados multidimensionais (MDDBs) para superar quaisquer limitações que sejam colocadas pelos Modelos de Data Warehouse relacionais. Exemplo: Essbase de Oracle.
Ferramentas de Sourcing, Aquisição, Limpeza e Transformação (ETL)
As ferramentas de fonte, transformação e migração de dados são usadas para realizar todas as conversões, resumos e todas as alterações necessárias para transformar os dados em um formato unificado no datawarehouse. Eles também são chamados de ferramentas de extração, transformação e carregamento (ETL).
Sua funcionalidade inclui:
- Torne os dados anônimos de acordo com as estipulações regulatórias.
- Eliminando o carregamento de dados indesejados em bancos de dados operacionais no data warehouse.
- Pesquise e substitua nomes e definições comuns para dados provenientes de diferentes fontes.
- Calculando resumos e dados derivados
- Em caso de dados ausentes, preencha-os com os padrões.
- Dados repetidos desduplicados que chegam de diversas fontes de dados.
Essas ferramentas Extrair, Transformar e Carregar podem gerar tarefas cron, tarefas em segundo plano, Programas Cobol, scripts de shell, etc. que atualizam regularmente os dados no data warehouse. Essas ferramentas também são úteis para manter os metadados.
Estes Ferramentas ETL temos que lidar com os desafios da heterogeneidade de bancos de dados e dados.
metadados
O nome Meta Data sugere algum armazenamento de dados tecnológico de alto nível Concepts. No entanto, é bastante simples. Metadados são dados sobre dados que definem o data warehouse. É usado para construir, manter e gerenciar o data warehouse.
No armazém de dados ArchiNa arquitetura, os metadados desempenham um papel importante, pois especificam a origem, o uso, os valores e os recursos dos dados do data warehouse. Também define como os dados podem ser alterados e processados. Está intimamente conectado ao data warehouse.
Por exemplo, uma linha no banco de dados de vendas pode conter:
4030 KJ732 299.90
Este é um dado sem sentido até consultarmos o Meta que nos diz que foi
- Número do modelo: 4030
- ID do agente de vendas: KJ732
- Valor total de vendas de $ 299.90
Portanto, os Metadados são ingredientes essenciais na transformação de dados em conhecimento.
Os metadados ajudam a responder às seguintes perguntas
- Quais tabelas, atributos e chaves o Data Warehouse contém?
- De onde vieram os dados?
- Quantas vezes os dados são recarregados?
- Que transformações foram aplicadas com a limpeza?
Os metadados podem ser classificados nas seguintes categorias:
- Metadados técnicos: este tipo de metadados contém informações sobre o warehouse que são usadas por designers e administradores de data warehouse.
- Metadados de negócios: Esse tipo de metadados contém detalhes que oferecem aos usuários finais uma maneira fácil de entender as informações armazenadas no data warehouse.
Ferramentas de consulta
Um dos principais objetivos do armazenamento de dados é fornecer informações às empresas para a tomada de decisões estratégicas. As ferramentas de consulta permitem que os usuários interajam com o sistema de data warehouse.
Essas ferramentas se enquadram em quatro categorias diferentes:
- Ferramentas de consulta e relatório
- Ferramentas de desenvolvimento de aplicativos
- Ferramentas de mineração de dados
- Ferramentas OLAP
1. Ferramentas de consulta e relatórios
As ferramentas de consulta e relatório podem ser divididas em
- Ferramentas de relatórios
- Ferramentas de consulta gerenciada
Ferramentas de relatórios:
Ferramentas de relatórios pode ser dividido em ferramentas de relatórios de produção e redator de relatórios de desktop.
- Redatores de relatórios: Este tipo de ferramenta de relatório são ferramentas projetadas para usuários finais para suas análises.
- Relatórios de produção: Este tipo de ferramenta permite que as organizações gerem relatórios operacionais regulares. Ele também oferece suporte a trabalhos em lote de alto volume, como impressão e cálculo. Algumas ferramentas de relatórios populares são Brio, Business Objects, Oracle, PowerSoft, Instituto SAS.
Ferramentas de consulta gerenciada:
Esse tipo de ferramenta de acesso ajuda os usuários finais a resolver problemas no banco de dados e no SQL e na estrutura do banco de dados, inserindo uma metacamada entre os usuários e o banco de dados.
2. Ferramentas de desenvolvimento de aplicativos
Às vezes, as ferramentas gráficas e analíticas integradas não satisfazem as necessidades analíticas de uma organização. Nesses casos, os relatórios personalizados são desenvolvidos usando ferramentas de desenvolvimento de aplicativos.
3. Ferramentas de mineração de dados
A mineração de dados é um processo de descoberta de novas correlações, padrões e tendências significativas por meio da mineração de grandes quantidades de dados. Ferramentas de mineração de dados são usados para tornar esse processo automático.
4. Ferramentas OLAP
Essas ferramentas são baseadas em conceitos de banco de dados multidimensional. Ele permite aos usuários analisar os dados usando visualizações multidimensionais elaboradas e complexas.
Barramento de armazém de dados Archiarquitetura
O barramento do data warehouse determina o fluxo de dados em seu warehouse. O fluxo de dados em um data warehouse pode ser categorizado como fluxo de entrada, fluxo ascendente, fluxo descendente, fluxo de saída e meta.
Ao projetar um barramento de dados, é necessário considerar as dimensões compartilhadas e os fatos entre os data marts.
Datamarts
A data mart é uma camada de acesso usada para enviar dados aos usuários. É apresentado como uma opção para data warehouse de grande porte, pois leva menos tempo e dinheiro para ser construído. No entanto, não existe uma definição padrão de data mart que difere de pessoa para pessoa.
Em uma palavra simples, Data Mart é uma subsidiária de um data warehouse. O data mart é usado para partição de dados criados para um grupo específico de usuários.
Os data marts podem ser criados no mesmo banco de dados do Datawarehouse ou em um banco de dados fisicamente separado.
Armazém de dados Architecture Melhores Práticas
Para projetar o data warehouse Archiarquitetura, você precisa seguir as práticas recomendadas abaixo:
- Utilize Modelos de Data Warehouse otimizados para recuperação de informações que podem ser no modo dimensional, abordagem desnormalizada ou híbrida.
- Escolha a abordagem de design apropriada como abordagem de cima para baixo e de baixo para cima no Data Warehouse
- Necessidade de garantir que os dados sejam processados com rapidez e precisão. Ao mesmo tempo, você deve adotar uma abordagem que consolide os dados em uma única versão da verdade.
- Projete cuidadosamente o processo de aquisição e limpeza de dados para data warehouse.
- Projetar uma arquitetura de Metadados que permita o compartilhamento de metadados entre componentes do Data Warehouse
- Considere implementar um modelo ODS quando a necessidade de recuperação de informações estiver próxima da base da pirâmide de abstração de dados ou quando houver múltiplas fontes operacionais que precisam ser acessadas.
- Deve-se garantir que o modelo de dados esteja integrado e não apenas consolidado. Nesse caso, você deve considerar o modelo de dados 3NF. Também é ideal para adquirir ferramentas de ETL e limpeza de dados
Resumo
- Data warehouse é um sistema de informação que contém dados históricos e comutativos de fontes únicas ou múltiplas. Essas fontes podem ser Data Warehouse tradicional, Cloud Data Warehouse ou Virtual Data Warehouse.
- Um data warehouse é orientado por assunto, pois oferece informações sobre o assunto em vez das operações contínuas da organização.
- No Data Warehouse, integração significa o estabelecimento de uma unidade de medida comum para todos os dados semelhantes das diferentes bases de dados.
- O data warehouse também não é volátil, o que significa que os dados anteriores não são apagados quando novos dados são inseridos nele.
- Um Datawarehouse é variante no tempo, pois os dados em um DW têm alta vida útil.
- Existem principalmente 5 componentes do Data Warehouse Archiestrutura: 1) Banco de dados 2) Ferramentas ETL 3) Metadados 4) Ferramentas de consulta 5) DataMarts
- Estas são quatro categorias principais de ferramentas de consulta 1. Consulta e relatórios, ferramentas 2. Ferramentas de desenvolvimento de aplicativos, 3. Ferramentas de mineração de dados 4. Ferramentas OLAP
- As ferramentas de fonte, transformação e migração de dados são usadas para realizar todas as conversões e resumos.
- No armazém de dados ArchiNa arquitetura, os metadados desempenham um papel importante, pois especificam a origem, o uso, os valores e os recursos dos dados do data warehouse.

