O que é modelagem dimensional em data warehouse? Aprenda tipos
Modelagem Dimensional
Modelagem Dimensional (DM) é uma técnica de estrutura de dados otimizada para armazenamento de dados em um data warehouse. O objetivo da modelagem dimensional é otimizar o banco de dados para uma recuperação mais rápida de dados. O conceito de Modelagem Dimensional foi desenvolvido por Ralph Kimball e consiste em tabelas de “fatos” e “dimensões”.
Um modelo dimensional em data warehouse é projetado para ler, resumir e analisar informações numéricas como valores, saldos, contagens, pesos, etc. Em contrapartida, os modelos de relacionamento são otimizados para adição, atualização e exclusão de dados em um Sistema de Transações Online em tempo real.
Esses modelos dimensionais e relacionais possuem uma forma única de armazenamento de dados que apresenta vantagens específicas.
Por exemplo, no modo relacional, os modelos de normalização e ER reduzem a redundância nos dados. Pelo contrário, o modelo dimensional em data warehouse organiza os dados de forma que seja mais fácil recuperar informações e gerar relatórios.
Portanto, modelos dimensionais são usados em sistemas de armazenamento de dados e não é uma boa opção para sistemas relacionais.
Elementos do modelo de dados dimensionais
Fato
Fatos são as medidas/métricas ou fatos do seu processo de negócios. Para um processo de negócios de vendas, uma medida seria o número de vendas trimestrais
Dimensão
A dimensão fornece o contexto em torno de um evento de processo de negócios. Em termos simples, eles fornecem quem, o quê e onde de um fato. No processo de negócios Vendas, para o número de vendas trimestrais, as dimensões seriam
- Quem – Nomes de Clientes
- Onde – Localização
- O quê – Nome do produto
Em outras palavras, uma dimensão é uma janela para visualizar informações sobre os fatos.
Atributos
Os Atributos são as diversas características da dimensão na modelagem de dados dimensionais.
Na dimensão Localização, os atributos podem ser
- Estado
- País
- CEP etc
Os atributos são usados para pesquisar, filtrar ou classificar fatos. Tabelas de dimensões contêm atributos
Tabela de Fatos
Uma tabela de fatos é uma tabela primária na modelagem de dimensões.
Uma tabela de fatos contém
- Medições/fatos
- Chave estrangeira para tabela de dimensões
Tabela Dimensional
- Uma tabela de dimensões contém dimensões de um fato.
- Eles são unidos à tabela de fatos por meio de uma chave estrangeira.
- As tabelas de dimensões são tabelas desnormalizadas.
- Os atributos de dimensão são as várias colunas em uma tabela de dimensões
- Dimensões oferece características descritivas dos fatos com a ajuda de seus atributos
- Nenhum limite definido para determinado número de dimensões
- A dimensão também pode conter um ou mais relacionamentos hierárquicos
Tipos de dimensões em data warehouse
A seguir estão os Tipos de dimensões em data warehouse:
- Dimensão Conformada
- Dimensão do estabilizador
- Dimensão Encolhida
- Dimensão de RPG
- Tabela Dimensão a Dimensão
- Dimensão lixo
- Dimensão Degenerada
- Dimensão trocável
- Dimensão da etapa
Etapas da modelagem dimensional
A precisão na criação de sua modelagem dimensional determina o sucesso da implementação de seu data warehouse. Aqui estão as etapas para criar o modelo de dimensão
- Identificar o processo de negócios
- Identificar granulação (nível de detalhe)
- Identificar dimensões
- Identifique os fatos
- Construir estrela
O modelo deve descrever o porquê, quanto, quando/onde/quem e o quê do seu processo de negócios
Etapa 1) Identifique o processo de negócios
Identificar o processo de negócios real que um datarehouse deve cobrir. Pode ser Marketing, Vendas, RH, etc., de acordo com o análise de dados necessidades da organização. A seleção do processo de negócio também depende da qualidade dos dados disponíveis para esse processo. É a etapa mais importante do processo de Modelagem de Dados, e uma falha aqui teria defeitos em cascata e irreparáveis.
Para descrever o processo de negócios, você pode usar texto simples ou usar Business Process Modeling Notation (BPMN) básico ou Unified Modeling Language (UML).
Passo 2) Identifique o grão
O grão descreve o nível de detalhe do problema/solução de negócios. É o processo de identificar o nível mais baixo de informações para qualquer tabela do seu data warehouse. Se uma tabela contiver dados de vendas para todos os dias, ela deverá ter granularidade diária. Se uma tabela contiver dados de vendas totais para cada mês, ela terá granularidade mensal.
Durante esta fase, você responde a perguntas como
- Precisamos armazenar todos os produtos disponíveis ou apenas alguns tipos de produtos? Esta decisão é baseada nos processos de negócios selecionados para Datawarehouse
- Armazenamos as informações de venda do produto mensalmente, semanalmente, diariamente ou de hora em hora? Esta decisão depende da natureza dos relatórios solicitados pelos executivos
- Como as duas opções acima afetam o tamanho do banco de dados?
Exemplo de grão:
O CEO de uma multinacional deseja encontrar diariamente as vendas de produtos específicos em diferentes locais.
Portanto, o grão é “informações de venda de produtos por local, por dia”.
Etapa 3) Identifique as dimensões
Dimensões são substantivos como data, loja, estoque, etc. Essas dimensões são onde todos os dados devem ser armazenados. Por exemplo, a dimensão de data pode conter dados como ano, mês e dia da semana.
Exemplo de Dimensões:
O CEO de uma multinacional deseja encontrar diariamente as vendas de produtos específicos em diferentes locais.
Dimensões: Produto, Local e Tempo
Atributos: Para Produto: Chave do Produto (Chave Estrangeira), Nome, Tipo, Especificações
Hierarquias: Para localização: país, estado, cidade, endereço, nome
Etapa 4) Identifique o fato
Esta etapa está associada aos usuários empresariais do sistema porque é aqui que eles obtêm acesso aos dados armazenados no data warehouse. A maioria das linhas da tabela de fatos são valores numéricos, como preço ou custo por unidade, etc.
Exemplo de fatos:
O CEO de uma multinacional deseja encontrar diariamente as vendas de produtos específicos em diferentes locais.
O fato aqui é a soma das vendas por produto, por local e por tempo.
Etapa 5) Esquema de construção
Nesta etapa, você implementa o Modelo de Dimensão. Um esquema nada mais é do que a estrutura do banco de dados (disposição das tabelas). Existem dois esquemas populares
- Esquema Star
A arquitetura do esquema em estrela é fácil de projetar. É chamado de esquema em estrela porque o diagrama se assemelha a uma estrela, com pontos irradiando de um centro. O centro da estrela consiste na tabela de fatos e as pontas da estrela são as tabelas de dimensões.
As tabelas de fatos em um esquema em estrela que é a terceira forma normal, enquanto as tabelas dimensionais são desnormalizadas.
- Esquema de Floco de Neve
O esquema floco de neve é uma extensão do esquema estrela. Em um esquema floco de neve, cada dimensão é normalizada e conectada a mais tabelas de dimensões.
Verifique também: - Esquema estrela e floco de neve em data warehouse com exemplos de modelo
Regras para Modelagem Dimensional
A seguir estão as regras e princípios da Modelagem Dimensional:
- Carregue dados atômicos em estruturas dimensionais.
- Crie modelos dimensionais em torno dos processos de negócios.
- É necessário garantir que cada tabela de fatos tenha uma tabela de dimensão de data associada.
- Certifique-se de que todos os fatos em uma única tabela de fatos tenham a mesma granularidade ou nível de detalhe.
- É essencial armazenar rótulos de relatórios e filtrar valores de domínio em tabelas de dimensões
- É necessário garantir que as tabelas de dimensão usem uma chave substituta
- Equilibrar continuamente os requisitos e as realidades para fornecer soluções de negócios que apoiem a tomada de decisões
Benefícios da modelagem dimensional
- A padronização de dimensões permite relatórios fáceis em todas as áreas da empresa.
- As tabelas dimensionais armazenam o histórico das informações dimensionais.
- Permite introduzir uma dimensão inteiramente nova sem grandes interrupções na tabela de fatos.
- Dimensional também para armazenar dados de forma que seja mais fácil recuperar as informações dos dados, uma vez que os dados são armazenados no banco de dados.
- Em comparação com o modelo normalizado, as tabelas dimensionais são mais fáceis de entender.
- As informações são agrupadas em categorias de negócios claras e simples.
- O modelo dimensional é muito compreensível pelo negócio. Este modelo é baseado em termos de negócio, para que o negócio saiba o que significa cada fato, dimensão ou atributo.
- Os modelos dimensionais são desformalizados e otimizados para consulta rápida de dados. Muitas plataformas de banco de dados relacionais reconhecem esse modelo e otimizam os planos de execução de consultas para auxiliar no desempenho.
- A modelagem dimensional no data warehouse cria um esquema otimizado para alto desempenho. Isso significa menos junções e ajuda a minimizar a redundância de dados.
- O modelo dimensional também ajuda a aumentar o desempenho da consulta. É mais desnormalizado, portanto, é otimizado para consulta.
- Os modelos dimensionais podem acomodar mudanças confortavelmente. As tabelas de dimensões podem ter mais colunas adicionadas sem afetar os aplicativos de business intelligence existentes que usam essas tabelas.
O que é modelo de dados multidimensional em data warehouse?
Modelo de dados multidimensional no data warehouse é um modelo que representa dados na forma de cubos de dados. Permite modelar e visualizar os dados em múltiplas dimensões e são definidos por dimensões e fatos. O modelo de dados multidimensional é geralmente categorizado em torno de um tema central e representado por uma tabela de fatos.
Resumo
- Um modelo dimensional é uma técnica de estrutura de dados otimizada para Ferramentas de armazenamento de dados.
- Fatos são as medidas/métricas ou fatos do seu processo de negócios.
- A dimensão fornece o contexto em torno de um evento de processo de negócios.
- Atributos são as diversas características da modelagem de dimensão.
- Uma tabela de fatos é uma tabela primária em um modelo dimensional.
- Uma tabela de dimensões contém dimensões de um fato.
- Existem três tipos de fatos 1. Aditivo 2. Não aditivo 3. Semi-aditivo.
- Os tipos de dimensões são conformadas, estabilizadoras, encolhidas, role-playing, tabela de dimensão a dimensão, lixo, degeneradas, trocáveis e escalonadas.
- Cinco etapas da modelagem dimensional são 1. Identificar o processo de negócios 2. Identificar o grão (nível de detalhe) 3. Identificar as dimensões 4. Identificar os fatos 5. Construir estrela
- Para modelagem dimensional em data warehouse, é necessário garantir que cada tabela de fatos tenha uma tabela de dimensão de data associada.