¿Qué es el modelado dimensional en el almacén de datos? Tipos de aprendizaje
Modelado dimensional
Modelado dimensional (DM) es una técnica de estructura de datos optimizada para el almacenamiento de datos en un almacén de datos. El propósito del modelado dimensional es optimizar la base de datos para una recuperación más rápida de los datos. El concepto de modelado dimensional fue desarrollado por Ralph Kimball y consta de tablas de "hechos" y "dimensiones".
Un modelo dimensional en un almacén de datos está diseñado para leer, resumir y analizar información numérica como valores, saldos, recuentos, pesos, etc. en un almacén de datos. Por el contrario, los modelos de relación están optimizados para agregar, actualizar y eliminar datos en un sistema de transacciones en línea en tiempo real.
Estos modelos dimensionales y relacionales tienen una forma única de almacenamiento de datos que tiene ventajas específicas.
Por ejemplo, en el modo relacional, los modelos de normalización y ER reducen la redundancia de datos. Por el contrario, el modelo dimensional en el almacén de datos organiza los datos de tal manera que es más fácil recuperar información y generar informes.
Por lo tanto, los modelos dimensionales se utilizan en sistemas de almacenamiento de datos y no es una buena opción para los sistemas relacionales.
Elementos del modelo de datos dimensionales
Hecho
Los hechos son las medidas/métricas o hechos de su proceso de negocio. Para un proceso de negocio de Ventas, una medida sería el número de ventas trimestrales.
Dimensiones
Dimension proporciona el contexto que rodea un evento de proceso de negocio. En términos simples, dan quién, qué y dónde de un hecho. En el proceso de negocio Ventas, para el número de ventas trimestrales, las dimensiones serían
- Quién – Nombres de clientes
- Dónde – Ubicación
- Qué – Nombre del producto
En otras palabras, una dimensión es una ventana para ver información de los hechos.
Atributos
Los Atributos son las diversas características de la dimensión en el modelado de datos dimensionales.
En la dimensión Ubicación, los atributos pueden ser
- Estado
- País
- Código postal, etc.
Los atributos se utilizan para buscar, filtrar o clasificar hechos. Las tablas de dimensiones contienen atributos
Tabla de hechos
Una tabla de hechos es una tabla principal en el modelado de dimensiones.
Una tabla de hechos contiene
- Medidas/hechos
- Clave externa para la tabla de dimensiones
Tabla de dimensiones
- Una tabla de dimensiones contiene dimensiones de un hecho.
- Están unidos a la tabla de hechos mediante una clave externa.
- Las tablas de dimensiones son tablas desnormalizadas.
- Los atributos de dimensión son las distintas columnas de una tabla de dimensiones.
- Dimensiones ofrece características descriptivas de los hechos con la ayuda de sus atributos.
- No hay límite establecido para el número de dimensiones
- La dimensión también puede contener una o más relaciones jerárquicas.
Tipos de dimensiones en el almacén de datos
Los siguientes son los Tipos de dimensiones en el almacén de datos:
- Dimensión conformada
- Dimensión del estabilizador
- Dimensión reducida
- Dimensión de juego de roles
- Tabla de dimensión a dimensión
- Dimensión basura
- Dimensión degenerada
- Dimensión intercambiable
- Dimensión de paso
Pasos del modelado dimensional
La precisión en la creación de su modelado dimensional determina el éxito de la implementación de su almacén de datos. Estos son los pasos para crear un modelo de dimensiones.
- Identificar el proceso de negocio
- Identificar grano (nivel de detalle)
- Identificar dimensiones
- Identificar hechos
- Construir estrella
El modelo debe describir el por qué, cuánto, cuándo/dónde/quién y qué de su proceso de negocio.
Paso 1) Identificar el proceso de negocio
Identificar el proceso de negocio real que debe cubrir un almacén de datos. Esto podría ser marketing, ventas, recursos humanos, etc. según el análisis de los datos necesidades de la organización. La selección del proceso de Negocio también depende de la calidad de los datos disponibles para ese proceso. Es el paso más importante del proceso de modelado de datos, y un fallo aquí provocaría defectos en cascada e irreparables.
Para describir el proceso de negocio, puede utilizar texto sin formato o utilizar la notación de modelado de procesos de negocio (BPMN) básica o el lenguaje de modelado unificado (UML).
Paso 2) Identificar el grano
The Grain describe el nivel de detalle del problema/solución empresarial. Es el proceso de identificar el nivel más bajo de información para cualquier tabla en su almacén de datos. Si una tabla contiene datos de ventas para todos los días, entonces debe tener una granularidad diaria. Si una tabla contiene datos de ventas totales para cada mes, entonces tiene granularidad mensual.
Durante esta etapa, respondes preguntas como
- ¿Necesitamos almacenar todos los productos disponibles o solo algunos tipos de productos? Esta decisión se basa en los procesos de negocio seleccionados para Datawarehouse.
- ¿Almacenamos la información de venta del producto mensual, semanal, diaria o horaria? Esta decisión depende de la naturaleza de los informes solicitados por los ejecutivos.
- ¿Cómo afectan las dos opciones anteriores al tamaño de la base de datos?
Ejemplo de grano:
El director ejecutivo de una multinacional quiere conocer diariamente las ventas de productos específicos en diferentes ubicaciones.
Entonces, el grano es “información de venta de productos por ubicación por día”.
Paso 3) Identificar las dimensiones
Las dimensiones son sustantivos como fecha, tienda, inventario, etc. Estas dimensiones son donde se deben almacenar todos los datos. Por ejemplo, la dimensión de fecha puede contener datos como un año, mes y día de la semana.
Ejemplo de dimensiones:
El director ejecutivo de una multinacional quiere conocer diariamente las ventas de productos específicos en diferentes ubicaciones.
Dimensiones: Producto, Ubicación y Tiempo
Atributos: Para producto: clave de producto (clave externa), nombre, tipo, especificaciones
Jerarquías: Para ubicación: País, Estado, Ciudad, Dirección, Nombre
Paso 4) Identificar el hecho
Este paso está asociado con los usuarios comerciales del sistema porque aquí es donde obtienen acceso a los datos almacenados en el almacén de datos. La mayoría de las filas de la tabla de hechos son valores numéricos como precio o costo por unidad, etc.
Ejemplo de hechos:
El director ejecutivo de una multinacional quiere conocer diariamente las ventas de productos específicos en diferentes ubicaciones.
El hecho aquí es la suma de ventas por producto, por ubicación y por tiempo.
Paso 5) Construir esquema
En este paso, implementará el modelo de dimensiones. Un esquema no es más que la estructura de la base de datos (disposición de tablas). Hay dos esquemas populares.
- Esquema de estrella
La arquitectura del esquema en estrella es fácil de diseñar. Se denomina esquema en estrella porque el diagrama se parece a una estrella, con puntos que irradian desde un centro. El centro de la estrella está formado por la tabla de hechos y los puntos de la estrella son las tablas de dimensiones.
Las tablas de hechos en un esquema en estrella, que es la tercera forma normal, mientras que las tablas dimensionales no están normalizadas.
- Esquema de copo de nieve
El esquema del copo de nieve es una extensión del esquema de la estrella. En un esquema de copo de nieve, cada dimensión está normalizada y conectada a más tablas de dimensiones.
También verifique: Esquema de estrella y copo de nieve en almacén de datos con ejemplos de modelos
Reglas para el modelado dimensional
A continuación se presentan las reglas y principios del modelado dimensional:
- Cargue datos atómicos en estructuras dimensionales.
- Construya modelos dimensionales en torno a procesos de negocio.
- Es necesario garantizar que cada tabla de hechos tenga una tabla de dimensiones de fecha asociada.
- Asegúrese de que todos los datos de una única tabla de hechos tengan el mismo nivel de detalle.
- Es esencial almacenar etiquetas de informes y filtrar valores de dominio en tablas de dimensiones.
- Necesidad de garantizar que las tablas de dimensiones utilicen una clave sustituta
- Equilibre continuamente los requisitos y las realidades para ofrecer una solución empresarial que respalde su toma de decisiones.
Beneficios del modelado dimensional
- La estandarización de dimensiones permite generar informes fácilmente en todas las áreas del negocio.
- Las tablas de dimensiones almacenan el historial de la información dimensional.
- Permite introducir una dimensión completamente nueva sin grandes interrupciones en la tabla de hechos.
- Dimensional también para almacenar datos de tal manera que sea más fácil recuperar la información de los datos una vez que se almacenan en la base de datos.
- En comparación con el modelo normalizado, las tablas dimensionales son más fáciles de entender.
- La información se agrupa en categorías empresariales claras y sencillas.
- El modelo dimensional es muy comprensible para la empresa. Este modelo se basa en términos comerciales, de modo que la empresa sepa qué significa cada hecho, dimensión o atributo.
- Los modelos dimensionales están desformalizados y optimizados para consultas rápidas de datos. Muchas plataformas de bases de datos relacionales reconocen este modelo y optimizan los planes de ejecución de consultas para ayudar en el rendimiento.
- El modelado dimensional en el almacén de datos crea un esquema optimizado para un alto rendimiento. Significa menos uniones y ayuda a minimizar la redundancia de datos.
- El modelo dimensional también ayuda a mejorar el rendimiento de las consultas. Está más desnormalizado, por lo tanto, está optimizado para consultas.
- Los modelos dimensionales pueden acomodar cómodamente el cambio. A las tablas de dimensiones se les pueden agregar más columnas sin afectar las aplicaciones de inteligencia empresarial existentes que utilizan estas tablas.
¿Qué es el modelo de datos multidimensional en el almacén de datos?
Modelo de datos multidimensional En el almacén de datos hay un modelo que representa datos en forma de cubos de datos. Permite modelar y ver los datos en múltiples dimensiones y está definido por dimensiones y hechos. El modelo de datos multidimensional generalmente se clasifica en torno a un tema central y se representa mediante una tabla de hechos.
Resumen
- Un modelo dimensional es una técnica de estructura de datos optimizada para Herramientas de almacenamiento de datos.
- Los hechos son las medidas/métricas o hechos de su proceso de negocio.
- Dimension proporciona el contexto que rodea un evento de proceso de negocio.
- Los atributos son las diversas características del modelado de dimensiones.
- Una tabla de hechos es una tabla principal en un modelo dimensional.
- Una tabla de dimensiones contiene dimensiones de un hecho.
- Hay tres tipos de hechos 1. Aditivo 2. No aditivo 3. Semiaditivo.
- Los tipos de dimensiones son dimensiones conformadas, estabilizadoras, encogidas, juegos de roles, dimensión a tabla de dimensiones, basura, degeneradas, intercambiables y escalonadas.
- Los cinco pasos del modelado dimensional son 1. Identificar el proceso de negocio 2. Identificar el grano (nivel de detalle) 3. Identificar las dimensiones 4. Identificar los hechos 5. Construir la estrella
- Para el modelado dimensional en el almacén de datos, es necesario garantizar que cada tabla de hechos tenga una tabla de dimensiones de fecha asociada.