Qu’est-ce que la modélisation dimensionnelle dans Data Warehouse ? Apprendre les types

Modélisation dimensionnelle

Modélisation dimensionnelle (DM) est une technique de structure de données optimisée pour le stockage de données dans un entrepôt de données. Le but de la modélisation dimensionnelle est d'optimiser la base de données pour une récupération plus rapide des données. Le concept de modélisation dimensionnelle a été développé par Ralph Kimball et se compose de tableaux de « faits » et de « dimensions ».

Un modèle dimensionnel dans un entrepôt de données est conçu pour lire, résumer, analyser des informations numériques telles que des valeurs, des soldes, des décomptes, des poids, etc. dans un entrepôt de données. En revanche, les modèles relationnels sont optimisés pour l'ajout, la mise à jour et la suppression de données dans un système de transactions en ligne en temps réel.

Ces modèles dimensionnels et relationnels ont leur mode unique de stockage des données qui présente des avantages spécifiques.

Par exemple, en mode relationnel, les modèles de normalisation et ER réduisent la redondance des données. Au contraire, le modèle dimensionnel dans l'entrepôt de données organise les données de manière à faciliter la récupération des informations et la génération de rapports.

Par conséquent, les modèles dimensionnels sont utilisés dans systèmes d'entrepôt de données et ne convient pas aux systèmes relationnels.

Éléments du modèle de données dimensionnelles

Fait

Les faits sont les mesures/métriques ou les faits issus de votre processus métier. Pour un processus métier Ventes, une mesure serait le nombre de ventes trimestrielles

Dimension

Dimension fournit le contexte entourant un événement de processus métier. En termes simples, ils indiquent qui, quoi et où d'un fait. Dans le processus de gestion Ventes, pour le chiffre de ventes trimestriel, les dimensions seraient

  • Qui – Noms des clients
  • Où – Emplacement
  • Quoi – Nom du produit

En d’autres termes, une dimension est une fenêtre permettant d’afficher des informations contenues dans les faits.

Attributs

Les attributs sont les différentes caractéristiques de la dimension dans la modélisation des données dimensionnelles.

Dans la dimension Localisation, les attributs peuvent être

  • Région
  • Pays
  • Code postal, etc.

Les attributs sont utilisés pour rechercher, filtrer ou classer des faits. Les tables de dimensions contiennent des attributs

Tableau des faits

Une table de faits est une table principale dans la modélisation dimensionnelle.

Une table de faits contient

  1. Mesures/faits
  2. Clé étrangère vers la table de dimensions

Tableau des dimensions

  • Une table de dimensions contient les dimensions d'un fait.
  • Ils sont joints à la table de faits via une clé étrangère.
  • Les tableaux de dimensions sont des tableaux dénormalisés.
  • Les attributs de dimension sont les différentes colonnes d'une table de dimension
  • Les dimensions proposent des caractéristiques descriptives des faits à l'aide de leurs attributs
  • Aucune limite définie pour le nombre de dimensions
  • La dimension peut également contenir une ou plusieurs relations hiérarchiques

Types de dimensions dans l'entrepôt de données

Voici les Types de dimensions dans l'entrepôt de données:

  • Dimension conforme
  • Dimension du stabilisateur
  • Dimension réduite
  • Dimension du jeu de rôle
  • Tableau des dimensions vers les dimensions
  • Dimension indésirable
  • Dimension dégénérée
  • Dimension échangeable
  • Dimension de l'étape

Étapes de la modélisation dimensionnelle

La précision de la création de votre modélisation dimensionnelle détermine le succès de la mise en œuvre de votre entrepôt de données. Voici les étapes pour créer un modèle dimensionnel

  1. Identifier le processus métier
  2. Identifier le grain (niveau de détail)
  3. Identifier les dimensions
  4. Identifier les faits
  5. Construire une étoile

Le modèle doit décrire le pourquoi, la quantité, le quand/où/qui et quoi de votre processus métier.

Étapes de la modélisation dimensionnelle

Étape 1) Identifiez le processus métier

Identifier le processus métier réel qu'un datarehouse devrait couvrir. Il peut s'agir du marketing, des ventes, des ressources humaines, etc., selon le l'analyse des données besoins de l’organisation. La sélection du processus métier dépend également de la qualité des données disponibles pour ce processus. Il s’agit de l’étape la plus importante du processus de modélisation des données, et un échec dans ce cas entraînerait des défauts en cascade et irréparables.

Pour décrire le processus métier, vous pouvez utiliser du texte brut ou utiliser la notation BPMN (Business Process Modeling Notation) de base ou le langage de modélisation unifié (UML).

Étape 2) Identifiez le grain

Le Grain décrit le niveau de détail du problème/de la solution métier. Il s'agit du processus d'identification du niveau d'information le plus bas pour n'importe quelle table de votre entrepôt de données. Si un tableau contient des données de ventes pour chaque jour, il doit s'agir d'une granularité quotidienne. Si un tableau contient des données de ventes totales pour chaque mois, il présente une granularité mensuelle.

Au cours de cette étape, vous répondez à des questions telles que

  1. Devons-nous stocker tous les produits disponibles ou seulement quelques types de produits ? Cette décision est basée sur les processus métiers sélectionnés pour Datawarehouse
  2. Stockons-nous les informations de vente de produits sur une base mensuelle, hebdomadaire, quotidienne ou horaire ? Cette décision dépend de la nature des rapports demandés par les dirigeants
  3. Comment les deux choix ci-dessus affectent-ils la taille de la base de données ?

Exemple de céréales :

Le PDG d’une multinationale souhaite connaître quotidiennement les ventes de produits spécifiques dans différents endroits.

Ainsi, le grain est « des informations sur la vente de produits par emplacement et par jour ».

Étape 3) Identifiez les dimensions

Les dimensions sont des noms comme date, magasin, inventaire, etc. Ces dimensions sont l'endroit où toutes les données doivent être stockées. Par exemple, la dimension date peut contenir des données telles que l'année, le mois et le jour de la semaine.

Exemple de dimensions :

Le PDG d’une multinationale souhaite connaître quotidiennement les ventes de produits spécifiques dans différents endroits.

Dimensions : produit, lieu et heure

Attributs : Pour le produit : clé de produit (clé étrangère), nom, type, spécifications

Hiérarchies : pour l'emplacement : pays, état, ville, adresse postale, nom

Étape 4) Identifiez le fait

Cette étape est co-associée aux utilisateurs métier du système car c'est là qu'ils accèdent aux données stockées dans l'entrepôt de données. La plupart des lignes du tableau de faits sont des valeurs numériques telles que le prix ou le coût par unité, etc.

Exemple de faits :

Le PDG d’une multinationale souhaite connaître quotidiennement les ventes de produits spécifiques dans différents endroits.

Le fait ici est la somme des ventes par produit, par emplacement et par heure.

Étape 5) Créer un schéma

Dans cette étape, vous implémentez le modèle dimensionnel. Un schéma n'est rien d'autre que la structure de la base de données (disposition des tables). Il existe deux schémas populaires

  1. Schéma en étoile

L’architecture du schéma en étoile est facile à concevoir. On l'appelle un schéma en étoile car le diagramme ressemble à une étoile, avec des points rayonnant à partir d'un centre. Le centre de l'étoile est constitué de la table de faits et les points de l'étoile sont constitués de tables de dimensions.

Les tableaux de faits dans un schéma en étoile qui est la troisième forme normale alors que les tableaux dimensionnels sont dénormalisés.

  1. Schéma de flocon de neige

Le schéma en flocon de neige est une extension du schéma en étoile. Dans un schéma en flocon de neige, chaque dimension est normalisée et connectée à plusieurs tables de dimensions.

Vérifiez également: - Schéma en étoile et en flocon de neige dans l'entrepôt de données avec des exemples de modèles

Règles de modélisation dimensionnelle

Voici les règles et principes de la modélisation dimensionnelle :

  • Chargez des données atomiques dans des structures dimensionnelles.
  • Créez des modèles dimensionnels autour des processus métier.
  • Il faut s'assurer que chaque table de faits est associée à une table de dimension de date.
  • Assurez-vous que tous les faits d’une seule table de faits ont le même grain ou le même niveau de détail.
  • Il est essentiel de stocker les étiquettes des rapports et de filtrer les valeurs de domaine dans les tables de dimensions
  • Il faut s'assurer que les tables de dimensions utilisent une clé de substitution
  • Équilibrer en permanence les exigences et les réalités pour fournir une solution commerciale destinée à soutenir leur prise de décision.

Avantages de la modélisation dimensionnelle

  • La standardisation des dimensions permet de créer facilement des rapports dans tous les domaines de l'entreprise.
  • Les tables de dimensions stockent l'historique des informations dimensionnelles.
  • Cela permet d'introduire une dimension entièrement nouvelle sans perturbation majeure de la table de faits.
  • Dimensionnel également pour stocker les données de telle manière qu'il soit plus facile de récupérer les informations des données une fois les données stockées dans la base de données.
  • Par rapport au modèle normalisé, le tableau dimensionnel est plus facile à comprendre.
  • Les informations sont regroupées en catégories commerciales claires et simples.
  • Le modèle dimensionnel est très compréhensible par l’entreprise. Ce modèle est basé sur des termes métier, afin que l'entreprise sache ce que signifie chaque fait, dimension ou attribut.
  • Les modèles dimensionnels sont déformalisés et optimisés pour une interrogation rapide des données. De nombreuses plates-formes de bases de données relationnelles reconnaissent ce modèle et optimisent les plans d'exécution des requêtes pour améliorer les performances.
  • La modélisation dimensionnelle dans l'entrepôt de données crée un schéma optimisé pour des performances élevées. Cela signifie moins de jointures et permet de minimiser la redondance des données.
  • Le modèle dimensionnel contribue également à améliorer les performances des requêtes. Il est plus dénormalisé et donc optimisé pour les requêtes.
  • Les modèles dimensionnels peuvent s’adapter confortablement au changement. Les tables de dimension peuvent contenir davantage de colonnes sans affecter les applications de Business Intelligence existantes qui utilisent ces tables.

Qu'est-ce que le modèle de données multidimensionnel dans Data Warehouse ?

Modèle de données multidimensionnel dans l'entrepôt de données est un modèle qui représente les données sous forme de cubes de données. Il permet de modéliser et de visualiser les données dans plusieurs dimensions et il est défini par des dimensions et des faits. Le modèle de données multidimensionnel est généralement catégorisé autour d’un thème central et représenté par un tableau de faits.

Résumé

  • Un modèle dimensionnel est une technique de structure de données optimisée pour Outils d'entreposage de données.
  • Les faits sont les mesures/métriques ou les faits issus de votre processus métier.
  • Dimension fournit le contexte entourant un événement de processus métier.
  • Les attributs sont les différentes caractéristiques de la modélisation dimensionnelle.
  • Une table de faits est une table principale dans un modèle dimensionnel.
  • Une table de dimensions contient les dimensions d'un fait.
  • Il existe trois types de faits 1. Additif 2. Non additif 3. Semi-additif.
  • Les types de dimensions sont conformes, stabilisateurs, rétrécis, jeux de rôle, dimension à table de dimension, indésirables, dégénérées, échangeables et dimensions en escalier.
  • Les cinq étapes de la modélisation dimensionnelle sont les suivantes : 1. Identifier le processus métier 2. Identifier le grain (niveau de détail) 3. Identifier les dimensions 4. Identifier les faits 5. Construire l'étoile
  • Pour la modélisation dimensionnelle dans l'entrepôt de données, il est nécessaire de garantir que chaque table de faits est associée à une table de dimension de date.