Qu’est-ce que Data Mart dans Data Warehouse ? Types et exemple

Qu'est-ce que le Data Mart ?

A Data Mart se concentre sur un seul domaine fonctionnel d’une organisation et contient un sous-ensemble de données stockées dans un entrepôt de données. Un Data Mart est une version condensée de Data Warehouse et est conçu pour être utilisé par un service, une unité ou un ensemble d'utilisateurs spécifiques dans une organisation. Par exemple, marketing, ventes, ressources humaines ou finances. Il est souvent contrôlé par un seul département d'une organisation.

Data Mart extrait généralement des données de quelques sources seulement par rapport à un entrepôt de données. Les data marts sont de petite taille et sont plus flexibles qu’un Datawarehouse.

Pourquoi avons-nous besoin d’un Data Mart ?

  • Data Mart contribue à améliorer le temps de réponse de l'utilisateur grâce à la réduction du volume de données
  • Il offre un accès facile aux données fréquemment demandées.
  • Les data marts sont plus simples à mettre en œuvre que les datawarehouses d’entreprise. Dans le même temps, le coût de mise en œuvre d’un Data Mart est certainement inférieur à celui d’un entrepôt de données complet.
  • Comparé à Data Warehouse, un datamart est agile. En cas de changement de modèle, le datamart peut être construit plus rapidement grâce à une taille plus petite.
  • Un Datamart est défini par un seul expert en la matière. Au contraire, l'entrepôt de données est défini par des PME interdisciplinaires issues de divers domaines. Par conséquent, Data Mart est plus ouvert au changement que Datawarehouse.
  • Les données sont partitionnées et permettent des privilèges de contrôle d'accès très granulaires.
  • Les données peuvent être segmentées et stockées sur différentes plates-formes matérielles/logicielles.

Types de datamart

Il existe trois principaux types de datamart :

  1. Dépendant: Les datamarts dépendants sont créés en extrayant des données directement à partir de sources opérationnelles, externes ou des deux.
  2. Opticien Indépendant: Un datamart indépendant est créé sans utiliser d'entrepôt de données central.
  3. Hybride: Ce type de datamarts peut extraire des données d'entrepôts de données ou de systèmes opérationnels.

Magasin de données dépendant

Un datamart dépendant permet de rechercher les données de l'organisation à partir d'un seul entrepôt de données. C'est l'un des exemples de data mart qui offre l'avantage de la centralisation. Si vous devez développer un ou plusieurs datamarts physiques, vous devez les configurer en tant que datamarts dépendants.

Le Data Mart dépendant dans l'entrepôt de données peut être construit de deux manières différentes. Soit lorsqu'un utilisateur peut accéder à la fois au datamart et à l'entrepôt de données, en fonction de ses besoins, soit lorsque l'accès est limité uniquement au datamart. La deuxième approche n’est pas optimale car elle produit parfois ce qu’on appelle un dépotoir de données. Dans la casse des données, toutes les données commencent par une source commune, mais elles sont mises au rebut et pour la plupart mises au rebut.

Magasin de données dépendant
Magasin de données dépendant

Magasin de données indépendant

Un magasin de données indépendant est créé sans utiliser d'entrepôt de données central. Ce type de Data Mart est une option idéale pour les petits groupes au sein d’une organisation.

Un datamart indépendant n'a aucune relation avec l'entrepôt de données d'entreprise ni avec aucun autre datamart. Dans le data mart indépendant, les données sont saisies séparément et leurs analyses sont également effectuées de manière autonome.

La mise en œuvre de datamarts indépendants va à l’encontre de la motivation nécessaire à la création d’un entrepôt de données. Tout d’abord, vous avez besoin d’un stockage cohérent et centralisé de données d’entreprise qui peuvent être analysées par plusieurs utilisateurs ayant des intérêts différents et souhaitant des informations très variées.

Magasin de données indépendant

Magasin de données indépendant

Data Mart hybride

Un datamart hybride combine les entrées provenant de sources autres que l'entrepôt de données. Cela peut être utile lorsque vous souhaitez une intégration ad hoc, par exemple après l'ajout d'un nouveau groupe ou produit à l'organisation.

Il s’agit du meilleur exemple de datamart adapté à plusieurs environnements de bases de données et à un délai de mise en œuvre rapide pour toute organisation. Cela nécessite également le moins d’efforts de nettoyage des données. Le Data Mart hybride prend également en charge les grandes structures de stockage et convient mieux aux petites applications centrées sur les données.

Data Mart hybride

Data Mart hybride

Étapes de mise en œuvre d'un datamart

Étapes de mise en œuvre d'un datamart

Mettre en place un Data Mart est une démarche enrichissante mais complexe. Voici les étapes détaillées pour mettre en œuvre un Data Mart :

Conception

La conception est la première phase de la mise en œuvre du Data Mart. Il couvre toutes les tâches depuis le lancement de la demande d'un data mart jusqu'à la collecte d'informations sur les exigences. Enfin, nous créons la conception logique et physique du Data Mart.

L'étape de conception implique les tâches suivantes :

  • Rassembler les exigences commerciales et techniques et identifier les sources de données.
  • Sélection du sous-ensemble de données approprié.
  • Concevoir la structure logique et physique du data mart.

Les données peuvent être partitionnées en fonction des critères suivants :

  • Date
  • Unité commerciale ou fonctionnelle
  • Géographie
  • Toute combinaison de ce qui précède

Les données peuvent être partitionnées au niveau de l'application ou du SGBD. Bien qu'il soit recommandé de partitionner au niveau de l'application car cela permet différents modèles de données chaque année avec l'évolution de l'environnement commercial.

De quels produits et technologies avez-vous besoin ?

Un simple stylo et du papier suffiraient. Bien que les outils qui vous aident à créer UML ou diagramme ER ajouterait également des métadonnées à vos conceptions logiques et physiques.

La construction

Il s'agit de la deuxième phase de mise en œuvre. Il s'agit de créer le base de données physique et les structures logiques.

Cette étape implique les tâches suivantes :

  • Implémentation de la base de données physique conçue lors de la phase précédente. Par exemple, des objets de schéma de base de données tels que des tables, des index, des vues, etc. sont créés.

De quels produits et technologies avez-vous besoin ?

Tu as besoin d'un Système de gestion de base de données relationnelle pour construire un datamart. Les SGBDR possèdent plusieurs fonctionnalités nécessaires au succès d'un Data Mart.

  • Gestion du stockage: Un SGBDR stocke et gère les données pour créer, ajouter et supprimer des données.
  • Accès rapide aux données : Avec une requête SQL, vous pouvez facilement accéder aux données en fonction de certaines conditions/filtres.
  • Protection des données: Le système RDBMS offre également un moyen de récupérer après des pannes système telles que des pannes de courant. Il permet également de restaurer les données de ces sauvegardes en cas de panne du disque.
  • Prise en charge multi-utilisateurs : Le système de gestion des données offre un accès simultané, la possibilité pour plusieurs utilisateurs d'accéder et de modifier les données sans interférer ou écraser les modifications apportées par un autre utilisateur.
  • Sécurité : Le système RDMS permet également de réguler l'accès des utilisateurs aux objets et à certains types d'opérations.

Peuplement

Dans la troisième phase, les données sont renseignées dans le datamart.

L'étape de remplissage implique les tâches suivantes :

  • Données source vers données cibles Mappage
  • Extraction des données sources
  • Opérations de nettoyage et de transformation sur les données
  • Chargement de données dans le datamart
  • Création et stockage de métadonnées

De quels produits et technologies avez-vous besoin ?

Vous accomplissez ces tâches de remplissage à l'aide d'un Outil ETL (Extraire la charge de transformation). Cet outil vous permet d'examiner les sources de données, d'effectuer un mappage source-cible, d'extraire les données, de les transformer, de les nettoyer et de les recharger dans le magasin de données.

Au cours du processus, l'outil crée également des métadonnées relatives à des éléments tels que l'origine des données, leur date récente, le type de modifications apportées aux données et le niveau de synthèse effectué.

Accès

L'accès est une quatrième étape qui consiste à utiliser les données : interroger les données, créer des rapports, des graphiques et les publier. L'utilisateur final soumet des requêtes à la base de données et affiche les résultats des requêtes

L'étape d'accès doit effectuer les tâches suivantes :

  • Configurez une couche méta qui traduit les structures de base de données et les noms d'objets en termes métier. Cela aide les utilisateurs non techniques à accéder facilement au Data Mart.
  • Mettre en place et maintenir les structures de bases de données.
  • Configurer l'API et les interfaces si nécessaire

De quels produits et technologies avez-vous besoin ?

Vous pouvez accéder au magasin de données à l'aide de la ligne de commande ou de l'interface graphique. L’interface graphique est préférée car elle peut facilement générer des graphiques et est conviviale par rapport à la ligne de commande.

Gérant

Il s'agit de la dernière étape du processus de mise en œuvre du Data Mart. Cette étape couvre les tâches de gestion telles que-

  • Gestion continue des accès des utilisateurs.
  • Optimisations et réglages du système pour obtenir des performances améliorées.
  • Ajout et gestion de nouvelles données dans le datamart.
  • Planifier des scénarios de récupération et assurer la disponibilité du système en cas de panne du système.

De quels produits et technologies avez-vous besoin ?

Vous pouvez utiliser l'interface graphique ou la ligne de commande pour la gestion du data mart.

Meilleures pratiques pour la mise en œuvre de Data Marts

Voici les meilleures pratiques que vous devez suivre lors du processus de mise en œuvre du Data Mart :

  • La source d'un Data Mart doit être structurée par département
  • Le cycle de mise en œuvre d'un Data Mart doit être mesuré sur de courtes périodes de temps, c'est-à-dire en semaines plutôt qu'en mois ou en années.
  • Il est important d'impliquer toutes les parties prenantes dans la phase de planification et de conception, car la mise en œuvre du datamart pourrait être complexe.
  • Les coûts matériels/logiciels, de mise en réseau et de mise en œuvre du Data Mart doivent être budgétisés avec précision dans votre plan.
  • Même si le Data Mart est créé sur le même matériel, il peut avoir besoin d'un logiciel différent pour gérer les requêtes des utilisateurs. Les besoins supplémentaires en matière de puissance de traitement et de stockage sur disque doivent être évalués pour une réponse rapide de l'utilisateur.
  • Un datamart peut se trouver à un emplacement différent de l'entrepôt de données. C'est pourquoi il est important de s'assurer qu'ils disposent d'une capacité réseau suffisante pour gérer les volumes de données nécessaires au transfert des données vers le data mart..
  • Le coût de mise en œuvre doit budgétiser le temps nécessaire au processus de chargement du Datamart. Le temps de chargement augmente avec la complexité des transformations.

Avantages et inconvénients d'un datamart

Avantages

  • Les datamarts contiennent un sous-ensemble de données à l’échelle de l’organisation. Ces données sont précieuses pour un groupe spécifique de personnes dans une organisation.
  • Il s'agit d'alternatives rentables à un entrepôt de données, dont la construction peut nécessiter des coûts élevés.
  • Data Mart permet un accès plus rapide aux données.
  • Data Mart est facile à utiliser car il est spécialement conçu pour les besoins de ses utilisateurs. Ainsi, un datamart peut accélérer les processus métier.
  • Les Data Marts nécessitent moins de temps de mise en œuvre que les systèmes Data Warehouse. Il est plus rapide de mettre en œuvre un Data Mart car il vous suffit de concentrer le seul sous-ensemble des données.
  • Il contient des données historiques qui permettent à l'analyste de déterminer les tendances des données.

Désavantages

  • Il arrive souvent que les entreprises créent trop de datamarts disparates et sans rapport, sans grand bénéfice. Cela peut devenir un gros obstacle à maintenir.
  • Data Mart ne peut pas fournir à l'échelle de l'entreprise l'analyse des données car leur ensemble de données est limité.

Résumé

  • Définir un Data Mart : un Data Mart est défini comme un sous-ensemble de Data Warehouse axé sur un seul domaine fonctionnel d'une organisation.
  • Data Mart contribue à améliorer le temps de réponse de l'utilisateur grâce à une réduction du volume de données.
  • Trois types de datamart sont 1) Dépendant 2) Indépendant 3) Hybride
  • Les étapes importantes de mise en œuvre de Data Mart sont 1) Conception 2) Construction 3 Remplissage 4) Accès et 5) Gestion
  • Le cycle de mise en œuvre d'un Data Mart doit être mesuré sur de courtes périodes de temps, c'est-à-dire en semaines plutôt qu'en mois ou en années.
  • Le data mart est une alternative rentable à un entrepôt de données, dont la construction peut nécessiter des coûts élevés.
  • Data Mart ne peut pas fournir d'analyse de données à l'échelle de l'entreprise car l'ensemble des données est limité.