Entreposage De Données Architecture, composants et diagramme Concepts
Entreposage De Données Concepts
Le concept de base d'un entrepôt de données est de fournir une version unique de la vérité à une entreprise pour la prise de décision et les prévisions. Un entrepôt de données est un système d'information qui contient des données historiques et commutatives provenant de sources uniques ou multiples. Entrepôt de données Concepts simplifier le processus de reporting et d’analyse des organisations.
Caractéristiques de l'entrepôt de données
Entreposage De Données Concepts ont les caractéristiques suivantes :
- Orienté sujet
- Intégrée
- Variable dans le temps
- Non volatile
Orienté sujet
Un entrepôt de données est orienté sujet car il offre des informations sur un thème plutôt que sur les opérations en cours des entreprises. Ces sujets peuvent être les ventes, le marketing, les distributions, etc.
Un entrepôt de données ne se concentre jamais sur les opérations en cours. Au lieu de cela, il a mis l'accent sur la modélisation et l'analyse des données pour prise de décision. Il fournit également une vue simple et concise sur un sujet spécifique en excluant les données qui ne sont pas utiles pour étayer le processus de décision.
Intégrée
Dans Data Warehouse, l'intégration signifie l'établissement d'une unité de mesure commune pour toutes les données similaires provenant d'une base de données différente. Les données doivent également être stockées dans le Datawarehouse de manière commune et universellement acceptable.
Un entrepôt de données est développé en intégrant des données provenant de sources variées comme un ordinateur central, des bases de données relationnelles, des fichiers plats, etc. De plus, il doit conserver des conventions de dénomination, un format et un codage cohérents.
Cette intégration contribue à une analyse efficace des données. La cohérence des conventions de dénomination, des mesures d'attributs, de la structure de codage, etc. doit être assurée. Prenons l'exemple suivant :
Dans l'exemple ci-dessus, il existe trois applications différentes intitulées A, B et C. Les informations stockées dans ces applications sont le sexe, la date et le solde. Cependant, les données de chaque application sont stockées de manière différente.
- Dans l'application, un champ de sexe stocke des valeurs logiques telles que M ou F.
- Dans l'application B, le champ de genre est une valeur numérique,
- Dans l'application Application C, champ de sexe stocké sous la forme d'une valeur de caractère.
- Il en va de même pour la date et le solde
Cependant, après le processus de transformation et de nettoyage, toutes ces données sont stockées dans un format commun dans le Entreposage De Données.
Variante dans le temps
L’horizon temporel de l’entrepôt de données est assez étendu par rapport aux systèmes opérationnels. Les données collectées dans un entrepôt de données sont reconnues avec une période particulière et offrent des informations du point de vue historique. Il contient un élément de temps, explicitement ou implicitement.
L'un des endroits où les données Datawarehouse affichent la variance temporelle se trouve dans la structure de la clé d'enregistrement. Chaque clé primaire contenue dans le DW doit avoir implicitement ou explicitement un élément de temps. Comme le jour, le mois de la semaine, etc.
Un autre aspect de la variation temporelle est qu'une fois les données insérées dans l'entrepôt, elles ne peuvent plus être mises à jour ou modifiées.
Non volatile
L'entrepôt de données est également non volatile, ce qui signifie que les données précédentes ne sont pas effacées lorsque de nouvelles données y sont saisies.
Les données sont en lecture seule et périodiquement actualisées. Cela permet également d’analyser les données historiques et de comprendre ce qui s’est passé et quand. Il ne nécessite pas de mécanismes de processus de transaction, de récupération et de contrôle de concurrence.
Les activités telles que la suppression, la mise à jour et l'insertion qui sont effectuées dans un environnement d'application opérationnel sont omises dans l'environnement d'entrepôt de données. Seuls deux types d'opérations de données effectuées dans le Data Warehousing sont
- Chargement des données
- Accès aux données
Voici quelques différences majeures entre Application et Data Warehouse
OperaApplication internationale | Entreposage De Données |
---|---|
Un programme complexe doit être codé pour garantir que les processus de mise à niveau des données maintiennent une haute intégrité du produit final. | Ce type de problème ne se produit pas car la mise à jour des données n'est pas effectuée. |
Les données sont placées sous une forme normalisée pour garantir une redondance minimale. | Les données ne sont pas stockées sous forme normalisée. |
La technologie est nécessaire pour prendre en charge les problèmes de transactions, de récupération de données, de restauration et de résolution, car son blocage est assez complexe. | Il offre une relative simplicité technologique. |
Entreposage De Données Architecture
Entreposage De Données Architecture est complexe car il s'agit d'un système d'information qui contient des données historiques et commutatives provenant de sources multiples. Il existe 3 approches pour construire des couches d'entrepôt de données : un niveau, deux niveaux et trois niveaux. Cette architecture à 3 niveaux de Data Warehouse est expliquée ci-dessous.
Architecture à un seul niveau
L'objectif d'une seule couche est de minimiser la quantité de données stockées. Cet objectif est de supprimer la redondance des données. Cette architecture n'est pas fréquemment utilisée en pratique.
Architecture à deux niveaux
L'architecture à deux couches est l'une des couches de l'entrepôt de données qui sépare les sources physiquement disponibles et l'entrepôt de données. Cette architecture n'est pas extensible et ne prend pas en charge un grand nombre d'utilisateurs finaux. Il rencontre également des problèmes de connectivité en raison des limitations du réseau.
Entrepôt de données à trois niveaux Architecture
C'est le plus utilisé Archiconfiguration de l'entrepôt de données.
Il comprend les niveaux supérieur, intermédiaire et inférieur.
- Niveau inférieur: La base de données des serveurs Datawarehouse comme niveau inférieur. Il s'agit généralement d'un système de base de données relationnelle. Les données sont nettoyées, transformées et chargées dans cette couche à l'aide d'outils back-end.
- Niveau intermédiaire: Le niveau intermédiaire de l'entrepôt de données est un serveur OLAP implémenté à l'aide du modèle ROLAP ou MOLAP. Pour un utilisateur, ce niveau d'application présente une vue abstraite de la base de données. Cette couche agit également comme médiateur entre l'utilisateur final et la base de données.
- Haut niveau: Le niveau supérieur est une couche client frontale. Le niveau supérieur comprend les outils et l'API que vous connectez et extrayez les données de l'entrepôt de données. Il peut s'agir d'outils de requête, d'outils de reporting, d'outils de requête gérés, d'outils d'analyse et d'outils d'exploration de données.
Composants de l'entrepôt de données
Nous en apprendrons davantage sur les composants du Datawarehouse et Architecture de l'entrepôt de données avec diagramme comme indiqué ci-dessous :
L'entrepôt de données est basé sur un serveur SGBDR qui est un référentiel d'informations central entouré de certains composants clés de l'entrepôt de données pour rendre l'ensemble de l'environnement fonctionnel, gérable et accessible.
Il existe principalement cinq composants d'entrepôt de données :
Base de données de l'entrepôt de données
La base de données centrale constitue la base de l'environnement d'entreposage de données. Cette base de données est implémentée sur le RDBMS technologie. Cependant, ce type de mise en œuvre est limité par le fait que le système SGBDR traditionnel est optimisé pour le traitement de bases de données transactionnelles et non pour l'entreposage de données. Par exemple, les requêtes ad hoc, les jointures multi-tables et les agrégats consomment beaucoup de ressources et ralentissent les performances.
Par conséquent, des approches alternatives à la base de données sont utilisées comme indiqué ci-dessous :
- Dans un entrepôt de données, les bases de données relationnelles sont déployées en parallèle pour permettre l'évolutivité. Les bases de données relationnelles parallèles permettent également un modèle de mémoire partagée ou de non-partage sur diverses configurations multiprocesseurs ou processeurs massivement parallèles.
- De nouvelles structures d'index sont utilisées pour contourner l'analyse des tables relationnelles et améliorer la vitesse.
- Utilisation de bases de données multidimensionnelles (MDDB) pour surmonter les limitations imposées en raison des modèles d'entrepôt de données relationnels. Exemple : Essbase de Oracle.
Outils de sourcing, d'acquisition, de nettoyage et de transformation (ETL)
Les outils d'approvisionnement, de transformation et de migration de données sont utilisés pour effectuer toutes les conversions, synthèses et toutes les modifications nécessaires pour transformer les données dans un format unifié dans l'entrepôt de données. Ils sont également appelés outils d'extraction, de transformation et de chargement (ETL).
Leur fonctionnalité comprend:
- Anonymiser les données conformément aux stipulations réglementaires.
- Élimination des données indésirables dans les bases de données opérationnelles du chargement dans l'entrepôt de données.
- Recherchez et remplacez les noms communs et les définitions des données provenant de différentes sources.
- Calcul des résumés et des données dérivées
- En cas de données manquantes, remplissez-les avec les valeurs par défaut.
- Données répétées dédupliquées provenant de plusieurs sources de données.
Ces outils d'extraction, de transformation et de chargement peuvent générer des tâches cron, des tâches en arrière-plan, Programmes Cobol, scripts shell, etc. qui mettent régulièrement à jour les données dans l'entrepôt de données. Ces outils sont également utiles pour maintenir les métadonnées.
Ces Outils ETL doivent faire face aux défis de l’hétérogénéité des bases de données et des données.
Métadonnées
Le nom Meta Data suggère un Data Warehousing de haut niveau technologique. Concepts. Cependant, c'est assez simple. Les métadonnées sont des données sur les données qui définissent l'entrepôt de données. Il est utilisé pour créer, maintenir et gérer l’entrepôt de données.
Dans l'entrepôt de données ArchiDans la configuration, les métadonnées jouent un rôle important car elles spécifient la source, l'utilisation, les valeurs et les caractéristiques des données de l'entrepôt de données. Il définit également la manière dont les données peuvent être modifiées et traitées. Il est étroitement lié à l’entrepôt de données.
Par exemple, une ligne de la base de données des ventes peut contenir :
4030 KJ732 299.90
Ce sont des données dénuées de sens jusqu'à ce que nous consultions la méta qui nous dit que c'était le cas.
- Numéro de modèle: 4030
- ID de l'agent commercial : KJ732
- Montant total des ventes de 299.90 $
Les métadonnées sont donc des ingrédients essentiels dans la transformation des données en connaissances.
Les métadonnées aident à répondre aux questions suivantes
- Quels tables, attributs et clés le Data Warehouse contient-il ?
- D'où viennent les données ?
- Combien de fois les données sont-elles rechargées ?
- Quelles transformations ont été appliquées avec le nettoyage ?
Les métadonnées peuvent être classées dans les catégories suivantes :
- Métadonnées techniques: Ce type de métadonnées contient des informations sur l'entrepôt qui sont utilisées par les concepteurs et les administrateurs d'entrepôt de données.
- Métadonnées commerciales : Ce type de métadonnées contient des détails qui permettent aux utilisateurs finaux de comprendre facilement les informations stockées dans l'entrepôt de données.
Outils de requête
L'un des principaux objectifs de l'entreposage de données est de fournir des informations aux entreprises pour qu'elles puissent prendre des décisions stratégiques. Les outils de requête permettent aux utilisateurs d'interagir avec le système d'entrepôt de données.
Ces outils se répartissent en quatre catégories différentes :
- Outils de requête et de reporting
- Outils de développement d'applications
- Outils d'exploration de données
- Outils OLAP
1. Outils de requête et de reporting
Les outils de requête et de reporting peuvent être divisés en
- Outils de reporting
- Outils de requêtes gérés
Outils de reporting:
Outils de reporting peut être divisé en outils de reporting de production et rédacteur de rapports de bureau.
- Rédacteurs de rapports : ce type d'outil de reporting est un outil conçu pour les utilisateurs finaux pour leur analyse.
- Reporting de production : ce type d'outils permet aux organisations de générer des rapports opérationnels réguliers. Il prend également en charge les travaux par lots à volume élevé comme l'impression et le calcul. Certains outils de reporting populaires sont Brio, Business Objects, Oracle, PowerSoft, SAS Institut.
Outils de requêtes gérés :
Ce type d'outils d'accès aide les utilisateurs finaux à résoudre les problèmes liés à la base de données, à SQL et à la structure de la base de données en insérant une méta-couche entre les utilisateurs et la base de données.
2. Outils de développement d'applications
Parfois, les outils graphiques et analytiques intégrés ne satisfont pas les besoins analytiques d'une organisation. Dans de tels cas, des rapports personnalisés sont développés à l'aide d'outils de développement d'applications.
3. Outils d'exploration de données
L'exploration de données est un processus de découverte de nouvelles corrélations, modèles et tendances significatifs en exploitant une grande quantité de données. Outils d'exploration de données sont utilisés pour automatiser ce processus.
4. Outils OLAP
Ces outils sont basés sur les concepts d'une base de données multidimensionnelle. Il permet aux utilisateurs d'analyser les données à l'aide de vues multidimensionnelles élaborées et complexes.
Bus d’entrepôt de données Architecture
Data Warehouse Bus détermine le flux de données dans votre entrepôt. Le flux de données dans un entrepôt de données peut être classé en flux entrant, flux ascendant, flux descendant, flux sortant et méta-flux.
Lors de la conception d'un bus de données, il faut prendre en compte les dimensions et les faits partagés dans les datamarts.
Datamarts
A data mart est une couche d'accès qui est utilisée pour transmettre les données aux utilisateurs. Il est présenté comme une option pour les entrepôts de données de grande taille car sa construction prend moins de temps et d’argent. Cependant, il n’existe pas de définition standard d’un datamart qui diffère d’une personne à l’autre.
En un mot simple, Data Mart est une filiale d'un entrepôt de données. Le magasin de données est utilisé pour la partition des données créées pour un groupe spécifique d'utilisateurs.
Les data marts peuvent être créés dans la même base de données que le Datawarehouse ou dans une base de données physiquement distincte.
Entrepôt de données Architecture Meilleures Pratiques
Pour concevoir un entrepôt de données Architecture, vous devez suivre les meilleures pratiques ci-dessous :
- Utilisez des modèles d'entrepôt de données optimisés pour la récupération d'informations qui peuvent être en mode dimensionnel, dénormalisé ou hybride.
- Choisissez l'approche de conception appropriée comme approche descendante et ascendante dans Data Warehouse
- Besoin de garantir que les données sont traitées rapidement et avec précision. Dans le même temps, vous devez adopter une approche qui consolide les données en une seule version de la vérité.
- Concevez soigneusement le processus d'acquisition et de nettoyage des données pour l'entrepôt de données.
- Concevoir une architecture MetaData qui permet le partage de métadonnées entre les composants de Data Warehouse
- Envisagez de mettre en œuvre un modèle ODS lorsque le besoin de récupération d’informations se situe au bas de la pyramide d’abstraction des données ou lorsqu’il faut accéder à plusieurs sources opérationnelles.
- Il faut s'assurer que le modèle de données est intégré et pas seulement consolidé. Dans ce cas, vous devriez envisager le modèle de données 3NF. Il est également idéal pour acquérir des outils ETL et de nettoyage de données
Résumé
- L'entrepôt de données est un système d'information qui contient des données historiques et commutatives provenant de sources uniques ou multiples. Ces sources peuvent être un Data Warehouse traditionnel, un Cloud Data Warehouse ou un Virtual Data Warehouse.
- Un entrepôt de données est orienté sujet car il offre des informations sur le sujet plutôt que sur les opérations en cours de l'organisation.
- Dans Data Warehouse, l'intégration signifie l'établissement d'une unité de mesure commune pour toutes les données similaires issues des différentes bases de données.
- L'entrepôt de données est également non volatile, ce qui signifie que les données précédentes ne sont pas effacées lorsque de nouvelles données y sont saisies.
- Un entrepôt de données varie dans le temps car les données d'un DW ont une durée de conservation élevée.
- Il y a principalement 5 composants de Data Warehouse Architecture : 1) Base de données 2) Outils ETL 3) Métadonnées 4) Outils de requête 5) DataMarts
- Il existe quatre catégories principales d'outils de requête 1. Outils de requête et de reporting 2. Outils de développement d'applications, 3. Outils d'exploration de données 4. Outils OLAP
- Les outils de recherche de données, de transformation et de migration sont utilisés pour effectuer toutes les conversions et synthèses.
- Dans l'entrepôt de données ArchiDans la configuration, les métadonnées jouent un rôle important car elles spécifient la source, l'utilisation, les valeurs et les caractéristiques des données de l'entrepôt de données.