Qu’est-ce que l’entrepôt de données ? Types, définition et exemple

Qu'est-ce que l'entreposage de données?

A Entreposage de données (DW) est un processus de collecte et de gestion de données provenant de sources variées afin de fournir des informations commerciales significatives. Un entrepôt de données est généralement utilisé pour connecter et analyser des données commerciales provenant de sources hétérogènes.neonous sources. L'entrepôt de données est le cœur du système BI conçu pour l'analyse des données et le reporting.

Il s'agit d'un mélange de technologies et de composants qui facilite l'utilisation stratégique des données. Il s'agit du stockage électronique d'une grande quantité d'informations par une entreprise, conçu pour l'interrogation et l'analyse plutôt que pour le traitement des transactions. Il s'agit d'un processus de transformation des données en informations et de leur mise à disposition des utilisateurs en temps opportun pour faire la différence.

La base de données d'aide à la décision (Data Warehouse) est gérée séparément de la base de données opérationnelle de l'organisation. Cependant, l’entrepôt de données n’est pas un produit mais un environnement. C'est un archiconstruction structurelle d'un système d'information qui fournit aux utilisateurs des informations d'aide à la décision actuelles et historiques difficiles d'accès ou difficiles à présenter dans le magasin de données opérationnelles traditionnel.

Vous savez tous qu'une base de données conçue par 3NF pour un système d'inventaire comporte de nombreuses tables liées les unes aux autres. Par exemple, un rapport sur les informations d'inventaire actuelles peut inclure plus de 12 conditions jointes. Cela peut rapidement ralentir le temps de réponse de la requête et du rapport. Un entrepôt de données offre une nouvelle conception qui peut contribuer à réduire le temps de réponse et à améliorer les performances des requêtes de rapports et d'analyses.

Le système d'entrepôt de données est également connu sous le nom suivantwing nom:

  • Système d'aide à la décision (DSS)
  • Système d'information exécutif
  • Systeme d'INFORMATION de gestion
  • Solution d'intelligence d'affaires
  • Application analytique
  • Entreposage De Données

Entreposage de données

Histoire de l'entrepôt de données

Le Datawarehouse permet aux utilisateurs de comprendre et d'améliorer les performances de leur organisation. La nécessité d'entreposer les données a évolué à mesure que les systèmes informatiques sont devenus plus complexes.plex et devait gérer des quantités croissantes d’informations. Cependant, l’entreposage de données n’est pas une nouveauté.

Voici quelques événements clés dans l’évolution de Data Warehouse :

  • 1960- Dartmouth et General Mills, dans le cadre d'un projet de recherche commun, développent les termes dimensions et faits.
  • 1970 – A Nielsen et IRI introduisent des magasins de données dimensionnelles pour la vente au détail.
  • 1983- Tera Data Corporation introduit un système de gestion de base de données spécialement conçu pour l'aide à la décision.
  • L'entreposage de données a commencé à la fin des années 1980, lorsque IBM Paul Murphy et Barry Devlin ont développé le Business Data Warehouse.
  • Cependant, le véritable concept a été donné par Inmon Bill. Il était considéré comme le père des entrepôts de données. Il avait écrit sur une variété de sujets concernant la construction, l'utilisation et la maintenance de l'entrepôt et de la Corporate Information Factory.

Comment fonctionne Datawarehouse ?

Un entrepôt de données fonctionne comme un référentiel central où les informations proviennent d'une ou plusieurs sources de données. Les données circulent dans un entrepôt de données à partir du système transactionnel et d'autres bases de données relationnelles.

Les données peuvent être :

  1. Structuré
  2. Semi-structuré
  3. Données non structurées

Les données sont traitées, transformées et ingérées afin que les utilisateurs puissent accéder aux données traitées dans l'entrepôt de données via des outils de Business Intelligence, des clients SQL et des feuilles de calcul. Un entrepôt de données fusionne les informations provenant de différentes sources dans une base de données complète.

En fusionnant toutes ces informations en un seul endroit, une organisation peut analyser ses clients de manière plus globale. Cela permet de garantir qu’il a pris en compte toutes les informations disponibles. L'entreposage de données rend possible l'exploration de données. L'exploration de données recherche des modèles dans les données qui peuvent conduire à des ventes et des bénéfices plus élevés.

Types d'entrepôt de données

Trois principaux types d’entrepôts de données (DWH) sont :

1. Entrepôt de données d'entreprise (EDW) :

Enterprise Data Warehouse (EDW) est un entrepôt centralisé. Il fournit un service d'aide à la décision dans toute l'entreprise. Il offre une approche unifiée pour organiser et représenter les données. Il offre également la possibilité de classer les données selon le sujet et de donner accès selon ces divisions.

2. Magasin de données opérationnelles :

Le stockage de données opérationnelles, également appelé ODS, n'est rien d'autre qu'un stockage de données requis lorsque ni l'entrepôt de données ni les systèmes OLTP ne prennent en charge les besoins de reporting des organisations. Dans ODS, l'entrepôt de données est actualisé en temps réel. Par conséquent, il est largement préféré pour les activités de routine telles que le stockage des dossiers des employés.

3. Magasin de données :

A data mart est un sous-ensemble de l'entrepôt de données. Il est spécialement conçu pour un secteur d'activité particulier, tel que les ventes, la finance, les ventes ou la finance. Dans un datamart indépendant, les données peuvent être collectées directement à partir de sources.

Étapes générales de Data Warehouse

Auparavant, les organisations ont commencé à utiliser relativement simplement l’entreposage de données. Cependant, au fil du temps, une utilisation plus sophistiquée de l’entreposage de données a commencé.

Le suiviwing sont les étapes générales d’utilisation de l’entrepôt de données (DWH) :

Base de données opérationnelle hors ligne :

À ce stade, les données sont simplement copiées d'un système opérationnel vers un autre serveur. De cette manière, le chargement, le traitement et la création de rapports des données copiées n'ont pas d'impact sur les performances du système opérationnel.

Entrepôt de données hors ligne :

Les données du Datawarehouse sont régulièrement mises à jour à partir de la base de données opérationnelle. Les données de Datawarehouse sont cartographiées et transformées pour répondre aux objectifs de Datawarehouse.

Entrepôt de données en temps réel :

À ce stade, les entrepôts de données sont mis à jour chaque fois qu'une transaction a lieu dans la base de données opérationnelle. Par exemple, un système de réservation de compagnies aériennes ou de chemins de fer.

Entrepôt de données intégré :

Au cours de cette étape, les entrepôts de données sont mis à jour en permanence lorsque le système opérationnel effectue une transaction. Le Datawarehouse génère ensuite des transactions qui sont renvoyées au système opérationnel.

Composants de l'entrepôt de données

Les quatre composants des entrepôts de données sont :

Gestionnaire de charge : Le gestionnaire de charge est également appelé composant avant. Il effectue toutes les opérations associées à l'extraction et au chargement des données dans l'entrepôt. Ces opérations incluent des transformations pour préparer les données à entrer dans l'entrepôt de données.

Directeur d'entrepôt: Le gestionnaire d'entrepôt effectue les opérations associées à la gestion des données dans l'entrepôt. Il effectue des opérations telles que l'analyse des données pour assurer la cohérence, la création d'index et de vues, la génération de dénormalisation et d'agrégations, la transformation et la fusion des données sources et archidonnées de collecte et de cuisson.

Gestionnaire de requêtes : Le gestionnaire de requêtes est également appelé composant backend. Il réalise toutes les opérations opérationnelles liées à la gestion des requêtes des utilisateurs. Les opérations de ces composants de l'entrepôt de données sont des requêtes directes vers les tables appropriées pour planifier l'exécution des requêtes.

Outils d'accès des utilisateurs finaux :

Ceci est classé en cinq groupes différents comme 1. Rapports de données 2. Outils de requête 3. Outils de développement d'applications 4. Outils EIS, 5. Outils OLAP et outils d'exploration de données.

Qui a besoin d’un entrepôt de données ?

DWH (Data Warehouse) est nécessaire pour tous les types d'utilisateurs comme :

  • Décideurs qui s’appuient sur une quantité massive de données
  • Utilisateurs qui utilisent personnalisé, complex processus pour obtenir des informations à partir de plusieurs sources de données.
  • Il est également utilisé par les personnes qui souhaitent une technologie simple pour accéder aux données.
  • C’est également essentiel pour les personnes qui souhaitent une approche systématique pour prendre des décisions.
  • Si l'utilisateur souhaite des performances rapides sur une énorme quantité de données, ce qui est nécessaire pour les rapports, les grilles ou les graphiques, alors Data Warehouse s'avère utile.
  • L'entrepôt de données est une première étape si vous souhaitez découvrir les « modèles cachés » de flux et de regroupements de données.

À quoi sert un entrepôt de données ?

Voici les secteurs les plus courants dans lesquels l’entrepôt de données est utilisé :

Compagnie aérienne:

Dans le système Airline, il est utilisé à des fins opérationnelles telles que l'affectation de l'équipage, les analyses de rentabilité des routes, le programme de fidélisation. promotion, etc.

Services bancaires:

Il est largement utilisé dans le secteur bancaire pour gérer efficacement les ressources disponibles sur le bureau. Peu de banques l'utilisent également pour les études de marché, l'analyse des performances du produit et des opérations.

Soins de santé:

Le secteur de la santé a également utilisé l'entrepôt de données pour élaborer des stratégies et prédire les résultats, générer des rapports de traitement des patients, partager des données avec des compagnies d'assurance liées, des services d'aide médicale, etc.

Secteur public:

Dans le secteur public, les entrepôts de données sont utilisés pour la collecte de renseignements. Il aide les agences gouvernementales à conserver et à analyser les dossiers fiscaux et les dossiers de politique de santé de chaque individu.

Secteur de l’investissement et des assurances :

Dans ce secteur, les entrepôts sont principalement utilisés pour analyser les modèles de données, les tendances des clients et pour suivre les mouvements du marché.

Chaîne de rétention :

Dans les chaînes de vente au détail, les entrepôts de données sont largement utilisés pour la distribution et le marketing. Il permet également de suivre les articles, les habitudes d'achat des clients, promoet également utilisé pour déterminer la politique de prix.

Télécommunication:

Un entrepôt de données est utilisé dans ce secteur pour les produits promodécisions de vente et de distribution.

Industrie hôtelière:

Cette industrie utilise les services d'entrepôt pour concevoir et estimer leur publicité et promocampagnes de tion où ils souhaitent cibler les clients en fonction de leurs commentaires et de leurs habitudes de voyage.

Étapes pour mettre en œuvre l'entrepôt de données

La meilleure façon de gérer le risque commercial associé à la mise en œuvre d'un Datawarehouse est d'employer une stratégie à trois volets comme ci-dessous.

  1. Stratégie d'entreprise: Ici, nous identifions les techniques, y compris les actuelles architecture et outils. Nous identifions également les faits, les dimensions et les attributs. Le mappage et la transformation des données sont également réussis.
  2. Livraison progressive: La mise en œuvre du Datawarehouse doit être progressive en fonction des domaines. Entités commerciales associées telles que la réservation et billing doivent d’abord être mis en œuvre, puis intégrés les uns aux autres.
  3. Prototypage itératif: Plutôt qu’une approche de mise en œuvre big bang, le Datawarehouse devrait être développé et testé de manière itérative.

Voici les étapes clés de la mise en œuvre de Datawarehouse ainsi que ses livrables.

Step Tâches (produits) livrables
1 Besoin de définir la portée du projet Définition de la portée
2 Besoin de déterminer les besoins de l'entreprise Modèle de données logique
3 Définir les exigences de la banque de données opérationnelles Modèle de magasin de données opérationnel
4 Acquérir ou développer des outils d'extraction Extraire des outils et des logiciels
5 Définir les exigences en matière de données de l'entrepôt de données Modèle de données de transition
6 Documenter les données manquantes Liste des projets à faire
7 Mappe le magasin de données opérationnelles à l’entrepôt de données Carte d'intégration des données D/W
8 Développer la conception de la base de données de l'entrepôt de données Conception de base de données D/W
9 Extraire les données du magasin de données opérationnelles Extractions de données D/W intégrées
10 Charger l'entrepôt de données Chargement initial des données
11 Maintenir l'entrepôt de données Accès continu aux données et chargements ultérieurs

Bonnes pratiques pour mettre en œuvre un entrepôt de données

  • Décidez d’un plan pour tester la cohérence, l’exactitude et l’intégrité des données.
  • L’entrepôt de données doit être bien intégré, bien défini et horodaté.
  • Lors de la conception de Datawarehouse, assurez-vous d'utiliser le bon outil, de respecter le cycle de vie, de faire attention aux conflits de données et d'être prêt à apprendre que vous êtes vos erreurs.
  • Ne remplacez jamais les systèmes opérationnels et les rapports
  • Ne passez pas trop de temps à extraire, nettoyer et charger des données.
  • Assurez-vous d'impliquer toutes les parties prenantes, y compris le personnel de l'entreprise, dans le processus de mise en œuvre de Datawarehouse. Établir que l’entreposage de données est un projet commun/d’équipe. Vous ne voulez pas créer un entrepôt de données qui ne soit pas utile aux utilisateurs finaux.
  • Préparer un plan de formation pour les utilisateurs finaux.

Pourquoi avons-nous besoin d’un entrepôt de données ? Avantages désavantages

Avantages de l'entrepôt de données (DWH) :

  • L'entrepôt de données permet aux utilisateurs professionnels d'accéder rapidement aux données critiques provenant de certaines sources, en un seul endroit.
  • L'entrepôt de données fournit des informations cohérentes sur diverses activités interfonctionnelles. Il prend également en charge les rapports et les requêtes ad hoc.
  • Data Warehouse permet d'intégrer de nombreuses sources de données pour réduire le stress sur le système de production.
  • L'entrepôt de données permet de réduire le délai total d'exécution de l'analyse et du reporting.
  • La restructuration et l'intégration facilitent l'utilisation par l'utilisateur pour le reporting et l'analyse.
  • L'entrepôt de données permet aux utilisateurs d'accéder aux données critiques à partir d'un certain nombre de sources en un seul endroit. Par conséquent, cela permet à l'utilisateur de gagner du temps lors de la récupération de données à partir de plusieurs sources.
  • L'entrepôt de données stocke une grande quantité de données historiques. Cela aide les utilisateurs à analyser différentes périodes et tendances pour faire des prédictions futures.

Inconvénients de l’entrepôt de données :

  • Ce n’est pas une option idéale pour les données non structurées.
  • La création et la mise en œuvre d'un entrepôt de données sont sûrement une affaire de temps déroutante.
  • L’entrepôt de données peut être obsolète relativement rapidement
  • Difficile d'apporter des modifications aux types et plages de données, au schéma de source de données, aux index et aux requêtes.
  • L'entrepôt de données peut paraître simple, mais en réalité, c'est trop compliqué.plex pour les utilisateurs moyens.
  • Malgré tous les efforts déployés en matière de gestion de projet, la portée du projet d'entreposage de données augmentera toujours.
  • Parfois, les utilisateurs de l’entrepôt développeront des règles métier différentes.
  • Les organisations doivent consacrer une grande partie de leurs ressources à la formation et à la mise en œuvre.

L'avenir de l'entreposage de données

  • Changer Contraintes réglementaires peut limiter la capacité de combiner des sources de données disparates. Ces sources disparates peuvent inclure des données non structurées difficiles à stocker.
  • le taille des bases de données augmente, les estimations de ce qui constitue une très grande base de données continuent de croître. C'est complex pour construire et gérer des systèmes d'entrepôt de données dont la taille ne cesse de croître. Les ressources matérielles et logicielles disponibles aujourd’hui ne permettent pas de conserver une grande quantité de données en ligne.
  • Données multimédia ne peuvent pas être facilement manipulés sous forme de données textuelles, alors que les informations textuelles peuvent être récupérées par les logiciels relationnels disponibles aujourd'hui. Cela pourrait être un sujet de recherche.

Outils d'entrepôt de données

Il existe de nombreux outils d’entreposage de données disponibles sur le marché. En voici quelques-uns les plus importants :

1. MarkLogic :

MarkLogic est une solution d'entreposage de données utile qui rend l'intégration des données plus facile et plus rapide à l'aide d'un éventail de fonctionnalités d'entreprise. Cet outil permet d'effectuer des tâches très complex opérations de recherche. Il peut interroger différents types de données comme des documents, des relations et des métadonnées.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle est la base de données leader du secteur. Il offre un large éventail de solutions d'entrepôt de données sur site et dans le cloud. Il contribue à optimiser l’expérience client en augmentant l’efficacité opérationnelle.

https://www.oracle.com/index.html

3. Amazon RedShift :

Amazon Redshift est un outil d'entrepôt de données. Il s'agit d'un outil simple et économique pour analyser tous les types de données à l'aide de normes SQL et les outils BI existants. Il permet également d'exécuter complex requêtes sur des pétaoctets de données structurées, en utilisant la technique d'optimisation des requêtes.

https://aws.amazon.com/redshift/?nc2=h_m1

Voici une liste complète des informations utiles Outils d'entrepôt de données.

APPRENTISSAGE CLÉ

  • Data Warehouse (DWH) est également connu sous le nom d'Enterprise Data Warehouse (EDW).
  • Un entrepôt de données est défini comme un référentiel central où les informations proviennent d'une ou plusieurs sources de données.
  • Les trois principaux types d'entrepôts de données sont l'Enterprise Data Warehouse (EDW), le Operational Data Store et le Data Mart.
  • L'état général d'un entrepôt de données est la base de données opérationnelle hors ligne, l'entrepôt de données hors ligne, l'entrepôt de données en temps réel et l'entrepôt de données intégré.
  • Les quatre composants principaux de Datawarehouse sont le gestionnaire de chargement, le gestionnaire d'entrepôt, le gestionnaire de requêtes et les outils d'accès des utilisateurs finaux.
  • Datawarehouse est utilisé dans divers secteurs tels que le transport aérien, la banque, la santé, l'assurance, la vente au détail, etc.
  • La mise en œuvre de Datawarehosue est une stratégie à 3 volets viz. Stratégie d'entreprise, livraison progressive et prototypage itératif.
  • L'entrepôt de données permet aux utilisateurs professionnels d'accéder rapidement aux données critiques provenant de certaines sources, en un seul endroit.