Datawarehouse Architectuur, componenten en diagramconcepten

Datawarehouse-concepten

Het basisconcept van een datawarehouse is het faciliteren van een enkele versie van de waarheid voor een bedrijf voor besluitvorming en prognoses. Een datawarehouse is een informatiesysteem dat historische en commutatieve gegevens uit één of meerdere bronnen bevat. Data Warehouse Concepts vereenvoudigen het rapportage- en analyseproces van organisaties.

Kenmerken van Datawarehouse

Data Warehouse-concepten hebben volgendewing kenmerken:

  • Onderwerpgericht
  • geïntegreerde
  • Tijd variant
  • Niet-vluchtig

Onderwerpgericht

Een datawarehouse is onderwerpgericht omdat het informatie biedt over een thema in plaats van over de lopende activiteiten van bedrijven. Deze onderwerpen kunnen verkoop, marketing, distributies, etc. zijn.

Een datawarehouse richt zich nooit op de lopende activiteiten. In plaats daarvan werd de nadruk gelegd op het modelleren en analyseren van gegevens besluitvorming. Het biedt ook een eenvoudig en beknopt overzicht van het specifieke onderwerp door gegevens uit te sluiten die niet nuttig zijn om het besluitvormingsproces te ondersteunen.

geïntegreerde

In Data Warehouse betekent integratie het opzetten van een gemeenschappelijke maateenheid voor alle vergelijkbare gegevens uit de ongelijksoortige database. De gegevens moeten ook op een gemeenschappelijke en universeel aanvaardbare manier in het Datawarehouse worden opgeslagen.

Een datawarehouse wordt ontwikkeld door gegevens uit verschillende bronnen te integreren, zoals een mainframe, relationele databases, platte bestanden, enz. Bovendien moet het consistente naamgevingsconventies, formaat en codering behouden.

Deze integratie helpt bij een effectieve analyse van gegevens. Consistentie in naamgevingsconventies, attribuutmetingen, coderingsstructuur enz. moet worden gewaarborgd. Denk eens aan het volgendewing voorbeeld:

Kenmerken van Datawarehouse

In het bovenstaande voorbeeld zijn er drie verschillende applicaties met de naam A, B en C. De informatie die in deze applicaties wordt opgeslagen, is Geslacht, Datum en Balans. De gegevens van elke applicatie worden echter op een andere manier opgeslagen.

  • In toepassing In een geslachtsveld worden logische waarden opgeslagen, zoals M of F
  • In toepassing B is het geslachtsveld een numerieke waarde,
  • In toepassing C-toepassing wordt het geslachtsveld opgeslagen in de vorm van een tekenwaarde.
  • Hetzelfde is het geval met Datum en saldo

Na het transformatie- en opschoonproces worden al deze gegevens echter in een gemeenschappelijk formaat opgeslagen in de Datawarehouse.

Tijd variant

De tijdshorizon voor datawarehouses is vrij uitgebreid vergeleken met operationele systemen. De gegevens die in een datawarehouse worden verzameld, worden met een bepaalde periode herkend en bieden informatie vanuit historisch perspectief. Het bevat een element van tijd, expliciet of impliciet.

Een voorbeeld van zo'n plaats waar datawarehouse-gegevens tijdsvariantie weergeven, is de structuur van de recordsleutel. Elke primaire sleutel in de DW moet impliciet of expliciet een tijdselement bevatten. Zoals de dag, weekmaand, enz.

Een ander aspect van tijdsvariatie is dat zodra gegevens in het magazijn zijn ingevoerd, deze niet meer kunnen worden bijgewerkt of gewijzigd.

Niet-vluchtig

Datawarehouse is ook niet-vluchtig, wat betekent dat de eerdere gegevens niet worden gewist wanneer er nieuwe gegevens in worden ingevoerd.

Gegevens zijn alleen-lezen en worden periodiek vernieuwd. Dit helpt ook om historische gegevens te analyseren en te begrijpen wat en wanneer er is gebeurd. Er zijn geen transactieproces-, herstel- en gelijktijdigheidscontrolemechanismen vereist.

Activiteiten zoals verwijderen, bijwerken en invoegen die worden uitgevoerd in een operationele applicatieomgeving worden weggelaten in de datawarehouse-omgeving. Er zijn slechts twee soorten gegevensbewerkingen die worden uitgevoerd in Data Warehousing

  1. Gegevens laden
  2. Toegang tot data

Hier volgen enkele belangrijke verschillen tussen applicatie en datawarehouse

Operationele toepassing Datawarehouse
complex programma moet worden gecodeerd om ervoor te zorgen dat data-upgradeprocessen de hoge integriteit van het eindproduct behouden. Dit soort problemen treden niet op omdat de gegevensupdate niet wordt uitgevoerd.
Gegevens worden in een genormaliseerde vorm geplaatst om minimale redundantie te garanderen. Gegevens worden niet in genormaliseerde vorm opgeslagen.
Technologie die nodig is om problemen op het gebied van transacties, gegevensherstel, terugdraaien en resolutie te ondersteunenadlock is behoorlijk complex. Het biedt relatieve eenvoud in technologie.

Datawarehouse Architectuur

Datawarehouse Architectuur is complex omdat het een informatiesysteem is dat historische en commutatieve gegevens uit meerdere bronnen bevat. Er zijn drie benaderingen voor het construeren van Data Warehouse-lagen: Single Tier, Two Tier en Three Tier. Deze 3 lagen archiDe structuur van Data Warehouse wordt hieronder uitgelegd.

Enkele laag architectuur

Het doel van een enkele laag is om de hoeveelheid opgeslagen gegevens te minimaliseren. Dit doel is om gegevensredundantie te elimineren. Dit archiIn de praktijk wordt er niet vaak gebruik van gemaakt.

Twee niveaus architectuur

Tweelaags architecture is een van de Data Warehouse-lagen die fysiek beschikbare bronnen en het datawarehouse scheidt. Dit architecture is niet uitbreidbaar en ondersteunt ook niet een groot aantal eindgebruikers. Het heeft ook verbindingsproblemen vanwege netwerkbeperkingen.

Drielaags datawarehouse Architectuur

Dit is de meest gebruikte Archistructuur van Data Warehouse.

Het bestaat uit de bovenste, middelste en onderste laag.

  1. Onderste niveau: De database van de Datawarehouse-servers als onderste laag. Het is meestal een relationeel databasesysteem. Gegevens worden opgeschoond, getransformeerd en in deze laag geladen met behulp van back-endtools.
  2. Middle-tier: De middelste laag in Data Warehouse is een OLAP-server die is geïmplementeerd met behulp van het ROLAP- of MOLAP-model. Voor een gebruiker presenteert deze applicatielaag een geabstraheerde weergave van de database. Deze laag fungeert tevens als bemiddelaar tussen de eindgebruiker en de database.
  3. Topklasse: De bovenste laag is een front-end clientlaag. Het hoogste niveau zijn de tools en API waarmee u verbinding maakt en gegevens uit het datawarehouse haalt. Het kunnen Query-tools, rapportagetools, beheerde query-tools, Analyse-tools en Datamining-tools zijn.

Datawarehouse-componenten

We leren over de Datawarehouse-componenten en Archistructuur van Data Warehouse met diagram zoals hieronder weergegeven:

Datawarehouse Architectuur
Datawarehouse Architectuur

Het Data Warehouse is gebaseerd op een RDBMS-server, een centrale informatieopslagplaats die is omgeven door enkele belangrijke Data Warehousing-componenten om de hele omgeving functioneel, beheerbaar en toegankelijk te maken.

Er zijn hoofdzakelijk vijf datawarehouse-componenten:

Data Warehouse-database

De centrale database vormt de basis van de datawarehousingomgeving. Deze database is geïmplementeerd op de RDBMS technologie. Hoewel dit soort implementatie wordt beperkt door het feit dat het traditionele RDBMS-systeem is geoptimaliseerd voor transactionele databaseverwerking en niet voor datawarehousing. Ad-hocquery's, samenvoegingen met meerdere tabellen en aggregaten zijn bijvoorbeeld arbeidsintensief en vertragen de prestaties.

Daarom worden alternatieve benaderingen van Database gebruikt, zoals hieronder vermeld:

  • In een datawarehouse worden relationele databases parallel ingezet om schaalbaarheid mogelijk te maken. Parallelle relationele databases maken ook gedeeld geheugen of gedeeld niets mogelijk op verschillende multiprocessorconfiguraties of massaal parallelle processors.
  • Nieuwe indexstructuren worden gebruikt om relationele tabelscan te omzeilen en de snelheid te verbeteren.
  • Gebruik van multidimensionale databases (MDDB's) om eventuele beperkingen te overwinnen die worden opgelegd vanwege de relationele datawarehouse-modellen. Voorbeeld: Essbase van Oracle.

Tools voor sourcing, acquisitie, opschoning en transformatie (ETL)

De datasourcing-, transformatie- en migratietools worden gebruikt voor het uitvoeren van alle conversies, samenvattingen en alle wijzigingen die nodig zijn om gegevens om te zetten in een uniform formaat in het datawarehouse. Ze worden ook wel Extract, Transform en Load (ETL) tools genoemd.

Hun functionaliteit omvat:

  • Anonimiseer gegevens volgens wettelijke bepalingen.
  • Voorkomen dat ongewenste gegevens in operationele databases in het datawarehouse worden geladen.
  • Zoek en vervang algemene namen en definities voor gegevens die uit verschillende bronnen komen.
  • Samenvattingen en afgeleide gegevens berekenen
  • In het geval van ontbrekende gegevens, vult u ze in met standaardwaarden.
  • Ontdubbelde herhaalde gegevens afkomstig uit meerdere gegevensbronnen.

Deze gereedschappen voor extraheren, transformeren en laden kunnen cron-taken, achtergrondtaken, Cobol-programma's, shell-scripts, enz. die regelmatig gegevens in het datawarehouse bijwerken. Deze tools zijn ook nuttig om de metadata te onderhouden.

Deze ETL-hulpmiddelen hebben te maken met uitdagingen op het gebied van database- en gegevensheterogeniteit.

Metadata

De naam Meta Data suggereert een aantal hoogwaardige technologische Data Warehousing-concepten. Het is echter vrij eenvoudig. Metadata zijn gegevens over gegevens die het datawarehouse definiëren. Het wordt gebruikt voor het bouwen, onderhouden en beheren van het datawarehouse.

In het Datawarehouse ArchiIn de toekomst spelen metadata een belangrijke rol omdat ze de bron, het gebruik, de waarden en de kenmerken van datawarehouse-gegevens specificeren. Het definieert ook hoe gegevens kunnen worden gewijzigd en verwerkt. Het is nauw verbonden met het datawarehouse.

Een regel in de verkoopdatabase kan bijvoorbeeld het volgende bevatten:

4030 KJ732 299.90

Dit zijn betekenisloze gegevens totdat we de Meta raadplegen die ons vertellen dat dit zo was

  • Modelnummer: 4030
  • Verkoopagent-ID: KJ732
  • Totaal verkoopbedrag van $ 299.90

Metadata zijn daarom essentiële ingrediënten bij de transformatie van data naar kennis.

Metadata helpt bij het beantwoorden van de volgende vraagwing vragen

  • Welke tabellen, attributen en sleutels bevat het Data Warehouse?
  • Waar kwamen de gegevens vandaan?
  • Hoe vaak worden gegevens opnieuw geladen?
  • Welke transformaties werden bij het reinigen toegepast?

Metagegevens kunnen worden ingedeeld in following categorieën:

  1. Technische metadata: Dit soort metadata bevat informatie over het magazijn die wordt gebruikt door ontwerpers en beheerders van datawarehouses.
  2. Zakelijke metadata: Dit soort metadata bevat details die eindgebruikers een manier bieden om gemakkelijk de informatie te begrijpen die is opgeslagen in het datawarehouse.

Queryhulpmiddelen

Een van de belangrijkste doelstellingen van datawarehousing is het verstrekken van informatie aan bedrijven om strategische beslissingen te nemen. Met querytools kunnen gebruikers communiceren met het datawarehouse-systeem.

Deze tools vallen in vier verschillende categorieën:

  1. Query- en rapportagetools
  2. Hulpmiddelen voor applicatieontwikkeling
  3. Tools voor datamining
  4. OLAP-hulpmiddelen

1. Query- en rapportagetools

Query- en rapportagetools kunnen verder worden onderverdeeld in:

  • Rapportagetools
  • Beheerde queryhulpmiddelen

Rapportagetools:

Rapportagetools kan verder worden onderverdeeld in tools voor productierapportage en desktoprapportschrijver.

  1. Rapportschrijvers: Dit soort rapportagetools zijn tools die zijn ontworpen voor eindgebruikers voor hun analyse.
  2. Productierapportage: Met dit soort tools kunnen organisaties regelmatig operationele rapporten genereren. Het ondersteunt ook batchtaken met grote volumes, zoals afdrukken en berekenen. Enkele populaire rapportagetools zijn Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Beheerde queryhulpmiddelen:

Dit soort toegangstools helpt eindgebruikers problemen in de database, SQL en databasestructuur op te lossen door een metalaag tussen gebruikers en database in te voegen.

2. Hulpmiddelen voor applicatieontwikkeling

Soms voldoen ingebouwde grafische en analytische hulpmiddelen niet aan de analytische behoeften van een organisatie. In dergelijke gevallen worden aangepaste rapporten ontwikkeld met behulp van applicatie-ontwikkeltools.

3. Dataminingtools

Datamining is een proces waarbij betekenisvolle nieuwe correlaties, patronen en trends worden ontdekt door grote hoeveelheden gegevens te ontginnen. Tools voor datamining worden gebruikt om dit proces automatisch te laten verlopen.

4. OLAP-hulpmiddelen

Deze tools zijn gebaseerd op concepten van een multidimensionale database. Hiermee kunnen gebruikers de gegevens analyseren met behulp van uitgebreide en complex multidimensionale weergaven.

Datawarehouse Bus Architectuur

Datawarehouse Bus bepaalt de datastroom in uw magazijn. De gegevensstroom in een datawarehouse kan worden gecategoriseerd als instroom, opwaartse stroom, neerwaartse stroom, uitstroom en metastroom.

Bij het ontwerpen van een databus moet men rekening houden met de gedeelde dimensies en feiten over datamarts.

Datamarts

A data mart is een toegangslaag die wordt gebruikt om gegevens naar de gebruikers te krijgen. Het wordt gepresenteerd als een optie voor een groot datawarehouse, omdat het minder tijd en geld kost om te bouwen. Er bestaat echter geen standaarddefinitie van een datamart die van persoon tot persoon verschilt.

In een eenvoudig woord is Datamart een dochteronderneming van een datawarehouse. De datamart wordt gebruikt voor de partitie van gegevens die zijn gemaakt voor de specifieke groep gebruikers.

Datamarts kunnen worden gemaakt in dezelfde database als het datawarehouse of in een fysiek gescheiden database.

Gegevens magazijn Archibeste praktijken

Het ontwerpen van datawarehouses Architecture, moet u de onderstaande best practices volgen:

  • Gebruik datawarehouse-modellen die zijn geoptimaliseerd voor het ophalen van informatie, wat de dimensionale, gedenormaliseerde of hybride benadering kan zijn.
  • Kies de juiste ontwerpaanpak als top-down en bottom-up benadering in Data Warehouse
  • Moet ervoor zorgen dat gegevens snel en nauwkeurig worden verwerkt. Tegelijkertijd moet u een aanpak kiezen die gegevens consolideert in één enkele versie van de waarheid.
  • Ontwerp het data-acquisitie- en opschoningsproces voor het datawarehouse zorgvuldig.
  • Ontwerp een metadata archistructuur die het delen van metadata tussen componenten van Data Warehouse mogelijk maakt
  • Overweeg de implementatie van een ODS-model wanneer de behoefte aan het ophalen van informatie zich onderaan de data-abstractiepiramide bevindt of wanneer er meerdere operationele bronnen moeten worden benaderd.
  • Je moet ervoor zorgen dat het datamodel geïntegreerd is en niet alleen maar geconsolideerd. In dat geval moet u het 3NF-datamodel overwegen. Het is ook ideaal voor het aanschaffen van ETL- en gegevensopschoningstools

Samengevat

  • Datawarehouse is een informatiesysteem dat historische en commutatieve gegevens uit enkele of meerdere bronnen bevat. Deze bronnen kunnen traditioneel Data Warehouse, Cloud Data Warehouse of Virtual Data Warehouse zijn.
  • Een datawarehouse is onderwerpgericht omdat het informatie biedt over het onderwerp in plaats van over de lopende activiteiten van de organisatie.
  • In Data Warehouse betekent integratie het opzetten van een gemeenschappelijke maateenheid voor alle vergelijkbare gegevens uit de verschillende databases
  • Datawarehouse is ook niet-vluchtig, wat betekent dat de eerdere gegevens niet worden gewist wanneer er nieuwe gegevens in worden ingevoerd.
  • Een Datawarehouse is tijdvariant omdat de gegevens in een DW een hoge houdbaarheid hebben.
  • Er zijn hoofdzakelijk 5 componenten van Data Warehouse Architectuur: 1) Database 2) ETL Tools 3) Metagegevens 4) Querytools 5) DataMarts
  • Dit zijn vier hoofdcategorieën van querytools 1. Query's en rapportage, tools 2. Tools voor applicatieontwikkeling, 3. Dataminingtools 4. OLAP-tools
  • De datasourcing-, transformatie- en migratietools worden gebruikt voor het uitvoeren van alle conversies en samenvattingen.
  • In het Datawarehouse ArchiIn de toekomst spelen metadata een belangrijke rol omdat ze de bron, het gebruik, de waarden en de kenmerken van datawarehouse-gegevens specificeren.