Datawarehouse Archistructuur, componenten en diagram Concepts
Datawarehouse Concepts
Het basisconcept van een datawarehouse is het faciliteren van een enkele versie van de waarheid voor een bedrijf voor besluitvorming en prognoses. Een datawarehouse is een informatiesysteem dat historische en commutatieve gegevens uit één of meerdere bronnen bevat. Datawarehouse Concepts vereenvoudig het rapportage- en analyseproces van organisaties.
Kenmerken van Datawarehouse
Datawarehouse Concepts hebben de volgende kenmerken:
- Onderwerpgericht
- geïntegreerde
- Tijd variant
- Niet-vluchtig
Onderwerpgericht
Een datawarehouse is subject-georiënteerd omdat het informatie biedt over een thema in plaats van de lopende activiteiten van bedrijven. Deze onderwerpen kunnen sales, marketing, distributies, etc. zijn.
Een datawarehouse richt zich nooit op de lopende operaties. In plaats daarvan legt het de nadruk op het modelleren en analyseren van data voor besluitvorming. Het biedt ook een eenvoudig en beknopt overzicht van het specifieke onderwerp door gegevens uit te sluiten die niet nuttig zijn om het besluitvormingsproces te ondersteunen.
geïntegreerde
In Data Warehouse betekent integratie het opzetten van een gemeenschappelijke maateenheid voor alle vergelijkbare gegevens uit de ongelijksoortige database. De gegevens moeten ook op een gemeenschappelijke en universeel aanvaardbare manier in het Datawarehouse worden opgeslagen.
Een datawarehouse wordt ontwikkeld door gegevens uit verschillende bronnen te integreren, zoals een mainframe, relationele databases, platte bestanden, enz. Bovendien moet het consistente naamgevingsconventies, formaat en codering behouden.
Deze integratie helpt bij effectieve analyse van data. Consistentie in naamgevingsconventies, attribuutmetingen, coderingsstructuur etc. moeten worden gewaarborgd. Bekijk het volgende voorbeeld:
In het bovenstaande voorbeeld zijn er drie verschillende applicaties met de naam A, B en C. De informatie die in deze applicaties wordt opgeslagen, is Geslacht, Datum en Balans. De gegevens van elke applicatie worden echter op een andere manier opgeslagen.
- In toepassing In een geslachtsveld worden logische waarden opgeslagen, zoals M of F
- In toepassing B is het geslachtsveld een numerieke waarde,
- In toepassing C-toepassing wordt het geslachtsveld opgeslagen in de vorm van een tekenwaarde.
- Hetzelfde is het geval met Datum en saldo
Na het transformatie- en opschoonproces worden al deze gegevens echter in een gemeenschappelijk formaat opgeslagen in de Datawarehouse.
Tijd variant
De tijdshorizon voor datawarehouses is vrij uitgebreid vergeleken met operationele systemen. De data die in een datawarehouse worden verzameld, worden herkend met een bepaalde periode en bieden informatie vanuit het historische oogpunt. Het bevat een element van tijd, expliciet of impliciet.
Een voorbeeld van zo'n plaats waar datawarehouse-gegevens tijdsvariantie weergeven, is de structuur van de recordsleutel. Elke primaire sleutel in de DW moet impliciet of expliciet een tijdselement bevatten. Zoals de dag, weekmaand, enz.
Een ander aspect van tijdsvariatie is dat zodra gegevens in het magazijn zijn ingevoerd, deze niet meer kunnen worden bijgewerkt of gewijzigd.
Niet-vluchtig
Datawarehouse is ook niet-vluchtig, wat betekent dat de eerdere gegevens niet worden gewist wanneer er nieuwe gegevens in worden ingevoerd.
Gegevens zijn alleen-lezen en worden periodiek vernieuwd. Dit helpt ook om historische gegevens te analyseren en te begrijpen wat en wanneer er is gebeurd. Er zijn geen transactieproces-, herstel- en gelijktijdigheidscontrolemechanismen vereist.
Activiteiten zoals verwijderen, bijwerken en invoegen die worden uitgevoerd in een operationele applicatieomgeving, worden weggelaten in de Datawarehouse-omgeving. Er worden slechts twee typen gegevensbewerkingen uitgevoerd in de Datawarehousing:
- Gegevens laden
- Toegang tot data
Hier volgen enkele belangrijke verschillen tussen applicatie en datawarehouse
Operationele toepassing | Datawarehouse |
---|---|
Complexe programma's moeten worden gecodeerd om ervoor te zorgen dat de gegevensupgradeprocessen de hoge integriteit van het eindproduct behouden. | Dit soort problemen treden niet op omdat de gegevensupdate niet wordt uitgevoerd. |
Gegevens worden in een genormaliseerde vorm geplaatst om minimale redundantie te garanderen. | Gegevens worden niet in genormaliseerde vorm opgeslagen. |
Technologie is nodig om problemen met transacties, gegevensherstel, terugdraaien en oplossen te ondersteunen, omdat de impasse nogal complex is. | Het biedt relatieve eenvoud in technologie. |
Datawarehouse Architectuur
Datawarehouse Architectuur is complex omdat het een informatiesysteem is dat historische en commutatieve gegevens uit meerdere bronnen bevat. Er zijn 3 benaderingen voor het construeren van Data Warehouse-lagen: Single Tier, Two tier en Three tier. Deze 3-tier architectuur van Data Warehouse wordt hieronder uitgelegd.
Enkellaagsarchitectuur
Het doel van een enkele laag is om de hoeveelheid opgeslagen data te minimaliseren. Dit doel is om dataredundantie te verwijderen. Deze architectuur wordt in de praktijk niet vaak gebruikt.
Tweelaagse architectuur
Tweelaagse architectuur is een van de Data Warehouse-lagen die fysiek beschikbare bronnen en datawarehouse scheidt. Deze architectuur is niet uitbreidbaar en ondersteunt ook geen groot aantal eindgebruikers. Het heeft ook connectiviteitsproblemen vanwege netwerkbeperkingen.
Drielaags datawarehouse Architectuur
Dit is de meest gebruikte Archistructuur van Data Warehouse.
Het bestaat uit de bovenste, middelste en onderste laag.
- Onderste niveau: De database van de Datawarehouse-servers als onderste laag. Het is meestal een relationeel databasesysteem. Gegevens worden opgeschoond, getransformeerd en in deze laag geladen met behulp van back-endtools.
- Middle-tier: De middelste laag in Data Warehouse is een OLAP-server die is geïmplementeerd met behulp van het ROLAP- of MOLAP-model. Voor een gebruiker presenteert deze applicatielaag een geabstraheerde weergave van de database. Deze laag fungeert tevens als bemiddelaar tussen de eindgebruiker en de database.
- Topklasse: De bovenste laag is een front-end clientlaag. Het hoogste niveau zijn de tools en API waarmee u verbinding maakt en gegevens uit het datawarehouse haalt. Het kunnen Query-tools, rapportagetools, beheerde query-tools, Analyse-tools en Datamining-tools zijn.
Datawarehouse-componenten
We leren over de Datawarehouse-componenten en Archistructuur van Data Warehouse met diagram zoals hieronder weergegeven:
Het Data Warehouse is gebaseerd op een RDBMS-server, een centrale informatieopslagplaats die is omgeven door enkele belangrijke Data Warehousing-componenten om de hele omgeving functioneel, beheerbaar en toegankelijk te maken.
Er zijn hoofdzakelijk vijf datawarehouse-componenten:
Data Warehouse-database
De centrale database is de basis van de datawarehousingomgeving. Deze database is geïmplementeerd op de RDBMS technologie. Hoewel dit soort implementatie wordt beperkt door het feit dat het traditionele RDBMS-systeem is geoptimaliseerd voor transactionele databaseverwerking en niet voor datawarehousing. Ad-hocquery's, samenvoegingen met meerdere tabellen en aggregaten zijn bijvoorbeeld arbeidsintensief en vertragen de prestaties.
Daarom worden alternatieve benaderingen van Database gebruikt, zoals hieronder vermeld:
- In een datawarehouse worden relationele databases parallel ingezet om schaalbaarheid mogelijk te maken. Parallelle relationele databases staan ook shared memory of shared nothing-model toe op verschillende multiprocessorconfiguraties of massively parallel processors.
- Nieuwe indexstructuren worden gebruikt om relationele tabelscan te omzeilen en de snelheid te verbeteren.
- Gebruik van multidimensionale databases (MDDB's) om eventuele beperkingen te overwinnen die worden opgelegd vanwege de relationele datawarehouse-modellen. Voorbeeld: Essbase van Oracle.
Tools voor sourcing, acquisitie, opschoning en transformatie (ETL)
De data sourcing, transformatie en migratie tools worden gebruikt voor het uitvoeren van alle conversies, samenvattingen en alle wijzigingen die nodig zijn om data te transformeren naar een uniform formaat in de datawarehouse. Ze worden ook wel Extract, Transform and Load (ETL) Tools genoemd.
Hun functionaliteit omvat:
- Anonimiseer gegevens volgens wettelijke bepalingen.
- Voorkomen dat ongewenste gegevens in operationele databases in het datawarehouse worden geladen.
- Zoek en vervang algemene namen en definities voor gegevens die uit verschillende bronnen komen.
- Samenvattingen en afgeleide gegevens berekenen
- In het geval van ontbrekende gegevens, vult u ze in met standaardwaarden.
- Ontdubbelde herhaalde gegevens afkomstig uit meerdere gegevensbronnen.
Deze gereedschappen voor extraheren, transformeren en laden kunnen cron-taken, achtergrondtaken, Cobol-programma's, shell-scripts, enz. die regelmatig gegevens in het datawarehouse bijwerken. Deze tools zijn ook nuttig om de metadata te onderhouden.
Deze ETL-hulpmiddelen hebben te maken met uitdagingen op het gebied van database- en gegevensheterogeniteit.
Metadata
De naam Meta Data suggereert een hoog niveau van technologische Data Warehousing Concepts. Het is echter vrij eenvoudig. Metadata zijn gegevens over gegevens die het datawarehouse definiëren. Het wordt gebruikt voor het bouwen, onderhouden en beheren van het datawarehouse.
In het Datawarehouse ArchiIn de toekomst spelen metadata een belangrijke rol omdat ze de bron, het gebruik, de waarden en de kenmerken van datawarehouse-gegevens specificeren. Het definieert ook hoe gegevens kunnen worden gewijzigd en verwerkt. Het is nauw verbonden met het datawarehouse.
Een regel in de verkoopdatabase kan bijvoorbeeld het volgende bevatten:
4030 KJ732 299.90
Dit zijn betekenisloze gegevens totdat we de Meta raadplegen die ons vertellen dat dit zo was
- Modelnummer: 4030
- Verkoopagent-ID: KJ732
- Totaal verkoopbedrag van $ 299.90
Metadata zijn daarom essentiële ingrediënten bij de transformatie van data naar kennis.
Metadata helpen bij het beantwoorden van de volgende vragen
- Welke tabellen, attributen en sleutels bevat het Data Warehouse?
- Waar kwamen de gegevens vandaan?
- Hoe vaak worden gegevens opnieuw geladen?
- Welke transformaties werden bij het reinigen toegepast?
Metadata kunnen worden ingedeeld in de volgende categorieën:
- Technische metadata: Dit soort metadata bevat informatie over het magazijn die wordt gebruikt door ontwerpers en beheerders van datawarehouses.
- Zakelijke metadata: Dit soort metadata bevat details die eindgebruikers een manier bieden om gemakkelijk de informatie te begrijpen die is opgeslagen in het datawarehouse.
Queryhulpmiddelen
Een van de belangrijkste doelstellingen van datawarehousing is het verstrekken van informatie aan bedrijven om strategische beslissingen te nemen. Met querytools kunnen gebruikers communiceren met het datawarehouse-systeem.
Deze tools vallen in vier verschillende categorieën:
- Query- en rapportagetools
- Hulpmiddelen voor applicatieontwikkeling
- Tools voor datamining
- OLAP-hulpmiddelen
1. Query- en rapportagetools
Query- en rapportagetools kunnen verder worden onderverdeeld in:
- Rapportagetools
- Beheerde queryhulpmiddelen
Rapportagetools:
Rapportagetools kan verder worden onderverdeeld in tools voor productierapportage en desktoprapportschrijver.
- Rapportschrijvers: Dit soort rapportagetools zijn tools die zijn ontworpen voor eindgebruikers voor hun analyse.
- Productierapportage: Dit soort tools stelt organisaties in staat om regelmatige operationele rapporten te genereren. Het ondersteunt ook batchtaken met een hoog volume, zoals afdrukken en berekenen. Enkele populaire rapportagetools zijn Brio, Business Objects, Oracle, PowerSoft, SAS Instituut.
Beheerde queryhulpmiddelen:
Dit soort toegangstools helpt eindgebruikers problemen in de database, SQL en databasestructuur op te lossen door een metalaag tussen gebruikers en database in te voegen.
2. Hulpmiddelen voor applicatieontwikkeling
Soms voldoen ingebouwde grafische en analytische hulpmiddelen niet aan de analytische behoeften van een organisatie. In dergelijke gevallen worden aangepaste rapporten ontwikkeld met behulp van applicatie-ontwikkeltools.
3. Dataminingtools
Datamining is een proces waarbij betekenisvolle nieuwe correlaties, patronen en trends worden ontdekt door grote hoeveelheden gegevens te ontginnen. Tools voor datamining worden gebruikt om dit proces automatisch te laten verlopen.
4. OLAP-hulpmiddelen
Deze tools zijn gebaseerd op concepten van een multidimensionale database. Hiermee kunnen gebruikers de data analyseren met behulp van uitgebreide en complexe multidimensionale weergaven.
Datawarehouse Bus Architectuur
Datawarehouse Bus bepaalt de datastroom in uw magazijn. De gegevensstroom in een datawarehouse kan worden gecategoriseerd als instroom, opwaartse stroom, neerwaartse stroom, uitstroom en metastroom.
Bij het ontwerpen van een databus moet men rekening houden met de gedeelde dimensies en feiten over datamarts.
Datamarts
A data mart is een toegangslaag die wordt gebruikt om gegevens naar de gebruikers te krijgen. Het wordt gepresenteerd als een optie voor een groot datawarehouse, omdat het minder tijd en geld kost om te bouwen. Er bestaat echter geen standaarddefinitie van een datamart die van persoon tot persoon verschilt.
In een eenvoudig woord is Datamart een dochteronderneming van een datawarehouse. De datamart wordt gebruikt voor de partitie van gegevens die zijn gemaakt voor de specifieke groep gebruikers.
Datamarts kunnen worden gemaakt in dezelfde database als het datawarehouse of in een fysiek gescheiden database.
Gegevens magazijn Archibeste praktijken
Het ontwerpen van datawarehouses Architecture, moet u de onderstaande best practices volgen:
- Gebruik datawarehouse-modellen die zijn geoptimaliseerd voor het ophalen van informatie, wat de dimensionale, gedenormaliseerde of hybride benadering kan zijn.
- Kies de juiste ontwerpaanpak als top-down en bottom-up benadering in Data Warehouse
- Moet ervoor zorgen dat gegevens snel en nauwkeurig worden verwerkt. Tegelijkertijd moet u een aanpak kiezen die gegevens consolideert in één enkele versie van de waarheid.
- Ontwerp het data-acquisitie- en opschoningsproces voor het datawarehouse zorgvuldig.
- Ontwerp een MetaData-architectuur die het delen van metadata tussen componenten van Data Warehouse mogelijk maakt
- Overweeg de implementatie van een ODS-model wanneer de behoefte aan informatieopvraging zich onderaan de piramide van gegevensabstractie bevindt of wanneer er meerdere operationele bronnen moeten worden benaderd.
- Je moet ervoor zorgen dat het datamodel geïntegreerd is en niet alleen maar geconsolideerd. In dat geval moet u het 3NF-datamodel overwegen. Het is ook ideaal voor het aanschaffen van ETL- en gegevensopschoningstools
Samenvatting
- Datawarehouse is een informatiesysteem dat historische en commutatieve gegevens uit enkele of meerdere bronnen bevat. Deze bronnen kunnen traditioneel Data Warehouse, Cloud Data Warehouse of Virtual Data Warehouse zijn.
- Een datawarehouse is onderwerpgericht, omdat het informatie biedt over het onderwerp in plaats van over de lopende activiteiten van de organisatie.
- In Data Warehouse betekent integratie het opzetten van een gemeenschappelijke maateenheid voor alle vergelijkbare gegevens uit de verschillende databases
- Datawarehouse is ook niet-vluchtig, wat betekent dat de eerdere gegevens niet worden gewist wanneer er nieuwe gegevens in worden ingevoerd.
- Een Datawarehouse is tijdvariant omdat de gegevens in een DW een hoge houdbaarheid hebben.
- Er zijn hoofdzakelijk 5 componenten van Data Warehouse Architectuur: 1) Database 2) ETL Tools 3) Metagegevens 4) Querytools 5) DataMarts
- Dit zijn vier hoofdcategorieën van querytools 1. Query's en rapportage, tools 2. Tools voor applicatieontwikkeling, 3. Dataminingtools 4. OLAP-tools
- Voor alle conversies en samenvattingen worden de tools voor gegevensbron-, transformatie- en migratie gebruikt.
- In het Datawarehouse ArchiIn de toekomst spelen metadata een belangrijke rol omdat ze de bron, het gebruik, de waarden en de kenmerken van datawarehouse-gegevens specificeren.