Wat is datawarehouse? Typen, definitie en voorbeeld
Wat is datawarehousing?
A Data opslagplaats (DW) is een proces voor het verzamelen en beheren van gegevens uit verschillende bronnen om zinvolle zakelijke inzichten te bieden. Een datawarehouse wordt doorgaans gebruikt om zakelijke gegevens uit heterogene bronnen te verbinden en analyseren. Het datawarehouse is de kern van het BI-systeem dat is gebouwd voor gegevensanalyse en rapportage.
Het is een mix van technologieën en componenten die het strategische gebruik van data ondersteunt. Het is elektronische opslag van een grote hoeveelheid informatie door een bedrijf dat is ontworpen voor query en analyse in plaats van transactieverwerking. Het is een proces van het transformeren van data in informatie en het op tijd beschikbaar stellen aan gebruikers om een verschil te maken.
De beslissingsondersteunende database (Data Warehouse) wordt apart onderhouden van de operationele database van de organisatie. Het data warehouse is echter geen product, maar een omgeving. Het is een architectonisch construct van een informatiesysteem dat gebruikers voorziet van actuele en historische beslissingsondersteunende informatie die moeilijk toegankelijk is of gepresenteerd kan worden in de traditionele operationele data store.
Velen weten dat een door 3NF ontworpen database voor een inventarisatiesysteem vaak tabellen bevat die aan elkaar gerelateerd zijn. Een rapport met actuele voorraadinformatie kan bijvoorbeeld meer dan twaalf samengevoegde voorwaarden bevatten. Dit kan de responstijd van de query en het rapport snel vertragen. Een datawarehouse biedt een nieuw ontwerp dat kan helpen de responstijd te verkorten en de prestaties van query's voor rapporten en analyses te verbeteren.
Een datawarehousesysteem is ook bekend onder de volgende naam:
- Beslissingsondersteunend systeem (DSS)
- Uitvoerend informatiesysteem
- Beheer informatie Systeem
- Business Intelligence-oplossing
- Analytische toepassing
- Datawarehouse
Geschiedenis van Datawarehouse
Datawarehouse helpt gebruikers de prestaties van hun organisatie te begrijpen en te verbeteren. De noodzaak om data te warehousen is geëvolueerd naarmate computersystemen complexer werden en steeds meer informatie moesten verwerken. Datawarehousing is echter niet nieuw.
Hier zijn enkele belangrijke gebeurtenissen in de evolutie van Data Warehouse-
- 1960 - Dartmouth en General Mills ontwikkelen in een gezamenlijk onderzoeksproject de termen dimensies en feiten.
- 1970 - Nielsen en IRI introduceren dimensionale datamarts voor detailhandelsverkopen.
- 1983 - Tera Data Corporation introduceert een databasebeheersysteem dat specifiek is ontworpen voor beslissingsondersteuning
- Datawarehousing begon eind jaren tachtig IBM werknemer Paul Murphy en Barry Devlin ontwikkelden het Business Data Warehouse.
- Het echte concept werd echter gegeven door Inmon Bill. Hij werd beschouwd als de vader van het datawarehouse. Hij had over verschillende onderwerpen geschreven voor de bouw, het gebruik en het onderhoud van het magazijn en de bedrijfsinformatiefabriek.
Hoe Datawarehouse werkt?
Een Data Warehouse werkt als een centrale opslagplaats waar informatie uit een of meer gegevensbronnen binnenkomt. Gegevens stromen vanuit het transactionele systeem en andere relationele databases naar een datawarehouse.
Gegevens kunnen zijn:
- Gestructureerde
- Semi-gestructureerd
- Ongestructureerde data
De gegevens worden verwerkt, getransformeerd en opgenomen, zodat gebruikers toegang hebben tot de verwerkte gegevens in het Data Warehouse via Business Intelligence-tools, SQL-clients en spreadsheets. Een datawarehouse voegt informatie uit verschillende bronnen samen in één uitgebreide database.
Door al deze informatie op één plek samen te voegen, kan een organisatie haar klanten holistischer analyseren. Dit helpt ervoor te zorgen dat alle beschikbare informatie in overweging is genomen. Datawarehousing maakt datamining mogelijk. Bij datamining wordt gezocht naar patronen in de gegevens die kunnen leiden tot hogere verkopen en winsten.
Soorten datawarehouse
Drie hoofdtypen datawarehouses (DWH) zijn:
1. Enterprise-datawarehouse (EDW):
Enterprise Data Warehouse (EDW) is een gecentraliseerd magazijn. Het biedt beslissingsondersteunende diensten voor de hele onderneming. Het biedt een uniforme aanpak voor het organiseren en representeren van gegevens. Het biedt ook de mogelijkheid om gegevens te classificeren op basis van het onderwerp en toegang te verlenen op basis van die divisies.
2. Operaationele gegevensopslag:
Operaional Data Store, ook wel ODS genoemd, is niets anders dan dataopslag die nodig is wanneer noch Data Warehouse- noch OLTP-systemen organisaties ondersteunen die behoeften rapporteren. In ODS wordt het datawarehouse in realtime vernieuwd. Daarom heeft het algemeen de voorkeur voor routinematige activiteiten zoals het opslaan van gegevens van de werknemers.
3. Datamart:
A data mart is een subset van het datawarehouse. Het is speciaal ontworpen voor een bepaalde branche, zoals verkoop, financiën, verkoop of financiën. In een onafhankelijke datamart kunnen gegevens rechtstreeks uit bronnen worden verzameld.
Algemene fasen van Data Warehouse
Eerder begonnen organisaties relatief eenvoudig gebruik te maken van datawarehousing. In de loop van de tijd begon echter een meer geavanceerd gebruik van datawarehousing.
Hieronder volgen de algemene gebruiksfasen van het datawarehouse (DWH):
offline Operaationele database:
In deze fase worden gegevens gewoon gekopieerd van een operationeel systeem naar een andere server. Op deze manier hebben het laden, verwerken en rapporteren van de gekopieerde gegevens geen invloed op de prestaties van het operationele systeem.
Offline datawarehouse:
Gegevens in het Datawarehouse worden regelmatig bijgewerkt vanuit de Operaationele database. De data in Datawarehouse worden in kaart gebracht en getransformeerd om te voldoen aan de Datawarehouse doelstellingen.
Realtime datawarehouse:
In deze fase worden datawarehouses bijgewerkt wanneer er een transactie plaatsvindt in de operationele database. Bijvoorbeeld, een boekingssysteem van een luchtvaartmaatschappij of spoorwegmaatschappij.
Geïntegreerd datawarehouse:
In deze fase worden Data Warehouses continu bijgewerkt wanneer het operationele systeem een transactie uitvoert. Het Datawarehouse genereert vervolgens transacties die worden teruggestuurd naar het operationele systeem.
Onderdelen van datawarehouse
Vier componenten van datawarehouses zijn:
Belastingsmanager: Load manager wordt ook wel het front component genoemd. Het voert alle bewerkingen uit die verband houden met de extractie en het laden van data in het warehouse. Deze bewerkingen omvatten transformaties om de data voor te bereiden op invoer in het Data warehouse.
Warenhuis manager: Warehouse manager voert bewerkingen uit die verband houden met het beheer van de gegevens in het warehouse. Het voert bewerkingen uit zoals analyse van gegevens om consistentie te garanderen, het maken van indexen en weergaven, het genereren van denormalisatie en aggregaties, transformatie en samenvoeging van brongegevens en het archiveren en bakken van gegevens.
Querybeheerder: Query manager is ook bekend als backend component. Het voert alle operationele bewerkingen uit die gerelateerd zijn aan het beheer van gebruikersquery's. De bewerkingen van deze Data warehouse componenten zijn directe query's naar de juiste tabellen voor het plannen van de uitvoering van query's.
Toegangstools voor eindgebruikers:
Dit is onderverdeeld in vijf verschillende groepen, zoals 1. Gegevensrapportage 2. Queryhulpmiddelen 3. Hulpmiddelen voor applicatieontwikkeling 4. EIS-hulpmiddelen, 5. OLAP-hulpmiddelen en tools voor datamining.
Wie heeft een datawarehouse nodig?
DWH (Data Warehouse) is nodig voor alle soorten gebruikers, zoals:
- Beslissers die vertrouwen op een enorme hoeveelheid data
- Gebruikers die aangepaste, complexe processen gebruiken om informatie uit meerdere gegevensbronnen te verkrijgen.
- Het wordt ook gebruikt door mensen die eenvoudige technologie willen om toegang te krijgen tot de gegevens
- Het is ook essentieel voor mensen die een systematische aanpak willen bij het nemen van beslissingen.
- Als de gebruiker snelle prestaties wil op een enorme hoeveelheid gegevens, wat een noodzaak is voor rapporten, rasters of grafieken, dan is Data Warehouse nuttig.
- Datawarehouse is een eerste stap als u 'verborgen patronen' van gegevensstromen en groeperingen wilt ontdekken.
Waar wordt een datawarehouse voor gebruikt?
Dit zijn de meest voorkomende sectoren waarin datawarehouse wordt gebruikt:
Luchtvaartmaatschappij:
In het luchtvaartsysteem wordt het gebruikt voor operationele doeleinden, zoals het toewijzen van bemanning, analyses van de winstgevendheid van routes, promoties voor frequent flyer-programma's, enzovoort.
Banking:
Het wordt veel gebruikt in de banksector om de beschikbare middelen op het bureau effectief te beheren. Enkele banken gebruiken het ook voor marktonderzoek, prestatieanalyse van het product en de activiteiten.
Gezondheidszorg:
De gezondheidszorgsector gebruikte het datawarehouse ook om strategieën te bepalen en uitkomsten te voorspellen, behandelrapporten van patiënten te genereren, gegevens te delen met aangesloten verzekeringsmaatschappijen, medische hulpdiensten, enz.
Publieke sector:
In de publieke sector wordt datawarehouse gebruikt voor het verzamelen van inlichtingen. Het helpt overheidsinstanties bij het bijhouden en analyseren van belastinggegevens en gegevens over het gezondheidsbeleid van elk individu.
Investerings- en verzekeringssector:
In deze sector worden de magazijnen vooral gebruikt om datapatronen en klanttrends te analyseren en marktbewegingen te volgen.
Ketting vasthouden:
In winkelketens wordt Datawarehouse veel gebruikt voor distributie en marketing. Het helpt ook om artikelen, het koopgedrag van klanten en promoties te volgen en wordt ook gebruikt om het prijsbeleid te bepalen.
Telecommunicatie:
Een datawarehouse wordt in deze sector gebruikt voor productpromoties, verkoopbeslissingen en distributiebeslissingen.
Horeca:
Deze sector maakt gebruik van magazijndiensten om reclame- en promotiecampagnes te ontwerpen en te schatten, waarbij ze klanten willen targeten op basis van hun feedback en reispatronen.
Stappen om Data Warehouse te implementeren
De beste manier om het bedrijfsrisico dat gepaard gaat met een Datawarehouse-implementatie aan te pakken, is door een drieledige strategie te gebruiken, zoals hieronder
- Ondernemingsstrategie: Hier identificeren we technische inclusief huidige architectuur en tools. We identificeren ook feiten, dimensies en attributen. Data mapping en transformatie worden ook doorgegeven.
- Gefaseerde levering: De implementatie van datawarehouse moet gefaseerd worden uitgevoerd op basis van vakgebieden. Gerelateerde bedrijfseenheden zoals boeking en facturering moeten eerst worden geïmplementeerd en vervolgens met elkaar worden geïntegreerd.
- Iteratieve prototypen: In plaats van een big bang-implementatiebenadering moet het Datawarehouse iteratief worden ontwikkeld en getest.
Hier vindt u de belangrijkste stappen bij de implementatie van Datawarehouse, samen met de resultaten ervan.
Stap voor | Taken | Deliverables |
---|---|---|
1 | Noodzaak om de projectscope te definiëren | Reikwijdte Definitie |
2 | Noodzaak om zakelijke behoeften te bepalen | Logisch gegevensmodel |
3 | Definiëren Operaional Datastore-vereisten | Operaationaal gegevensopslagmodel |
4 | Extractietools aanschaffen of ontwikkelen | Extraheer tools en software |
5 | Definieer datawarehouse-gegevensvereisten | Transitiedatamodel |
6 | Documenteer ontbrekende gegevens | Takenlijst met projecten |
7 | Maps Operaationele gegevensopslag naar datawarehouse | D/W-gegevensintegratiekaart |
8 | Ontwikkelen van Data Warehouse Database-ontwerp | D/W-databaseontwerp |
9 | Gegevens extraheren uit Operaationele gegevensopslag | Geïntegreerde D/W-gegevensextracten |
10 | Datawarehouse laden | Initiële gegevensbelasting |
11 | Datawarehouse onderhouden | Doorlopende gegevenstoegang en daaropvolgende ladingen |
Best practices voor het implementeren van een datawarehouse
- Bepaal een plan om de consistentie, nauwkeurigheid en integriteit van de gegevens te testen.
- Het datawarehouse moet goed geïntegreerd, goed gedefinieerd en voorzien zijn van een tijdstempel.
- Zorg er bij het ontwerpen van Datawarehouse voor dat u de juiste tool gebruikt, dat u zich aan de levenscyclus houdt, zorg draagt voor dataconflicten en bereid bent te leren dat u uw fouten bent.
- Vervang nooit operationele systemen en rapporten
- Besteed niet te veel tijd aan het extraheren, opschonen en laden van gegevens.
- Zorg ervoor dat alle belanghebbenden, inclusief het bedrijfspersoneel, worden betrokken bij het implementatieproces van Datawarehouse. Stel vast dat datawarehousing een gezamenlijk/teamproject is. U wilt geen datawarehouse creëren dat niet nuttig is voor de eindgebruikers.
- Maak een opleidingsplan voor de eindgebruikers.
Waarom hebben we een datawarehouse nodig? Voordelen nadelen
Voordelen van Datawarehouse (DWH):
- Met een datawarehouse hebben zakelijke gebruikers snel toegang tot kritieke gegevens uit bepaalde bronnen, allemaal op één plek.
- Datawarehouse biedt consistente informatie over verschillende multifunctionele activiteiten. Het ondersteunt ook ad-hocrapportage en -vragen.
- Data Warehouse helpt bij het integreren van vele gegevensbronnen om de stress op het productiesysteem te verminderen.
- Datawarehouse helpt de totale doorlooptijd voor analyse en rapportage te verkorten.
- Herstructurering en integratie maken het voor de gebruiker gemakkelijker om te gebruiken voor rapportage en analyse.
- Met een datawarehouse hebben gebruikers op één plek toegang tot kritieke gegevens uit een groot aantal bronnen. Daarom bespaart het de gebruiker tijd bij het ophalen van gegevens uit meerdere bronnen.
- Datawarehouse slaat een grote hoeveelheid historische gegevens op. Dit helpt gebruikers om verschillende tijdsperioden en trends te analyseren om toekomstige voorspellingen te doen.
Nadelen van datawarehouse:
- Geen ideale optie voor ongestructureerde gegevens.
- Het creëren en implementeren van een datawarehouse is zeker een tijdverwarrende aangelegenheid.
- Data Warehouse kan relatief snel verouderd zijn
- Moeilijk om wijzigingen aan te brengen in gegevenstypen en -bereiken, gegevensbronschema, indexen en query's.
- Het datawarehouse lijkt misschien eenvoudig, maar is in werkelijkheid te complex voor de gemiddelde gebruiker.
- Ondanks de beste inspanningen op het gebied van projectmanagement zal de reikwijdte van datawarehousing-projecten altijd toenemen.
- Soms zullen magazijngebruikers verschillende bedrijfsregels ontwikkelen.
- Organisaties moeten een groot deel van hun middelen besteden aan training en implementatiedoeleinden.
De toekomst van datawarehousing
- Veranderen in Regelgevende beperkingen kan de mogelijkheid beperken om bronnen van ongelijksoortige gegevens te combineren. Deze ongelijksoortige bronnen kunnen ongestructureerde gegevens bevatten die moeilijk op te slaan zijn.
- Aangezien de grootte van de databases groeit, blijven de schattingen van wat een zeer grote database vormt groeien. Het is complex om datawarehousesystemen te bouwen en te runnen die steeds groter worden. De hardware- en softwarebronnen die vandaag de dag beschikbaar zijn, staan niet toe om een grote hoeveelheid gegevens online te houden.
- Multimediale gegevens kunnen niet gemakkelijk als tekstgegevens worden gemanipuleerd, terwijl tekstuele informatie kan worden opgehaald door de relationele software die tegenwoordig beschikbaar is. Dit zou een onderzoeksonderwerp kunnen zijn.
Datawarehouse-tools
Er zijn veel Data Warehousing-tools op de markt beschikbaar. Hier zijn enkele van de meest prominente:
1. Mark Logic:
MarkLogic is een handige datawarehousingoplossing die data-integratie eenvoudiger en sneller maakt met behulp van een reeks enterprisefuncties. Deze tool helpt bij het uitvoeren van zeer complexe zoekopdrachten. Het kan verschillende soorten data bevragen, zoals documenten, relaties en metadata.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle is de toonaangevende database in de branche. Het biedt een breed scala aan keuzes aan datawarehouse-oplossingen voor zowel on-premises als in de cloud. Het helpt de klantervaring te optimaliseren door de operationele efficiëntie te verhogen.
https://www.oracle.com/index.html
3. Amazon RoodShift:
Amazon Redshift is een Datawarehouse-tool. Het is een eenvoudige en kosteneffectieve tool om alle soorten data te analyseren met behulp van standaard SQL en bestaande BI-tools. Het maakt het ook mogelijk om complexe query's uit te voeren op petabytes aan gestructureerde data, met behulp van de techniek van query-optimalisatie.
https://aws.amazon.com/redshift/?nc2=h_m1
Hier is een volledige lijst met nuttige Datawarehouse-hulpmiddelen.
BELANGRIJKE LESSEN
- Data Warehouse (DWH), ook wel Enterprise Data Warehouse (EDW) genoemd.
- Een datawarehouse wordt gedefinieerd als een centrale opslagplaats waar informatie afkomstig is uit een of meer gegevensbronnen.
- Drie hoofdtypen datawarehouses zijn Enterprise Data Warehouse (EDW), Operaional Data Store en Data Mart.
- De algemene status van een datawarehouse is Offline Operationele database, offline datawarehouse, realtime datawarehouse en geïntegreerd datawarehouse.
- Vier hoofdcomponenten van Datawarehouse zijn Load Manager, Warehouse Manager, Query Manager en tools voor toegang tot eindgebruikers
- Datawarehouse wordt gebruikt in diverse sectoren zoals luchtvaart, bankwezen, gezondheidszorg, verzekeringen, detailhandel enz.
- Het implementeren van Datawarehouse is een 3-voudige strategie, namelijk Enterprise-strategie, gefaseerde levering en iteratieve prototyping.
- Met een datawarehouse hebben zakelijke gebruikers snel toegang tot kritieke gegevens uit bepaalde bronnen, allemaal op één plek.