Vad är Data Warehouse? Typer, definition och exempel
Vad är Data Warehousing?
A Datalagring (DW) är en process för att samla in och hantera data från olika källor för att ge meningsfulla affärsinsikter. Ett datalager används vanligtvis för att ansluta och analysera affärsdata från heterogena källor. Datalagret är kärnan i BI-systemet som är byggt för dataanalys och rapportering.
Det är en blandning av teknologier och komponenter som underlättar den strategiska användningen av data. Det är elektronisk lagring av en stor mängd information av ett företag som är designat för sökning och analys istället för transaktionsbearbetning. Det är en process för att omvandla data till information och göra den tillgänglig för användare i tid för att göra skillnad.
Beslutsstödsdatabasen (Data Warehouse) underhålls separat från organisationens verksamhetsdatabas. Datalagret är dock inte en produkt utan en miljö. Det är en arkitektonisk konstruktion av ett informationssystem som förser användare med aktuell och historisk beslutsstödsinformation som är svår att komma åt eller presentera i det traditionella driftdatalagret.
Ni många vet att en 3NF-designad databas för ett inventeringssystem många har tabeller relaterade till varandra. Till exempel kan en rapport om aktuell lagerinformation innehålla fler än 12 sammanfogade villkor. Detta kan snabbt sakta ner svarstiden för frågan och rapporten. Ett datalager tillhandahåller en ny design som kan hjälpa till att minska svarstiden och hjälpa till att förbättra prestandan för frågor för rapporter och analyser.
Datalagersystemet är också känt under följande namn:
- Decision Support System (DSS)
- Verkställande informationssystem
- Management Information System
- Business Intelligence-lösning
- Analytisk applikation
- Datalager
Historia om Datawarehouse
Datawarehouse gynnar användare att förstå och förbättra deras organisations prestanda. Behovet av att lagra data utvecklades i takt med att datorsystemen blev mer komplexa och behövde hantera ökande mängder information. Data Warehousing är dock inte en ny sak.
Här är några viktiga händelser i utvecklingen av Data Warehouse-
- 1960- Dartmouth och General Mills i ett gemensamt forskningsprojekt utvecklar termerna dimensioner och fakta.
- 1970- A Nielsen och IRI introducerar dimensionella datamars för detaljhandeln.
- 1983- Tera Data Corporation introducerar ett databashanteringssystem som är speciellt utformat för beslutsstöd
- Datalagring startade i slutet av 1980-talet då IBM arbetaren Paul Murphy och Barry Devlin utvecklade Business Data Warehouse.
- Men det verkliga konceptet gavs av Inmon Bill. Han ansågs vara en far till datalager. Han hade skrivit om en mängd olika ämnen för byggnad, användning och underhåll av lagret och Corporate Information Factory.
Hur fungerar Datawarehouse?
Ett Data Warehouse fungerar som ett centralt arkiv där information kommer från en eller flera datakällor. Data flödar in i ett datalager från transaktionssystemet och andra relationsdatabaser.
Data kan vara:
- Strukturerad
- Halvstrukturerad
- Ostrukturerad data
Data bearbetas, transformeras och tas in så att användare kan komma åt den bearbetade datan i Data Warehouse genom Business Intelligence-verktyg, SQL-klienter och kalkylblad. Ett datalager slår samman information som kommer från olika källor till en omfattande databas.
Genom att slå samman all denna information på ett ställe kan en organisation analysera sina kunder mer holistiskt. Detta hjälper till att säkerställa att den har beaktat all tillgänglig information. Datalager gör datautvinning möjlig. Data mining letar efter mönster i data som kan leda till högre försäljning och vinster.
Typer av datalager
Tre huvudtyper av datavaruhus (DWH) är:
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) är ett centraliserat lager. Det tillhandahåller beslutsstöd i hela företaget. Det erbjuder ett enhetligt tillvägagångssätt för att organisera och representera data. Det ger också möjlighet att klassificera data efter ämne och ge tillgång enligt dessa indelningar.
2. Operational Data Store:
Operational Data Store, som också kallas ODS, är inget annat än datalagring som krävs när varken Data Warehouse eller OLTP-system stödjer organisationers rapporteringsbehov. I ODS uppdateras Data Warehouse i realtid. Därför är det allmänt föredraget för rutinmässiga aktiviteter som att lagra register över de anställda.
3. Data Mart:
A data mart är en delmängd av datalagret. Den är speciellt utformad för en viss bransch, såsom försäljning, finans, försäljning eller finans. I en oberoende datamart kan data samlas in direkt från källor.
Allmänna stadier av Data Warehouse
Tidigare började organisationer relativt enkelt använda datalager. Men med tiden började mer sofistikerad användning av datalagring.
Följande är allmänna steg för användningen av datalagret (DWH):
Off-line Operationell databas:
I detta skede kopieras data bara från ett operativt system till en annan server. På detta sätt påverkar inte laddning, bearbetning och rapportering av den kopierade datan operativsystemets prestanda.
Offline Data Warehouse:
Data i Datawarehouse uppdateras regelbundet från Operationell databas. Data i Datawarehouse kartläggs och transformeras för att uppfylla Datawarehouse-målen.
Realtidsdatalager:
I detta skede uppdateras datalager närhelst någon transaktion äger rum i den operativa databasen. Till exempel flyg- eller järnvägsbokningssystem.
Integrerat datalager:
I detta skede uppdateras Data Warehouses kontinuerligt när det operativa systemet utför en transaktion. Datawarehouse genererar sedan transaktioner som skickas tillbaka till det operativa systemet.
Komponenter i Data warehouse
Fyra komponenter i Data Warehouses är:
Lasthanterare: Lasthanterare kallas även frontkomponenten. Den utför med alla operationer som är associerade med utvinning och laddning av data till lagret. Dessa operationer inkluderar transformationer för att förbereda data för införande i datalagret.
Lagerchef: Lagerchef utför operationer som är kopplade till hanteringen av data i lagret. Den utför operationer som analys av data för att säkerställa konsistens, skapande av index och vyer, generering av denormalisering och aggregering, transformation och sammanslagning av källdata och arkivering och bakning av data.
Frågehanterare: Frågehanteraren är också känd som backend-komponent. Den utför alla operationer relaterade till hanteringen av användarfrågor. Operationerna för dessa datalagerkomponenter är direkta frågor till lämpliga tabeller för att schemalägga exekvering av frågor.
Verktyg för slutanvändare:
Detta är kategoriserat i fem olika grupper som 1. Datarapportering 2. Frågeverktyg 3. Verktyg för applikationsutveckling 4. EIS-verktyg, 5. OLAP-verktyg och verktyg för datautvinning.
Vem behöver Data warehouse?
DWH (Data warehouse) behövs för alla typer av användare som:
- Beslutsfattare som förlitar sig på massmängd data
- Användare som använder anpassade, komplexa processer för att få information från flera datakällor.
- Det används också av människor som vill ha enkel teknik för att komma åt data
- Det är också viktigt för de människor som vill ha ett systematiskt tillvägagångssätt för att fatta beslut.
- Om användaren vill ha snabba prestanda på en enorm mängd data som är en nödvändighet för rapporter, rutnät eller diagram, då visar Data Warehouse sig användbart.
- Data warehouse är ett första steg Om du vill upptäcka "dolda mönster" av dataflöden och grupperingar.
Vad används ett datalager till?
Här är de vanligaste sektorerna där Data Warehouse används:
Flygbolag:
I Airline-systemet används det för operationsändamål som besättningstilldelning, analyser av ruttlönsamhet, bonusprogram för frekvent flygare, etc.
Bank:
Det används i stor utsträckning inom banksektorn för att effektivt hantera de resurser som finns tillgängliga på skrivbordet. Få banker används också för marknadsundersökningar, resultatanalys av produkten och verksamheten.
Sjukvård:
Sjukvårdssektorn använde också Data Warehouse för att lägga strategi och förutsäga resultat, generera patientbehandlingsrapporter, dela data med anknutna försäkringsbolag, medicinska hjälptjänster etc.
Offentlig sektor:
Inom den offentliga sektorn används data warehouse för underrättelseinsamling. Det hjälper statliga myndigheter att upprätthålla och analysera skatteregister, hälsopolitiska register, för varje individ.
Investerings- och försäkringssektorn:
Inom denna sektor används lagren främst för att analysera datamönster, kundtrender och för att spåra marknadsrörelser.
Behåll kedja:
I detaljhandelskedjor används Data warehouse i stor utsträckning för distribution och marknadsföring. Det hjälper också till att spåra varor, kundköpmönster, kampanjer och används även för att bestämma prispolicy.
Telekommunikation:
Ett datalager används i denna sektor för produktkampanjer, försäljningsbeslut och för att fatta distributionsbeslut.
Besöksnäringen:
Denna industri använder lagertjänster för att designa och uppskatta deras reklam- och marknadsföringskampanjer där de vill rikta in sig på kunder baserat på deras feedback och resemönster.
Steg för att implementera Data Warehouse
Det bästa sättet att ta itu med affärsrisken i samband med en Datawarehouse-implementering är att använda en strategi med tre punkter enligt nedan
- Företagsstrategi: Här identifierar vi teknisk inklusive aktuell arkitektur och verktyg. Vi identifierar också fakta, dimensioner och attribut. Datakartering och transformation godkänns också.
- Fasvis leverans: Datawarehouse-implementering bör stegas utifrån ämnesområden. Relaterade affärsenheter som bokning och fakturering bör först implementeras och sedan integreras med varandra.
- Iterativ prototypframställning: Snarare än en big bang-strategi för implementering, bör Datawarehouse utvecklas och testas iterativt.
Här är viktiga steg i implementeringen av Datawarehouse tillsammans med dess leveranser.
Steg | Uppgifter | Deliverables |
---|---|---|
1 | Behöver definiera projektets omfattning | Omfattning Definition |
2 | Behöver bestämma affärsbehov | Logisk datamodell |
3 | definiera Operadatalagringskrav | Operationell datalagringsmodell |
4 | Skaffa eller utveckla extraktionsverktyg | Extrahera verktyg och programvara |
5 | Definiera Data Warehouse Datakrav | Övergångsdatamodell |
6 | Dokument saknade data | Att göra projektlista |
7 | kartor Operational Data Store till Data Warehouse | D/W Data Integration Map |
8 | Utveckla Data Warehouse Databas design | D/W Databasdesign |
9 | Extrahera data från Operational Data Store | Integrerade D/W-dataextrakt |
10 | Ladda Data Warehouse | Initial dataladdning |
11 | Underhålla Data Warehouse | Pågående dataåtkomst och efterföljande laddningar |
Bästa metoder för att implementera ett Data Warehouse
- Bestäm en plan för att testa konsistensen, noggrannheten och integriteten hos data.
- Datalagret ska vara väl integrerat, väldefinierat och tidsstämplat.
- När du designar Datawarehouse se till att du använder rätt verktyg, håll dig till livscykeln, ta hand om datakonflikter och redo att lära dig att du är dina misstag.
- Byt aldrig ut operativa system och rapporter
- Lägg inte för mycket tid på att extrahera, rengöra och ladda data.
- Se till att involvera alla intressenter inklusive affärspersonal i implementeringsprocessen för Datawarehouse. Fastställ att Data warehousing är ett gemensamt/teamprojekt. Du vill inte skapa ett datalager som inte är användbart för slutanvändarna.
- Förbered en utbildningsplan för slutanvändarna.
Varför behöver vi Data Warehouse? Fördelar & nackdelar
Fördelar med Data Warehouse (DWH):
- Data warehouse tillåter företagsanvändare att snabbt komma åt kritisk data från vissa källor på ett och samma ställe.
- Data warehouse ger konsekvent information om olika tvärfunktionella aktiviteter. Det stöder även ad hoc-rapportering och förfrågningar.
- Data Warehouse hjälper till att integrera många datakällor för att minska stressen på produktionssystemet.
- Data warehouse hjälper till att minska den totala handläggningstiden för analys och rapportering.
- Omstrukturering och integration gör det lättare för användaren att använda för rapportering och analys.
- Data warehouse tillåter användare att komma åt kritisk data från antalet källor på en enda plats. Därför sparar det användarens tid för att hämta data från flera källor.
- Data warehouse lagrar en stor mängd historisk data. Detta hjälper användare att analysera olika tidsperioder och trender för att göra framtida förutsägelser.
Nackdelar med Data Warehouse:
- Inte ett idealiskt alternativ för ostrukturerad data.
- Skapande och implementering av Data Warehouse är verkligen en tidsförvirrande affär.
- Data Warehouse kan föråldras relativt snabbt
- Svårt att göra ändringar i datatyper och intervall, datakällschema, index och frågor.
- Datalagret kan verka enkelt, men faktiskt är det för komplicerat för de genomsnittliga användarna.
- Trots bästa ansträngningar för projektledning kommer projektomfattningen för datalager alltid att öka.
- Ibland kommer lageranvändare att utveckla olika affärsregler.
- Organisationer behöver spendera mycket av sina resurser för utbildnings- och implementeringssyfte.
Framtiden för datalager
- Förändring i Regulatoriska begränsningar kan begränsa möjligheten att kombinera källor till olika data. Dessa olika källor kan innehålla ostrukturerad data som är svår att lagra.
- Som Storlek av databaserna växer fortsätter uppskattningarna av vad som utgör en mycket stor databas att växa. Det är komplext att bygga och driva datalagersystem som hela tiden ökar i storlek. De hård- och mjukvaruresurser som finns tillgängliga idag tillåter inte att hålla en stor mängd data online.
- Multimediadata kan inte enkelt manipuleras som textdata, medan textinformation kan hämtas med den relationsprogramvara som finns tillgänglig idag. Detta kan vara ett forskningsämne.
Data Warehouse-verktyg
Det finns många Data Warehousing-verktyg på marknaden. Här är några av de mest framträdande:
1. MarkLogic:
MarkLogic är användbar datalagerlösning som gör dataintegration enklare och snabbare med hjälp av en rad företagsfunktioner. Detta verktyg hjälper till att utföra mycket komplexa sökoperationer. Det kan fråga olika typer av data som dokument, relationer och metadata.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle är den branschledande databasen. Det erbjuder ett brett utbud av datalagerlösningar för både lokalt och i molnet. Det hjälper till att optimera kundupplevelsen genom att öka den operativa effektiviteten.
https://www.oracle.com/index.html
3. Amazon RötShift:
Amazon Redshift är ett datalagerverktyg. Det är ett enkelt och kostnadseffektivt verktyg för att analysera alla typer av data med hjälp av standard SQL och befintliga BI-verktyg. Det tillåter också att köra komplexa frågor mot petabyte av strukturerad data, med tekniken för frågeoptimering.
https://aws.amazon.com/redshift/?nc2=h_m1
Här är en komplett lista med användbara Datawarehouse-verktyg.
NYCKEL LÄRA
- Data Warehouse (DWH), är också känt som ett Enterprise Data Warehouse (EDW).
- Ett datalager definieras som ett centralt arkiv där information kommer från en eller flera datakällor.
- Tre huvudtyper av datalager är Enterprise Data Warehouse (EDW), Operational Data Store och Data Mart.
- Det allmänna tillståndet för ett datawarehouse är offline Operational Database, Offline Data Warehouse, Realtime Data Warehouse och Integrated Data Warehouse.
- Fyra huvudkomponenter i Datawarehouse är Load Manager, Warehouse Manager, Query Manager, Slutanvändaråtkomstverktyg
- Datawarehouse används i olika branscher som flygbolag, bank, sjukvård, försäkring, detaljhandel etc.
- Att implementera Datawarehosue är en strategi med tre ben, dvs. Företagsstrategi, Fasad leverans och Iterativ Prototyping.
- Data warehouse tillåter företagsanvändare att snabbt komma åt kritisk data från vissa källor på ett och samma ställe.