Datalager Architecture, Komponenter & Diagram Concepts
Datalager Concepts
Grundkonceptet för ett Data Warehouse är att underlätta en enda version av sanningen för ett företag för beslutsfattande och prognoser. Ett datalager är ett informationssystem som innehåller historiska och kommutativa data från enstaka eller flera källor. Datalager Concepts förenkla rapporterings- och analysprocessen för organisationer.
Egenskaper för Data warehouse
Datalager Concepts har följande egenskaper:
- Ämnesinriktad
- Integrerade
- Tidsvariant
- Icke-flyktiga
Ämnesinriktad
Ett datalager är ämnesorienterat då det erbjuder information om ett tema istället för företagens löpande verksamhet. Dessa ämnen kan vara försäljning, marknadsföring, distributioner osv.
Ett datalager fokuserar aldrig på den löpande verksamheten. Istället lade den tonvikt på modellering och analys av data för beslutsfattande. Det ger också en enkel och kortfattad bild av det specifika ämnet genom att exkludera data som inte är till hjälp för att stödja beslutsprocessen.
Integrerade
I Data Warehouse innebär integration upprättandet av en gemensam måttenhet för alla liknande data från den olika databasen. Uppgifterna måste också lagras i Datawarehouse på ett gemensamt och allmänt godtagbart sätt.
Ett datalager utvecklas genom att integrera data från olika källor som en stordator, relationsdatabaser, platta filer etc. Dessutom måste det hålla konsekventa namnkonventioner, format och kodning.
Denna integration hjälper till med effektiv analys av data. Konsekvens i namnkonventioner, attributmått, kodningsstruktur etc. måste säkerställas. Tänk på följande exempel:
I exemplet ovan finns det tre olika applikationer märkta A, B och C. Information som lagras i dessa applikationer är Kön, Datum och Balans. Men varje applikations data lagras på olika sätt.
- I applikation A lagrar könsfält logiska värden som M eller F
- I applikation B är könsfältet ett numeriskt värde,
- I applikation C-applikation, könsfält lagras i form av ett teckenvärde.
- Samma är fallet med Datum och balans
Men efter omvandlingen och rengöringsprocessen lagras all denna data i vanligt format i Datalager.
Tidsvariant
Tidshorisonten för datalager är ganska omfattande jämfört med operativa system. Uppgifterna som samlas in i ett datalager känns igen med en viss period och ger information ur historisk synvinkel. Den innehåller ett element av tid, explicit eller implicit.
En sådan plats där Datawarehouse-data visar tidsvariation finns i strukturen för postnyckeln. Varje primärnyckel som ingår i DW bör ha antingen implicit eller explicit ett tidselement. Som dag, veckomånad osv.
En annan aspekt av tidsvariation är att när data väl har infogats i lagret kan de inte uppdateras eller ändras.
Icke-flyktiga
Datalager är också icke-flyktigt, vilket innebär att tidigare data inte raderas när ny data matas in i den.
Data är skrivskyddad och uppdateras regelbundet. Detta hjälper också till att analysera historisk data och förstå vad och när som hände. Det kräver inte transaktionsprocess, återvinning och samtidighetskontrollmekanismer.
Aktiviteter som ta bort, uppdatera och infoga som utförs i en operativ applikationsmiljö utelämnas i Data Warehouse-miljö. Endast två typer av dataoperationer som utförs i Data Warehousing är
- Laddning av data
- Datatillgång
Här är några stora skillnader mellan Application och Data Warehouse
Operationell tillämpning | Datalager |
---|---|
Komplexa program måste kodas för att säkerställa att datauppgraderingsprocesser bibehåller hög integritet hos slutprodukten. | Den här typen av problem uppstår inte eftersom datauppdatering inte utförs. |
Data placeras i normaliserad form för att säkerställa minimal redundans. | Data lagras inte i normaliserad form. |
Teknik som behövs för att stödja frågor om transaktioner, dataåterställning, återställning och upplösning eftersom dess dödläge är ganska komplext. | Det erbjuder relativ enkelhet i tekniken. |
Datalager Architecture
Datalager Architecture är komplext eftersom det är ett informationssystem som innehåller historiska och kommutativa data från flera källor. Det finns tre tillvägagångssätt för att konstruera Data Warehouse-lager: Single Tier, Two tier och Three tier. Denna 3-lagers arkitektur för Data Warehouse förklaras enligt nedan.
Enskiktsarkitektur
Målet med ett enda lager är att minimera mängden lagrad data. Detta mål är att ta bort dataredundans. Denna arkitektur används inte ofta i praktiken.
Tvåstegsarkitektur
Tvåskiktsarkitektur är ett av Data Warehouse-lagren som separerar fysiskt tillgängliga källor och datalager. Denna arkitektur är inte utbyggbar och stöder inte heller ett stort antal slutanvändare. Den har också anslutningsproblem på grund av nätverksbegränsningar.
Tredelat datalager Architecture
Detta är den mest använda ArchiTecture of Data Warehouse.
Den består av den övre, mitten och nedre nivån.
- Nedre nivå: Databasen för Datawarehouse-servrarna som bottenskiktet. Det är vanligtvis ett relationsdatabassystem. Data rensas, omvandlas och laddas in i detta lager med hjälp av back-end-verktyg.
- Mellannivå: Mellanskiktet i Data Warehouse är en OLAP-server som är implementerad med antingen ROLAP- eller MOLAP-modell. För en användare presenterar denna applikationsnivå en abstrakt vy av databasen. Detta lager fungerar också som en förmedlare mellan slutanvändaren och databasen.
- Toppskiktet: Den översta nivån är ett front-end klientlager. Toppskiktet är verktygen och API:et som du ansluter och får ut data från datalagret. Det kan vara frågeverktyg, rapportverktyg, hanterade frågeverktyg, analysverktyg och datautvinningsverktyg.
Datawarehouse-komponenter
Vi kommer att lära oss om Datawarehouse-komponenterna och ArchiTecture of Data Warehouse med diagram som visas nedan:
Data Warehouse är baserat på en RDBMS-server som är ett centralt informationsarkiv som är omgivet av några viktiga Data Warehousing-komponenter för att göra hela miljön funktionell, hanterbar och tillgänglig.
Det finns huvudsakligen fem Data Warehouse-komponenter:
Data Warehouse Database
Den centrala databasen är grunden för datalagringsmiljön. Denna databas är implementerad på RDBMS teknologi. Även om denna typ av implementering begränsas av det faktum att traditionella RDBMS-system är optimerade för transaktionsdatabasbehandling och inte för datalagring. Till exempel är ad-hoc-frågor, kopplingar till flera tabeller, aggregat resurskrävande och saktar ner prestanda.
Därför används alternativa tillvägagångssätt till databas enligt listan nedan-
- I ett datawarehouse distribueras relationsdatabaser parallellt för att möjliggöra skalbarhet. Parallella relationsdatabaser tillåter också delat minne eller delade ingenting-modeller på olika multiprocessorkonfigurationer eller massivt parallella processorer.
- Nya indexstrukturer används för att kringgå relationstabellskanning och förbättra hastigheten.
- Användning av multidimensionell databas (MDDB) för att övervinna eventuella begränsningar som läggs på grund av de relationella Data Warehouse-modellerna. Exempel: Essbase från Oracle.
Inköps-, förvärvs-, sanerings- och transformationsverktyg (ETL)
Datainsamlings-, transformations- och migreringsverktygen används för att utföra alla konverteringar, sammanfattningar och alla ändringar som behövs för att omvandla data till ett enhetligt format i datawarehouset. De kallas också Extract, Transform and Load (ETL) Tools.
Deras funktionalitet inkluderar:
- Anonymisera data enligt lagstadgade bestämmelser.
- Eliminera oönskad data i operativa databaser från att laddas in i Data Warehouse.
- Sök och ersätt vanliga namn och definitioner för data som kommer från olika källor.
- Beräknar sammanfattningar och härledda data
- Om data saknas, fyll i dem med standardvärden.
- De-duplicerad upprepad data som kommer från flera datakällor.
Dessa extrahera, transformera och ladda verktyg kan generera cron-jobb, bakgrundsjobb, Cobol-program, skalskript, etc. som regelbundet uppdaterar data i datalager. Dessa verktyg är också användbara för att underhålla metadata.
Dessa ETL-verktyg måste hantera utmaningarna med databas- och dataheterogenitet.
metadata
Namnet Meta Data antyder en del teknisk datalager på hög nivå Concepts. Det är dock ganska enkelt. Metadata är data om data som definierar datalagret. Det används för att bygga, underhålla och hantera datalagret.
I Data Warehouse Architecture spelar metadata en viktig roll eftersom den specificerar källan, användningen, värdena och funktionerna för datalagerdata. Den definierar också hur data kan ändras och bearbetas. Det är nära kopplat till datalagret.
Till exempel kan en rad i försäljningsdatabasen innehålla:
4030 KJ732 299.90
Detta är en meningslös data tills vi konsulterar Meta som säger att det var
- Modellnummer: 4030
- Försäljningsagent ID: KJ732
- Totalt försäljningsbelopp på 299.90 USD
Därför är Meta Data viktiga ingredienser i omvandlingen av data till kunskap.
Metadata hjälper till att svara på följande frågor
- Vilka tabeller, attribut och nycklar innehåller Data Warehouse?
- Var kom uppgifterna ifrån?
- Hur många gånger laddas data om?
- Vilka omvandlingar tillämpades med rengöring?
Metadata kan klassificeras i följande kategorier:
- Teknisk metadata: Denna typ av metadata innehåller information om lager som används av datalagerdesigners och administratörer.
- Affärsmetadata: Denna typ av metadata innehåller detaljer som ger slutanvändare ett sätt att enkelt förstå information som lagras i datalagret.
Frågeverktyg
Ett av de primära syftena med datalagring är att tillhandahålla information till företag för att fatta strategiska beslut. Frågeverktyg tillåter användare att interagera med datalagersystemet.
Dessa verktyg delas in i fyra olika kategorier:
- Fråge- och rapporteringsverktyg
- Verktyg för applikationsutveckling
- Datautvinningsverktyg
- OLAP-verktyg
1. Fråge- och rapporteringsverktyg
Fråge- och rapporteringsverktyg kan delas in ytterligare i
- Rapporteringsverktyg
- Hanterade frågeverktyg
Rapporteringsverktyg:
Rapporteringsverktyg kan ytterligare delas in i produktionsrapporteringsverktyg och skrivbordsrapportskrivare.
- Rapportskrivare: Den här typen av rapporteringsverktyg är verktyg utformade för slutanvändare för deras analys.
- Produktionsrapportering: Denna typ av verktyg tillåter organisationer att generera regelbundna verksamhetsrapporter. Den stöder också stora batch-jobb som utskrift och beräkning. Några populära rapporteringsverktyg är Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Hanterade frågeverktyg:
Den här typen av åtkomstverktyg hjälper slutanvändare att lösa problem med databas och SQL och databasstruktur genom att infoga meta-lager mellan användare och databas.
2. Verktyg för applikationsutveckling
Ibland tillfredsställer inte inbyggda grafiska och analytiska verktyg en organisations analytiska behov. I sådana fall utvecklas anpassade rapporter med applikationsutvecklingsverktyg.
3. Datautvinningsverktyg
Datautvinning är en process för att upptäcka meningsfulla nya korrelationer, mönster och trender genom att utvinna stora mängder data. Datautvinningsverktyg används för att göra denna process automatisk.
4. OLAP-verktyg
Dessa verktyg är baserade på koncept för en multidimensionell databas. Det tillåter användare att analysera data med hjälp av utarbetade och komplexa flerdimensionella vyer.
Datalager Buss Architecture
Data warehouse Bus bestämmer flödet av data i ditt lager. Dataflödet i ett datalager kan kategoriseras som Inflöde, Uppflöde, Nedflöde, Utflöde och Metaflöde.
När man designar en databuss måste man ta hänsyn till de delade dimensionerna, fakta över datamarts.
Data Marts
A data mart är ett åtkomstlager som används för att få ut data till användarna. Det presenteras som ett alternativ för stora datalager eftersom det tar mindre tid och pengar att bygga. Det finns dock ingen standarddefinition på att en datamarknad skiljer sig från person till person.
Med ett enkelt ord är Data mart ett dotterbolag till ett datalager. Datamarten används för partitionering av data som skapas för den specifika användargruppen.
Datamars kan skapas i samma databas som Datawarehouse eller en fysiskt separat databas.
Datalager Architecture Best Practices
Att designa Data Warehouse Architecture, måste du följa nedan givna bästa praxis:
- Använd Data Warehouse-modeller som är optimerade för informationshämtning som kan vara dimensionsläge, denormaliserat eller hybridtillvägagångssätt.
- Välj lämplig designmetod som uppifrån och ner och nedifrån och upp i Data Warehouse
- Behöver säkerställa att data behandlas snabbt och korrekt. Samtidigt bör du ta ett tillvägagångssätt som konsoliderar data till en enda version av sanningen.
- Utforma noggrant datainsamlingen och rensningsprocessen för Data Warehouse.
- Designa en MetaData-arkitektur som tillåter delning av metadata mellan komponenter i Data Warehouse
- Överväg att implementera en ODS-modell när informationshämtningsbehovet är nära botten av dataabstraktionspyramiden eller när det finns flera operativa källor som krävs för åtkomst.
- Man bör se till att datamodellen är integrerad och inte bara konsoliderad. I så fall bör du överväga 3NF-datamodellen. Det är också idealiskt för att skaffa ETL- och datarensningsverktyg
Sammanfattning
- Data warehouse är ett informationssystem som innehåller historiska och kommutativa data från enstaka eller flera källor. Dessa källor kan vara traditionellt Data Warehouse, Cloud Data Warehouse eller Virtual Data Warehouse.
- Ett datalager är ämnesorienterat eftersom det erbjuder information om ämne istället för organisationens löpande verksamhet.
- I Data Warehouse innebär integration upprättandet av en gemensam måttenhet för alla liknande data från de olika databaserna
- Datalager är också icke-flyktigt, vilket innebär att tidigare data inte raderas när ny data matas in i den.
- Ett Datawarehouse är tidsvariant eftersom data i en DW har hög hållbarhetstid.
- Det finns huvudsakligen 5 komponenter i Data Warehouse Architecture: 1) Databas 2) ETL-verktyg 3) Metadata 4) Frågeverktyg 5) DataMarts
- Det här är fyra huvudkategorier av frågeverktyg 1. Fråga och rapportering, verktyg 2. Verktyg för applikationsutveckling, 3. Verktyg för datautvinning 4. OLAP-verktyg
- Verktygen för datakälla, transformation och migrering används för att utföra alla konverteringar och sammanställningar.
- I Data Warehouse Architecture spelar metadata en viktig roll eftersom den specificerar källan, användningen, värdena och funktionerna för datalagerdata.