Data varehus Architecture, Components & Diagram Concepts
Data varehus Concepts
Det grundlæggende koncept for et datavarehus er at lette en enkelt version af sandheden for en virksomhed til beslutningstagning og prognoser. Et datavarehus er et informationssystem, der indeholder historiske og kommutative data fra enkelte eller flere kilder. Data varehus Concepts forenkle rapporterings- og analyseprocessen for organisationer.
Karakteristika for datavarehus
Data varehus Concepts har følgende egenskaber:
- Fagorienteret
- Integreret
- Tidsvariant
- Ikke-flygtig
Fagorienteret
Et datavarehus er emneorienteret, da det tilbyder information om et tema i stedet for virksomheders løbende drift. Disse emner kan være salg, marketing, distributioner mv.
Et datavarehus fokuserer aldrig på den løbende drift. I stedet lagde den vægt på modellering og analyse af data for beslutningsprocessen. Det giver også et enkelt og kortfattet overblik over det specifikke emne ved at udelukke data, som ikke hjælper til at understøtte beslutningsprocessen.
Integreret
I Data Warehouse betyder integration etablering af en fælles måleenhed for alle lignende data fra den uens database. Dataene skal også opbevares i Datawarehouse på en fælles og universelt acceptabel måde.
Et datavarehus er udviklet ved at integrere data fra forskellige kilder som en mainframe, relationsdatabaser, flade filer osv. Desuden skal det holde konsekvente navnekonventioner, format og kodning.
Denne integration hjælper med effektiv analyse af data. Konsistens i navnekonventioner, attributmål, kodningsstruktur osv. skal sikres. Overvej følgende eksempel:
I ovenstående eksempel er der tre forskellige applikationer mærket A, B og C. Oplysninger gemt i disse applikationer er Køn, Dato og Balance. Hver applikations data gemmes dog på forskellig måde.
- I applikationen gemmer et kønsfelt logiske værdier som M eller F
- I applikation B er kønsfeltet en numerisk værdi,
- I applikation C-applikation, kønsfelt gemt i form af en tegnværdi.
- Det samme er tilfældet med Dato og balance
Men efter transformation og renseproces gemmes alle disse data i almindeligt format i Data varehus.
Tidsvariant
Tidshorisonten for data warehouse er ret omfattende sammenlignet med driftssystemer. De data, der indsamles i et datavarehus, er genkendt med en bestemt periode og tilbyder information fra et historisk synspunkt. Den indeholder et element af tid, eksplicit eller implicit.
Et sådant sted, hvor Datawarehouse-data viser tidsvariation, er i strukturen af registreringsnøglen. Hver primær nøgle indeholdt i DW'en bør enten implicit eller eksplicit have et tidselement. Som dag, uge måned osv.
Et andet aspekt af tidsvariation er, at når data først er indsat i lageret, kan de ikke opdateres eller ændres.
Ikke-flygtig
Datavarehuset er også ikke-flygtigt, hvilket betyder, at de tidligere data ikke slettes, når nye data indtastes i det.
Data er skrivebeskyttet og opdateres med jævne mellemrum. Dette hjælper også med at analysere historiske data og forstå, hvad og hvornår der skete. Det kræver ikke transaktionsproces, gendannelse og samtidighedskontrolmekanismer.
Aktiviteter som slet, opdatering og indsæt, der udføres i et operationelt applikationsmiljø, udelades i datavarehusmiljøet. Kun to typer datahandlinger, der udføres i Data Warehousing, er
- Dataindlæsning
- Datatilgang
Her er nogle store forskelle mellem Application og Data Warehouse
Operational ansøgning | Data varehus |
---|---|
Komplekse program skal kodes for at sikre, at dataopgraderingsprocesser opretholder høj integritet af det endelige produkt. | Denne form for problemer opstår ikke, fordi dataopdatering ikke udføres. |
Data placeres i en normaliseret form for at sikre minimal redundans. | Data gemmes ikke i normaliseret form. |
Teknologi, der er nødvendig for at understøtte spørgsmål om transaktioner, datagendannelse, rollback og opløsning, da dens dødvande er ret kompleks. | Det giver relativ enkelhed i teknologi. |
Data varehus Architecture
Data varehus Architecture er komplekst, da det er et informationssystem, der indeholder historiske og kommutative data fra flere kilder. Der er 3 tilgange til at konstruere datavarehuslag: Single Tier, Two tier og Three tier. Denne 3-lags arkitektur af Data Warehouse er forklaret som nedenfor.
Single-tier arkitektur
Formålet med et enkelt lag er at minimere mængden af lagrede data. Dette mål er at fjerne dataredundans. Denne arkitektur bruges ikke ofte i praksis.
To-lags arkitektur
To-lags arkitektur er et af datavarehuslagene, som adskiller fysisk tilgængelige kilder og datavarehus. Denne arkitektur kan ikke udvides og understøtter heller ikke et stort antal slutbrugere. Det har også forbindelsesproblemer på grund af netværksbegrænsninger.
Tre-lags datavarehus Architecture
Dette er den mest udbredte ArchiTecture of Data Warehouse.
Den består af Top, Middle og Bottom Tier.
- Nederste niveau: Datawarehouse-servernes database som det nederste niveau. Det er normalt et relationelt databasesystem. Data renses, transformeres og indlæses i dette lag ved hjælp af backend-værktøjer.
- Midterste niveau: Mellemlaget i Datawarehouse er en OLAP-server, som er implementeret ved hjælp af enten ROLAP- eller MOLAP-modellen. For en bruger præsenterer dette applikationsniveau en abstrakt visning af databasen. Dette lag fungerer også som en mediator mellem slutbrugeren og databasen.
- Top klasse: Det øverste niveau er et front-end klientlag. Top tier er de værktøjer og API, som du forbinder og får data ud fra datavarehuset. Det kunne være forespørgselsværktøjer, rapporteringsværktøjer, administrerede forespørgselsværktøjer, analyseværktøjer og dataminingværktøjer.
Datawarehouse komponenter
Vi vil lære om Datawarehouse-komponenterne og ArchiTecture of Data Warehouse med diagram som vist nedenfor:
Data Warehouse er baseret på en RDBMS-server, som er et centralt informationslager, der er omgivet af nogle vigtige Data Warehousing-komponenter for at gøre hele miljøet funktionelt, overskueligt og tilgængeligt.
Der er hovedsageligt fem datavarehuskomponenter:
Data Warehouse Database
Den centrale database er grundlaget for data warehousing-miljøet. Denne database er implementeret på RDBMS teknologi. Selvom denne form for implementering er begrænset af det faktum, at traditionelle RDBMS-system er optimeret til transaktionsdatabasebehandling og ikke til data warehousing. For eksempel er ad-hoc-forespørgsler, multi-table joins, aggregater ressourcekrævende og sænker ydeevnen.
Derfor bruges alternative tilgange til databasen som anført nedenfor-
- I et datawarehouse er relationelle databaser implementeret parallelt for at muliggøre skalerbarhed. Parallelle relationelle databaser tillader også delt hukommelse eller delt intet-model på forskellige multiprocessorkonfigurationer eller massivt parallelle processorer.
- Nye indeksstrukturer bruges til at omgå relationel tabelscanning og forbedre hastigheden.
- Brug af multidimensional database (MDDB'er) til at overvinde eventuelle begrænsninger, der er placeret på grund af de relationelle datavarehusmodeller. Eksempel: Essbase fra Oracle.
Sourcing, Acquisition, Clean-up and Transformation Tools (ETL)
Datakilde-, transformations- og migreringsværktøjerne bruges til at udføre alle de konverteringer, opsummeringer og alle de ændringer, der er nødvendige for at transformere data til et samlet format i datavarehuset. De kaldes også Extract, Transform and Load (ETL) værktøjer.
Deres funktionalitet omfatter:
- Anonymiser data i henhold til lovgivningsmæssige bestemmelser.
- Eliminering af uønskede data i operationelle databaser fra at blive indlæst i datavarehus.
- Søg og erstat almindelige navne og definitioner for data, der kommer fra forskellige kilder.
- Beregning af oversigter og afledte data
- I tilfælde af manglende data skal du udfylde dem med standardindstillinger.
- De-duplikerede gentagne data, der kommer fra flere datakilder.
Disse udtræks-, transformer- og indlæsværktøjer kan generere cron-job, baggrundsjob, Cobol programmer, shell scripts osv., der løbende opdaterer data i data warehouse. Disse værktøjer er også nyttige til at vedligeholde metadataene.
Disse ETL værktøjer skal håndtere udfordringer med database- og dataheterogenitet.
Metadata
Navnet Meta Data antyder noget højniveau teknologisk Data Warehousing Concepts. Det er dog ret simpelt. Metadata er data om data, som definerer datavarehuset. Det bruges til at bygge, vedligeholde og administrere datavarehuset.
I datavarehuset Architecture, spiller metadata en vigtig rolle, da de specificerer kilden, brugen, værdierne og funktionerne i datavarehusdata. Det definerer også, hvordan data kan ændres og behandles. Det er tæt forbundet med datavarehuset.
For eksempel kan en linje i salgsdatabasen indeholde:
4030 KJ732 299.90
Dette er meningsløse data, indtil vi konsulterer den Meta, der fortæller os, at det var
- Model nummer: 4030
- Salgsagent ID: KJ732
- Samlet salgsbeløb på $299.90
Derfor er Meta Data væsentlige ingredienser i transformationen af data til viden.
Metadata hjælper med at besvare følgende spørgsmål
- Hvilke tabeller, attributter og nøgler indeholder datavarehuset?
- Hvor kom dataene fra?
- Hvor mange gange bliver data genindlæst?
- Hvilke transformationer blev anvendt med udrensning?
Metadata kan klassificeres i følgende kategorier:
- Tekniske metadata: Denne type metadata indeholder oplysninger om varehus, som bruges af datavarehusdesignere og administratorer.
- Business Meta Data: Denne form for metadata indeholder detaljer, der giver slutbrugere en måde, der er let at forstå information, der er gemt i datavarehuset.
Forespørgselsværktøjer
Et af de primære formål med data warehousing er at give information til virksomheder for at træffe strategiske beslutninger. Forespørgselsværktøjer giver brugerne mulighed for at interagere med datavarehussystemet.
Disse værktøjer falder i fire forskellige kategorier:
- Forespørgsels- og rapporteringsværktøjer
- Applikationsudviklingsværktøjer
- Data mining værktøjer
- OLAP værktøjer
1. Forespørgsels- og rapporteringsværktøjer
Forespørgsels- og rapporteringsværktøjer kan yderligere opdeles i
- Rapporteringsværktøjer
- Administrerede forespørgselsværktøjer
Rapporteringsværktøjer:
Rapporteringsværktøjer kan yderligere opdeles i produktionsrapporteringsværktøjer og desktop rapportskriver.
- Rapportforfattere: Denne form for rapporteringsværktøj er værktøjer designet til slutbrugere til deres analyse.
- Produktionsrapportering: Denne form for værktøjer giver organisationer mulighed for at generere regelmæssige driftsrapporter. Det understøtter også store batchjob som udskrivning og beregning. Nogle populære rapporteringsværktøjer er Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Administrerede forespørgselsværktøjer:
Denne form for adgangsværktøjer hjælper slutbrugere med at løse problemer i database og SQL og databasestruktur ved at indsætte meta-lag mellem brugere og database.
2. Applikationsudviklingsværktøjer
Nogle gange opfylder indbyggede grafiske og analytiske værktøjer ikke en organisations analytiske behov. I sådanne tilfælde udvikles tilpassede rapporter ved hjælp af applikationsudviklingsværktøjer.
3. Data mining værktøjer
Data mining er en proces til at opdage meningsfuld ny sammenhæng, mønstre og tendenser ved at mine store mængder data. Data mining værktøjer bruges til at gøre denne proces automatisk.
4. OLAP værktøjer
Disse værktøjer er baseret på koncepter i en multidimensionel database. Det giver brugerne mulighed for at analysere dataene ved hjælp af omfattende og komplekse multidimensionelle visninger.
Datavarehus Bus Architecture
Datavarehus Bus bestemmer strømmen af data i dit lager. Dataflowet i et datavarehus kan kategoriseres som Inflow, Upflow, Downflow, Outflow og Metaflow.
Mens man designer en databus, skal man overveje de delte dimensioner, fakta på tværs af data marts.
Data Marts
A datamart er et adgangslag, som bruges til at få data ud til brugerne. Det præsenteres som en mulighed for store datavarehuse, da det tager mindre tid og penge at bygge. Der er dog ingen standarddefinition på, at et datamarked er forskelligt fra person til person.
Med et enkelt ord er Data mart et datterselskab af et datavarehus. Datamarten bruges til opdeling af data, som er oprettet til den specifikke gruppe af brugere.
Data marts kunne oprettes i den samme database som Datawarehouse eller en fysisk separat database.
Datavarehus Architecture Bedste Praksis
At designe Data Warehouse Architecture, skal du følge nedenstående bedste praksis:
- Brug datavarehusmodeller, som er optimeret til informationssøgning, som kan være dimensionstilstand, denormaliseret eller hybrid tilgang.
- Vælg den passende designtilgang som top down og bottom up tilgang i Data Warehouse
- Behov for at sikre, at data behandles hurtigt og præcist. Samtidig bør du tage en tilgang, der konsoliderer data til en enkelt version af sandheden.
- Design omhyggeligt dataopsamlings- og rensningsprocessen for Data warehouse.
- Design en MetaData-arkitektur, som tillader deling af metadata mellem komponenter i Data Warehouse
- Overvej at implementere en ODS-model, når behovet for informationssøgning er tæt på bunden af dataabstraktionspyramiden, eller når der er flere operationelle kilder, der skal tilgås.
- Man bør sikre sig, at datamodellen er integreret og ikke blot konsolideret. I så fald bør du overveje 3NF-datamodel. Den er også ideel til at anskaffe ETL- og datarensningsværktøjer
Resumé
- Data warehouse er et informationssystem, der indeholder historiske og kommutative data fra enkelte eller flere kilder. Disse kilder kan være traditionelt Data Warehouse, Cloud Data Warehouse eller Virtual Data Warehouse.
- Et datavarehus er emneorienteret, da det tilbyder information om emnet i stedet for organisationens løbende drift.
- I Data Warehouse betyder integration etablering af en fælles måleenhed for alle lignende data fra de forskellige databaser
- Datavarehuset er også ikke-flygtigt, hvilket betyder, at de tidligere data ikke slettes, når nye data indtastes i det.
- Et Datawarehouse er tidsvariant, da dataene i en DW har høj holdbarhed.
- Der er hovedsageligt 5 komponenter i Data Warehouse Architecture: 1) Database 2) ETL-værktøjer 3) Metadata 4) Forespørgselsværktøjer 5) DataMarts
- Disse er fire hovedkategorier af forespørgselsværktøjer 1. Forespørgsel og rapportering, værktøjer 2. Applikationsudviklingsværktøjer, 3. Data mining-værktøjer 4. OLAP-værktøjer
- Værktøjerne til datakilde, transformation og migrering bruges til at udføre alle konverteringer og opsummeringer.
- I datavarehuset Architecture, spiller metadata en vigtig rolle, da de specificerer kilden, brugen, værdierne og funktionerne i datavarehusdata.