Hva er datavarehus? Typer, definisjon og eksempel

Hva er datavarehus?

A Datavarehus (DW) er en prosess for å samle inn og administrere data fra ulike kilder for å gi meningsfull forretningsinnsikt. Et datavarehus brukes vanligvis til å koble til og analysere forretningsdata fra heterogene kilder. Datavarehuset er kjernen i BI-systemet som er bygget for dataanalyse og rapportering.

Det er en blanding av teknologier og komponenter som hjelper strategisk bruk av data. Det er elektronisk lagring av en stor mengde informasjon av en virksomhet som er designet for spørring og analyse i stedet for transaksjonsbehandling. Det er en prosess for å transformere data til informasjon og gjøre den tilgjengelig for brukere i tide for å gjøre en forskjell.

Beslutningsstøttedatabasen (Data Warehouse) vedlikeholdes separat fra organisasjonens driftsdatabase. Datavarehuset er imidlertid ikke et produkt, men et miljø. Det er en arkitektonisk konstruksjon av et informasjonssystem som gir brukerne gjeldende og historisk beslutningsstøtteinformasjon som er vanskelig å få tilgang til eller presentere i det tradisjonelle driftsdatalageret.

Dere mange vet at en 3NF-designet database for et inventarsystem mange har tabeller relatert til hverandre. For eksempel kan en rapport om gjeldende lagerinformasjon inneholde mer enn 12 sammenslåtte forhold. Dette kan raskt redusere responstiden for spørringen og rapporten. Et datavarehus gir et nytt design som kan bidra til å redusere responstiden og bidra til å forbedre ytelsen til spørringer for rapporter og analyser.

Datavarehussystemet er også kjent under følgende navn:

  • Decision Support System (DSS)
  • Executive Information System
  • Management Information System
  • Business Intelligence-løsning
  • Analytisk applikasjon
  • Datavarehus

Datavarehus

Historien om Datawarehouse

Datawarehouse hjelper brukerne til å forstå og forbedre organisasjonens ytelse. Behovet for å lagre data utviklet seg etter hvert som datasystemer ble mer komplekse og trengte for å håndtere økende informasjonsmengder. Datavarehus er imidlertid ikke en ny ting.

Her er noen viktige hendelser i utviklingen av Data Warehouse-

  • 1960- Dartmouth og General Mills i et felles forskningsprosjekt utvikler begrepene dimensjoner og fakta.
  • 1970- A Nielsen og IRI introduserer dimensjonale datamars for detaljhandel.
  • 1983- Tera Data Corporation introduserer et databasestyringssystem som er spesielt utviklet for beslutningsstøtte
  • Datavarehus startet på slutten av 1980-tallet da IBM arbeider Paul Murphy og Barry Devlin utviklet Business Data Warehouse.
  • Imidlertid ble det virkelige konseptet gitt av Inmon Bill. Han ble ansett som en far til datavarehus. Han hadde skrevet om en rekke emner for bygging, bruk og vedlikehold av lageret og Corporate Information Factory.

Hvordan fungerer Datawarehouse?

Et datavarehus fungerer som et sentralt depot hvor informasjon kommer fra en eller flere datakilder. Data flyter inn i et datavarehus fra transaksjonssystemet og andre relasjonsdatabaser.

Data kan være:

  1. Strukturert
  2. Halvstrukturert
  3. Ustrukturerte data

Dataene behandles, transformeres og inntas slik at brukere kan få tilgang til de behandlede dataene i datavarehuset gjennom Business Intelligence-verktøy, SQL-klienter og regneark. Et datavarehus slår sammen informasjon som kommer fra forskjellige kilder til én omfattende database.

Ved å slå sammen all denne informasjonen på ett sted, kan en organisasjon analysere kundene sine mer helhetlig. Dette bidrar til å sikre at den har vurdert all tilgjengelig informasjon. Datavarehus gjør datautvinning mulig. Data mining leter etter mønstre i dataene som kan føre til høyere salg og fortjeneste.

Typer datavarehus

Tre hovedtyper av datavarehus (DWH) er:

1. Enterprise Data Warehouse (EDW):

Enterprise Data Warehouse (EDW) er et sentralisert lager. Det gir beslutningsstøtte på tvers av bedriften. Det tilbyr en enhetlig tilnærming for organisering og representasjon av data. Det gir også muligheten til å klassifisere data i henhold til emnet og gi tilgang i henhold til disse inndelingene.

2. Operanasjonalt datalager:

Operational Data Store, som også kalles ODS, er ikke noe annet enn datalager som kreves når verken datavarehus eller OLTP-systemer støtter organisasjoners rapporteringsbehov. I ODS oppdateres datavarehus i sanntid. Derfor er det mye foretrukket for rutinemessige aktiviteter som lagring av journaler til de ansatte.

3. Data Mart:

A datamart er en undergruppe av datavarehuset. Den er spesialdesignet for en bestemt bransje, for eksempel salg, finans, salg eller finans. I en uavhengig datamart kan data samles inn direkte fra kilder.

Generelle stadier av Data Warehouse

Tidligere startet organisasjoner relativt enkel bruk av datavarehus. Men over tid begynte mer sofistikert bruk av datavarehus.

Følgende er generelle stadier av bruk av datavarehuset (DWH):

Offline Operanasjonal database:

I dette stadiet blir data bare kopiert fra et operativt system til en annen server. På denne måten påvirker ikke lasting, behandling og rapportering av de kopierte dataene operasjonssystemets ytelse.

Frakoblet datavarehus:

Data i Datavarehuset oppdateres jevnlig fra Operanasjonal database. Dataene i Datawarehouse kartlegges og transformeres for å oppfylle Datawarehouse-målene.

Sanntidsdatavarehus:

I dette stadiet oppdateres datavarehus hver gang en transaksjon finner sted i operativ database. For eksempel fly- eller jernbanebestillingssystem.

Integrert datavarehus:

I dette stadiet oppdateres datavarehus kontinuerlig når operasjonssystemet utfører en transaksjon. Datavarehuset genererer deretter transaksjoner som sendes tilbake til operasjonssystemet.

Komponenter i datavarehus

Fire komponenter i datavarehus er:

Lasteleder: Load manager kalles også frontkomponenten. Den utfører alle operasjonene knyttet til utvinning og lasting av data til lageret. Disse operasjonene inkluderer transformasjoner for å forberede dataene for innføring i datavarehuset.

Butikk sjef: Lagersjef utfører operasjoner knyttet til håndtering av dataene på lageret. Den utfører operasjoner som analyse av data for å sikre konsistens, opprettelse av indekser og visninger, generering av denormalisering og aggregering, transformasjon og sammenslåing av kildedata og arkivering og oppbaking av data.

Query Manager: Query manager er også kjent som backend-komponent. Den utfører alle operasjonsoperasjonene knyttet til administrasjon av brukerforespørsler. Operasjonene til disse datavarehuskomponentene er direkte spørringer til de riktige tabellene for å planlegge utførelse av spørringer.

Verktøy for sluttbrukertilgang:

Dette er kategorisert i fem forskjellige grupper som 1. Datarapportering 2. Spørringsverktøy 3. Applikasjonsutviklingsverktøy 4. EIS-verktøy, 5. OLAP-verktøy og verktøy for datautvinning.

Hvem trenger datavarehus?

DWH (Data warehouse) er nødvendig for alle typer brukere som:

  • Beslutningstakere som er avhengige av massemengde data
  • Brukere som bruker tilpassede, komplekse prosesser for å få informasjon fra flere datakilder.
  • Det brukes også av folk som ønsker enkel teknologi for å få tilgang til dataene
  • Det er også viktig for de menneskene som ønsker en systematisk tilnærming for å ta beslutninger.
  • Hvis brukeren ønsker rask ytelse på en enorm mengde data som er en nødvendighet for rapporter, rutenett eller diagrammer, viser Datavarehus seg nyttig.
  • Datavarehus er et første skritt Hvis du ønsker å oppdage "skjulte mønstre" av dataflyter og grupperinger.

Hva brukes et datavarehus til?

Her er de vanligste sektorene der datavarehus brukes:

Flyselskap:

I Airline-systemet brukes det til operasjonsformål som mannskapstildeling, analyser av rutelønnsomhet, kampanjer for hyppige flyprogrammer, etc.

Banking:

Det er mye brukt i banksektoren for å administrere ressursene som er tilgjengelige på skrivebordet effektivt. Få banker også brukt til markedsundersøkelser, ytelsesanalyse av produktet og driften.

Helsevesen:

Helsesektoren brukte også datavarehus for å strategisere og forutsi utfall, generere pasientbehandlingsrapporter, dele data med tilknyttede forsikringsselskaper, medisinske hjelpetjenester, etc.

Offentlig sektor:

I offentlig sektor brukes datavarehus til etterretningsinnhenting. Den hjelper offentlige etater med å vedlikeholde og analysere skatteregistreringer, helsepolitiske poster, for hver enkelt person.

Investerings- og forsikringssektoren:

I denne sektoren brukes varehusene primært til å analysere datamønstre, kundetrender og til å spore markedsbevegelser.

Hold kjede:

I butikkjeder er Datavarehus mye brukt til distribusjon og markedsføring. Det hjelper også med å spore varer, kundekjøpsmønster, kampanjer og brukes også til å bestemme prispolitikk.

Telekommunikasjon:

Et datavarehus brukes i denne sektoren for produktkampanjer, salgsbeslutninger og for å ta distribusjonsbeslutninger.

Serveringsbransjen:

Denne industrien bruker lagertjenester for å designe og estimere deres reklame- og promoteringskampanjer der de ønsker å målrette kunder basert på deres tilbakemeldinger og reisemønstre.

Trinn for å implementere datavarehus

Den beste måten å håndtere forretningsrisikoen forbundet med en Datawarehouse-implementering på, er å bruke en tredelt strategi som nedenfor

  1. Bedriftsstrategi: Her identifiserer vi teknisk inkludert gjeldende arkitektur og verktøy. Vi identifiserer også fakta, dimensjoner og attributter. Datakartlegging og transformasjon er også bestått.
  2. Etappevis levering: Datavarehusimplementering bør fases ut fra fagområder. Relaterte forretningsenheter som booking og fakturering bør først implementeres og deretter integreres med hverandre.
  3. Iterativ prototyping: I stedet for en big bang-tilnærming til implementering, bør Datawarehouse utvikles og testes iterativt.

Her er nøkkeltrinn i Datawarehouse-implementering sammen med leveransene.

Trinn Oppgaver leveransen
1 Trenger å definere prosjektomfang Definisjon av omfang
2 Behov for å bestemme forretningsbehov Logisk datamodell
3 Definere Operanasjonale datalagerkrav Operanasjonal datalagermodell
4 Anskaffe eller utvikle utvinningsverktøy Pakk ut verktøy og programvare
5 Definer datavarehusdatakrav Overgangsdatamodell
6 Dokumenter manglende data Å gjøre prosjektliste
7 Kart Operational Data Store til Data Warehouse D/W dataintegrasjonskart
8 Utvikle datavarehusdatabasedesign D/W databasedesign
9 Pakk ut data fra Operanasjonalt datalager Integrerte D/W-dataekstrakter
10 Last inn datavarehus Første datainnlasting
11 Vedlikeholde datavarehus Pågående datatilgang og påfølgende belastninger

Beste fremgangsmåter for å implementere et datavarehus

  • Bestem en plan for å teste konsistensen, nøyaktigheten og integriteten til dataene.
  • Datavarehuset skal være godt integrert, godt definert og tidsstemplet.
  • Mens du designer Datawarehouse, sørg for at du bruker riktig verktøy, hold deg til livssyklusen, ta vare på datakonflikter og klar til å lære at du har feil.
  • Bytt aldri ut driftssystemer og rapporter
  • Ikke bruk for mye tid på å trekke ut, rense og laste inn data.
  • Sørg for å involvere alle interessenter, inkludert forretningspersonell, i implementeringsprosessen for Datawarehouse. Fastslå at Datavarehus er et felles-/teamprosjekt. Du vil ikke opprette datavarehus som ikke er nyttig for sluttbrukerne.
  • Utarbeid en opplæringsplan for sluttbrukerne.

Hvorfor trenger vi datavarehus? Fordeler og ulemper

Fordeler med Data Warehouse (DWH):

  • Datavarehus lar bedriftsbrukere raskt få tilgang til kritiske data fra enkelte kilder på ett sted.
  • Datavarehus gir konsistent informasjon om ulike tverrfunksjonelle aktiviteter. Den støtter også ad-hoc-rapportering og spørringer.
  • Data Warehouse hjelper til med å integrere mange datakilder for å redusere stress på produksjonssystemet.
  • Datavarehus bidrar til å redusere total behandlingstid for analyse og rapportering.
  • Restrukturering og integrasjon gjør det enklere for brukeren å bruke til rapportering og analyse.
  • Datavarehus lar brukere få tilgang til kritiske data fra antall kilder på ett enkelt sted. Derfor sparer det brukerens tid for å hente data fra flere kilder.
  • Datavarehus lagrer en stor mengde historiske data. Dette hjelper brukere med å analysere ulike tidsperioder og trender for å lage fremtidige spådommer.

Ulemper med datavarehus:

  • Ikke et ideelt alternativ for ustrukturerte data.
  • Oppretting og implementering av Data Warehouse er sikkert en tidsforvirrende affære.
  • Data Warehouse kan bli utdatert relativt raskt
  • Vanskelig å gjøre endringer i datatyper og områder, datakildeskjema, indekser og spørringer.
  • Datavarehuset kan virke enkelt, men faktisk er det for komplekst for gjennomsnittsbrukerne.
  • Til tross for best innsats innen prosjektledelse, vil omfanget av datavarehusprosjekter alltid øke.
  • Noen ganger vil lagerbrukere utvikle forskjellige forretningsregler.
  • Organisasjoner må bruke mye av ressursene sine til opplæring og implementeringsformål.

Fremtiden for datavarehus

  • Endring i Regulatoriske begrensninger kan begrense muligheten til å kombinere kilde til ulike data. Disse ulike kildene kan inkludere ustrukturerte data som er vanskelige å lagre.
  • Som størrelse av databasene vokser, fortsetter estimatene for hva som utgjør en veldig stor database å vokse. Det er komplisert å bygge og drive datavarehussystemer som stadig øker i størrelse. Maskinvare- og programvareressursene som er tilgjengelige i dag, tillater ikke å holde store mengder data online.
  • Multimediedata kan ikke enkelt manipuleres som tekstdata, mens tekstinformasjon kan hentes frem av den relasjonelle programvaren som er tilgjengelig i dag. Dette kan være et forskningsemne.

Datavarehusverktøy

Det er mange datavarehusverktøy tilgjengelig på markedet. Her er noen av de mest fremtredende:

1. MarkLogic:

MarkLogic er nyttig datavarehusløsning som gjør dataintegrasjon enklere og raskere ved å bruke en rekke bedriftsfunksjoner. Dette verktøyet hjelper deg med å utføre svært komplekse søkeoperasjoner. Den kan søke etter forskjellige typer data som dokumenter, relasjoner og metadata.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle er den bransjeledende databasen. Det tilbyr et bredt utvalg av datavarehusløsninger for både lokalt og i skyen. Det bidrar til å optimalisere kundeopplevelsene ved å øke driftseffektiviteten.

https://www.oracle.com/index.html

3. Amazon RødShift:

Amazon Redshift er datavarehusverktøy. Det er et enkelt og kostnadseffektivt verktøy for å analysere alle typer data ved hjelp av standard SQL og eksisterende BI-verktøy. Den tillater også å kjøre komplekse spørringer mot petabyte med strukturerte data, ved å bruke teknikken for spørringsoptimalisering.

https://aws.amazon.com/redshift/?nc2=h_m1

Her er en komplett liste over nyttige Datavarehusverktøy.

NØKKELLÆRING

  • Data Warehouse (DWH), er også kjent som et Enterprise Data Warehouse (EDW).
  • Et datavarehus er definert som et sentralt depot hvor informasjon kommer fra en eller flere datakilder.
  • Tre hovedtyper av datavarehus er Enterprise Data Warehouse (EDW), Operational Data Store og Data Mart.
  • Den generelle tilstanden til et datavarehus er frakoblet Operational database, offline datavarehus, sanntids datavarehus og integrert datavarehus.
  • Fire hovedkomponenter i Datawarehouse er belastningsbehandler, varehusbehandler, spørringsbehandler og sluttbrukertilgangsverktøy
  • Datawarehouse brukes i forskjellige bransjer som flyselskap, bank, helsevesen, forsikring, detaljhandel etc.
  • Implementering av Datawarehosue er en strategi med tre punkter, nemlig. Bedriftsstrategi, Phased delivery og Iterative Prototyping.
  • Datavarehus lar bedriftsbrukere raskt få tilgang til kritiske data fra enkelte kilder på ett sted.