Hvad er Data Warehouse? Typer, definition og eksempel
Hvad er data warehousing?
A Datavarehousing (DW) er proces til at indsamle og administrere data fra forskellige kilder for at give meningsfuld forretningsindsigt. Et datavarehus bruges typisk til at forbinde og analysere forretningsdata fra heterogene kilder. Datavarehuset er kernen i BI-systemet som er bygget til dataanalyse og rapportering.
Det er en blanding af teknologier og komponenter, som hjælper den strategiske brug af data. Det er elektronisk lagring af en stor mængde information af en virksomhed, som er designet til forespørgsel og analyse i stedet for transaktionsbehandling. Det er en proces med at omdanne data til information og gøre den tilgængelig for brugerne rettidigt for at gøre en forskel.
Beslutningsstøttedatabasen (Data Warehouse) vedligeholdes adskilt fra organisationens driftsdatabase. Datavarehuset er dog ikke et produkt, men et miljø. Det er en arkitektonisk konstruktion af et informationssystem, som giver brugerne aktuel og historisk beslutningsstøtteinformation, som er svær at få adgang til eller præsentere i det traditionelle driftsdatalager.
Mange ved, at en 3NF-designet database til et lagersystem, har mange tabeller relateret til hinanden. For eksempel kan en rapport om aktuelle lageroplysninger omfatte mere end 12 sammenlagte forhold. Dette kan hurtigt sænke responstiden for forespørgslen og rapporten. Et datavarehus giver et nyt design, som kan hjælpe med at reducere responstiden og hjælper med at forbedre ydelsen af forespørgsler til rapporter og analyser.
Data warehouse system er også kendt under følgende navn:
- Decision Support System (DSS)
- Executive Information System
- Management Information System
- Business Intelligence-løsning
- Analytisk applikation
- Data varehus
Datawarehouses historie
Datawarehouse gavner brugerne til at forstå og forbedre deres organisations ydeevne. Behovet for at lagre data udviklede sig, efterhånden som computersystemer blev mere komplekse og nødvendige for at håndtere stigende mængder af information. Data warehousing er dog ikke en ny ting.
Her er nogle nøglebegivenheder i udviklingen af Data Warehouse-
- 1960- Dartmouth og General Mills i et fælles forskningsprojekt udvikler begreberne dimensioner og fakta.
- 1970- A Nielsen og IRI introducerer dimensionelle data marts til detailsalg.
- 1983- Tera Data Corporation introducerer et databasestyringssystem, som er specielt designet til beslutningsstøtte
- Data warehousing startede i slutningen af 1980'erne, da IBM arbejder Paul Murphy og Barry Devlin udviklede Business Data Warehouse.
- Men det rigtige koncept blev givet af Inmon Bill. Han blev betragtet som en far til data warehouse. Han havde skrevet om en række emner for bygning, brug og vedligeholdelse af lageret og Corporate Information Factory.
Hvordan fungerer Datawarehouse?
Et datavarehus fungerer som et centralt lager, hvor information kommer fra en eller flere datakilder. Data flyder ind i et datavarehus fra transaktionssystemet og andre relationelle databaser.
Data kan være:
- Struktureret
- Halvstruktureret
- Ustrukturerede data
Dataene behandles, transformeres og optages, så brugerne kan få adgang til de behandlede data i datavarehuset gennem Business Intelligence-værktøjer, SQL-klienter og regneark. Et datavarehus samler information, der kommer fra forskellige kilder, til én omfattende database.
Ved at samle alle disse oplysninger ét sted kan en organisation analysere sine kunder mere holistisk. Dette er med til at sikre, at den har overvejet alle tilgængelige oplysninger. Data warehousing gør data mining muligt. Data mining leder efter mønstre i dataene, der kan føre til højere salg og fortjeneste.
Typer af datavarehus
Tre hovedtyper af datavarehuse (DWH) er:
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) er et centraliseret lager. Det giver beslutningsstøtte på tværs af virksomheden. Det tilbyder en samlet tilgang til organisering og repræsentation af data. Det giver også mulighed for at klassificere data efter emnet og give adgang i henhold til disse opdelinger.
2. Operanationalt datalager:
Operational Data Store, som også kaldes ODS, er intet andet end datalager påkrævet, når hverken datavarehus eller OLTP-systemer understøtter organisationers rapporteringsbehov. I ODS opdateres Data warehouse i realtid. Derfor er det almindeligt foretrukket til rutinemæssige aktiviteter som lagring af optegnelser over medarbejderne.
3. Data Mart:
A datamart er en delmængde af datavarehuset. Det er specielt designet til en bestemt branche, såsom salg, finans, salg eller finans. I en uafhængig datamart kan data indsamles direkte fra kilder.
Generelle stadier af Data Warehouse
Tidligere startede organisationer relativt simpel brug af data warehousing. Men med tiden begyndte mere sofistikeret brug af data warehousing.
Følgende er generelle trin i brugen af datavarehuset (DWH):
Offline Operanational database:
I dette trin kopieres data blot fra et operationelt system til en anden server. På denne måde påvirker indlæsning, behandling og rapportering af de kopierede data ikke driftssystemets ydeevne.
Offline datavarehus:
Data i Datawarehouse opdateres løbende fra Operanational database. Dataene i Datawarehouse kortlægges og transformeres for at opfylde Datawarehouse-målene.
Datavarehus i realtid:
I denne fase opdateres datavarehuse, hver gang en transaktion finder sted i den operationelle database. For eksempel flyselskab eller jernbane booking system.
Integreret datavarehus:
I denne fase opdateres datavarehuse løbende, når det operationelle system udfører en transaktion. Datawarehouse genererer derefter transaktioner, som sendes tilbage til det operationelle system.
Komponenter i datavarehus
Fire komponenter i datavarehuse er:
Belastningsmanager: Load manager kaldes også frontkomponenten. Den udfører alle de operationer, der er forbundet med udtrækning og indlæsning af data til lageret. Disse operationer omfatter transformationer for at forberede dataene til indtastning i datavarehuset.
Lagerchefen: Lagerchef udfører operationer i forbindelse med håndteringen af dataene på lageret. Den udfører operationer som analyse af data for at sikre konsistens, oprettelse af indekser og visninger, generering af denormalisering og aggregeringer, transformation og sammenlægning af kildedata og arkivering og bagning af data.
Query Manager: Forespørgselsmanager er også kendt som backend-komponent. Den udfører alle operationer relateret til håndtering af brugerforespørgsler. Operationerne af disse datavarehuskomponenter er direkte forespørgsler til de relevante tabeller til planlægning af udførelsen af forespørgsler.
Værktøjer til slutbrugeradgang:
Dette er kategoriseret i fem forskellige grupper som 1. Datarapportering 2. Forespørgselsværktøjer 3. Applikationsudviklingsværktøjer 4. EIS-værktøjer, 5. OLAP-værktøjer og data mining værktøjer.
Hvem har brug for datavarehus?
DWH (Data warehouse) er nødvendig for alle typer brugere som:
- Beslutningstagere, der stoler på en masse data
- Brugere, der bruger tilpassede, komplekse processer til at indhente information fra flere datakilder.
- Det bruges også af de mennesker, der ønsker enkel teknologi til at få adgang til dataene
- Det er også vigtigt for de mennesker, der ønsker en systematisk tilgang til at træffe beslutninger.
- Hvis brugeren ønsker hurtig ydeevne på en enorm mængde data, som er en nødvendighed for rapporter, gitter eller diagrammer, så viser Data warehouse sig nyttig.
- Data warehouse er et første skridt Hvis du ønsker at opdage 'skjulte mønstre' af data-flows og grupperinger.
Hvad bruges et datavarehus til?
Her er de mest almindelige sektorer, hvor datavarehus bruges:
Flyselskab:
I Airline-systemet bruges det til operationsformål som besætningstildeling, analyser af ruterentabilitet, kampagner for hyppige flyvere osv.
Banker:
Det bruges i vid udstrækning i banksektoren til effektivt at administrere de tilgængelige ressourcer på skrivebordet. Få banker også brugt til markedsundersøgelser, præstationsanalyse af produktet og operationer.
Healthcare:
Sundhedssektoren brugte også datavarehus til at strategisere og forudsige resultater, generere patientbehandlingsrapporter, dele data med tilknyttede forsikringsselskaber, medicinske hjælpetjenester osv.
Offentlige sektor:
I den offentlige sektor bruges data warehouse til efterretningsindsamling. Det hjælper offentlige myndigheder med at vedligeholde og analysere skatteregistre, sundhedspolitiske optegnelser, for hver enkelt person.
Investerings- og forsikringssektoren:
I denne sektor bruges lagrene primært til at analysere datamønstre, kundetendenser og til at spore markedsbevægelser.
Fasthold kæde:
I detailkæder er Data warehouse meget brugt til distribution og markedsføring. Det hjælper også med at spore varer, kundekøbsmønster, kampagner og bruges også til at bestemme prispolitik.
Telekommunikation:
Et datavarehus bruges i denne sektor til produktpromoveringer, salgsbeslutninger og til at træffe distributionsbeslutninger.
Gæstfrihedsbranche:
Denne industri bruger lagertjenester til at designe og estimere deres reklame- og salgsfremmende kampagner, hvor de ønsker at målrette kunder baseret på deres feedback og rejsemønstre.
Trin til implementering af Data Warehouse
Den bedste måde at håndtere forretningsrisikoen forbundet med en Datawarehouse-implementering på er at anvende en trestrenget strategi som nedenfor
- Virksomhedsstrategi: Her identificerer vi teknisk inklusive nuværende arkitektur og værktøjer. Vi identificerer også fakta, dimensioner og egenskaber. Datakortlægning og transformation er også bestået.
- Etapevis levering: Datawarehouse-implementering bør fases ud fra emneområder. Relaterede forretningsenheder som booking og fakturering bør først implementeres og derefter integreres med hinanden.
- Iterativ prototyping: I stedet for en big bang-tilgang til implementering, bør Datawarehouse udvikles og testes iterativt.
Her er nøgletrin i Datawarehouse-implementering sammen med dets leverancer.
Trin | Opgaver | Leverancer |
---|---|---|
1 | Behov for at definere projektets omfang | Definition af omfang |
2 | Behov for at bestemme forretningsbehov | Logisk datamodel |
3 | Definere Operanationale datastore krav | Operational Data Store Model |
4 | Anskaffe eller udvikle ekstraktionsværktøjer | Udpak værktøjer og software |
5 | Definer datavarehusdatakrav | Overgangsdatamodel |
6 | Dokumenter manglende data | To Do-projektliste |
7 | Maps Operational Data Store til Data Warehouse | D/W Data Integration Map |
8 | Udvikle Data Warehouse Database design | D/W Database Design |
9 | Uddrag data fra Operanationalt datalager | Integrerede D/W-dataekstrakter |
10 | Indlæs datavarehus | Indledende dataindlæsning |
11 | Vedligeholde datavarehus | Løbende dataadgang og efterfølgende belastninger |
Bedste praktiserer at implementere et datavarehus
- Beslut en plan for at teste dataenes konsistens, nøjagtighed og integritet.
- Datavarehuset skal være velintegreret, veldefineret og tidsstemplet.
- Mens du designer Datawarehouse, skal du sørge for at bruge det rigtige værktøj, holde dig til livscyklus, passe på datakonflikter og klar til at lære, at du er dine fejl.
- Udskift aldrig driftssystemer og rapporter
- Brug ikke for meget tid på at udtrække, rense og indlæse data.
- Sørg for at involvere alle interessenter inklusive forretningspersonale i Datawarehouse implementeringsprocessen. Fastslå, at Datawarehousing er et fælles-/teamprojekt. Du ønsker ikke at oprette et datavarehus, der ikke er nyttigt for slutbrugerne.
- Udarbejd en træningsplan for slutbrugerne.
Hvorfor har vi brug for Data Warehouse? Fordele ulemper
Fordele ved Data Warehouse (DWH):
- Datawarehouse giver forretningsbrugere mulighed for hurtigt at få adgang til kritiske data fra nogle kilder på ét sted.
- Data warehouse giver ensartet information om forskellige tværfunktionelle aktiviteter. Det understøtter også ad hoc-rapportering og forespørgsler.
- Data Warehouse hjælper med at integrere mange datakilder for at reducere stress på produktionssystemet.
- Data warehouse hjælper med at reducere den samlede ekspeditionstid for analyse og rapportering.
- Omstrukturering og integration gør det nemmere for brugeren at bruge til rapportering og analyse.
- Data warehouse giver brugerne adgang til kritiske data fra antallet af kilder på et enkelt sted. Derfor sparer det brugerens tid til at hente data fra flere kilder.
- Data warehouse gemmer en stor mængde historiske data. Dette hjælper brugerne med at analysere forskellige tidsperioder og tendenser for at lave fremtidige forudsigelser.
Ulemper ved Data Warehouse:
- Ikke en ideel mulighed for ustrukturerede data.
- Oprettelse og implementering af Data Warehouse er helt sikkert en tidsforvirrende affære.
- Data Warehouse kan relativt hurtigt forældes
- Svært at foretage ændringer i datatyper og områder, datakildeskema, indekser og forespørgsler.
- Datavarehuset kan virke nemt, men faktisk er det for komplekst for de gennemsnitlige brugere.
- På trods af den bedste indsats inden for projektledelse vil omfanget af data warehousing-projekter altid øges.
- Nogle gange vil lagerbrugere udvikle forskellige forretningsregler.
- Organisationer skal bruge mange af deres ressourcer til træning og implementeringsformål.
Fremtiden for data warehousing
- Ændring i Regulatoriske begrænsninger kan begrænse muligheden for at kombinere kilde til forskellige data. Disse forskellige kilder kan omfatte ustrukturerede data, som er svære at gemme.
- Som størrelse af databaserne vokser, bliver estimaterne for, hvad der udgør en meget stor database, med at vokse. Det er komplekst at bygge og drive datavarehussystemer, som altid er stigende i størrelse. De hardware- og softwareressourcer, der er tilgængelige i dag, tillader ikke at holde en stor mængde data online.
- Multimediedata kan ikke let manipuleres som tekstdata, hvorimod tekstinformation kan hentes af den relationelle software, der er tilgængelig i dag. Dette kunne være et forskningsemne.
Værktøjer til datavarehus
Der er mange data warehousing værktøjer er tilgængelige på markedet. Her er nogle af de mest fremtrædende:
1. MarkLogic:
MarkLogic er en nyttig data warehousing-løsning, der gør dataintegration nemmere og hurtigere ved hjælp af en række virksomhedsfunktioner. Dette værktøj hjælper med at udføre meget komplekse søgeoperationer. Det kan forespørge på forskellige typer data som dokumenter, relationer og metadata.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle er den brancheførende database. Det tilbyder en bred vifte af udvalg af data warehouse-løsninger til både on-premises og i skyen. Det er med til at optimere kundeoplevelsen ved at øge den operationelle effektivitet.
https://www.oracle.com/index.html
3. Amazon RødShift:
Amazon Redshift er datavarehusværktøj. Det er et enkelt og omkostningseffektivt værktøj til at analysere alle typer data ved hjælp af standard SQL og eksisterende BI-værktøjer. Det tillader også at køre komplekse forespørgsler mod petabytes af strukturerede data ved hjælp af teknikken til forespørgselsoptimering.
https://aws.amazon.com/redshift/?nc2=h_m1
Her er en komplet liste over nyttige Datawarehouse værktøjer.
NØGLELÆRING
- Data Warehouse (DWH), er også kendt som et Enterprise Data Warehouse (EDW).
- Et datavarehus er defineret som et centralt lager, hvor information kommer fra en eller flere datakilder.
- Tre hovedtyper af datavarehuse er Enterprise Data Warehouse (EDW), Operational Data Store og Data Mart.
- Generel tilstand for et datawarehouse er offline Operational Database, Offline Data Warehouse, Realtime Data Warehouse og Integreret Data Warehouse.
- Fire hovedkomponenter i Datawarehouse er Load Manager, Warehouse Manager, Query Manager, Slutbruger adgangsværktøjer
- Datawarehouse bruges i forskellige brancher som flyselskab, bank, sundhedspleje, forsikring, detailhandel osv.
- Implementering af Datawarehosue er en 3-benet strategi, dvs. Enterprise strategi, Phased delivery og Iterative Prototyping.
- Datawarehouse giver forretningsbrugere mulighed for hurtigt at få adgang til kritiske data fra nogle kilder på ét sted.