Hvad er Data Mart i Data Warehouse? Typer og eksempler
Hvad er Data Mart?
A Data Mart er fokuseret på et enkelt funktionsområde i en organisation og indeholder en delmængde af data, der er gemt i et datavarehus. En Data Mart er en komprimeret version af Data Warehouse og er designet til brug af en specifik afdeling, enhed eller sæt af brugere i en organisation. Fx Marketing, Salg, HR eller økonomi. Det styres ofte af en enkelt afdeling i en organisation.
Data Mart trækker normalt data fra kun få kilder sammenlignet med et datavarehus. Data marts er små i størrelse og er mere fleksible sammenlignet med et datawarehouse.
Hvorfor har vi brug for Data Mart?
- Data Mart hjælper med at forbedre brugerens responstid på grund af reduktion i datamængde
- Det giver nem adgang til ofte efterspurgte data.
- Datamart er nemmere at implementere sammenlignet med virksomhedens Datawarehouse. Samtidig er omkostningerne ved at implementere Data Mart bestemt lavere sammenlignet med implementering af et komplet datavarehus.
- Sammenlignet med Data Warehouse er en datamart agil. I tilfælde af ændring i model kan datamart bygges hurtigere på grund af en mindre størrelse.
- En Datamart er defineret af en enkelt fagekspert. Tværtimod er data warehouse defineret af tværfaglige SMV fra en række forskellige domæner. Derfor er Data Mart mere åben for forandring sammenlignet med Datawarehouse.
- Data er opdelt og tillader meget detaljerede adgangskontrolprivilegier.
- Data kan segmenteres og lagres på forskellige hardware/software platforme.
Typer af Data Mart
Der er tre hovedtyper af datamart:
- Afhængig: Afhængige data marts skabes ved at trække data direkte fra operationelle, eksterne eller begge kilder.
- Independent: Uafhængig datamart oprettes uden brug af et centralt datavarehus.
- Hybrid: Denne type data marts kan tage data fra datavarehuse eller driftssystemer.
Afhængig Data Mart
En afhængig datamart gør det muligt at hente organisationens data fra et enkelt datavarehus. Det er et af datamart-eksemplerne, som giver fordelen ved centralisering. Hvis du skal udvikle et eller flere fysiske data marts, så skal du konfigurere dem som afhængige data marts.
Afhængig Data Mart i data warehouse kan bygges på to forskellige måder. Enten hvor en bruger kan få adgang til både datamart og data warehouse, afhængigt af behov, eller hvor adgang kun er begrænset til data mart. Den anden tilgang er ikke optimal, da den producerer nogle gange kaldet en dataskrammelgård. I datajunkyard begynder alle data med en fælles kilde, men de bliver skrottet og for det meste junket.
Independent Data Mart
En uafhængig datamart oprettes uden brug af centralt datavarehus. Denne form for Data Mart er en ideel mulighed for mindre grupper i en organisation.
Et uafhængigt datamarked har hverken et forhold til virksomhedens datavarehus eller til noget andet datamarked. I Independent data mart indlæses dataene separat, og dets analyser udføres også autonomt.
Implementering af uafhængige datamarts er i modsætning til motivationen for at bygge et datavarehus. Først og fremmest har du brug for et konsistent, centraliseret lager af virksomhedsdata, som kan analyseres af flere brugere med forskellige interesser, som ønsker vidt forskellig information.
Hybrid Data Mart
En hybrid datamart kombinerer input fra kilder bortset fra Data warehouse. Dette kan være nyttigt, når du ønsker ad hoc-integration, f.eks. efter at en ny gruppe eller et nyt produkt er føjet til organisationen.
Det er det bedste datamart-eksempel, der er velegnet til flere databasemiljøer og hurtig implementering for enhver organisation. Det kræver også mindste indsats for at rense data. Hybrid Data mart understøtter også store lagerstrukturer, og den er bedst egnet til fleksible til mindre datacentrerede applikationer.
Trin i implementering af en Datamart
Implementering af en Data Mart er en givende, men kompleks procedure. Her er de detaljerede trin til implementering af en Data Mart:
Design
Design er den første fase af Data Mart-implementering. Den dækker alle opgaverne mellem påbegyndelse af anmodningen om et datamarked til indsamling af information om kravene. Til sidst skaber vi det logiske og fysiske Data Mart design.
Designtrinnet involverer følgende opgaver:
- Indsamling af forretningsmæssige og tekniske krav og identifikation af datakilder.
- Valg af det relevante undersæt af data.
- Design af den logiske og fysiske struktur af datamarkedet.
Data kan opdeles ud fra følgende kriterier:
- Dato
- Forretningsenhed eller funktionel enhed
- Geografi
- Enhver kombination af ovenstående
Data kan partitioneres på applikations- eller DBMS-niveau. Selvom det anbefales at opdele på applikationsniveau, da det tillader forskellige datamodeller hvert år med ændringen i forretningsmiljøet.
Hvilke produkter og teknologier har du brug for?
En simpel pen og papir ville være tilstrækkeligt. Selvom værktøjer, der hjælper dig med at oprette UML eller ER diagram ville også tilføje metadata til dine logiske og fysiske designs.
Konstruktion
Dette er anden fase af implementeringen. Det involverer at skabe fysisk database og de logiske strukturer.
Dette trin involverer følgende opgaver:
- Implementering af den fysiske database designet i den tidligere fase. For eksempel oprettes databaseskemaobjekter som tabel, indekser, visninger osv..
Hvilke produkter og teknologier har du brug for?
Du har brug for en relationelt databasestyringssystem at konstruere en datamart. RDBMS har adskillige funktioner, der er nødvendige for en Data Marts succes.
- Lagerstyring: En RDBMS gemmer og administrerer dataene for at oprette, tilføje og slette data.
- Hurtig dataadgang: Med en SQL-forespørgsel kan du nemt få adgang til data baseret på bestemte betingelser/filtre.
- Databeskyttelse: RDBMS-systemet tilbyder også en måde at komme sig efter systemfejl, såsom strømsvigt. Det giver også mulighed for at gendanne data fra disse sikkerhedskopier, hvis disken fejler.
- Multiuser support: Datastyringssystemet tilbyder samtidig adgang, muligheden for flere brugere til at få adgang til og ændre data uden at forstyrre eller overskrive ændringer foretaget af en anden bruger.
- Sikkerhed: RDMS-systemet giver også en måde at regulere brugernes adgang til objekter og visse typer operationer.
Befolker
I den tredje fase er data udfyldt i datamarkedet.
Udfyldningstrinnet involverer følgende opgaver:
- Kilde data til måldata Kortlægning
- Udtræk af kildedata
- Rengøring og transformation af data
- Indlæser data i datamart
- Oprettelse og lagring af metadata
Hvilke produkter og teknologier har du brug for?
Du udfører disse befolkningsopgaver ved hjælp af en ETL (Extract Transform Load) værktøj. Dette værktøj giver dig mulighed for at se på datakilderne, udføre kilde-til-mål kortlægning, udtrække data, transformere, rense dem og indlæse dem tilbage i datamarkedet.
I processen opretter værktøjet også nogle metadata, der relaterer til ting som, hvor dataene kom fra, hvor nyere de er, hvilken type ændringer der blev foretaget i dataene, og hvilket niveau af opsummering der blev foretaget.
Adgang
Adgang er et fjerde trin, som involverer at tage dataene i brug: at forespørge på dataene, oprette rapporter, diagrammer og udgive dem. Slutbrugeren sender forespørgsler til databasen og viser resultaterne af forespørgslerne
Adgangstrinnet skal udføre følgende opgaver:
- Opsæt et metalag, der oversætter databasestrukturer og objektnavne til forretningsudtryk. Dette hjælper ikke-tekniske brugere med nemt at få adgang til Data Mart.
- Opsætte og vedligeholde databasestrukturer.
- Opsæt API og grænseflader, hvis det kræves
Hvilke produkter og teknologier har du brug for?
Du kan få adgang til datamart ved hjælp af kommandolinjen eller GUI. GUI foretrækkes, da det nemt kan generere grafer og er brugervenligt i forhold til kommandolinjen.
Håndtering
Dette er det sidste trin i Data Mart-implementeringsprocessen. Dette trin dækker ledelsesopgaver som f.eks.
- Løbende brugeradgangsstyring.
- Systemoptimeringer og finjustering for at opnå den forbedrede ydeevne.
- Tilføjelse og styring af friske data i datamarkedet.
- Planlægning af gendannelsesscenarier og sikring af systemtilgængelighed i tilfælde af, at systemet svigter.
Hvilke produkter og teknologier har du brug for?
Du kan bruge GUI'en eller kommandolinjen til datamart-styring.
Bedste praksis for implementering af Data Marts
Følgende er den bedste praksis, du skal følge, mens du er i Data Mart-implementeringsprocessen:
- Kilden til en Data Mart bør være afdelingsstruktureret
- Implementeringscyklussen af en Data Mart bør måles i korte perioder, dvs. i uger i stedet for måneder eller år.
- Det er vigtigt at involvere alle interessenter i planlægnings- og designfasen, da implementeringen af datamart kan være kompleks.
- Data Mart Hardware/Software, Netværk og Implementeringsomkostninger bør budgetteres nøjagtigt i din plan
- Selvom datamart er oprettet på den samme hardware, kan de have brug for noget andet software til at håndtere brugerforespørgsler. Yderligere krav til processorkraft og disklager bør evalueres for hurtig brugerrespons
- Et datamarked kan være på et andet sted end datavarehuset. Derfor er det vigtigt at sikre, at de har tilstrækkelig netværkskapacitet til at håndtere de datamængder, der er nødvendige for at overføre data til datamarkedet.
- Implementeringsomkostninger bør budgettere den tid, det tager for Datamart-indlæsningsprocessen. Belastningstiden stiger med stigningen i kompleksiteten af transformationerne.
Fordele og ulemper ved en Data Mart
Fordele
- Data marts indeholder en delmængde af organisationsdækkende data. Disse data er værdifulde for en bestemt gruppe mennesker i en organisation.
- Det er omkostningseffektive alternativer til en datalager, hvilket kan tage høje omkostninger at bygge.
- Data Mart giver hurtigere adgang til data.
- Data Mart er nem at bruge, da den er specielt designet til brugernes behov. Således kan et datamarked accelerere forretningsprocesser.
- Data Marts har brug for mindre implementeringstid sammenlignet med Data Warehouse-systemer. Det er hurtigere at implementere Data Mart, da du kun behøver at koncentrere den eneste delmængde af dataene.
- Den indeholder historiske data, som gør det muligt for analytikeren at bestemme datatendenser.
Ulemper
- Mange gange skaber virksomheder for mange uensartede og urelaterede data marts uden den store fordel. Det kan blive en stor forhindring at opretholde.
- Data Mart kan ikke levere i hele virksomheden dataanalyse da deres datasæt er begrænset.
Resumé
- Definer Data Mart: En Data Mart er defineret som en delmængde af Data Warehouse, der er fokuseret på et enkelt funktionelt område i en organisation.
- Data Mart hjælper med at forbedre brugerens responstid på grund af en reduktion i mængden af data.
- Tre typer datamarked er 1) Afhængig 2) Uafhængig 3) Hybrid
- Vigtige implementeringstrin af Data Mart er 1) Design 2) Konstruktion 3 Population 4) Adgang og 5) Administration
- Implementeringscyklussen af en Data Mart bør måles i korte perioder, dvs. i uger i stedet for måneder eller år.
- Data mart er omkostningseffektive alternativer til et datavarehus, som kan tage høje omkostninger at bygge.
- Data Mart kan ikke levere dataanalyse i hele virksomheden, da datasættet er begrænset.