Što je Data Warehouse? Vrste, definicija i primjer
Što je skladište podataka?
A Skladištenje podataka (DW) je proces za prikupljanje i upravljanje podacima iz različitih izvora kako bi se pružili smisleni poslovni uvidi. Skladište podataka obično se koristi za povezivanje i analizu poslovnih podataka iz heterogenih izvora. Skladište podataka je srž BI sustava koja je izgrađena za analizu podataka i izvješćivanje.
To je mješavina tehnologija i komponenti koje pomažu stratešku upotrebu podataka. To je elektronička pohrana velike količine informacija od strane tvrtke koja je dizajnirana za upite i analizu umjesto za obradu transakcija. To je proces pretvaranja podataka u informaciju i pravovremenog stavljanja na raspolaganje korisnicima kako bi napravili razliku.
Baza podataka za podršku odlučivanju (Data Warehouse) održava se odvojeno od operativne baze podataka organizacije. Međutim, skladište podataka nije proizvod već okruženje. To je arhitektonska konstrukcija informacijskog sustava koji korisnicima pruža trenutne i povijesne informacije za podršku odlučivanju kojima je teško pristupiti ili ih je teško prikazati u tradicionalnoj pohrani operativnih podataka.
Mnogi znate da 3NF-dizajnirana baza podataka za sustav inventara ima mnoge međusobno povezane tablice. Na primjer, izvješće o trenutnim informacijama o zalihama može uključivati više od 12 spojenih uvjeta. To može brzo usporiti vrijeme odgovora na upit i izvješće. Skladište podataka pruža novi dizajn koji može pomoći u smanjenju vremena odgovora i pomaže u poboljšanju izvedbe upita za izvješća i analitiku.
Sustav skladišta podataka poznat je i pod sljedećim nazivom:
- Sustav za podršku odlučivanju (DSS)
- Izvršni informacijski sustav
- Informacijski sustav upravljanja
- Rješenje poslovne inteligencije
- Analitička aplikacija
- Skladište podataka
Povijest Datawarehousea
Datawarehouse koristi korisnicima da razumiju i poboljšaju izvedbu svoje organizacije. Potreba za skladištenjem podataka razvila se kako su računalni sustavi postajali sve složeniji i morali su rukovati sve većim količinama informacija. Međutim, skladištenje podataka nije nova stvar.
Evo nekih ključnih događaja u evoluciji skladišta podataka -
- 1960. - Dartmouth i General Mills u zajedničkom istraživačkom projektu razvijaju pojmove dimenzije i činjenice.
- 1970. - Nielsen i IRI uvode prodavaonice dimenzionalnih podataka za maloprodaju.
- 1983. - Tera Data Corporation predstavlja sustav upravljanja bazom podataka koji je posebno dizajniran za podršku odlučivanju
- Skladištenje podataka počelo je kasnih 1980-ih kada je IBM radnik Paul Murphy i Barry Devlin razvili su Business Data Warehouse.
- Međutim, pravi koncept dao je Inmon Bill. Smatran je ocem skladišta podataka. Pisao je o raznim temama za izgradnju, korištenje i održavanje skladišta i tvornice korporativnih informacija.
Kako radi Datawarehouse?
Skladište podataka radi kao središnje spremište u koje informacije stižu iz jednog ili više izvora podataka. Podaci teku u skladište podataka iz transakcijskog sustava i drugih relacijskih baza podataka.
Podaci mogu biti:
- Strukturirani
- Polustrukturirano
- Nestrukturirani podaci
Podaci se obrađuju, transformiraju i unose tako da korisnici mogu pristupiti obrađenim podacima u skladištu podataka putem alata poslovne inteligencije, SQL klijenata i proračunskih tablica. Skladište podataka spaja informacije koje dolaze iz različitih izvora u jednu sveobuhvatnu bazu podataka.
Spajanjem svih ovih informacija na jednom mjestu, organizacija može holistički analizirati svoje kupce. To pomaže osigurati da su uzete u obzir sve dostupne informacije. Skladištenje podataka omogućuje rudarenje podataka. Rudarenje podataka traži uzorke u podacima koji mogu dovesti do veće prodaje i dobiti.
Vrste skladišta podataka
Tri glavne vrste skladišta podataka (DWH) su:
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) je centralizirano skladište. Pruža uslugu podrške odlučivanju u cijelom poduzeću. Nudi jedinstveni pristup organiziranju i predstavljanju podataka. Također pruža mogućnost klasificiranja podataka prema predmetu i davanja pristupa prema tim podjelama.
2. OperaNacionalna pohrana podataka:
OperaNacionalna pohrana podataka, koja se također naziva ODS, nije ništa drugo nego potrebna pohrana podataka kada ni skladište podataka ni OLTP sustavi ne podržavaju potrebe organizacije za izvješćivanjem. U ODS-u se skladište podataka osvježava u stvarnom vremenu. Stoga je široko poželjan za rutinske aktivnosti kao što je pohranjivanje zapisa o zaposlenicima.
3. Data Mart:
A data mart je podskup skladišta podataka. Posebno je dizajniran za određenu liniju poslovanja, kao što su prodaja, financije, prodaja ili financije. U neovisnoj prodavnici podataka podaci se mogu prikupljati izravno iz izvora.
Opće faze skladišta podataka
Ranije su organizacije počele relativno jednostavno koristiti skladištenje podataka. Međutim, s vremenom je počelo sofisticiranije korištenje skladištenja podataka.
Sljedeće su opće faze korištenja skladišta podataka (DWH):
Offline Operanacionalna baza podataka:
U ovoj fazi podaci se samo kopiraju s operativnog sustava na drugi poslužitelj. Na taj način učitavanje, obrada i izvješćivanje o kopiranim podacima ne utječu na performanse operativnog sustava.
Izvanmrežno skladište podataka:
Podaci u Datawarehouseu redovito se ažuriraju od Operacionalna baza podataka. Podaci u Datawarehouseu mapiraju se i transformiraju kako bi ispunili ciljeve Datawarehousea.
Skladište podataka u stvarnom vremenu:
U ovoj fazi, skladišta podataka se ažuriraju kad god se dogodi bilo kakva transakcija u operativnoj bazi podataka. Na primjer, zrakoplovni ili željeznički sustav rezervacija.
Integrirano skladište podataka:
U ovoj fazi, skladišta podataka se kontinuirano ažuriraju kada operativni sustav izvrši transakciju. Datawarehouse zatim generira transakcije koje se prosljeđuju natrag u operativni sustav.
Komponente skladišta podataka
Četiri komponente skladišta podataka su:
Upravitelj opterećenja: Upravitelj opterećenja naziva se i prednja komponenta. Obavlja sve operacije povezane s ekstrakcijom i učitavanjem podataka u skladište. Ove operacije uključuju transformacije za pripremu podataka za unos u skladište podataka.
Voditelj skladišta: Voditelj skladišta obavlja poslove povezane s upravljanjem podacima u skladištu. Izvodi operacije poput analize podataka kako bi se osigurala dosljednost, stvaranje indeksa i pogleda, generiranje denormalizacije i agregacije, transformacija i spajanje izvornih podataka te arhiviranje i spremanje podataka.
Upravitelj upita: Upravitelj upita također je poznat kao pozadinska komponenta. Izvodi sve operativne operacije vezane uz upravljanje korisničkim upitima. Operacije ove komponente skladišta podataka su izravni upiti odgovarajućim tablicama za raspoređivanje izvršenja upita.
Alati za pristup krajnjeg korisnika:
Ovo je kategorizirano u pet različitih grupa kao što su 1. Izvješćivanje podataka 2. Alati za upite 3. Alati za razvoj aplikacija 4. EIS alati, 5. OLAP alati i alati za rudarenje podataka.
Kome treba Data warehouse?
DWH (Data warehouse) je potreban svim vrstama korisnika kao što su:
- Donositelji odluka koji se oslanjaju na veliku količinu podataka
- Korisnici koji koriste prilagođene, složene procese za dobivanje informacija iz više izvora podataka.
- Također ga koriste ljudi koji žele jednostavnu tehnologiju za pristup podacima
- Također je bitno za one ljude koji žele sustavan pristup donošenju odluka.
- Ako korisnik želi brze performanse na ogromnoj količini podataka što je nužno za izvješća, rešetke ili grafikone, tada se skladište podataka pokazuje korisnim.
- Skladište podataka je prvi korak Ako želite otkriti 'skrivene obrasce' protoka podataka i grupiranja.
Za što se koristi skladište podataka?
Ovdje su najčešći sektori u kojima se koristi skladište podataka:
Zrakoplovna kompanija:
U sustavu Airline koristi se u operativne svrhe kao što je raspoređivanje posade, analize isplativosti ruta, promocije programa čestih putnika itd.
Bankarstvo:
Široko se koristi u bankarskom sektoru za učinkovito upravljanje resursima dostupnim na stolu. Nekoliko banaka koristilo se i za istraživanje tržišta, analizu učinka proizvoda i poslovanja.
Zdravstvo:
Sektor zdravstva također je koristio skladište podataka za izradu strategije i predviđanje ishoda, generiranje izvješća o liječenju pacijenata, dijeljenje podataka s povezanim osiguravajućim društvima, službama medicinske pomoći itd.
Javni sektor:
U javnom sektoru skladište podataka koristi se za prikupljanje obavještajnih podataka. Pomaže vladinim agencijama u održavanju i analizi poreznih evidencija, evidencija zdravstvene politike za svakog pojedinca.
Sektor ulaganja i osiguranja:
U ovom sektoru skladišta se prvenstveno koriste za analizu obrazaca podataka, trendova kupaca i za praćenje tržišnih kretanja.
Zadrži lanac:
U maloprodajnim lancima, Data warehouse se široko koristi za distribuciju i marketing. Također pomaže u praćenju artikala, obrazaca kupnje kupaca, promocija, a koristi se i za određivanje politike cijena.
Telekomunikacije:
Skladište podataka koristi se u ovom sektoru za promociju proizvoda, odluke o prodaji i donošenje odluka o distribuciji.
Ugostiteljstvo:
Ova industrija koristi usluge skladištenja za dizajniranje, kao i za procjenu svojih reklamnih i promotivnih kampanja gdje žele ciljati klijente na temelju njihovih povratnih informacija i obrazaca putovanja.
Koraci za implementaciju skladišta podataka
Najbolji način rješavanja poslovnog rizika povezanog s implementacijom Datawarehousea je primjena strategije s tri strane kao što je navedeno u nastavku
- Strategija poduzeća: Ovdje identificiramo tehničke, uključujući trenutnu arhitekturu i alate. Također identificiramo činjenice, dimenzije i atribute. Mapiranje i transformacija podataka također su prošli.
- Dostava u fazama: Implementacija skladišta podataka trebala bi biti postupna na temelju tematskih područja. Povezane poslovne subjekte kao što su rezervacije i naplate treba prvo implementirati, a zatim međusobno integrirati.
- Iterativna izrada prototipova: Umjesto pristupa implementaciji velikog praska, Datawarehouse treba razvijati i testirati iterativno.
Ovdje su ključni koraci u implementaciji Datawarehousea zajedno s njegovim rezultatima.
Korak | Zadaci | isporučeno |
---|---|---|
1 | Potrebno je definirati opseg projekta | Definicija opsega |
2 | Potrebno je utvrditi poslovne potrebe | Logički podatkovni model |
3 | Definirati Operational Datastore zahtjevi | Operacionalni model pohrane podataka |
4 | Nabavite ili razvijte alate za ekstrakciju | Alati za izdvajanje i softver |
5 | Definirajte zahtjeve za podatke skladišta podataka | Prijelazni podatkovni model |
6 | U dokumentu nedostaju podaci | Popis projekata koje treba učiniti |
7 | Karte Operacionalno skladište podataka u skladište podataka | Mapa integracije D/W podataka |
8 | Razviti dizajn baze podataka skladišta podataka | Dizajn D/W baze podataka |
9 | Ekstrakt podataka iz Operational Data Store | Integrirani D/W ekstrakti podataka |
10 | Učitaj skladište podataka | Početno učitavanje podataka |
11 | Održavanje skladišta podataka | Tekući pristup podacima i naknadna učitavanja |
Najbolje prakse za implementaciju skladišta podataka
- Odlučite se za plan testiranja dosljednosti, točnosti i cjelovitosti podataka.
- Skladište podataka mora biti dobro integrirano, dobro definirano i vremenski označeno.
- Dok dizajnirate Datawarehouse, pobrinite se da koristite ispravan alat, da se držite životnog ciklusa, da vodite računa o sukobima podataka i da ste spremni naučiti da ste sami pogriješili.
- Nikada nemojte mijenjati operativne sustave i izvješća
- Ne trošite previše vremena na izdvajanje, čišćenje i učitavanje podataka.
- Osigurajte uključivanje svih dionika, uključujući poslovno osoblje, u proces implementacije Datawarehousea. Utvrdite da je skladištenje podataka zajednički/timski projekt. Ne želite stvoriti skladište podataka koje nije korisno krajnjim korisnicima.
- Pripremite plan obuke za krajnje korisnike.
Zašto nam je potrebno skladište podataka? Prednosti mane
Prednosti skladišta podataka (DWH):
- Skladište podataka omogućuje poslovnim korisnicima brz pristup kritičnim podacima iz nekih izvora na jednom mjestu.
- Skladište podataka pruža dosljedne informacije o različitim međufunkcionalnim aktivnostima. Također podržava ad-hoc izvješćivanje i upite.
- Data Warehouse pomaže u integraciji mnogih izvora podataka kako bi se smanjio stres proizvodnog sustava.
- Skladište podataka pomaže smanjiti ukupno vrijeme potrebno za analizu i izvješćivanje.
- Restrukturiranje i integracija olakšavaju korisniku korištenje za izvješćivanje i analizu.
- Skladište podataka omogućuje korisnicima pristup kritičnim podacima iz više izvora na jednom mjestu. Stoga korisniku štedi vrijeme dohvaćanja podataka iz više izvora.
- Skladište podataka pohranjuje veliku količinu povijesnih podataka. Ovo pomaže korisnicima da analiziraju različita vremenska razdoblja i trendove kako bi napravili buduća predviđanja.
Nedostaci skladišta podataka:
- Nije idealna opcija za nestrukturirane podatke.
- Stvaranje i implementacija skladišta podataka zasigurno je vremenski zbunjujuća stvar.
- Data Warehouse može relativno brzo zastarjeti
- Teško je napraviti promjene u vrstama podataka i rasponima, shemi izvora podataka, indeksima i upitima.
- Skladište podataka može izgledati jednostavno, ali zapravo je presloženo za prosječne korisnike.
- Unatoč najboljim naporima u upravljanju projektom, opseg projekta skladištenja podataka uvijek će se povećavati.
- Ponekad će korisnici skladišta razviti drugačija poslovna pravila.
- Organizacije moraju potrošiti puno svojih resursa u svrhu obuke i implementacije.
Budućnost skladištenja podataka
- Promjena u Regulatorna ograničenja može ograničiti mogućnost kombiniranja izvora različitih podataka. Ti različiti izvori mogu uključivati nestrukturirane podatke koje je teško pohraniti.
- Kao što je Veličina baza podataka raste, procjene o tome što čini vrlo veliku bazu podataka nastavljaju rasti. Složeno je izgraditi i pokrenuti sustave skladišta podataka čija veličina uvijek raste. Hardverski i softverski resursi koji su danas dostupni ne dopuštaju čuvanje velike količine podataka na mreži.
- Multimedijski podaci ne može se lako manipulirati kao tekstualni podaci, dok se tekstualne informacije mogu dohvatiti relacijskim softverom koji je danas dostupan. Ovo bi mogao biti predmet istraživanja.
Alati za skladište podataka
Na tržištu su dostupni mnogi alati za skladištenje podataka. Evo nekih od najistaknutijih:
1. MarkLogic:
MarkLogic je korisno rješenje za skladištenje podataka koje čini integraciju podataka lakšom i bržom korištenjem niza značajki poduzeća. Ovaj alat pomaže u izvođenju vrlo složenih operacija pretraživanja. Može postavljati upite različitim vrstama podataka poput dokumenata, odnosa i metapodataka.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle je vodeća baza podataka u industriji. Nudi širok raspon izbora rješenja za skladištenje podataka kako na lokaciji tako iu oblaku. Pomaže optimizirati korisničko iskustvo povećanjem operativne učinkovitosti.
https://www.oracle.com/index.html
3. Amazon crvenaShift:
Amazon Redshift je alat za skladište podataka. To je jednostavan i isplativ alat za analizu svih vrsta podataka pomoću standarda SQL i postojeće BI alate. Također omogućuje izvođenje složenih upita prema petabajtima strukturiranih podataka, koristeći tehniku optimizacije upita.
https://aws.amazon.com/redshift/?nc2=h_m1
Ovdje je potpuni popis korisnih Alati za skladište podataka.
KLJUČNO UČENJE
- Skladište podataka (DWH), također je poznato kao skladište podataka poduzeća (EDW).
- Skladište podataka definira se kao središnje spremište u koje informacije dolaze iz jednog ili više izvora podataka.
- Tri glavne vrste skladišta podataka su Enterprise Data Warehouse (EDW), Operational Data Store i Data Mart.
- Opće stanje skladišta podataka je Offline Operanacionalna baza podataka, izvanmrežno skladište podataka, skladište podataka u stvarnom vremenu i integrirano skladište podataka.
- Četiri glavne komponente Datawarehousea su Load Manager, Warehouse Manager, Query Manager, alati za pristup krajnjeg korisnika
- Datawarehouse se koristi u različitim industrijama kao što su zrakoplovni prijevoz, bankarstvo, zdravstvo, osiguranje, maloprodaja itd.
- Implementacija Datawarehosue je strategija od 3 kraka, tj. Strategija poduzeća, isporuka u fazama i iterativna izrada prototipova.
- Skladište podataka omogućuje poslovnim korisnicima brz pristup kritičnim podacima iz nekih izvora na jednom mjestu.