Ce este Data Warehouse? Tipuri, definiție și exemplu
Ce este Data Warehousing?
A Depozitarea datelor (DW) este un proces de colectare și gestionare a datelor din surse variate pentru a oferi informații semnificative asupra afacerii. Un depozit de date este de obicei folosit pentru a conecta și analiza date de afaceri din surse eterogene. Depozitul de date este nucleul sistemului BI, care este construit pentru analiza și raportarea datelor.
Este un amestec de tehnologii și componente care ajută la utilizarea strategică a datelor. Este stocarea electronică a unei cantități mari de informații de către o companie care este concepută pentru interogare și analiză în loc de procesare a tranzacțiilor. Este un proces de transformare a datelor în informații și de a le pune la dispoziție utilizatorilor în timp util pentru a face diferența.
Baza de date suport de decizie (Data Warehouse) este menținută separat de baza de date operațională a organizației. Cu toate acestea, depozitul de date nu este un produs, ci un mediu. Este o construcție arhitecturală a unui sistem informațional care oferă utilizatorilor informații actuale și istorice de sprijin pentru decizii, care sunt greu de accesat sau prezentate în depozitul tradițional de date operaționale.
Mulți știți că o bază de date proiectată de 3NF pentru un sistem de inventar multe au tabele legate între ele. De exemplu, un raport privind informațiile actuale despre inventar poate include mai mult de 12 condiții asociate. Acest lucru poate încetini rapid timpul de răspuns al interogării și raportului. Un depozit de date oferă un nou design care poate ajuta la reducerea timpului de răspuns și ajută la îmbunătățirea performanței interogărilor pentru rapoarte și analize.
Sistemul de depozit de date este cunoscut și sub următorul nume:
- Sistemul de sprijinire a deciziilor (DSS)
- Sistemul informatic executiv
- Sistemul de gestionare a informațiilor
- Soluție de Business Intelligence
- Aplicație analitică
- Depozitul de date
Istoria Datawarehouse
Datawarehouse beneficiază utilizatorii de a înțelege și de a îmbunătăți performanța organizației lor. Nevoia de a stoca datele a evoluat pe măsură ce sistemele informatice au devenit mai complexe și trebuiau să gestioneze cantități tot mai mari de informații. Cu toate acestea, Data Warehousing nu este un lucru nou.
Iată câteva evenimente cheie în evoluția Data Warehouse-
- 1960 - Dartmouth și General Mills, într-un proiect de cercetare comun, dezvoltă termenii dimensiuni și fapte.
- 1970 - A Nielsen și IRI introduc magazinele de date dimensionale pentru vânzările cu amănuntul.
- 1983 - Tera Data Corporation introduce un sistem de gestionare a bazelor de date, care este special conceput pentru sprijinirea deciziilor
- Depozitarea datelor a început la sfârșitul anilor 1980 când IBM lucrătorul Paul Murphy și Barry Devlin au dezvoltat Business Data Warehouse.
- Cu toate acestea, conceptul real a fost dat de Inmon Bill. A fost considerat părintele depozitului de date. El a scris despre o varietate de subiecte pentru construirea, utilizarea și întreținerea depozitului și a Fabricii de informații corporative.
Cum funcționează Datawarehouse?
Un depozit de date funcționează ca un depozit central unde informațiile ajung din una sau mai multe surse de date. Datele circulă într-un depozit de date din sistemul tranzacțional și din alte baze de date relaționale.
Datele pot fi:
- structurat
- Semi-structurat
- Date nestructurate
Datele sunt procesate, transformate și ingerate, astfel încât utilizatorii să poată accesa datele procesate în Data Warehouse prin instrumente de Business Intelligence, clienți SQL și foi de calcul. Un depozit de date combină informațiile provenite din diferite surse într-o bază de date cuprinzătoare.
Îmbinând toate aceste informații într-un singur loc, o organizație își poate analiza clienții într-un mod mai holistic. Acest lucru ajută la asigurarea faptului că a luat în considerare toate informațiile disponibile. Depozitarea datelor face posibilă extragerea datelor. Exploatarea datelor caută modele în date care pot duce la vânzări și profituri mai mari.
Tipuri de depozit de date
Trei tipuri principale de depozite de date (DWH) sunt:
1. Enterprise Data Warehouse (EDW):
Enterprise Data Warehouse (EDW) este un depozit centralizat. Oferă servicii de asistență decizională în întreaga întreprindere. Oferă o abordare unificată pentru organizarea și reprezentarea datelor. De asemenea, oferă capacitatea de a clasifica datele în funcție de subiect și de a oferi acces în funcție de acele diviziuni.
2. OperaMagazin de date național:
OperaDepozitul de date național, care se mai numește și ODS, nu este altceva decât un depozit de date necesar atunci când nici depozitul de date, nici sistemele OLTP nu sprijină nevoile organizațiilor de raportare. În ODS, depozitul de date este reîmprospătat în timp real. Prin urmare, este foarte preferat pentru activități de rutină, cum ar fi stocarea înregistrărilor angajaților.
3. Data Mart:
A date mart este un subset al depozitului de date. Este special conceput pentru o anumită linie de afaceri, cum ar fi vânzări, finanțe, vânzări sau finanțe. Într-un data mart independent, datele pot colecta direct din surse.
Etape generale ale depozitului de date
Mai devreme, organizațiile au început utilizarea relativ simplă a depozitării de date. Cu toate acestea, de-a lungul timpului, a început utilizarea mai sofisticată a depozitării de date.
Următoarele sunt etapele generale de utilizare a depozitului de date (DWH):
Deconectat OperaBaza de date națională:
În această etapă, datele sunt doar copiate de pe un sistem operațional pe un alt server. În acest fel, încărcarea, procesarea și raportarea datelor copiate nu afectează performanța sistemului operațional.
Depozit de date offline:
Datele din Datawarehouse sunt actualizate regulat din OperaBaza de date națională. Datele din Datawarehouse sunt mapate și transformate pentru a îndeplini obiectivele Datawarehouse.
Depozit de date în timp real:
În această etapă, Depozitele de date sunt actualizate ori de câte ori are loc orice tranzacție în baza de date operațională. De exemplu, sistemul de rezervare al companiei aeriene sau feroviare.
Depozit de date integrat:
În această etapă, Depozitele de date sunt actualizate continuu atunci când sistemul operațional efectuează o tranzacție. Datawarehouse-ul generează apoi tranzacții care sunt transmise înapoi sistemului operațional.
Componentele depozitului de date
Patru componente ale depozitelor de date sunt:
Manager de încărcare: Managerul de sarcină este numit și componenta frontală. Efectuează toate operațiunile asociate cu extragerea și încărcarea datelor în depozit. Aceste operațiuni includ transformări pentru a pregăti datele pentru intrarea în Depozitul de date.
Seful de depozit: Managerul depozitului efectuează operațiuni asociate cu gestionarea datelor din depozit. Efectuează operațiuni cum ar fi analiza datelor pentru a asigura coerența, crearea de indici și vizualizări, generarea de denormalizări și agregari, transformarea și îmbinarea datelor sursă și arhivarea și prelucrarea datelor.
Manager de interogări: Managerul de interogări este cunoscut și ca componentă backend. Efectuează toate operațiunile legate de gestionarea interogărilor utilizatorilor. Operațiunile acestor componente ale depozitului de date sunt interogări directe către tabelele corespunzătoare pentru programarea execuției interogărilor.
Instrumente de acces pentru utilizatorul final:
Acesta este clasificat în cinci grupuri diferite, cum ar fi 1. Raportarea datelor 2. Instrumente de interogare 3. Instrumente de dezvoltare a aplicațiilor 4. Instrumente EIS, 5. Instrumente OLAP și instrumente de extragere a datelor.
Cine are nevoie de Data warehouse?
DWH (Depozitul de date) este necesar pentru toate tipurile de utilizatori, cum ar fi:
- Factori de decizie care se bazează pe o cantitate masivă de date
- Utilizatori care folosesc procese personalizate, complexe pentru a obține informații din mai multe surse de date.
- Este folosit și de persoanele care doresc o tehnologie simplă pentru a accesa datele
- De asemenea, este esențial pentru acei oameni care doresc o abordare sistematică a luării deciziilor.
- Dacă utilizatorul dorește performanță rapidă pe o cantitate imensă de date, care este o necesitate pentru rapoarte, grile sau diagrame, atunci Data warehouse se dovedește util.
- Depozitul de date este un prim pas dacă doriți să descoperiți „modele ascunse” ale fluxurilor de date și grupărilor.
Pentru ce este folosit un depozit de date?
Iată cele mai frecvente sectoare în care este utilizat depozitul de date:
Compania aeriană:
În sistemul Airline, este utilizat în scopuri operaționale, cum ar fi atribuirea echipajului, analize ale profitabilității rutei, promovări ale programului pentru călător frecvent etc.
Bancar:
Este utilizat pe scară largă în sectorul bancar pentru a gestiona eficient resursele disponibile la birou. Puține bănci au folosit și pentru cercetarea pieței, analiza performanței produsului și operațiunilor.
Sănătate:
Sectorul de asistență medicală a folosit, de asemenea, Data warehouse pentru a stabili strategii și a prezice rezultatele, a genera rapoarte de tratament ale pacienților, a partaja date cu companiile de asigurări, servicii de asistență medicală etc.
Sector public:
În sectorul public, depozitul de date este utilizat pentru colectarea informațiilor. Ajută agențiile guvernamentale să mențină și să analizeze înregistrările fiscale, înregistrările politicilor de sănătate, pentru fiecare individ.
Sectorul de investiții și asigurări:
În acest sector, depozitele sunt utilizate în principal pentru a analiza modelele de date, tendințele clienților și pentru a urmări mișcările pieței.
Lanț de reținere:
În lanțurile de vânzare cu amănuntul, Data warehouse este utilizat pe scară largă pentru distribuție și marketing. De asemenea, ajută la urmărirea articolelor, a modelului de cumpărare al clienților, a promoțiilor și, de asemenea, este utilizat pentru determinarea politicii de preț.
Telecomunicaţie:
Un depozit de date este utilizat în acest sector pentru promovarea produselor, deciziile de vânzare și pentru a lua decizii de distribuție.
Industria ospitalitatii:
Această industrie utilizează servicii de depozit pentru a proiecta și a estima campaniile lor de publicitate și promovare în care doresc să vizeze clienții pe baza feedback-ului și a tiparelor de călătorie.
Pași pentru implementarea depozitului de date
Cea mai bună modalitate de a aborda riscul de afaceri asociat cu o implementare Datawarehouse este de a folosi o strategie pe trei direcții, ca mai jos
- Strategia întreprinderii: Aici identificăm tehnică, inclusiv arhitectura și instrumentele actuale. De asemenea, identificăm fapte, dimensiuni și atribute. Maparea și transformarea datelor sunt, de asemenea, trecute.
- Livrare în etape: Implementarea depozitului de date ar trebui să fie etapizată, pe baza domeniilor subiectului. Entitățile comerciale înrudite, cum ar fi rezervarea și facturarea, ar trebui mai întâi implementate și apoi integrate între ele.
- Prototiparea iterativă: Mai degrabă decât o abordare big bang a implementării, Datawarehouse-ul ar trebui dezvoltat și testat iterativ.
Iată pașii cheie în implementarea Datawarehouse împreună cu livrabilele sale.
Pas | Sarcini | livrabile |
---|---|---|
1 | Este necesar să se definească domeniul de aplicare al proiectului | Definirea domeniului |
2 | Necesitatea de a determina nevoile afacerii | Model logic de date |
3 | Defini Operacerinţele pentru depozitul de date | OperaModelul de depozit de date național |
4 | Achiziționați sau dezvoltați instrumente de extracție | Extrage instrumente și software |
5 | Definiți cerințele de date pentru depozitul de date | Model de date de tranziție |
6 | Documentați datele lipsă | Lista de proiecte de făcut |
7 | Harta OperaMagazinul de date la depozitul de date | Harta de integrare a datelor D/W |
8 | Dezvoltați designul bazei de date pentru depozitul de date | Proiectare baze de date D/W |
9 | Extrageți date din OperaMagazin de date național | Extrase de date D/W integrate |
10 | Încărcați depozitul de date | Încărcare inițială de date |
11 | Menține depozitul de date | Acces la date în curs și încărcări ulterioare |
Cele mai bune practici pentru implementarea unui depozit de date
- Decideți un plan pentru a testa consistența, acuratețea și integritatea datelor.
- Depozitul de date trebuie să fie bine integrat, bine definit și marcat în timp.
- Când proiectați Datawarehouse, asigurați-vă că utilizați instrumentul potrivit, respectați ciclul de viață, aveți grijă de conflictele de date și gata să aflați că sunteți greșelile dvs.
- Nu înlocuiți niciodată sistemele operaționale și rapoartele
- Nu petreceți prea mult timp extragerii, curățării și încărcării datelor.
- Asigurați-vă că implicați toate părțile interesate, inclusiv personalul de afaceri în procesul de implementare a Datawarehouse. Stabiliți că depozitarea datelor este un proiect comun/de echipă. Nu doriți să creați un depozit de date care nu este util pentru utilizatorii finali.
- Pregătiți un plan de instruire pentru utilizatorii finali.
De ce avem nevoie de Data Warehouse? Avantaje dezavantaje
Avantajele Data Warehouse (DWH):
- Depozitul de date permite utilizatorilor de afaceri să acceseze rapid datele critice din unele surse, toate într-un singur loc.
- Depozitul de date oferă informații consistente despre diferite activități interfuncționale. De asemenea, acceptă raportarea și interogarea ad-hoc.
- Data Warehouse ajută la integrarea multor surse de date pentru a reduce stresul asupra sistemului de producție.
- Depozitul de date ajută la reducerea timpului total de analiză și raportare.
- Restructurarea și integrarea facilitează utilizarea de către utilizator pentru raportare și analiză.
- Depozitul de date permite utilizatorilor să acceseze date critice dintr-un număr de surse într-un singur loc. Prin urmare, economisește timpul utilizatorului de a prelua date din mai multe surse.
- Depozitul de date stochează o cantitate mare de date istorice. Acest lucru îi ajută pe utilizatori să analizeze diferite perioade de timp și tendințe pentru a face previziuni viitoare.
Dezavantajele depozitului de date:
- Nu este o opțiune ideală pentru datele nestructurate.
- Crearea și implementarea Data Warehouse-ului este cu siguranță o chestiune confuză de timp.
- Depozitul de date poate fi depășit relativ rapid
- Este dificil să faci modificări în tipurile și intervalele de date, schema surselor de date, indici și interogări.
- Depozitul de date poate părea ușor, dar, de fapt, este prea complex pentru utilizatorii obișnuiți.
- În ciuda celor mai bune eforturi la managementul proiectelor, domeniul de aplicare al proiectului de depozitare de date va crește întotdeauna.
- Uneori, utilizatorii depozitului vor dezvolta reguli de afaceri diferite.
- Organizațiile trebuie să-și cheltuiască o mulțime de resurse pentru instruire și implementare.
Viitorul depozitării datelor
- Schimba in Constrângeri de reglementare poate limita capacitatea de a combina surse de date disparate. Aceste surse disparate pot include date nestructurate care sunt dificil de stocat.
- Ca mărimea a bazelor de date crește, estimările a ceea ce constituie o bază de date foarte mare continuă să crească. Este complex să construiești și să rulezi sisteme de depozit de date care cresc mereu în dimensiune. Resursele hardware și software disponibile astăzi nu permit păstrarea unei cantități mari de date online.
- Date multimedia nu pot fi manipulate cu ușurință ca date text, în timp ce informațiile textuale pot fi preluate de software-ul relațional disponibil astăzi. Acesta ar putea fi un subiect de cercetare.
Instrumente pentru depozitul de date
Există multe instrumente de depozitare a datelor disponibile pe piață. Iată câteva dintre cele mai proeminente:
1. MarkLogic:
MarkLogic este o soluție utilă de depozitare a datelor care face integrarea datelor mai ușoară și mai rapidă folosind o serie de funcții de întreprindere. Acest instrument ajută la efectuarea unor operațiuni de căutare foarte complexe. Poate interoga diferite tipuri de date, cum ar fi documente, relații și metadate.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle este baza de date lider în industrie. Oferă o gamă largă de soluții de depozit de date atât pentru local, cât și în cloud. Ajută la optimizarea experiențelor clienților prin creșterea eficienței operaționale.
https://www.oracle.com/index.html
3. Amazon RoșuShift:
Amazon Redshift este un instrument de depozit de date. Este un instrument simplu și rentabil pentru a analiza toate tipurile de date folosind standard SQL și instrumentele BI existente. De asemenea, permite rularea de interogări complexe pe petabytes de date structurate, folosind tehnica de optimizare a interogărilor.
https://aws.amazon.com/redshift/?nc2=h_m1
Iată o listă completă de utile Instrumente pentru depozitul de date.
ÎNVĂȚAREA CHEIE
- Depozitul de date (DWH), este cunoscut și sub numele de Depozit de date Enterprise (EDW).
- Un depozit de date este definit ca un depozit central în care informațiile provin din una sau mai multe surse de date.
- Trei tipuri principale de depozite de date sunt Enterprise Data Warehouse (EDW), OperaMagazinul de date și Data Mart.
- Starea generală a unui depozit de date este Offline OperaBaza de date națională, Depozitul de date offline, Depozitul de date în timp real și Depozitul de date integrat.
- Patru componente principale ale Datawarehouse sunt Load Manager, Warehouse Manager, Query Manager, Instrumente de acces pentru utilizatorii finali
- Datawarehouse este utilizat în diverse industrii, cum ar fi companii aeriene, bancare, asistență medicală, asigurări, retail etc.
- Implementarea Datawarehosue este o strategie în trei direcții, adică. Strategie de întreprindere, livrare în etape și prototipare iterativă.
- Depozitul de date permite utilizatorilor de afaceri să acceseze rapid datele critice din unele surse, toate într-un singur loc.