Depozitul de date Architectură, componente și diagramă Concepts
Depozitul de date Concepts
Conceptul de bază al unui depozit de date este de a facilita o singură versiune a adevărului pentru o companie pentru luarea deciziilor și prognoza. Un depozit de date este un sistem de informații care conține date istorice și comutative din surse unice sau multiple. Depozitul de date Concepts simplifica procesul de raportare și analiză a organizațiilor.
Caracteristicile depozitului de date
Depozitul de date Concepts au urmatoarele caracteristici:
- Orientat pe subiect
- Integrat
- Varianta de timp
- Ne volatil
Orientat pe subiect
Un depozit de date este orientat spre subiect, deoarece oferă informații despre o temă în loc de operațiunile în desfășurare ale companiilor. Aceste subiecte pot fi vânzări, marketing, distribuții etc.
Un depozit de date nu se concentrează niciodată pe operațiunile în curs. În schimb, a pus accent pe modelarea și analiza datelor pentru de luare a deciziilor. De asemenea, oferă o viziune simplă și concisă asupra subiectului specific prin excluderea datelor care nu sunt utile pentru a sprijini procesul decizional.
Integrat
În Data Warehouse, integrarea înseamnă stabilirea unei unități de măsură comune pentru toate datele similare din baza de date diferită. De asemenea, datele trebuie să fie stocate în Datawarehouse într-un mod comun și universal acceptabil.
Un depozit de date este dezvoltat prin integrarea datelor din surse variate, cum ar fi mainframe, baze de date relaționale, fișiere plate etc. În plus, trebuie să păstreze convențiile de denumire, formatul și codificarea consecvente.
Această integrare ajută la analiza eficientă a datelor. Trebuie asigurată consecvența convențiilor de numire, măsurile atributelor, structura de codificare etc. Luați în considerare următorul exemplu:
În exemplul de mai sus, există trei aplicații diferite etichetate A, B și C. Informațiile stocate în aceste aplicații sunt Sex, Data și Sold. Cu toate acestea, datele fiecărei aplicații sunt stocate în mod diferit.
- În aplicația A câmpul de gen stochează valori logice precum M sau F
- În aplicația B, câmpul de gen este o valoare numerică,
- În aplicația C, câmpul de gen este stocat sub forma unei valori de caracter.
- Același lucru este și cu Data și soldul
Cu toate acestea, după procesul de transformare și curățare, toate aceste date sunt stocate în format comun în Depozitul de date.
Varianta de timp
Orizontul de timp pentru depozitul de date este destul de extins în comparație cu sistemele operaționale. Datele colectate într-un depozit de date sunt recunoscute cu o anumită perioadă și oferă informații din punct de vedere istoric. Conține un element de timp, explicit sau implicit.
Un astfel de loc în care datele Datawarehouse afișează variația de timp se află în structura cheii de înregistrare. Fiecare cheie primară conținută cu DW ar trebui să aibă fie implicit, fie explicit un element de timp. Ca ziua, luna saptamanii etc.
Un alt aspect al variației de timp este că odată ce datele sunt introduse în depozit, acestea nu pot fi actualizate sau modificate.
Ne volatil
Depozitul de date este, de asemenea, non-volatil, înseamnă că datele anterioare nu sunt șterse atunci când sunt introduse date noi în el.
Datele sunt doar în citire și reîmprospătate periodic. Acest lucru ajută, de asemenea, la analiza datelor istorice și la înțelegerea ce și când s-a întâmplat. Nu necesită procese de tranzacție, recuperare și mecanisme de control al concurenței.
Activitățile precum ștergerea, actualizarea și inserarea care sunt efectuate într-un mediu de aplicație operațional sunt omise în mediul Data warehouse. Sunt doar două tipuri de operațiuni de date efectuate în Data Warehousing
- Încărcarea datelor
- Acces la date
Iată câteva diferențe majore între Application și Data Warehouse
OperaAplicație națională | Depozitul de date |
---|---|
Programul complex trebuie să fie codificat pentru a se asigura că procesele de actualizare a datelor mențin o integritate ridicată a produsului final. | Acest tip de probleme nu se întâmplă deoarece actualizarea datelor nu este efectuată. |
Datele sunt plasate într-o formă normalizată pentru a asigura o redundanță minimă. | Datele nu sunt stocate în formă normalizată. |
Tehnologia necesară pentru a sprijini problemele legate de tranzacții, recuperare de date, rollback și rezoluție, deoarece blocajul său este destul de complex. | Oferă o simplitate relativă în tehnologie. |
Depozitul de date Architectură
Depozitul de date Architectură este complex deoarece este un sistem informațional care conține date istorice și comutative din mai multe surse. Există 3 abordări pentru construirea straturilor de depozit de date: un singur nivel, două niveluri și trei niveluri. Această arhitectură pe 3 niveluri a Data Warehouse este explicată mai jos.
Arhitectură cu un singur nivel
Obiectivul unui singur strat este de a minimiza cantitatea de date stocate. Acest obiectiv este de a elimina redundanța datelor. Această arhitectură nu este folosită frecvent în practică.
Arhitectură cu două niveluri
Arhitectura cu două straturi este unul dintre straturile Data Warehouse care separă sursele disponibile fizic și depozitul de date. Această arhitectură nu este extensibilă și, de asemenea, nu acceptă un număr mare de utilizatori finali. De asemenea, are probleme de conectivitate din cauza limitărilor de rețea.
Depozit de date pe trei niveluri Architectură
Acesta este cel mai utilizat Architectura de depozit de date.
Este alcătuit din nivelurile de sus, de mijloc și de jos.
- Nivelul de jos: Baza de date a serverelor Datawarehouse ca nivel inferior. De obicei este un sistem de baze de date relaționale. Datele sunt curățate, transformate și încărcate în acest strat folosind instrumente back-end.
- Nivelul mediu: Nivelul mediu din Data warehouse este un server OLAP care este implementat folosind fie modelul ROLAP, fie MOLAP. Pentru un utilizator, acest nivel de aplicație prezintă o vedere abstractă a bazei de date. Acest strat acționează și ca un mediator între utilizatorul final și baza de date.
- Nivel de top: Nivelul superior este un strat de client front-end. Nivelul superior sunt instrumentele și API-ul pe care le conectați și la care obțineți date din depozitul de date. Ar putea fi instrumente de interogare, instrumente de raportare, instrumente de interogare gestionate, instrumente de analiză și instrumente de extragere a datelor.
Componente Datawarehouse
Vom afla despre Componentele Datawarehouse și Architectura de depozit de date cu diagramă, după cum se arată mai jos:
Depozitul de date se bazează pe un server RDBMS care este un depozit central de informații care este înconjurat de unele componente cheie ale depozitului de date pentru a face întregul mediu funcțional, gestionabil și accesibil.
Există în principal cinci componente ale depozitului de date:
Baza de date Data Warehouse
Baza de date centrală este baza mediului de depozitare a datelor. Această bază de date este implementată pe RDBMS tehnologie. Deși, acest tip de implementare este constrâns de faptul că sistemul tradițional RDBMS este optimizat pentru procesarea bazelor de date tranzacționale și nu pentru depozitarea datelor. De exemplu, interogări ad-hoc, îmbinări cu mai multe tabele, agregate sunt consumatoare de resurse și încetinesc performanța.
Prin urmare, abordările alternative ale bazei de date sunt utilizate după cum este enumerat mai jos -
- Într-un depozit de date, bazele de date relaționale sunt implementate în paralel pentru a permite scalabilitate. Bazele de date relaționale paralele permit, de asemenea, memorie partajată sau model de nimic partajat pe diverse configurații multiprocesoare sau procesoare masiv paralele.
- Noile structuri de index sunt folosite pentru a ocoli scanarea tabelelor relaționale și pentru a îmbunătăți viteza.
- Utilizarea bazelor de date multidimensionale (MDDB) pentru a depăși orice limitări care sunt plasate din cauza modelelor de depozit de date relaționale. Exemplu: Essbase de la Oracle.
Instrumente de aprovizionare, achiziție, curățare și transformare (ETL)
Instrumentele de aprovizionare, transformare și migrare a datelor sunt utilizate pentru a efectua toate conversiile, rezumatele și toate modificările necesare pentru a transforma datele într-un format unificat în depozitul de date. Ele mai sunt denumite instrumente de extragere, transformare și încărcare (ETL).
Funcționalitatea acestora include:
- Anonimizați datele conform prevederilor legale.
- Eliminarea datelor nedorite din bazele de date operaționale de la încărcare în Data warehouse.
- Căutați și înlocuiți numele și definițiile comune pentru datele care provin din surse diferite.
- Calcularea rezumatelor și a datelor derivate
- În cazul în care lipsesc date, completați-le cu valorile implicite.
- Date repetate deduplicate care provin din mai multe surse de date.
Aceste instrumente de extragere, transformare și încărcare pot genera joburi cron, joburi de fundal, programe Cobol, scripturi shell etc. care actualizează în mod regulat datele din depozitul de date. Aceste instrumente sunt, de asemenea, utile pentru menținerea metadatelor.
Acestea Instrumente ETL trebuie să facă față provocărilor legate de eterogenitatea bazelor de date și a datelor.
Metadata
Numele Meta Data sugerează un depozit de date tehnologic de înalt nivel Concepts. Cu toate acestea, este destul de simplu. Metadatele sunt date despre date care definesc depozitul de date. Este folosit pentru construirea, întreținerea și gestionarea depozitului de date.
În depozitul de date Archimetadatele joacă un rol important, deoarece specifică sursa, utilizarea, valorile și caracteristicile datelor din depozitul de date. De asemenea, definește modul în care datele pot fi modificate și procesate. Este strâns legat de depozitul de date.
De exemplu, o linie din baza de date de vânzări poate conține:
4030 KJ732 299.90
Aceasta este o dată fără sens până când vom consulta Meta care ne spune că a fost
- Număr model: 4030
- ID agent de vânzări: KJ732
- Valoarea totală a vânzărilor de 299.90 USD
Prin urmare, metadatele sunt ingrediente esențiale în transformarea datelor în cunoștințe.
Metadatele ajută la răspunsul la următoarele întrebări
- Ce tabele, atribute și chei conține Data Warehouse?
- De unde au venit datele?
- De câte ori se reîncarcă datele?
- Ce transformări s-au aplicat cu curățarea?
Metadatele pot fi clasificate în următoarele categorii:
- Metadate tehnice: Acest tip de metadate conține informații despre depozit, care sunt utilizate de designerii și administratorii de depozit de date.
- Metadate de afaceri: Acest tip de metadate conține detalii care oferă utilizatorilor finali o modalitate ușor de înțeles informațiile stocate în depozitul de date.
Instrumente de interogare
Unul dintre obiectele principale ale depozitării datelor este de a oferi informații companiilor pentru a lua decizii strategice. Instrumentele de interogare permit utilizatorilor să interacționeze cu sistemul de depozit de date.
Aceste instrumente se împart în patru categorii diferite:
- Instrumente de interogare și raportare
- Instrumente de dezvoltare a aplicațiilor
- Instrumente de extragere a datelor
- instrumente OLAP
1. Instrumente de interogare și raportare
Instrumentele de interogare și raportare pot fi împărțite în continuare
- Instrumente de raportare
- Instrumente de interogare gestionate
Instrumente de raportare:
Instrumente de raportare poate fi împărțit în plus în instrumente de raportare a producției și redactor de rapoarte desktop.
- Scriitori de rapoarte: acest tip de instrumente de raportare sunt instrumente concepute pentru utilizatorii finali pentru analiza lor.
- Raportarea producției: Acest tip de instrumente permite organizațiilor să genereze rapoarte operaționale regulate. De asemenea, acceptă lucrări în lot cu volum mare, cum ar fi imprimarea și calcularea. Unele instrumente de raportare populare sunt Brio, Business Objects, Oracle, PowerSoft, Institutul SAS.
Instrumente de interogare gestionate:
Acest tip de instrumente de acces ajută utilizatorii finali să rezolve problemele din baza de date și SQL și structura bazei de date prin inserarea unui meta-strat între utilizatori și bază de date.
2. Instrumente de dezvoltare a aplicațiilor
Uneori, instrumentele grafice și analitice încorporate nu satisfac nevoile analitice ale unei organizații. În astfel de cazuri, rapoartele personalizate sunt dezvoltate folosind instrumente de dezvoltare a aplicațiilor.
3. Instrumente de extragere a datelor
Exploatarea datelor este un proces de descoperire a unor noi corelații, modele și tendințe semnificative prin extragerea unor cantități mari de date. Instrumente de extragere a datelor sunt folosite pentru a automatiza acest proces.
4. Instrumente OLAP
Aceste instrumente se bazează pe concepte ale unei baze de date multidimensionale. Permite utilizatorilor să analizeze datele folosind vederi multidimensionale elaborate și complexe.
Autobuz de depozit de date Architectură
Data warehouse Bus determină fluxul de date din depozitul dvs. Fluxul de date dintr-un depozit de date poate fi clasificat ca Inflow, Upflow, Downflow, Outflow și Meta flow.
Atunci când proiectați un magistral de date, trebuie să luați în considerare dimensiunile partajate, faptele de pe platformele de date.
Data Marts
A date mart este un nivel de acces care este folosit pentru a furniza date utilizatorilor. Este prezentat ca o opțiune pentru depozitele de date mari, deoarece este nevoie de mai puțin timp și bani pentru a construi. Cu toate acestea, nu există o definiție standard a unui data mart care diferă de la o persoană la alta.
Într-un cuvânt simplu, Data mart este o filială a unui depozit de date. Data mart-ul este utilizat pentru partiția datelor care sunt create pentru un anumit grup de utilizatori.
Magazinele de date ar putea fi create în aceeași bază de date ca și Datawarehouse-ul sau într-o bază de date separată fizic.
Depozit de date ArchiCele mai bune practici tehnice
Pentru a proiecta Data Warehouse Architehnică, trebuie să urmați cele mai bune practici de mai jos:
- Utilizați modele de depozit de date care sunt optimizate pentru regăsirea informațiilor care pot fi modul dimensional, abordarea denormalizată sau hibridă.
- Alegeți abordarea de proiectare adecvată ca abordare de sus în jos și de jos în sus în Data Warehouse
- Trebuie să vă asigurați că datele sunt procesate rapid și cu acuratețe. În același timp, ar trebui să adoptați o abordare care consolidează datele într-o singură versiune a adevărului.
- Proiectați cu atenție procesul de achiziție și curățare a datelor pentru Data warehouse.
- Proiectați o arhitectură MetaData care permite partajarea metadatelor între componentele Data Warehouse
- Luați în considerare implementarea unui model ODS atunci când nevoia de regăsire a informațiilor este aproape de partea de jos a piramidei de extracție a datelor sau când există mai multe surse operaționale necesare pentru a fi accesate.
- Ar trebui să vă asigurați că modelul de date este integrat și nu doar consolidat. În acest caz, ar trebui să luați în considerare modelul de date 3NF. Este, de asemenea, ideal pentru achiziționarea ETL și instrumente de curățare a datelor
Rezumat
- Depozitul de date este un sistem de informații care conține date istorice și comutative din surse unice sau multiple. Aceste surse pot fi tradiționale Data Warehouse, Cloud Data Warehouse sau Virtual Data Warehouse.
- Un depozit de date este orientat către subiect deoarece oferă informații despre subiect în loc de operațiunile în desfășurare ale organizației.
- În Data Warehouse, integrarea înseamnă stabilirea unei unități de măsură comune pentru toate datele similare din diferite baze de date
- Depozitul de date este, de asemenea, non-volatil, înseamnă că datele anterioare nu sunt șterse atunci când sunt introduse date noi în el.
- Un Datawarehouse are o variantă de timp, deoarece datele dintr-un DW au o durată de valabilitate mare.
- Există în principal 5 componente ale Data Warehouse Architectură: 1) Bază de date 2) Instrumente ETL 3) Metadate 4) Instrumente de interogare 5) DataMarts
- Acestea sunt patru categorii principale de instrumente de interogare 1. Interogare și raportare, instrumente 2. Instrumente de dezvoltare a aplicațiilor, 3. Instrumente de extragere a datelor 4. Instrumente OLAP
- Instrumentele de aprovizionare, transformare și migrare a datelor sunt folosite pentru a efectua toate conversiile și rezumatele.
- În depozitul de date Archimetadatele joacă un rol important, deoarece specifică sursa, utilizarea, valorile și caracteristicile datelor din depozitul de date.