Tietovarasto Architecture, komponentit ja kaavio Concepts

Tietovarasto Concepts

Tietovaraston perusajatuksena on tarjota yritykselle yksi versio totuudesta päätöksentekoa ja ennustamista varten. Tietovarasto on tietojärjestelmä, joka sisältää historiallisia ja kommutatiivisia tietoja yhdestä tai useammasta lähteestä. Tietovarasto Concepts yksinkertaistaa organisaatioiden raportointi- ja analysointiprosessia.

Tietovaraston ominaisuudet

Tietovarasto Concepts on seuraavat ominaisuudet:

  • Aihesuuntautunut
  • Integroitu
  • Aika-variantti
  • Haihtumaton

Aihesuuntautunut

Tietovarasto on aihekeskeinen, koska se tarjoaa tietoa aiheesta yrityksen meneillään olevan toiminnan sijaan. Näitä aiheita voivat olla myynti, markkinointi, jakelu jne.

Tietovarasto ei koskaan keskity meneillään olevaan toimintaan. Sen sijaan se painotti tietojen mallintamista ja analysointia päätöksenteko. Se tarjoaa myös yksinkertaisen ja tiiviin kuvan tietystä aiheesta jättämällä pois tiedot, jotka eivät auta päätöksentekoprosessia.

Integroitu

Tietovarastossa integrointi tarkoittaa yhteisen mittayksikön luomista kaikille samanlaisille tiedoille erilaisesta tietokannasta. Tiedot on myös säilytettävä Tietovarastoon yleisellä ja yleisesti hyväksyttävällä tavalla.

Tietovarasto kehitetään integroimalla tietoja erilaisista lähteistä, kuten keskuskoneesta, relaatiotietokannoista, litteistä tiedostoista jne. Lisäksi sen on säilytettävä johdonmukaiset nimeämiskäytännöt, muoto ja koodaus.

Tämä integrointi auttaa tietojen tehokkaassa analysoinnissa. Nimeämiskäytäntöjen, attribuuttien mittasuhteiden, koodausrakenteen jne. johdonmukaisuus on varmistettava. Harkitse seuraavaa esimerkkiä:

Tietovaraston ominaisuudet

Yllä olevassa esimerkissä on kolme erilaista sovellusta, jotka on merkitty A, B ja C. Näihin sovelluksiin tallennetut tiedot ovat sukupuoli, päivämäärä ja saldo. Jokaisen sovelluksen tiedot kuitenkin tallennetaan eri tavalla.

  • Sovelluksessa A sukupuolikenttä tallentaa loogisia arvoja, kuten M tai F
  • Sovelluksen B sukupuolikenttä on numeerinen arvo,
  • Sovellus C -sovelluksessa sukupuolikenttä on tallennettu merkkiarvon muodossa.
  • Sama koskee päivämäärää ja saldoa

Muutos- ja puhdistusprosessin jälkeen kaikki nämä tiedot kuitenkin tallennetaan yhteisessä muodossa Tietovarasto.

Aika-variantti

Tietovaraston aikahorisontti on varsin laaja verrattuna operatiivisiin järjestelmiin. Tietovarastoon kerätyt tiedot tunnistetaan tietyllä ajanjaksolla ja tarjoavat tietoa historiallisesta näkökulmasta. Se sisältää ajan elementin, eksplisiittisesti tai implisiittisesti.

Yksi tällainen paikka, jossa Datawarehousen tietojen näyttöaikavarianssi on tietueavaimen rakenteessa. Jokaisessa DW:n sisältämässä ensisijaisessa avaimessa tulee olla joko implisiittisesti tai eksplisiittisesti aikaelementti. Kuten päivä, viikko kuukausi jne.

Toinen aikavarianssin näkökohta on, että kun tiedot on lisätty varastoon, sitä ei voi päivittää tai muuttaa.

Haihtumaton

Tietovarasto on myös haihtumaton eli aiempia tietoja ei poisteta, kun siihen syötetään uutta tietoa.

Tiedot ovat vain luku -tilassa, ja ne päivitetään säännöllisesti. Tämä auttaa myös analysoimaan historiallisia tietoja ja ymmärtämään, mitä ja milloin tapahtui. Se ei vaadi tapahtumaprosessia, palautusta ja samanaikaisuuden valvontamekanismeja.

Toiminnot, kuten poistaminen, päivittäminen ja lisääminen, jotka suoritetaan operatiivisessa sovellusympäristössä, jätetään pois tietovarastoympäristöstä. Tietovarastossa suoritettuja tietotoimintoja on vain kahdenlaisia

  1. Tietojen lataaminen
  2. Tietojen käyttö

Tässä on joitain merkittäviä eroja sovelluksen ja tietovaraston välillä

Operakansallinen sovellus Tietovarasto
Monimutkainen ohjelma on koodattava sen varmistamiseksi, että tietojen päivitysprosessit säilyttävät lopputuotteen korkean eheyden. Tällaisia ​​ongelmia ei tapahdu, koska tietojen päivitystä ei suoriteta.
Tiedot sijoitetaan normalisoituun muotoon minimaalisen redundanssin varmistamiseksi. Tietoja ei tallenneta normalisoidussa muodossa.
Teknologiaa, jota tarvitaan tukemaan tapahtumia, tietojen palauttamista, palautusta ja ratkaisua, koska sen umpikuja on melko monimutkainen. Se tarjoaa suhteellisen yksinkertaisuuden tekniikassa.

Tietovarasto Archirakenne

Tietovarasto Archirakenne on monimutkainen, koska se on tietojärjestelmä, joka sisältää historiallisia ja kommutatiivisia tietoja useista lähteistä. Tietovaraston tasojen rakentamiseen on kolme tapaa: yksitasoinen, kaksitasoinen ja kolmikerroksinen. Tämä Data Warehousen 3-tason arkkitehtuuri selitetään alla.

Yksitasoinen arkkitehtuuri

Yhden kerroksen tavoitteena on minimoida tallennetun tiedon määrä. Tämä tavoite on poistaa tietojen redundanssi. Tätä arkkitehtuuria ei käytetä usein käytännössä.

Kaksikerroksinen arkkitehtuuri

Kaksikerroksinen arkkitehtuuri on yksi Data Warehouse -kerroksista, joka erottaa fyysisesti saatavilla olevat lähteet ja tietovaraston. Tämä arkkitehtuuri ei ole laajennettavissa, eikä se myöskään tue suurta määrää loppukäyttäjiä. Sillä on myös yhteysongelmia verkkorajoitusten vuoksi.

Kolmikerroksinen tietovarasto Archirakenne

Tämä on laajimmin käytetty ArchiTietovaraston rakenne.

Se koostuu ylä-, keski- ja alatasosta.

  1. Alin taso: Tietovarastopalvelimien tietokanta alimpana tasona. Se on yleensä relaatiotietokantajärjestelmä. Tiedot puhdistetaan, muunnetaan ja ladataan tähän tasoon taustatyökalujen avulla.
  2. Keskitaso: Tietovaraston keskitaso on OLAP-palvelin, joka on toteutettu joko ROLAP- tai MOLAP-mallilla. Käyttäjälle tämä sovellustaso tarjoaa abstraktin näkymän tietokannasta. Tämä kerros toimii myös välittäjänä loppukäyttäjän ja tietokannan välillä.
  3. Huipputaso: Ylin taso on käyttöliittymän asiakastaso. Huipputaso on työkalut ja API, jotka yhdistät ja saat tietoja tietovarastosta. Se voi olla kyselytyökaluja, raportointityökaluja, hallittuja kyselytyökaluja, analyysityökaluja ja tiedonlouhintatyökaluja.

Tietovaraston komponentit

Opimme tietovaraston komponenteista ja ArchiData Warehousen rakenne kaaviolla seuraavasti:

Tietovarasto Archirakenne
Tietovarasto Archirakenne

Tietovarasto perustuu RDBMS-palvelimeen, joka on keskeinen tietovarasto, jota ympäröivät eräät keskeiset Data Warehousing -komponentit, jotta koko ympäristöstä tulee toimiva, hallittavissa ja saavutettavissa.

Tietovarastokomponentteja on pääasiassa viisi:

Data Warehouse -tietokanta

Keskustietokanta on tietovarastoympäristön perusta. Tämä tietokanta on toteutettu RDBMS teknologiaa. Tällaista toteutusta rajoittaa kuitenkin se tosiasia, että perinteinen RDBMS-järjestelmä on optimoitu tapahtumien tietokantojen käsittelyyn eikä tietojen varastointiin. Esimerkiksi ad-hoc-kyselyt, usean taulukon liitokset, aggregaatit ovat resurssivaltaisia ​​ja hidastavat suorituskykyä.

Tästä syystä tietokannan vaihtoehtoisia lähestymistapoja käytetään alla lueteltujen

  • Tietovarastossa relaatiotietokannat otetaan käyttöön rinnakkain skaalautuvuuden mahdollistamiseksi. Rinnakkaisrelaatiotietokannat mahdollistavat myös jaetun muistin tai jaettua ei-mitään -mallin erilaisissa moniprosessorikokoonpanoissa tai massiivisesti rinnakkaisissa prosessoreissa.
  • Uusia indeksirakenteita käytetään ohittamaan relaatiotaulukon skannaus ja parantamaan nopeutta.
  • Moniulotteisen tietokannan (MDDB) käyttö relaatiotietovarastomallien aiheuttamien rajoitusten voittamiseksi. Esimerkki: Essbase from Oracle.

Sourcing, Acquisition, Clean-up and Transformation Tools (ETL)

Tietojen hankinta-, muunnos- ja siirtotyökaluja käytetään kaikkien muunnosten, yhteenvetojen ja kaikkien tarvittavien muutosten tekemiseen tietojen muuntamiseksi yhtenäiseen muotoon tietovarastossa. Niitä kutsutaan myös Extract, Transform and Load (ETL) -työkaluiksi.

Niiden toiminnallisuuteen kuuluu:

  • Anonymisoi tiedot säännösten mukaisesti.
  • Ei-toivottujen tietokantojen ei-toivottujen tietojen latautuminen tietovarastoon.
  • Etsi ja korvaa yleisiä nimiä ja määritelmiä eri lähteistä tulevalle tiedolle.
  • Yhteenvetojen ja johdettujen tietojen laskeminen
  • Jos tietoja puuttuu, täytä ne oletusarvoilla.
  • Useista tietolähteistä saapuvien toistuvien tietojen kopiointi on poistettu.

Nämä purkamis-, muunnos- ja lataustyökalut voivat luoda cron-töitä, taustatöitä, Cobol-ohjelmat, shell-skriptit jne., jotka päivittävät säännöllisesti tietoja tietovarastossa. Nämä työkalut auttavat myös ylläpitämään metatietoja.

Nämä ETL-työkalut on kohdattava tietokannan ja datan heterogeenisyyden haasteita.

Metadata

Nimi Meta Data viittaa korkean tason teknologiseen tietovarastointiin Concepts. Se on kuitenkin melko yksinkertainen. Metadata on dataa tiedoista, jotka määrittelevät tietovaraston. Sitä käytetään tietovaraston rakentamiseen, ylläpitoon ja hallintaan.

Tietovarastossa Archimetadatalla on tärkeä rooli, koska se määrittelee tietovarastotietojen lähteen, käytön, arvot ja ominaisuudet. Se määrittelee myös kuinka tietoja voidaan muuttaa ja käsitellä. Se on kiinteästi yhteydessä tietovarastoon.

Esimerkiksi myyntitietokannan rivi voi sisältää:

4030 KJ732 299.90

Tämä on merkityksetöntä dataa, kunnes otamme yhteyttä metaan, joka kertoi meille sen olevan

  • Mallinumero: 4030
  • Myyntiedustajan tunnus: KJ732
  • Kokonaismyyntimäärä 299.90 dollaria

Siksi metatiedot ovat olennaisia ​​ainesosia tiedon muuttamisessa tiedoksi.

Metadata auttaa vastaamaan seuraaviin kysymyksiin

  • Mitä taulukoita, määritteitä ja avaimia tietovarasto sisältää?
  • Mistä tiedot ovat peräisin?
  • Kuinka monta kertaa tiedot ladataan uudelleen?
  • Mitä muutoksia puhdistuksessa sovellettiin?

Metatiedot voidaan luokitella seuraaviin luokkiin:

  1. Tekniset metatiedot: Tämäntyyppiset metatiedot sisältävät tietoa varastosta, jota tietovarastojen suunnittelijat ja ylläpitäjät käyttävät.
  2. Yrityksen metatiedot: Tällaiset metatiedot sisältävät yksityiskohtia, jotka antavat loppukäyttäjille tavan helposti ymmärtää tietovarastoon tallennettua tietoa.

Kyselytyökalut

Yksi tietovarastoinnin tärkeimmistä tavoitteista on tarjota tietoa yrityksille strategisten päätösten tekemistä varten. Kyselytyökalujen avulla käyttäjät voivat olla vuorovaikutuksessa tietovarastojärjestelmän kanssa.

Nämä työkalut jakautuvat neljään eri luokkaan:

  1. Kysely- ja raportointityökalut
  2. Sovelluskehitystyökalut
  3. Tiedonlouhintatyökalut
  4. OLAP-työkalut

1. Kysely- ja raportointityökalut

Kysely- ja raportointityökalut voidaan jakaa edelleen

  • Raportointityökalut
  • Hallitut kyselytyökalut

Raportointityökalut:

Raportointityökalut voidaan jakaa edelleen tuotannon raportointityökaluihin ja työpöytäraporttien kirjoittajiin.

  1. Raportin kirjoittajat: Tämäntyyppiset raportointityökalut ovat työkaluja, jotka on suunniteltu loppukäyttäjille heidän analysointiaan.
  2. Tuotannon raportointi: Tällaisten työkalujen avulla organisaatiot voivat luoda säännöllisiä toimintaraportteja. Se tukee myös suuria erätöitä, kuten tulostusta ja laskemista. Joitakin suosittuja raportointityökaluja ovat Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Hallitut kyselytyökalut:

Tällaiset pääsytyökalut auttavat loppukäyttäjiä ratkaisemaan tietokannan ja SQL:n sekä tietokantarakenteen puutteita lisäämällä metakerroksen käyttäjien ja tietokannan väliin.

2. Sovelluskehitystyökalut

Joskus sisäänrakennetut graafiset ja analyyttiset työkalut eivät täytä organisaation analyyttisiä tarpeita. Tällaisissa tapauksissa mukautettuja raportteja kehitetään sovelluskehitystyökalujen avulla.

3. Tiedonlouhintatyökalut

Tiedonlouhinta on prosessi, jossa löydetään uusia merkityksellisiä korrelaatioita, kuvioita ja trendejä louhimalla suuria määriä dataa. Tiedonlouhintatyökalut käytetään tekemään tästä prosessista automaattinen.

4. OLAP-työkalut

Nämä työkalut perustuvat moniulotteisen tietokannan käsitteisiin. Sen avulla käyttäjät voivat analysoida tietoja moniulotteisten ja moniulotteisten näkymien avulla.

Tietovaraston väylä Archirakenne

Tietovarasto Väylä määrittää tietovirran varastossasi. Tietovaraston tietovirta voidaan luokitella Inflow-, Upflow-, Downflow-, Outflow- ja Meta-virtauksiksi.

Dataväylää suunniteltaessa on otettava huomioon jaetut mitat, tosiasiat datamarkkinoilla.

Data Marts

A data mart on pääsykerros, jota käytetään tietojen välittämiseen käyttäjille. Se esitetään vaihtoehtona suurikokoiselle tietovarastolle, koska sen rakentaminen vie vähemmän aikaa ja rahaa. Ei kuitenkaan ole olemassa standardimääritelmää, jonka mukaan datamarkkinat vaihtelevat henkilöstä toiseen.

Yksinkertaisesti sanottuna Data mart on tietovaraston tytäryhtiö. Data martia käytetään tietojen osiointiin, joka luodaan tietylle käyttäjäryhmälle.

Datamarketit voidaan luoda samaan tietokantaan kuin Datawarehouse tai fyysisesti erilliseen tietokantaan.

Tietovarasto Architecture Best Practices

Suunnittele tietovarasto Archinoudata alla olevia parhaita käytäntöjä:

  • Käytä tietovarastomalleja, jotka on optimoitu tiedonhakuun, joka voi olla ulottuvuustila, denormalisoitu tai hybridilähestymistapa.
  • Valitse sopiva suunnittelutapa ylhäältä alas- ja alhaalta ylös -lähestymistapaksi Data Warehousessa
  • On varmistettava, että tiedot käsitellään nopeasti ja tarkasti. Samanaikaisesti sinun tulisi omaksua lähestymistapa, joka yhdistää tiedot yhdeksi totuuden versioksi.
  • Suunnittele tietovaraston tiedonkeruu- ja puhdistusprosessi huolellisesti.
  • Suunnittele MetaData-arkkitehtuuri, joka mahdollistaa metatietojen jakamisen Data Warehousen komponenttien välillä
  • Harkitse ODS-mallin käyttöönottoa, kun tiedonhakutarve on lähellä datan abstraktiopyramidin alaosaa tai kun tarvitaan useita toimintalähteitä.
  • On varmistettava, että tietomalli on integroitu eikä vain konsolidoitu. Siinä tapauksessa sinun tulee harkita 3NF-tietomallia. Se on ihanteellinen myös ETL- ja datanpuhdistustyökalujen hankkimiseen

Yhteenveto

  • Tietovarasto on tietojärjestelmä, joka sisältää historiallisia ja kommutatiivisia tietoja yhdestä tai useammasta lähteestä. Nämä lähteet voivat olla perinteinen Data Warehouse, Cloud Data Warehouse tai Virtual Data Warehouse.
  • Tietovarasto on subjektilähtöinen, koska se tarjoaa tietoa aiheesta organisaation meneillään olevan toiminnan sijaan.
  • Tietovarastossa integrointi tarkoittaa yhteisen mittayksikön muodostamista kaikille samankaltaisille tiedoille eri tietokannoista
  • Tietovarasto on myös haihtumaton eli aiempia tietoja ei poisteta, kun siihen syötetään uutta tietoa.
  • Tietovarasto on aikamuunnelma, koska DW:n tiedoilla on pitkä säilyvyysaika.
  • Data Warehousessa on pääasiassa 5 osaa ArchiTekniikka: 1) Tietokanta 2) ETL-työkalut 3) Metatiedot 4) Kyselytyökalut 5) DataMarts
  • Nämä ovat neljä kyselytyökalujen pääluokkaa 1. Kysely ja raportointi, työkalut 2. Sovelluskehitystyökalut, 3. Tiedonlouhintatyökalut 4. OLAP-työkalut
  • Tietojen hankinta-, muunnos- ja siirtotyökaluja käytetään kaikkien muunnosten ja yhteenvetojen suorittamiseen.
  • Tietovarastossa Archimetadatalla on tärkeä rooli, koska se määrittelee tietovarastotietojen lähteen, käytön, arvot ja ominaisuudet.