Adattárház Architecture, komponensek és diagram Concepts
Adattárház Concepts
Az adattárház alapkoncepciója az, hogy megkönnyítse az igazság egyetlen változatát a vállalat számára a döntéshozatal és az előrejelzés során. Az adattárház olyan információs rendszer, amely egyetlen vagy több forrásból származó történelmi és kommutatív adatokat tartalmaz. Adattárház Concepts a szervezetek jelentési és elemzési folyamatának egyszerűsítése.
Az adattárház jellemzői
Adattárház Concepts a következő jellemzőkkel rendelkezik:
- Tárgy-orientált
- Integrált
- Idő-variáns
- Nem illékony
Tárgy-orientált
Az adattárház tárgyorientált, mivel a vállalatok folyamatban lévő tevékenysége helyett egy témával kapcsolatos információkat kínál. Ezek lehetnek az értékesítés, marketing, disztribúciók stb.
Az adattárház soha nem a folyamatban lévő műveletekre összpontosít. Ehelyett a modellezésre és az adatok elemzésére helyezte a hangsúlyt döntéshozatali. Ezenkívül egyszerű és tömör képet ad a konkrét témáról azáltal, hogy kizárja azokat az adatokat, amelyek nem segítik a döntési folyamatot.
Integrált
Az adattárházban az integráció egy közös mértékegység létrehozását jelenti az eltérő adatbázisból származó összes hasonló adathoz. Az adatokat az Adattárházban is közös és általánosan elfogadott módon kell tárolni.
Az adattárház fejlesztése különféle forrásokból származó adatok, például nagyszámítógép, relációs adatbázisok, sima fájlok stb. integrálásával történik. Ezen túlmenően konzisztens elnevezési konvenciókat, formátumot és kódolást kell tartania.
Ez az integráció segít az adatok hatékony elemzésében. Biztosítani kell az elnevezési konvenciók, attribútummértékek, kódolási struktúra stb. következetességét. Tekintsük a következő példát:
A fenti példában három különböző alkalmazás található A, B és C címkével. Az ezekben az alkalmazásokban tárolt információk a következők: Nem, Dátum és Egyenleg. Az egyes alkalmazások adatai azonban eltérő módon kerülnek tárolásra.
- Az A alkalmazásban a nem mezőben logikai értékeket tárol, például M vagy F
- A B alkalmazásban a nem mezőben egy számérték,
- A C alkalmazásban a nem mező karakterérték formájában tárolva.
- Ugyanez a helyzet a Dátum és egyenleg esetében
Átalakítási és tisztítási folyamat után azonban ezek az adatok közös formátumban kerülnek tárolásra a Adattárház.
Idő-változat
Az adattárház időhorizontja az operációs rendszerekhez képest meglehetősen kiterjedt. Az adattárházban gyűjtött adatok egy adott időszakra vonatkoznak, és történelmi szempontból nyújtanak információt. Tartalmazza az idő egy elemét, kifejezetten vagy implicit módon.
Az egyik ilyen hely, ahol a Datawarehouse adatok megjelenítési időbeli eltérése a rekordkulcs szerkezetében található. A DW-ben található minden elsődleges kulcsnak vagy implicit módon, vagy kifejezetten tartalmaznia kell egy időelemet. Például a nap, a hét hónap stb.
Az időbeli eltérés egy másik szempontja, hogy miután az adatokat beszúrták a raktárba, azokat nem lehet frissíteni vagy módosítani.
Nem illékony
Az adattárház szintén nem felejtő, vagyis a korábbi adatok nem törlődnek, amikor új adatok kerülnek bele.
Az adatok csak olvashatók, és rendszeresen frissülnek. Ez segít a történelmi adatok elemzésében és annak megértésében, hogy mi és mikor történt. Nem igényel tranzakciós folyamatot, helyreállítást és egyidejűség-ellenőrzési mechanizmusokat.
Az olyan tevékenységek, mint a törlés, frissítés és beillesztés, amelyeket egy működő alkalmazási környezetben hajtanak végre, kimaradnak az adattárház-környezetből. Csak kétféle adatművelet hajtható végre az Adattárházban
- Adatok betöltése
- Adat hozzáférés
Íme néhány fő különbség az Alkalmazás és a Data Warehouse között
Operanemzeti alkalmazás | Adattárház |
---|---|
Az összetett programot kódolni kell annak biztosítására, hogy az adatfrissítési folyamatok megőrizzék a végtermék magas szintű integritását. | Az ilyen jellegű problémák nem fordulnak elő, mert az adatok frissítése nem történik meg. |
Az adatok normalizált formában kerülnek elhelyezésre a minimális redundancia biztosítása érdekében. | Az adatok tárolása nem normalizált formában történik. |
A tranzakciókkal, az adat-helyreállítással, a visszaállítással és a megoldással kapcsolatos problémák támogatásához szükséges technológia, mivel a holtpont meglehetősen összetett. | Viszonylagos technológiai egyszerűséget kínál. |
Adattárház Architectúra
Adattárház Architectúra összetett, mivel olyan információs rendszer, amely több forrásból származó történelmi és kommutatív adatokat tartalmaz. 3 megközelítés létezik az adattárház-rétegek létrehozására: egyszintű, kétszintű és háromszintű. A Data Warehouse háromszintű architektúráját az alábbiakban ismertetjük.
Egyszintű architektúra
Az egyetlen réteg célja a tárolt adatok mennyiségének minimalizálása. Ez a cél az adatredundancia eltávolítása. Ezt az architektúrát nem gyakran használják a gyakorlatban.
Kétszintű architektúra
A kétrétegű architektúra az egyik Data Warehouse réteg, amely elválasztja a fizikailag elérhető forrásokat és az adattárházat. Ez az architektúra nem bővíthető, és nem támogat nagy számú végfelhasználót. Csatlakozási problémái is vannak a hálózati korlátok miatt.
Háromszintű adattárház Architectúra
Ez a legszélesebb körben használt Archia Data Warehouse felépítése.
Ez a felső, a középső és az alsó szintből áll.
- Alsó szint: A Datawarehouse szerverek adatbázisa, mint alsó szint. Általában ez egy relációs adatbázisrendszer. Az adatok tisztítása, átalakítása és betöltése ebbe a rétegbe háttéreszközök segítségével történik.
- Középső szint: Az adattárház középső rétege egy OLAP-kiszolgáló, amely ROLAP vagy MOLAP modellel van megvalósítva. A felhasználó számára ez az alkalmazásszint az adatbázis absztrahált nézetét mutatja be. Ez a réteg közvetítőként is működik a végfelhasználó és az adatbázis között.
- Élvonalban: A legfelső réteg egy előtérbeli ügyfélréteg. A legfelső szint azok az eszközök és API, amelyeket csatlakoztathat, és adatokat nyerhet ki az adattárházból. Lehetnek Lekérdező eszközök, jelentéskészítő eszközök, felügyelt lekérdező eszközök, Elemző eszközök és Adatbányászati eszközök.
Adattárház komponensek
Megismerjük az Adattárház összetevőit és Archiaz Adattárház felépítése az alábbi diagrammal:
Az Adattárház egy RDBMS-kiszolgálón alapul, amely egy központi információs tárház, amelyet néhány kulcsfontosságú adattárház-összetevő vesz körül, hogy a teljes környezet működőképes, kezelhető és hozzáférhető legyen.
Főleg öt adattárház-összetevőből áll:
Adattárház adatbázis
A központi adatbázis az adattárházi környezet alapja. Ez az adatbázis a RDBMS technológia. Bár ennek a fajta megvalósításnak az a korlátja, hogy a hagyományos RDBMS rendszer tranzakciós adatbázis-feldolgozásra van optimalizálva, nem adattárolásra. Például az ad-hoc lekérdezések, a többtáblás csatlakozások, az aggregátumok erőforrásigényesek és lelassítják a teljesítményt.
Ezért az adatbázis alternatív megközelítéseit használjuk az alábbiak szerint:
- Egy adattárházban a relációs adatbázisokat párhuzamosan telepítik a méretezhetőség érdekében. A párhuzamos relációs adatbázisok lehetővé teszik a megosztott memóriát vagy a megosztott semmi modellt is különféle többprocesszoros konfigurációkon vagy masszívan párhuzamos processzorokon.
- Új indexstruktúrákat használnak a relációs tábla vizsgálatának megkerülésére és a sebesség növelésére.
- Többdimenziós adatbázis (MDDB) használata a relációs adattárház-modellek miatti korlátozások leküzdésére. Példa: Essbase innen Oracle.
Beszerzési, beszerzési, tisztítási és átalakítási eszközök (ETL)
Az adatforrás-, átalakítási és migrációs eszközök az összes konverziót, összegzést és minden változtatást, amelyek ahhoz szükségesek, hogy az adatokat egységes formátumba alakítsák át az adattárházban. Kibontási, átalakítási és betöltési (ETL) eszközöknek is nevezik őket.
Funkciójuk a következőket tartalmazza:
- Az adatok anonimizálása a jogszabályi előírásoknak megfelelően.
- A nem kívánt adatok kiküszöbölése az üzemi adatbázisokban az adattárházba való betöltéstől.
- Keressen és cseréljen általános neveket és definíciókat a különböző forrásokból érkező adatokhoz.
- Összegzések és származtatott adatok számítása
- Hiányzó adatok esetén töltse fel őket alapértelmezett értékekkel.
- Több adatforrásból érkező ismétlődő adatok duplikálásának megszüntetése.
Ezek az Extract, Transform és Load eszközök cron-feladatokat, háttérfeladatokat, Cobol programok, shell scriptek stb., amelyek rendszeresen frissítik az adattárház adatait. Ezek az eszközök a metaadatok karbantartásában is hasznosak.
Ezek ETL eszközök meg kell küzdeniük az adatbázisok és adatok heterogenitásának kihívásaival.
Metaadatok
A Meta Data név valamilyen magas szintű technológiai adattárházra utal Concepts. Ez azonban meglehetősen egyszerű. A metaadatok olyan adatok, amelyek meghatározzák az adattárházat. Az adattárház felépítésére, karbantartására és kezelésére szolgál.
Az Adattárházban ArchiA metaadatok fontos szerepet játszanak, mivel meghatározzák az adattárházi adatok forrását, felhasználását, értékeit és jellemzőit. Azt is meghatározza, hogyan lehet az adatokat módosítani és feldolgozni. Szorosan kapcsolódik az adattárházhoz.
Például az értékesítési adatbázis egy sora a következőket tartalmazhatja:
4030 KJ732 299.90
Ez értelmetlen adat mindaddig, amíg nem konzultálunk a Métával, amely azt mondja, hogy az volt
- Modellszám: 4030
- Értékesítési ügynök azonosító: KJ732
- A teljes eladási összeg 299.90 USD
Ezért a metaadatok elengedhetetlen összetevői az adatok tudássá alakításának.
A metaadatok segítenek megválaszolni a következő kérdéseket
- Milyen táblákat, attribútumokat és kulcsokat tartalmaz az Adattárház?
- Honnan származtak az adatok?
- Hányszor töltődnek be újra az adatok?
- Milyen átalakításokat alkalmaztak a tisztítás során?
A metaadatok a következő kategóriákba sorolhatók:
- Műszaki metaadatok: Az ilyen típusú metaadatok a raktárral kapcsolatos információkat tartalmaznak, amelyeket az adattárház tervezői és rendszergazdái használnak.
- Üzleti metaadatok: Az ilyen típusú metaadatok olyan részleteket tartalmaznak, amelyek segítségével a végfelhasználók könnyen megérthetik az adattárházban tárolt információkat.
Lekérdező eszközök
Az adattárház egyik elsődleges célja, hogy információkkal szolgáljon a vállalkozások számára stratégiai döntések meghozatalához. A lekérdező eszközök lehetővé teszik a felhasználók számára az adattárház-rendszerrel való interakciót.
Ezek az eszközök négy különböző kategóriába sorolhatók:
- Lekérdező és jelentéskészítő eszközök
- Alkalmazásfejlesztő eszközök
- Adatbányászati eszközök
- OLAP eszközök
1. Lekérdező és jelentéskészítő eszközök
A lekérdező és jelentéskészítő eszközök tovább oszthatók
- Jelentési eszközök
- Felügyelt lekérdező eszközök
Jelentési eszközök:
Jelentési eszközök tovább osztható termelési jelentéskészítő eszközökre és asztali jelentésírókra.
- Jelentésírók: Ez a fajta jelentéskészítő eszköz olyan eszköz, amelyet a végfelhasználók számára terveztek elemzésükhöz.
- Termelési jelentés: Az ilyen eszközök lehetővé teszik a szervezetek számára, hogy rendszeres működési jelentéseket készítsenek. Támogatja a nagy mennyiségű kötegelt feladatokat is, mint például a nyomtatás és a számítás. Néhány népszerű jelentéskészítő eszköz a Brio, a Business Objects, Oracle, PowerSoft, SAS Institute.
Felügyelt lekérdező eszközök:
Az ilyen hozzáférési eszközök a felhasználók és az adatbázis közé metaréteg beillesztésével segítik a végfelhasználókat az adatbázisban és az SQL-ben és az adatbázis-struktúrában felmerülő hibák feloldásában.
2. Alkalmazásfejlesztő eszközök
A beépített grafikus és elemző eszközök néha nem elégítik ki a szervezet elemzési igényeit. Ilyen esetekben egyéni jelentések készülnek Alkalmazásfejlesztő eszközök segítségével.
3. Adatbányászati eszközök
Az adatbányászat olyan folyamat, amelynek során jelentős mennyiségű adat bányászatával új értelmes összefüggéseket, mintákat és trendeket fedeznek fel. Adatbányászati eszközök Ezt a folyamatot automatikussá teszik.
4. OLAP eszközök
Ezek az eszközök egy többdimenziós adatbázis koncepcióin alapulnak. Lehetővé teszi a felhasználók számára az adatok kidolgozott és összetett többdimenziós nézetek segítségével történő elemzését.
Adattárház busz Architectúra
Adattárház A busz határozza meg az adatáramlást a raktárban. Az adatraktárban lévő adatfolyam beáramlás, felfelé irányuló, lefelé, kimenő és metafolyamat kategóriába sorolható.
Az adatbusz tervezése során figyelembe kell venni a megosztott dimenziókat, az adatpiacokon átívelő tényeket.
Data Marts
A adatok mart egy hozzáférési réteg, amely az adatoknak a felhasználókhoz való eljuttatására szolgál. A nagy méretű adattárház opcióként kerül bemutatásra, mivel kevesebb időt és pénzt igényel a felépítése. Nincs azonban szabványos definíciója az adatpiacnak, amely személyenként eltérő.
Egyszóval a Data mart egy adattárház leányvállalata. Az adatpiac az adatok particionálására szolgál, amelyek az adott felhasználói csoport számára jönnek létre.
Az adatpiacok létrehozhatók ugyanabban az adatbázisban, mint az adattárház, vagy egy fizikailag különálló adatbázisban.
Adatraktár Architecture Best Practices
Adattárház tervezéséhez Architechnológiával, kövesse az alábbi bevált gyakorlatokat:
- Használjon olyan adattárház-modelleket, amelyek információ-visszakeresésre vannak optimalizálva, amely lehet dimenziós mód, denormalizált vagy hibrid megközelítés.
- Válassza ki a megfelelő tervezési megközelítést felülről lefelé és alulról felfelé irányuló megközelítésként az Adattárházban
- Biztosítani kell az adatok gyors és pontos feldolgozását. Ugyanakkor olyan megközelítést kell alkalmaznia, amely az adatokat az igazság egyetlen változatába tömöríti.
- Gondosan tervezze meg az adattárház adatgyűjtési és -tisztítási folyamatát.
- Tervezzen meg egy MetaData architektúrát, amely lehetővé teszi a metaadatok megosztását a Data Warehouse összetevői között
- Fontolja meg az ODS-modell megvalósítását, ha az információ-visszakeresési igény az adatabsztrakciós piramis aljához közel van, vagy ha több működési forráshoz kell hozzáférni.
- Gondoskodni kell arról, hogy az adatmodell integrálva legyen, és ne csak konszolidálva legyen. Ebben az esetben érdemes megfontolni a 3NF adatmodellt. ETL és adattisztító eszközök beszerzésére is ideális
Összegzésként
- Az adattárház olyan információs rendszer, amely egyetlen vagy több forrásból származó történelmi és kommutatív adatokat tartalmaz. Ezek a források lehetnek hagyományos Data Warehouse, Cloud Data Warehouse vagy Virtual Data Warehouse.
- Az adattárház alanyorientált, mivel a szervezet folyamatban lévő működése helyett a tárgyra vonatkozó információkat kínál.
- A Data Warehouse-ban az integráció egy közös mértékegység felállítását jelenti a különböző adatbázisokból származó összes hasonló adathoz
- Az adattárház szintén nem felejtő, vagyis a korábbi adatok nem törlődnek, amikor új adatok kerülnek bele.
- Az adattárház időváltozatos, mivel a DW-ben lévő adatok magas eltarthatósági idővel rendelkeznek.
- A Data Warehouse főként 5 összetevőből áll ArchiTecture: 1) Adatbázis 2) ETL eszközök 3) Meta adatok 4) Lekérdező eszközök 5) DataMarts
- Ez a lekérdező eszközök négy fő kategóriája: 1. Lekérdezés és jelentéskészítés, eszközök 2. Alkalmazásfejlesztő eszközök, 3. Adatbányászati eszközök 4. OLAP eszközök
- Az adatforrás-, átalakítási és migrációs eszközöket az összes átalakítás és összegzés elvégzésére használják.
- Az Adattárházban ArchiA metaadatok fontos szerepet játszanak, mivel meghatározzák az adattárházi adatok forrását, felhasználását, értékeit és jellemzőit.