Mi az a Data Warehouse? Típusok, meghatározás és példa

Mi az adattárház?

A Adattárolás A (DW) különböző forrásokból származó adatok gyűjtésére és kezelésére szolgáló folyamat, amely jelentős üzleti betekintést nyújt. Az adattárház általában heterogén forrásokból származó üzleti adatok összekapcsolására és elemzésére szolgál. Az adattárház a BI rendszer magja, amely adatelemzésre és jelentéskészítésre készült.

Technológiák és komponensek keveréke, amely segíti az adatok stratégiai felhasználását. Ez egy nagy mennyiségű információ elektronikus tárolása egy vállalkozás által, amelyet tranzakciófeldolgozás helyett lekérdezésre és elemzésre terveztek. Ez egy olyan folyamat, amelynek során az adatokat információvá alakítják, és időben elérhetővé teszik a felhasználók számára a változás érdekében.

A döntéstámogató adatbázist (Data Warehouse) a szervezet működési adatbázisától elkülönítve kezeljük. Az adattárház azonban nem termék, hanem környezet. Ez egy olyan információs rendszer architekturális konstrukciója, amely a felhasználók számára olyan aktuális és történelmi döntéstámogatási információkat biztosít, amelyek a hagyományos működési adattárban nehezen hozzáférhetők vagy jelennek meg.

Sokan tudják, hogy egy 3NF által tervezett adatbázis egy leltárrendszerhez sok egymáshoz kapcsolódó táblát tartalmaz. Például az aktuális készletinformációkról szóló jelentés 12-nél több összekapcsolt feltételt tartalmazhat. Ez gyorsan lelassíthatja a lekérdezés és a jelentés válaszidejét. Az adattárház új kialakítást kínál, amely csökkentheti a válaszidőt, és javítja a jelentésekhez és elemzésekhez szükséges lekérdezések teljesítményét.

Az adattárház rendszer a következő néven is ismert:

  • Döntéstámogató rendszer (DSS)
  • Vezetői Információs Rendszer
  • Vezetői információs rendszer
  • Üzleti intelligencia megoldás
  • Analitikai alkalmazás
  • Adattárház

Adattárolás

Az adattárház története

Az Adattárház a felhasználók számára hasznos, hogy megértsék és javítsák szervezetük teljesítményét. Az adatok tárolásának szükségessége úgy fejlődött, ahogy a számítógépes rendszerek egyre összetettebbé váltak, és egyre nagyobb mennyiségű információ kezelésére volt szükség. Az adattárház azonban nem új keletű dolog.

Íme néhány kulcsfontosságú esemény az Data Warehouse fejlődésében

  • 1960 – Dartmouth és a General Mills egy közös kutatási projektben kidolgozzák a dimenziók és tények kifejezéseket.
  • 1970 – A Nielsen és az IRI dimenziós adatpiacokat vezet be a kiskereskedelmi értékesítéshez.
  • 1983 – A Tera Data Corporation bevezet egy adatbázis-kezelő rendszert, amelyet kifejezetten a döntések támogatására terveztek
  • Az adattárház az 1980-as évek végén kezdődött, amikor IBM Paul Murphy dolgozó és Barry Devlin fejlesztette ki a Business Data Warehouse-t.
  • Az igazi koncepciót azonban Inmon adta meg Bill. Az adattárház atyjaként tartották számon. Számos témáról írt a raktár és a vállalati információs gyár építésével, használatával és karbantartásával kapcsolatban.

Hogyan működik az Adattárház?

Az adattárház központi adattárként működik, ahová egy vagy több adatforrásból érkeznek információk. Az adatok egy adattárházba áramlanak a tranzakciós rendszerből és más relációs adatbázisokból.

Az adatok lehetnek:

  1. Szerkesztett
  2. Félig strukturált
  3. Nem strukturált adatok

Az adatok feldolgozása, átalakítása és feldolgozása megtörténik, hogy a felhasználók hozzáférhessenek a Data Warehouse feldolgozott adataihoz Business Intelligence eszközökön, SQL-klienseken és táblázatokon keresztül. Az adattárház a különböző forrásokból származó információkat egyetlen átfogó adatbázisba egyesíti.

Ezen információk egy helyen történő összevonásával egy szervezet holisztikusabban elemezheti ügyfeleit. Ez segít abban, hogy az összes rendelkezésre álló információt figyelembe vegye. Az adattárház lehetővé teszi az adatbányászatot. Az adatbányászat olyan mintákat keres az adatokban, amelyek magasabb eladásokhoz és nyereséghez vezethetnek.

Az adattárházak típusai

Az adattárházak (DWH) három fő típusa:

1. Vállalati adattárház (EDW):

Az Enterprise Data Warehouse (EDW) egy központi raktár. Döntéstámogató szolgáltatást nyújt az egész vállalaton belül. Egységes megközelítést kínál az adatok rendszerezésére és megjelenítésére. Lehetővé teszi továbbá az adatok tárgy szerinti osztályozását és hozzáférést biztosít ezeknek a felosztásoknak megfelelően.

2. Operanemzeti adattár:

OperaA tional Data Store, amelyet ODS-nek is neveznek, nem más, mint egy adattár, amely akkor szükséges, ha sem az adattárház, sem az OLTP-rendszerek nem támogatják a szervezetek jelentési igényeit. Az ODS-ben az adattárház valós időben frissül. Ezért széles körben előnyben részesítik az olyan rutin tevékenységekhez, mint például az alkalmazottak nyilvántartásának tárolása.

3. Data Mart:

A adatok mart az adattárház egy részhalmaza. Kifejezetten egy adott üzletághoz, például értékesítéshez, pénzügyekhez, értékesítéshez vagy pénzügyekhez tervezték. Egy független adatpiacon az adatok közvetlenül forrásokból gyűjthetők.

Az Adattárház általános szakaszai

Korábban a szervezetek megkezdték az adattárház viszonylag egyszerű használatát. Idővel azonban elkezdődött az adattárház kifinomultabb használata.

A következők az adattárház (DWH) használatának általános szakaszai:

nem elérhető Operanemzeti adatbázis:

Ebben a szakaszban az adatokat csak átmásolják egy operációs rendszerről egy másik szerverre. Ily módon a másolt adatok betöltése, feldolgozása és jelentése nincs hatással az operációs rendszer teljesítményére.

Offline adattárház:

Az Adattárház adatai rendszeresen frissülnek a Operanemzeti adatbázis. A Datawarehouse-ban lévő adatok leképezésre és átalakításra kerülnek, hogy megfeleljenek az Adattárház célkitűzéseinek.

Valós idejű adattárház:

Ebben a szakaszban az adattárházak frissítésre kerülnek, amikor bármilyen tranzakció történik az operatív adatbázisban. Például légitársaság vagy vasúti foglalási rendszer.

Integrált adattárház:

Ebben a szakaszban az adattárházak folyamatosan frissülnek, amikor az operációs rendszer tranzakciót hajt végre. Az Adattárház ezután tranzakciókat generál, amelyeket visszaad az operációs rendszernek.

Az adattárház összetevői

Az adattárházak négy összetevője:

Betöltéskezelő: A terheléskezelőt front komponensnek is nevezik. Elvégzi az adatok kinyerésével és raktárba történő betöltésével kapcsolatos összes műveletet. Ezek a műveletek olyan átalakításokat tartalmaznak, amelyek előkészítik az adatokat az Adattárházba való bevitelre.

Raktárvezető: A raktárvezető végzi a raktárban lévő adatok kezelésével kapcsolatos műveleteket. Olyan műveleteket hajt végre, mint az adatok elemzése a konzisztencia biztosítása érdekében, indexek és nézetek létrehozása, denormalizálás és aggregáció generálása, a forrásadatok átalakítása és egyesítése, valamint az adatok archiválása és előállítása.

Lekérdezéskezelő: A Lekérdezéskezelő háttérkomponensként is ismert. Elvégzi a felhasználói lekérdezések kezelésével kapcsolatos összes műveleti műveletet. Ennek az adattárház-összetevőnek a műveletei közvetlen lekérdezések a megfelelő táblákhoz a lekérdezések végrehajtásának ütemezéséhez.

Végfelhasználói hozzáférési eszközök:

Ez öt különböző csoportba sorolható: 1. Adatjelentés 2. Lekérdező eszközök 3. Alkalmazásfejlesztő eszközök 4. EIS eszközök, 5. OLAP eszközök és adatbányászati ​​eszközök.

Kinek van szüksége Adattárházra?

A DWH (adattárház) minden típusú felhasználó számára szükséges, például:

  • Döntéshozók, akik tömeges adatmennyiségre támaszkodnak
  • Felhasználók, akik testreszabott, összetett folyamatokat használnak, hogy több adatforrásból szerezzenek információkat.
  • Azok is használják, akik egyszerű technológiát szeretnének elérni az adatokhoz
  • Azok számára is nélkülözhetetlen, akik szisztematikus megközelítést szeretnének a döntéshozatalhoz.
  • Ha a felhasználó gyors teljesítményt szeretne nagy mennyiségű adattal, ami a jelentések, rácsok vagy diagramok elkészítéséhez szükséges, akkor az Adattárház hasznosnak bizonyul.
  • Az adattárház az első lépés, ha az adatfolyamok és csoportosítások „rejtett mintáit” szeretné felfedezni.

Mire használható az adattárház?

Itt vannak a leggyakoribb szektorok, ahol az adattárházat használják:

Légitársaság:

A légitársaság rendszerében olyan üzemeltetési célokra használják, mint a személyzet kijelölése, az útvonal jövedelmezőségének elemzése, törzsutas program promóciói stb.

Banking:

A bankszektorban széles körben használják az asztalon rendelkezésre álló erőforrások hatékony kezelésére. Néhány bank használt piackutatást, a termék és a műveletek teljesítményelemzését is.

Egészségügy:

Az egészségügyi szektor az Adattárat is használta az eredmények stratégiájának kialakítására és előrejelzésére, a betegek kezelési jelentéseinek elkészítésére, az adatok megosztására a biztosítótársaságokkal, az orvosi segélyszolgálatokkal stb.

Állami szektor:

A közszférában az adattárházat információgyűjtésre használják. Segíti a kormányzati szerveket az adónyilvántartások és az egészségpolitikai nyilvántartások vezetésében és elemzésében minden egyén esetében.

Befektetési és biztosítási szektor:

Ebben a szektorban a raktárakat elsősorban adatminták, vásárlói trendek elemzésére, valamint a piaci mozgások nyomon követésére használják.

A lánc megtartása:

A kiskereskedelmi láncokban az adattárházat széles körben használják terjesztésre és marketingre. Ezenkívül segít nyomon követni a tételeket, az ügyfelek vásárlási szokásait, az akciókat, és az árpolitika meghatározásához is használható.

Távközlés:

Ebben a szektorban adattárházat használnak termékpromóciókhoz, értékesítési döntésekhez és disztribúciós döntések meghozatalához.

Vendéglátás:

Ez az iparág raktári szolgáltatásokat használ reklám- és promóciós kampányaik megtervezéséhez és becsléséhez, ahol meg akarják célozni az ügyfeleket visszajelzéseik és utazási szokásaik alapján.

Az Adattárház megvalósításának lépései

Az adattárház-megvalósítással kapcsolatos üzleti kockázatok kezelésének legjobb módja az alábbiak szerint három részből álló stratégia alkalmazása.

  1. Vállalati stratégia: Itt azonosítjuk a műszaki jellemzőket, beleértve a jelenlegi architektúrát és eszközöket. Tényeket, dimenziókat és tulajdonságokat is azonosítunk. Az adatleképezés és -átalakítás is átment.
  2. Fázisos szállítás: Az adattárház megvalósítását a tématerületek alapján szakaszosan kell elvégezni. A kapcsolódó üzleti entitásokat, például a foglalást és a számlázást először végre kell hajtani, majd integrálni kell egymással.
  3. Iteratív prototípuskészítés: A megvalósítás nagy robbanásszerű megközelítése helyett az Adattárházat iteratív módon kell fejleszteni és tesztelni.

Íme a Datawarehouse megvalósításának kulcsfontosságú lépései, valamint a szállítmányok.

Lépés Feladatok teljesítések
1 Meg kell határozni a projekt hatókörét Hatókör meghatározása
2 Meg kell határozni az üzleti igényeket Logikai adatmodell
3 Határozza Operanemzeti adattári követelmények Operanemzeti adattár modell
4 Extrakciós eszközök beszerzése vagy fejlesztése Kivonat eszközök és szoftverek
5 Határozza meg az Adattárház adatkövetelményeit Átmeneti adatmodell
6 A dokumentumból hiányoznak az adatok To Do Project List
7 Térképek Operaaz adattártól az adattárházig D/W adatintegrációs térkép
8 Adattárház-adatbázis tervezés fejlesztése D/W adatbázis tervezés
9 Adatok kivonása innen: Operanemzeti adattár Integrált D/W adatkivonatok
10 Adattárház betöltése Kezdeti adatbetöltés
11 Adattárház karbantartása Folyamatos adathozzáférés és utólagos betöltések

Bevált módszerek az adattárház megvalósításához

  • Határozzon meg egy tervet az adatok konzisztenciájának, pontosságának és integritásának tesztelésére.
  • Az adattárháznak jól integráltnak, jól meghatározottnak és időbélyeggel ellátottnak kell lennie.
  • A Datawarehouse tervezése során ügyeljen arra, hogy megfelelő eszközt használjon, ragaszkodjon az életciklushoz, ügyeljen az adatütközésekre, és készen álljon arra, hogy megtanulja, hogy Ön a hibája.
  • Soha ne cserélje le az operációs rendszereket és a jelentéseket
  • Ne töltsön túl sok időt az adatok kinyerésére, tisztítására és betöltésére.
  • Gondoskodjon az összes érdekelt fél bevonása az adattárház megvalósítási folyamatába, beleértve az üzleti személyzetet is. Állapítsa meg, hogy az adattárház egy közös/csapatprojekt. Nem szeretne olyan adattárházat létrehozni, amely nem hasznos a végfelhasználók számára.
  • Készítsen képzési tervet a végfelhasználók számára.

Miért van szükségünk adattárházra? Előnyök hátrányok

A Data Warehouse (DWH) előnyei:

  • Az adattárház lehetővé teszi az üzleti felhasználók számára, hogy egy helyen gyorsan hozzáférjenek bizonyos forrásokból származó kritikus adatokhoz.
  • Az adattárház konzisztens információkat nyújt a különböző, többfunkciós tevékenységekről. Támogatja az ad-hoc jelentéskészítést és lekérdezést is.
  • A Data Warehouse számos adatforrás integrálását segíti a termelési rendszer stresszének csökkentése érdekében.
  • Az adattárház segít csökkenteni az elemzés és a jelentéskészítés teljes átfutási idejét.
  • A szerkezetátalakítás és az integráció megkönnyíti a felhasználó számára a jelentéskészítéshez és elemzéshez való használatát.
  • Az adattárház lehetővé teszi a felhasználók számára, hogy egyetlen helyen, számos forrásból hozzáférjenek a kritikus adatokhoz. Ezért időt takarít meg a felhasználónak az adatok több forrásból való lekérésére.
  • Az adattárház nagy mennyiségű előzményadatot tárol. Ez segít a felhasználóknak a különböző időszakok és trendek elemzésében, hogy jövőbeli előrejelzéseket készíthessenek.

Az adattárház hátrányai:

  • Nem ideális lehetőség strukturálatlan adatokhoz.
  • Az Adattárház létrehozása és megvalósítása bizonyára időzavaros.
  • A Data Warehouse viszonylag gyorsan elavulttá válhat
  • Nehéz megváltoztatni az adattípusokat és -tartományokat, az adatforrássémát, az indexeket és a lekérdezéseket.
  • Az adattárház egyszerűnek tűnhet, de valójában túl bonyolult az átlagos felhasználók számára.
  • A projektmenedzsment terén tett erőfeszítések ellenére az adattárház projektek hatóköre mindig növekedni fog.
  • A raktárhasználók időnként eltérő üzleti szabályokat dolgoznak ki.
  • A szervezeteknek rengeteg erőforrást kell képzésre és megvalósítási célokra fordítaniuk.

Az adattárház jövője

  • Változás Szabályozási korlátok korlátozhatja az eltérő adatforrások kombinálásának lehetőségét. Ezek az eltérő források tartalmazhatnak strukturálatlan adatokat, amelyeket nehéz tárolni.
  • Mivel az méret Az adatbázisok száma növekszik, a becslések arról, hogy mi alkot egy nagyon nagy adatbázist, tovább nőnek. A folyamatosan növekvő méretű adattárház-rendszerek felépítése és üzemeltetése bonyolult. A ma rendelkezésre álló hardver és szoftver erőforrások nem teszik lehetővé nagy mennyiségű adat online tárolását.
  • Multimédiás adatok szöveges adatként nem könnyen manipulálható, míg a szöveges információ a ma elérhető relációs szoftverrel visszakereshető. Ez egy kutatási téma lehet.

Adattárház eszközök

Számos adattárház-eszköz áll rendelkezésre a piacon. Íme néhány legjelentősebb:

1. MarkLogic:

A MarkLogic egy hasznos adattárház-megoldás, amely egyszerűbbé és gyorsabbá teszi az adatintegrációt számos vállalati funkció segítségével. Ez az eszköz nagyon összetett keresési műveletek végrehajtásában segít. Lekérdezhet különféle típusú adatokat, például dokumentumokat, kapcsolatokat és metaadatokat.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle az iparág vezető adatbázisa. Az adattárház-megoldások széles választékát kínálja helyszíni és felhőben egyaránt. A működési hatékonyság növelésével segíti az ügyfelek élményének optimalizálását.

https://www.oracle.com/index.html

3. Amazon PirosShift:

Amazon A Redshift az adattárház eszköz. Ez egy egyszerű és költséghatékony eszköz minden típusú adat szabványos elemzésére SQL és a meglévő BI-eszközök. Ezenkívül lehetővé teszi összetett lekérdezések futtatását petabájtnyi strukturált adattal, a lekérdezésoptimalizálás technikájával.

https://aws.amazon.com/redshift/?nc2=h_m1

Itt van a hasznosak teljes listája Adattárház eszközök.

KULCS-TANULÁS

  • A Data Warehouse (DWH) vállalati adattárházként (EDW) is ismert.
  • Az adattárház egy központi tárhely, ahol egy vagy több adatforrásból érkeznek információk.
  • Az adattárházak három fő típusa az Enterprise Data Warehouse (EDW), Operational Data Store és Data Mart.
  • Az adattárház általános állapota Offline Operanemzeti adatbázis, offline adattárház, valós idejű adattárház és integrált adattárház.
  • A Datawarehouse négy fő összetevője a Load Manager, a Warehouse Manager, a Query Manager és a Végfelhasználói hozzáférési eszközök
  • Az adattárházat különféle iparágakban használják, mint például a légitársaságok, a banki szolgáltatások, az egészségügy, a biztosítás, a kiskereskedelem stb.
  • A Datawarehosue megvalósítása egy 3 ágból álló stratégia, ti. Vállalati stratégia, szakaszos szállítás és iteratív prototípuskészítés.
  • Az adattárház lehetővé teszi az üzleti felhasználók számára, hogy egy helyen gyorsan hozzáférjenek bizonyos forrásokból származó kritikus adatokhoz.