Cos'è il data warehouse? Tipi, definizione ed esempio

Che cos'è il Data Warehouse?

A Conservazione dei dati (DW) è un processo per la raccolta e la gestione di dati da fonti diverse per fornire informazioni aziendali significative. Un data warehouse è in genere utilizzato per connettere e analizzare dati aziendali da fonti eterogenee. Il data warehouse è il nucleo del sistema BI che è costruito per l'analisi e il reporting dei dati.

È una miscela di tecnologie e componenti che aiuta l’uso strategico dei dati. Si tratta dell'archiviazione elettronica di una grande quantità di informazioni da parte di un'azienda, progettata per query e analisi anziché per l'elaborazione di transazioni. È un processo di trasformazione dei dati in informazioni e di renderli disponibili agli utenti in modo tempestivo per fare la differenza.

Il database di supporto alle decisioni (Data Warehouse) è gestito separatamente dal database operativo dell'organizzazione. Tuttavia, il data warehouse non è un prodotto, bensì un ambiente. È una costruzione architettonica di un sistema informativo che fornisce agli utenti informazioni di supporto alle decisioni attuali e storiche, difficili da accedere o presentare nel tradizionale archivio dati operativo.

Molti sanno che un database progettato da 3NF per un sistema di inventario ha molte tabelle correlate tra loro. Ad esempio, un report sulle informazioni sull'inventario corrente può includere più di 12 condizioni unite. Ciò può rallentare rapidamente i tempi di risposta della query e del report. Un data warehouse fornisce un nuovo design che può aiutare a ridurre i tempi di risposta e aiuta a migliorare le prestazioni delle query per report e analisi.

Il sistema di data warehouse è anche noto con il seguente nome:

  • Sistema di supporto decisionale (DSS)
  • Sistema informativo esecutivo
  • Sistema informativo di gestione
  • Soluzione di business intelligence
  • Applicazione analitica
  • magazzino dati

Conservazione dei dati

Storia del datawarehouse

Il Datawarehouse aiuta gli utenti a comprendere e migliorare le prestazioni della propria organizzazione. La necessità di immagazzinare dati si è evoluta man mano che i sistemi informatici diventavano più complessi e dovevano gestire quantità crescenti di informazioni. Tuttavia, il Data Warehousing non è una novità.

Ecco alcuni eventi chiave nell'evoluzione del Data Warehouse-

  • 1960 – Dartmouth e General Mills, in un progetto di ricerca congiunto, sviluppano i termini dimensioni e fatti.
  • 1970- Nielsen e IRI introducono i data mart dimensionali per le vendite al dettaglio.
  • 1983- Tera Data Corporation introduce un sistema di gestione di database specificamente progettato per il supporto decisionale
  • Il data warehousing è iniziato alla fine degli anni '1980 quando IBM il lavoratore Paul Murphy e Barry Devlin hanno sviluppato il Business Data Warehouse.
  • Tuttavia, il vero concetto è stato dato da Inmon Bill. Era considerato il padre del data warehouse. Aveva scritto su una varietà di argomenti per la costruzione, l'uso e la manutenzione del magazzino e della fabbrica di informazioni aziendali.

Come funziona il Datawarehouse?

Un Data Warehouse funziona come un repository centrale in cui le informazioni arrivano da una o più fonti di dati. I dati fluiscono in un data warehouse dal sistema transazionale e da altri database relazionali.

I dati possono essere:

  1. Strutturato
  2. Semi-strutturato
  3. Dati non strutturati

I dati vengono elaborati, trasformati e acquisiti in modo che gli utenti possano accedere ai dati elaborati nel data warehouse tramite strumenti di business intelligence, client SQL e fogli di calcolo. Un data warehouse unisce le informazioni provenienti da diverse fonti in un unico database completo.

Unendo tutte queste informazioni in un unico posto, un'organizzazione può analizzare i propri clienti in modo più olistico. Ciò contribuisce a garantire che siano state prese in considerazione tutte le informazioni disponibili. Il data warehousing rende possibile il data mining. Il data mining cerca modelli nei dati che possano portare a maggiori vendite e profitti.

Tipi di data warehouse

Tre tipi principali di Data Warehouse (DWH) sono:

1. Data Warehouse aziendale (EDW):

Enterprise Data Warehouse (EDW) è un magazzino centralizzato. Fornisce un servizio di supporto decisionale a tutta l'azienda. Offre un approccio unificato per l'organizzazione e la rappresentazione dei dati. Fornisce inoltre la possibilità di classificare i dati in base all'argomento e di consentire l'accesso in base a tali divisioni.

2. OperaArchivio dati nazionale:

OperaGli archivi dati nazionali, chiamati anche ODS, non sono altro che archivi dati necessari quando né il data warehouse né i sistemi OLTP supportano le esigenze di reporting delle organizzazioni. In ODS, il data warehouse viene aggiornato in tempo reale. Pertanto, è ampiamente preferito per attività di routine come l'archiviazione dei registri dei dipendenti.

3. DataMart:

A datamart è un sottoinsieme del data warehouse. È appositamente progettato per una particolare linea di attività, come vendite, finanza, vendite o finanza. In un data mart indipendente, i dati possono essere raccolti direttamente dalle origini.

Fasi generali del Data Warehouse

In precedenza, le organizzazioni avevano iniziato a utilizzare in modo relativamente semplice il data warehousing. Tuttavia, nel corso del tempo, è iniziato un uso più sofisticato del data warehousing.

Di seguito sono riportate le fasi generali di utilizzo del data warehouse (DWH):

disconnesso OperaBanca dati nazionale:

In questa fase, i dati vengono semplicemente copiati da un sistema operativo a un altro server. In questo modo, il caricamento, l'elaborazione e il reporting dei dati copiati non influiscono sulle prestazioni del sistema operativo.

Data Warehouse offline:

I dati nel Datawarehouse vengono aggiornati regolarmente dal Operabanca dati nazionale. I dati nel Datawarehouse vengono mappati e trasformati per soddisfare gli obiettivi del Datawarehouse.

Data Warehouse in tempo reale:

In questa fase, i data warehouse vengono aggiornati ogni volta che avviene una transazione nel database operativo. Ad esempio, sistema di prenotazione aerea o ferroviaria.

Data Warehouse integrato:

In questa fase, i Data Warehouse vengono aggiornati continuamente quando il sistema operativo esegue una transazione. Il Datawarehouse genera quindi transazioni che vengono ritrasmesse al sistema operativo.

Componenti del data warehouse

Quattro componenti dei data warehouse sono:

Gestore del carico: Il gestore del carico è anche chiamato componente anteriore. Esegue tutte le operazioni legate all'estrazione e al caricamento dei dati nel magazzino. Queste operazioni includono trasformazioni per preparare i dati per l'immissione nel Data Warehouse.

Responsabile del magazzino: Il responsabile del magazzino esegue operazioni associate alla gestione dei dati nel magazzino. Esegue operazioni come l'analisi dei dati per garantire la coerenza, la creazione di indici e viste, la generazione di denormalizzazione e aggregazioni, la trasformazione e l'unione dei dati di origine e l'archiviazione e il baking-up dei dati.

Gestore delle interrogazioni: Il gestore delle query è anche noto come componente backend. Esegue tutte le operazioni operative legate alla gestione delle query degli utenti. Le operazioni di questi componenti del Data Warehouse sono query dirette alle tabelle appropriate per pianificare l'esecuzione delle query.

Strumenti di accesso degli utenti finali:

Questo è classificato in cinque gruppi diversi come 1. Data Reporting 2. Strumenti di query 3. Strumenti di sviluppo di applicazioni 4. Strumenti EIS, 5. Strumenti OLAP e strumenti di data mining.

Chi ha bisogno del data warehouse?

DWH (Data Warehouse) è necessario per tutti i tipi di utenti come:

  • Decision maker che fanno affidamento su grandi quantità di dati
  • Utenti che utilizzano processi personalizzati e complessi per ottenere informazioni da più fonti di dati.
  • Viene utilizzato anche dalle persone che desiderano una tecnologia semplice per accedere ai dati
  • È essenziale anche per coloro che desiderano un approccio sistematico nel prendere decisioni.
  • Se l'utente desidera prestazioni rapide su un'enorme quantità di dati, una necessità per report, griglie o grafici, il data warehouse si rivela utile.
  • Il data warehouse è un primo passo se vuoi scoprire "modelli nascosti" di flussi e raggruppamenti di dati.

A cosa serve un data warehouse?

Ecco i settori più comuni in cui viene utilizzato il Data Warehouse:

Compagnia aerea:

Nel sistema delle compagnie aeree, viene utilizzato per scopi operativi come l'assegnazione dell'equipaggio, l'analisi della redditività delle rotte, le promozioni dei programmi frequent flyer, ecc.

Banking:

È ampiamente utilizzato nel settore bancario per gestire in modo efficace le risorse disponibili sul desk. Poche banche la utilizzano anche per le ricerche di mercato, l'analisi della performance del prodotto e delle operazioni.

Assistenza sanitaria:

Il settore sanitario ha utilizzato anche il data warehouse per definire strategie e prevedere risultati, generare rapporti sui trattamenti dei pazienti, condividere dati con compagnie assicurative collegate, servizi di assistenza medica, ecc.

Settore pubblico:

Nel settore pubblico, il data warehouse viene utilizzato per la raccolta di informazioni. Aiuta le agenzie governative a conservare e analizzare i registri fiscali e le registrazioni delle politiche sanitarie per ogni individuo.

Settore investimenti e assicurazioni:

In questo settore, i magazzini vengono utilizzati principalmente per analizzare modelli di dati, tendenze dei clienti e per tenere traccia dei movimenti del mercato.

Conservare la catena:

Nelle catene di vendita al dettaglio, il Data warehouse è ampiamente utilizzato per la distribuzione e il marketing. Aiuta anche a tracciare gli articoli, il modello di acquisto dei clienti, le promozioni e viene utilizzato anche per determinare la politica dei prezzi.

Telecomunicazione:

In questo settore, un data warehouse viene utilizzato per la promozione dei prodotti, le decisioni di vendita e per prendere decisioni sulla distribuzione.

Settore dell'ospitalità:

Questo settore utilizza i servizi di magazzino per progettare e stimare le proprie campagne pubblicitarie e promozionali, indirizzandole ai clienti in base al loro feedback e alle loro abitudini di viaggio.

Passaggi per implementare il data warehouse

Il modo migliore per affrontare il rischio aziendale associato all'implementazione di un datawarehouse è utilizzare una strategia su tre fronti come di seguito

  1. Strategia aziendale: Qui identifichiamo le tecniche, tra cui l'architettura e gli strumenti correnti. Identifichiamo anche fatti, dimensioni e attributi. Viene inoltre passata la mappatura e la trasformazione dei dati.
  2. Consegna graduale: L'implementazione del datawarehouse dovrebbe essere graduale in base alle aree tematiche. Le entità aziendali correlate come la prenotazione e la fatturazione dovrebbero essere prima implementate e poi integrate tra loro.
  3. Prototipazione iterativa: Piuttosto che un approccio big bang all'implementazione, il Datawarehouse dovrebbe essere sviluppato e testato in modo iterativo.

Di seguito sono riportati i passaggi chiave nell'implementazione del datawarehouse insieme ai relativi risultati finali.

step Compiti Risultati finali
1 Necessità di definire l'ambito del progetto Definizione dell'ambito
2 Necessità di determinare le esigenze aziendali Modello logico dei dati
3 Define Operarequisiti nazionali del Datastore Operamodello di archivio dati nazionale
4 Acquisire o sviluppare strumenti di estrazione Estrai strumenti e software
5 Definire i requisiti dei dati del data warehouse Modello dei dati di transizione
6 Documentare i dati mancanti Elenco dei progetti da fare
7 Maps Operadall'archivio dati nazionale al data warehouse Mappa di integrazione dati D/W
8 Sviluppare la progettazione del database del data warehouse Progettazione database D/W
9 Estrai dati da Operaarchivio dati nazionale Estrazioni dati D/W integrate
10 Carica data warehouse Caricamento iniziale dei dati
11 Mantenere il data warehouse Accesso continuo ai dati e caricamenti successivi

migliori pratiche per implementare un Data Warehouse

  • Decidere un piano per testare la coerenza, l'accuratezza e l'integrità dei dati.
  • Il data warehouse deve essere ben integrato, ben definito e dotato di timestamp.
  • Durante la progettazione di Datawarehouse assicurati di utilizzare lo strumento giusto, attieniti al ciclo di vita, prenditi cura dei conflitti di dati e sei pronto a riconoscere i tuoi errori.
  • Non sostituire mai i sistemi operativi e i report
  • Non dedicare troppo tempo all'estrazione, alla pulizia e al caricamento dei dati.
  • Garantire il coinvolgimento di tutte le parti interessate, compreso il personale aziendale, nel processo di implementazione del datawarehouse. Stabilire che il data warehousing è un progetto congiunto/di squadra. Non vuoi creare un data warehouse che non sia utile agli utenti finali.
  • Preparare un piano di formazione per gli utenti finali.

Perché abbiamo bisogno del data warehouse? Vantaggi e svantaggi

Vantaggi del Data Warehouse (DWH):

  • Il data warehouse consente agli utenti aziendali di accedere rapidamente ai dati critici da alcune fonti in un unico posto.
  • Il data warehouse fornisce informazioni coerenti su varie attività interfunzionali. Supporta inoltre report e query ad hoc.
  • Il Data Warehouse aiuta a integrare molte fonti di dati per ridurre lo stress sul sistema di produzione.
  • Il data warehouse aiuta a ridurre i tempi di consegna totali per l'analisi e il reporting.
  • La ristrutturazione e l'integrazione ne semplificano l'utilizzo da parte dell'utente per il reporting e l'analisi.
  • Il data warehouse consente agli utenti di accedere ai dati critici da numerose fonti in un unico posto. Pertanto, consente all'utente di risparmiare tempo nel recuperare dati da più fonti.
  • Il data warehouse archivia una grande quantità di dati storici. Ciò aiuta gli utenti ad analizzare diversi periodi di tempo e tendenze per fare previsioni future.

Svantaggi del data warehouse:

  • Non è un'opzione ideale per i dati non strutturati.
  • La creazione e l'implementazione di Data Warehouse è sicuramente una questione che crea confusione in termini di tempo.
  • Il data warehouse può diventare obsoleto in tempi relativamente brevi
  • Difficile apportare modifiche ai tipi e agli intervalli di dati, allo schema dell'origine dati, agli indici e alle query.
  • Il data warehouse può sembrare semplice, ma in realtà è troppo complesso per l'utente medio.
  • Nonostante i migliori sforzi nella gestione del progetto, la portata del progetto di data warehousing aumenterà sempre.
  • A volte gli utenti del magazzino svilupperanno regole aziendali diverse.
  • Le organizzazioni devono spendere molte delle proprie risorse per scopi di formazione e implementazione.

Il futuro del data warehouse

  • Cambiare in Vincoli normativi può limitare la capacità di combinare fonti di dati disparati. Queste fonti disparate possono includere dati non strutturati difficili da archiviare.
  • Il Taglia dei database cresce, le stime di cosa costituisce un database molto grande continuano a crescere. È complesso costruire e gestire sistemi di data warehouse che aumentano sempre di dimensioni. Le risorse hardware e software disponibili oggi non consentono di mantenere una grande quantità di dati online.
  • Dati multimediali non possono essere facilmente manipolati come dati di testo, mentre le informazioni testuali possono essere recuperate dal software relazionale oggi disponibile. Questo potrebbe essere un argomento di ricerca.

Strumenti di data warehouse

Sul mercato sono disponibili molti strumenti di data warehousing. Eccone alcuni tra i più importanti:

1. SegnaLogica:

MarkLogic è una soluzione utile per il data warehousing che semplifica e velocizza l'integrazione dei dati utilizzando una serie di funzionalità aziendali. Questo strumento aiuta a eseguire operazioni di ricerca molto complesse. Può interrogare diversi tipi di dati come documenti, relazioni e metadati.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle è il database leader del settore. Offre un'ampia scelta di soluzioni di data warehouse sia on-premise che nel cloud. Aiuta a ottimizzare l'esperienza del cliente aumentando l'efficienza operativa.

https://www.oracle.com/index.html

3. Amazon RossoShift:

Amazon Redshift è uno strumento di data warehouse. È uno strumento semplice ed economico per analizzare tutti i tipi di dati utilizzando lo standard SQL e strumenti di BI esistenti. Consente inoltre di eseguire query complesse su petabyte di dati strutturati, utilizzando la tecnica di ottimizzazione delle query.

https://aws.amazon.com/redshift/?nc2=h_m1

Ecco un elenco completo di utili Strumenti del datawarehouse.

APPRENDIMENTO CHIAVE

  • Data Warehouse (DWH), è noto anche come Enterprise Data Warehouse (EDW).
  • Un Data Warehouse è definito come un repository centrale in cui le informazioni provengono da una o più fonti di dati.
  • Tre tipi principali di data warehouse sono Enterprise Data Warehouse (EDW), OperaData Store nazionale e Data Mart.
  • Lo stato generale di un datawarehouse è offline OperaDatabase internazionale, Data Warehouse offline, Data Warehouse in tempo reale e Data Warehouse integrato.
  • Quattro componenti principali di Datawarehouse sono Load manager, Warehouse Manager, Query Manager e strumenti di accesso dell'utente finale
  • Il datawarehouse viene utilizzato in diversi settori come compagnie aeree, banche, sanità, assicurazioni, vendita al dettaglio, ecc.
  • L'implementazione di Datawarehouse è una strategia a 3 punte, ovvero strategia aziendale, distribuzione in fasi e prototipazione iterativa.
  • Il data warehouse consente agli utenti aziendali di accedere rapidamente ai dati critici da alcune fonti in un unico posto.