Cos'è il Data Mart nel Data Warehouse? Tipi ed esempi
Cos'è il datamart?
A DataMart è focalizzato su una singola area funzionale di un'organizzazione e contiene un sottoinsieme di dati archiviati in un Data Warehouse. Un Data Mart è una versione condensata di Data Warehouse ed è progettato per essere utilizzato da un reparto, un'unità o un insieme di utenti specifici in un'organizzazione. Ad esempio, marketing, vendite, risorse umane o finanza. È spesso controllato da un singolo dipartimento di un'organizzazione.
Data Mart di solito estrae dati solo da poche fonti rispetto a un Data Warehouse. I data mart sono di piccole dimensioni e sono più flessibili rispetto a un datawarehouse.
Perché abbiamo bisogno di Data Mart?
- Data Mart aiuta a migliorare i tempi di risposta dell'utente grazie alla riduzione del volume dei dati
- Fornisce un facile accesso ai dati richiesti di frequente.
- I Data Mart sono più semplici da implementare rispetto ai Datawarehouse aziendali. Allo stesso tempo, il costo di implementazione del Data Mart è sicuramente inferiore rispetto all'implementazione di un data warehouse completo.
- Rispetto al Data Warehouse, un datamart è agile. In caso di cambio di modello, il datamart può essere costruito più velocemente grazie alle dimensioni ridotte.
- Un Datamart è definito da un singolo esperto in materia. Al contrario, il data warehouse è definito da PMI interdisciplinari provenienti da una varietà di domini. Pertanto, il Data Mart è più aperto al cambiamento rispetto al Datawarehouse.
- I dati sono partizionati e consentono privilegi di controllo degli accessi molto granulari.
- I dati possono essere segmentati e archiviati su diverse piattaforme hardware/software.
Tipi di datamart
Esistono tre tipi principali di data mart:
- Dipendente: I data mart dipendenti vengono creati estraendo i dati direttamente da fonti operative, esterne o da entrambe.
- Competenza: Il data mart indipendente viene creato senza l'uso di un data warehouse centrale.
- IBRIDO: Questo tipo di data mart può prendere dati da data warehouse o sistemi operativi.
Datamart dipendente
Un data mart dipendente consente di reperire i dati dell'organizzazione da un singolo data warehouse. È uno degli esempi di data mart che offre il vantaggio della centralizzazione. Se è necessario sviluppare uno o più data mart fisici, è necessario configurarli come data mart dipendenti.
Il Data Mart dipendente nel data warehouse può essere creato in due modi diversi. O dove un utente può accedere sia al data mart che al data warehouse, a seconda delle necessità, o dove l'accesso è limitato solo al data mart. Il secondo approccio non è ottimale in quanto produce dati a volte definiti come una discarica di dati. Nella discarica dei dati, tutti i dati iniziano con una fonte comune, ma vengono scartati e per lo più buttati.
DataMart indipendente
Viene creato un data mart indipendente senza l'uso del data warehouse centrale. Questo tipo di Data Mart è un'opzione ideale per gruppi più piccoli all'interno di un'organizzazione.
Un data mart indipendente non ha alcuna relazione con il data warehouse aziendale né con qualsiasi altro data mart. Nel data mart indipendente, i dati vengono immessi separatamente e anche le loro analisi vengono eseguite in modo autonomo.
L'implementazione di data mart indipendenti è antitetica alla motivazione per la costruzione di un data warehouse. Innanzitutto, è necessario un archivio coerente e centralizzato di dati aziendali che possa essere analizzato da più utenti con interessi diversi che desiderano informazioni molto diverse.
Datamart ibrido
Un data mart ibrido combina input da fonti diverse dal data warehouse. Ciò potrebbe essere utile quando desideri un'integrazione ad hoc, ad esempio dopo l'aggiunta di un nuovo gruppo o prodotto all'organizzazione.
È il miglior esempio di data mart adatto per più ambienti di database e tempi di implementazione rapidi per qualsiasi organizzazione. Richiede inoltre il minimo sforzo di pulizia dei dati. Il data mart ibrido supporta anche strutture di storage di grandi dimensioni ed è più adatto per applicazioni flessibili incentrate sui dati di piccole dimensioni.
Passaggi nell'implementazione di un Datamart
L'implementazione di un Data Mart è una procedura gratificante ma complessa. Ecco i passaggi dettagliati per implementare un Data Mart:
Progettazione
La progettazione è la prima fase dell'implementazione del Data Mart. Copre tutte le attività dall'avvio della richiesta di un data mart alla raccolta di informazioni sui requisiti. Infine, creiamo il design logico e fisico del Data Mart.
La fase di progettazione prevede le seguenti attività:
- Raccolta dei requisiti aziendali e tecnici e identificazione delle origini dati.
- Selezione del sottoinsieme appropriato di dati.
- Progettare la struttura logica e fisica del data mart.
I dati potrebbero essere suddivisi in base ai seguenti criteri:
- Data
- Azienda o unità funzionale
- Presenza sul territorio
- Qualsiasi combinazione di quanto sopra
I dati potrebbero essere partizionati a livello di applicazione o DBMS. Tuttavia si consiglia di eseguire la partizione a livello di applicazione in quanto consente modelli di dati diversi ogni anno a seconda del cambiamento dell'ambiente aziendale.
Di quali prodotti e tecnologie hai bisogno?
Sarebbero sufficienti carta e penna. Sebbene gli strumenti che ti aiutano a creare UML o Diagramma ER aggiungerebbe anche metadati ai tuoi progetti logici e fisici.
Costruire
Questa è la seconda fase di implementazione. Si tratta di creare il file database fisico e le strutture logiche.
Questa fase prevede le seguenti attività:
- Implementazione del database fisico progettato nella fase precedente. Ad esempio, vengono creati oggetti dello schema del database come tabelle, indici, viste, ecc.
Di quali prodotti e tecnologie hai bisogno?
Avete bisogno di un sistema di gestione di database relazionali per costruire un data mart. Gli RDBMS hanno diverse funzionalità necessarie per il successo di un Data Mart.
- Gestione dello spazio di archiviazione: Un RDBMS archivia e gestisce i dati per creare, aggiungere ed eliminare dati.
- Accesso rapido ai dati: Con una query SQL puoi accedere facilmente ai dati in base a determinate condizioni/filtri.
- Protezione dati: Il sistema RDBMS offre anche un modo per ripristinare i guasti del sistema come le interruzioni di corrente. Consente inoltre di ripristinare i dati da questi backup in caso di guasto del disco.
- Supporto multiutente: Il sistema di gestione dei dati offre accesso simultaneo, la possibilità per più utenti di accedere e modificare i dati senza interferire o sovrascrivere le modifiche apportate da un altro utente.
- Sicurezza: Il sistema RDMS fornisce anche un modo per regolare l'accesso degli utenti agli oggetti e ad alcune tipologie di operazioni.
Popolamento
Nella terza fase, i dati vengono popolati nel data mart.
La fase di popolamento prevede le seguenti attività:
- Mappatura dei dati di origine per i dati di destinazione
- Estrazione dei dati di origine
- Operazioni di pulizia e trasformazione sui dati
- Caricamento dei dati nel datamart
- Creazione e archiviazione di metadati
Di quali prodotti e tecnologie hai bisogno?
Puoi eseguire queste attività di popolazione utilizzando un file Strumento ETL (Estrai carico di trasformazione).. Questo strumento consente di esaminare le origini dati, eseguire la mappatura dall'origine alla destinazione, estrarre i dati, trasformarli, pulirli e caricarli nuovamente nel data mart.
Nel processo, lo strumento crea anche alcuni metadati relativi a cose come la provenienza dei dati, quanto sono recenti, che tipo di modifiche sono state apportate ai dati e quale livello di riepilogo è stato effettuato.
Accesso
L'accesso è un quarto passaggio che prevede l'utilizzo dei dati: interrogare i dati, creare report, grafici e pubblicarli. L'utente finale invia query al database e visualizza i risultati delle query
La fase di accesso deve eseguire le seguenti attività:
- Configura un meta livello che traduca le strutture del database e i nomi degli oggetti in termini aziendali. Ciò aiuta gli utenti non tecnici ad accedere facilmente al Data Mart.
- Configurare e mantenere le strutture del database.
- Configura API e interfacce, se necessario
Di quali prodotti e tecnologie hai bisogno?
È possibile accedere al data mart utilizzando la riga comandi o la GUI. La GUI è preferita in quanto può generare facilmente grafici ed è facile da usare rispetto alla riga di comando.
Gestione
Questo è l'ultimo passaggio del processo di implementazione del Data Mart. Questo passaggio copre attività di gestione come-
- Gestione continua dell'accesso degli utenti.
- Ottimizzazioni e messa a punto del sistema per ottenere prestazioni migliorate.
- Aggiunta e gestione di nuovi dati nel data mart.
- Pianificare scenari di ripristino e garantire la disponibilità del sistema nel caso in cui il sistema fallisca.
Di quali prodotti e tecnologie hai bisogno?
È possibile utilizzare la GUI o la riga di comando per la gestione del data mart.
migliori pratiche per l'implementazione di Data Mart
Di seguito sono riportate le best practice da seguire durante il processo di implementazione del Data Mart:
- La fonte di un Data Mart dovrebbe essere strutturata in dipartimenti
- Il ciclo di implementazione di un Data Mart dovrebbe essere misurato in periodi di tempo brevi, cioè in settimane anziché in mesi o anni.
- È importante coinvolgere tutte le parti interessate nella fase di pianificazione e progettazione, poiché l'implementazione del data mart potrebbe essere complessa.
- I costi relativi all'hardware/software, alla rete e all'implementazione del data mart devono essere accuratamente preventivati nel piano
- Anche se il Data mart viene creato sullo stesso hardware, potrebbe essere necessario un software diverso per gestire le query degli utenti. È necessario valutare ulteriori requisiti di potenza di elaborazione e archiviazione su disco per una risposta rapida da parte dell'utente
- Un data mart potrebbe trovarsi in una posizione diversa dal data warehouse. Ecco perché è importante garantire che dispongano di capacità di rete sufficiente per gestire i volumi di dati necessari per trasferire i dati al data mart..
- Il costo di implementazione dovrebbe prevedere il tempo impiegato per il processo di caricamento del Datamart. Il tempo di caricamento aumenta con l'aumento della complessità delle trasformazioni.
Vantaggi e svantaggi di un Data Mart
Vantaggi
- I data mart contengono un sottoinsieme di dati a livello di organizzazione. Questi dati sono preziosi per un gruppo specifico di persone in un'organizzazione.
- Si tratta di un'alternativa economicamente vantaggiosa a data warehouse, la cui costruzione può richiedere costi elevati.
- Data Mart consente un accesso più rapido ai dati.
- Data Mart è facile da usare poiché è progettato specificamente per le esigenze dei suoi utenti. Pertanto un data mart può accelerare i processi aziendali.
- I Data Mart necessitano di tempi di implementazione inferiori rispetto ai sistemi Data Warehouse. È più veloce implementare Data Mart poiché è necessario concentrare solo il solo sottoinsieme dei dati.
- Contiene dati storici che consentono all'analista di determinare le tendenze dei dati.
Svantaggi
- Molte volte le aziende creano troppi data mart disparati e non correlati senza molti vantaggi. Può diventare un grosso ostacolo da mantenere.
- Data Mart non può fornire servizi a livello aziendale analisi dei dati poiché il loro set di dati è limitato.
Sommario
- Definire Data Mart: un Data Mart è definito come un sottoinsieme di Data Warehouse focalizzato su una singola area funzionale di un'organizzazione.
- Data Mart aiuta a migliorare i tempi di risposta dell'utente grazie a una riduzione del volume dei dati.
- Tre tipi di data mart sono 1) Dipendente 2) Indipendente 3) Ibrido
- Importanti passaggi di implementazione del Data Mart sono 1) Progettazione 2) Costruzione 3 Popolamento 4) Accesso e 5) Gestione
- Il ciclo di implementazione di un Data Mart dovrebbe essere misurato in periodi di tempo brevi, cioè in settimane anziché in mesi o anni.
- Il data mart rappresenta un'alternativa economicamente vantaggiosa a un data warehouse, la cui realizzazione può richiedere costi elevati.
- Data Mart non può fornire analisi dei dati a livello aziendale poiché il set di dati è limitato.