magazzino dati Archistruttura, componenti e diagramma Concepts
magazzino dati Concepts
Il concetto di base di un Data Warehouse è quello di facilitare un'unica versione della verità per un'azienda per il processo decisionale e le previsioni. Un Data Warehouse è un sistema informativo che contiene dati storici e commutativi provenienti da fonti singole o multiple. Magazzino dati Concepts semplificare il processo di reporting e analisi delle organizzazioni.
Caratteristiche del Data Warehouse
magazzino dati Concepts hanno le seguenti caratteristiche:
- Orientato al soggetto
- Integrato
- Variante temporale
- Non volatile
Orientato al soggetto
Un data warehouse è orientato al soggetto in quanto offre informazioni relative a un tema anziché alle operazioni in corso delle aziende. Questi argomenti possono essere vendite, marketing, distribuzioni, ecc.
Un data warehouse non si concentra mai sulle operazioni in corso. Invece, ha posto l'accento sulla modellazione e sull'analisi dei dati il processo decisionale. Fornisce inoltre una visione semplice e concisa dell'argomento specifico escludendo i dati che non sono utili per supportare il processo decisionale.
Integrato
Nel Data Warehouse, integrazione significa stabilire un'unità di misura comune per tutti i dati simili provenienti da database dissimili. I dati devono inoltre essere archiviati nel Datawarehouse in modo comune e universalmente accettabile.
Un data warehouse viene sviluppato integrando dati provenienti da varie fonti come mainframe, database relazionali, file flat, ecc. Inoltre, deve mantenere convenzioni di denominazione, formato e codifica coerenti.
Questa integrazione aiuta nell'analisi efficace dei dati. È necessario garantire la coerenza nelle convenzioni di denominazione, nelle misure degli attributi, nella struttura di codifica ecc. Si consideri il seguente esempio:
Nell'esempio precedente, sono presenti tre diverse applicazioni etichettate A, B e C. Le informazioni archiviate in queste applicazioni sono Sesso, Data e Saldo. Tuttavia, i dati di ciascuna applicazione vengono archiviati in modo diverso.
- Nel campo genere dell'applicazione A vengono memorizzati valori logici come M o F
- Nell'applicazione B il campo sesso è un valore numerico,
- Nell'applicazione Applicazione C, campo relativo al sesso memorizzato sotto forma di valore di carattere.
- Lo stesso vale per Data e saldo
Tuttavia, dopo il processo di trasformazione e pulizia, tutti questi dati vengono archiviati in un formato comune nel file magazzino dati.
Variante temporale
L'orizzonte temporale del data warehouse è piuttosto ampio rispetto ai sistemi operativi. I dati raccolti in un data warehouse vengono riconosciuti con un periodo particolare e offrono informazioni dal punto di vista storico. Contiene un elemento di tempo, esplicitamente o implicitamente.
Uno di questi luoghi in cui la varianza temporale di visualizzazione dei dati del datawarehouse è nella struttura della chiave record. Ogni chiave primaria contenuta nel DW dovrebbe avere implicitamente o esplicitamente un elemento temporale. Come il giorno, la settimana, il mese, ecc.
Un altro aspetto della varianza temporale è che una volta inseriti nel magazzino, i dati non possono essere aggiornati o modificati.
Non volatile
Il data warehouse è anche non volatile, ovvero i dati precedenti non vengono cancellati quando vengono immessi nuovi dati.
I dati sono di sola lettura e aggiornati periodicamente. Ciò aiuta anche ad analizzare i dati storici e a capire cosa e quando è successo. Non richiede processi di transazione, ripristino e meccanismi di controllo della concorrenza.
Attività come l'eliminazione, l'aggiornamento e l'inserimento eseguite in un ambiente applicativo operativo vengono omesse nell'ambiente data warehouse. Sono solo due tipi di operazioni sui dati eseguite nel Data Warehousing
- Caricamento dei dati
- Accesso ai dati
Ecco alcune delle principali differenze tra Applicazione e Data Warehouse
Operaapplicazione nazionale | magazzino dati |
---|---|
È necessario codificare programmi complessi per garantire che i processi di aggiornamento dei dati mantengano un'elevata integrità del prodotto finale. | Questo tipo di problemi non si verifica perché l'aggiornamento dei dati non viene eseguito. |
I dati vengono inseriti in un formato normalizzato per garantire una ridondanza minima. | I dati non vengono memorizzati in forma normalizzata. |
Tecnologia necessaria per supportare problemi di transazioni, recupero dati, rollback e risoluzione poiché la situazione di stallo è piuttosto complessa. | Offre una relativa semplicità nella tecnologia. |
magazzino dati Architectura
magazzino dati Architectura è complesso in quanto è un sistema informativo che contiene dati storici e commutativi da più fonti. Esistono 3 approcci per la costruzione di livelli di Data Warehouse: Single Tier, Two Tier e Three Tier. Questa architettura a 3 livelli di Data Warehouse è spiegata di seguito.
Architettura a livello singolo
L'obiettivo di un singolo livello è minimizzare la quantità di dati archiviati. Questo obiettivo è rimuovere la ridondanza dei dati. Questa architettura non è usata frequentemente nella pratica.
Architettura a due livelli
L'architettura a due livelli è uno dei livelli del Data Warehouse che separa le fonti fisicamente disponibili e il data warehouse. Questa architettura non è espandibile e non supporta un gran numero di utenti finali. Presenta inoltre problemi di connettività a causa delle limitazioni di rete.
Data Warehouse a tre livelli Architectura
Questo è il più utilizzato Archistruttura del Data Warehouse.
È costituito dal livello superiore, intermedio e inferiore.
- Livello inferiore: Il database dei server Datawarehouse come livello inferiore. Di solito è un sistema di database relazionale. I dati vengono puliti, trasformati e caricati in questo livello utilizzando strumenti back-end.
- Livello intermedio: Il livello intermedio nel data warehouse è un server OLAP implementato utilizzando il modello ROLAP o MOLAP. Per un utente, questo livello di applicazione presenta una visione astratta del database. Questo livello funge anche da mediatore tra l'utente finale e il database.
- Livello superiore: Il livello superiore è un livello client front-end. Il livello superiore comprende gli strumenti e le API a cui ti connetti e ottieni i dati dal data warehouse. Potrebbero essere strumenti di query, strumenti di reporting, strumenti di query gestite, strumenti di analisi e strumenti di data mining.
Componenti del datawarehouse
Impareremo a conoscere i componenti del datawarehouse e Archistruttura del Data Warehouse con il diagramma come mostrato di seguito:
Il Data Warehouse è basato su un server RDBMS che è un repository centrale di informazioni circondato da alcuni componenti chiave di Data Warehousing per rendere l'intero ambiente funzionale, gestibile e accessibile.
Esistono principalmente cinque componenti del data warehouse:
Database del data warehouse
Il database centrale è il fondamento dell'ambiente di data warehousing. Questo database è implementato su RDBMS tecnologia. Tuttavia, questo tipo di implementazione è vincolata dal fatto che il sistema RDBMS tradizionale è ottimizzato per l’elaborazione di database transazionali e non per il data warehousing. Ad esempio, query ad hoc, join multi-tabella e aggregazioni richiedono molte risorse e rallentano le prestazioni.
Pertanto, vengono utilizzati approcci alternativi al database come elencato di seguito:
- In un datawarehouse, i database relazionali vengono distribuiti in parallelo per consentire la scalabilità. I database relazionali paralleli consentono anche la memoria condivisa o il modello di nulla condiviso su varie configurazioni multiprocessore o processori massivamente paralleli.
- Vengono utilizzate nuove strutture di indice per aggirare la scansione delle tabelle relazionali e migliorare la velocità.
- Utilizzo di database multidimensionali (MDDB) per superare eventuali limitazioni poste a causa dei modelli relazionali di Data Warehouse. Esempio: Essbase da Oracle.
Strumenti di approvvigionamento, acquisizione, pulizia e trasformazione (ETL)
Gli strumenti di sourcing, trasformazione e migrazione dei dati vengono utilizzati per eseguire tutte le conversioni, i riepiloghi e tutte le modifiche necessarie per trasformare i dati in un formato unificato nel datawarehouse. Sono anche chiamati strumenti di estrazione, trasformazione e caricamento (ETL).
La loro funzionalità include:
- Anonimizza i dati secondo le disposizioni normative.
- Eliminazione dei dati indesiderati nei database operativi dal caricamento nel data warehouse.
- Cerca e sostituisci nomi e definizioni comuni per i dati provenienti da fonti diverse.
- Calcolo di sintesi e dati derivati
- In caso di dati mancanti, popolarli con valori predefiniti.
- Dati ripetuti deduplicati provenienti da più origini dati.
Questi strumenti di estrazione, trasformazione e caricamento possono generare processi cron, processi in background, Programmi Cobol, script di shell, ecc. che aggiornano regolarmente i dati nel data warehouse. Questi strumenti sono utili anche per mantenere i metadati.
Alcuni degli Strumenti ETL devono affrontare le sfide dell'eterogeneità di database e dati.
Metadati
Il nome Meta Data suggerisce un Data Warehousing tecnologico di alto livello Concepts. Tuttavia, è abbastanza semplice. I metadati sono dati sui dati che definiscono il data warehouse. Viene utilizzato per creare, mantenere e gestire il data warehouse.
Nel magazzino dati ArchiNella struttura, i metadati svolgono un ruolo importante in quanto specificano l'origine, l'utilizzo, i valori e le caratteristiche dei dati del data warehouse. Definisce inoltre come i dati possono essere modificati ed elaborati. È strettamente connesso al data warehouse.
Ad esempio, una riga nel database delle vendite può contenere:
4030 KJ732 299.90
Questo è un dato senza senso finché non consultiamo i Meta che ci dicono di sì
- Numero modello: 4030
- ID agente di vendita: KJ732
- Importo totale delle vendite di $ 299.90
I Meta Data sono quindi ingredienti essenziali nella trasformazione dei dati in conoscenza.
I metadati aiutano a rispondere alle seguenti domande
- Quali tabelle, attributi e chiavi contiene il Data Warehouse?
- Da dove provengono i dati?
- Quante volte i dati vengono ricaricati?
- Quali trasformazioni sono state applicate con la pulizia?
I metadati possono essere classificati nelle seguenti categorie:
- Metadati tecnici: questo tipo di metadati contiene informazioni sul magazzino utilizzate dai progettisti e dagli amministratori del data warehouse.
- Metadati aziendali: Questo tipo di metadati contiene dettagli che offrono agli utenti finali un modo semplice per comprendere le informazioni archiviate nel data warehouse.
Strumenti di interrogazione
Uno degli obiettivi principali del data warehousing è fornire informazioni alle aziende per prendere decisioni strategiche. Gli strumenti di query consentono agli utenti di interagire con il sistema di data warehouse.
Questi strumenti rientrano in quattro diverse categorie:
- Strumenti di query e reportistica
- Strumenti di sviluppo di applicazioni
- Strumenti di data mining
- Strumenti OLAP
1. Strumenti di query e reporting
Gli strumenti di query e reporting possono essere ulteriormente suddivisi in
- Strumenti di segnalazione
- Strumenti di query gestiti
Strumenti di segnalazione:
Strumenti di segnalazione può essere ulteriormente suddiviso in strumenti di reporting di produzione e scrittore di report desktop.
- Autori di report: questo tipo di strumenti di reporting sono strumenti progettati per gli utenti finali per la loro analisi.
- Reporting sulla produzione: questo tipo di strumenti consente alle organizzazioni di generare report operativi regolari. Supporta anche lavori batch ad alto volume come la stampa e il calcolo. Alcuni strumenti di reporting popolari sono Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Strumenti di query gestite:
Questo tipo di strumenti di accesso aiuta gli utenti finali a risolvere gli ostacoli nel database, nell'SQL e nella struttura del database inserendo un meta-livello tra gli utenti e il database.
2. Strumenti di sviluppo delle applicazioni
A volte gli strumenti grafici e analitici integrati non soddisfano le esigenze analitiche di un'organizzazione. In questi casi, i report personalizzati vengono sviluppati utilizzando gli strumenti di sviluppo dell'applicazione.
3. Strumenti di data mining
Il data mining è un processo di scoperta di nuove correlazioni, schemi e tendenze significative estraendo grandi quantità di dati. Strumenti di data mining vengono utilizzati per rendere automatico questo processo.
4. Strumenti OLAP
Questi strumenti si basano sui concetti di un database multidimensionale. Consentono agli utenti di analizzare i dati utilizzando viste multidimensionali elaborate e complesse.
Autobus del magazzino dati Architectura
Data warehouse Bus determina il flusso di dati nel tuo magazzino. Il flusso di dati in un data warehouse può essere classificato come flusso in entrata, flusso in salita, flusso in discesa, flusso in uscita e metaflusso.
Durante la progettazione di un bus dati, è necessario considerare le dimensioni condivise e i fatti tra i data mart.
Data mart
A datamart è un livello di accesso che viene utilizzato per fornire dati agli utenti. Viene presentato come un'opzione per data warehouse di grandi dimensioni poiché richiede meno tempo e denaro per la creazione. Tuttavia, non esiste una definizione standard di data mart che differisce da persona a persona.
In una parola semplice, Data Mart è una filiale di un data warehouse. Il data mart viene utilizzato per la partizione dei dati creati per il gruppo specifico di utenti.
I data mart potrebbero essere creati nello stesso database del Datawarehouse o in un database fisicamente separato.
Data warehouse Architecture migliori Pratiche
Progettare Data Warehouse Architecture, è necessario seguire le migliori pratiche indicate di seguito:
- Utilizzare modelli di data warehouse ottimizzati per il recupero delle informazioni che può essere la modalità dimensionale, l'approccio denormalizzato o ibrido.
- Scegli l'approccio di progettazione appropriato come approccio top down e bottom up in Data Warehouse
- Necessità di garantire che i dati vengano elaborati in modo rapido e accurato. Allo stesso tempo, dovresti adottare un approccio che consolidi i dati in un’unica versione della verità.
- Progettare attentamente il processo di acquisizione e pulizia dei dati per il data warehouse.
- Progettare un'architettura MetaData che consenta la condivisione dei metadati tra i componenti del Data Warehouse
- Prendi in considerazione l'implementazione di un modello ODS quando la necessità di recupero delle informazioni si trova nella parte inferiore della piramide di astrazione dei dati o quando è necessario accedere a più fonti operative.
- Bisogna assicurarsi che il modello dei dati sia integrato e non solo consolidato. In tal caso, dovresti considerare il modello dati 3NF. È ideale anche per acquisire strumenti ETL e di pulizia dei dati
Sommario
- Il data warehouse è un sistema informativo che contiene dati storici e commutativi provenienti da fonti singole o multiple. Queste fonti possono essere Data Warehouse tradizionale, Cloud Data Warehouse o Virtual Data Warehouse.
- Un data warehouse è orientato al soggetto in quanto offre informazioni relative al soggetto anziché alle operazioni in corso dell'organizzazione.
- Nel Data Warehouse, integrazione significa stabilire un'unità di misura comune per tutti i dati simili provenienti dai diversi database
- Il data warehouse è anche non volatile, ovvero i dati precedenti non vengono cancellati quando vengono immessi nuovi dati.
- Un Datawarehouse è una variante temporale poiché i dati in un DW hanno una durata di conservazione elevata.
- Ci sono principalmente 5 componenti di Data Warehouse Archistruttura: 1) Database 2) Strumenti ETL 3) Metadati 4) Strumenti di query 5) DataMart
- Queste sono quattro categorie principali di strumenti di query 1. Query e reporting, strumenti 2. Strumenti di sviluppo di applicazioni, 3. Strumenti di data mining 4. Strumenti OLAP
- Gli strumenti di acquisizione, trasformazione e migrazione dei dati vengono utilizzati per eseguire tutte le conversioni e i riepiloghi.
- Nel magazzino dati ArchiNella struttura, i metadati svolgono un ruolo importante in quanto specificano l'origine, l'utilizzo, i valori e le caratteristiche dei dati del data warehouse.