Cos'è la modellazione dimensionale nel data warehouse? Impara i tipi

Modellazione dimensionale

Modellazione dimensionale (DM) è una tecnica di struttura dei dati ottimizzata per l'archiviazione dei dati in un data warehouse. Lo scopo della modellazione dimensionale è ottimizzare il database per un recupero più rapido dei dati. Il concetto di modellazione dimensionale è stato sviluppato da Ralph Kimball e consiste in tabelle di "fatti" e "dimensioni".

Un modello dimensionale nel data warehouse è progettato per leggere, riepilogare, analizzare informazioni numeriche come valori, saldi, conteggi, pesi, ecc. in un data warehouse. Al contrario, i modelli di relazione sono ottimizzati per l'aggiunta, l'aggiornamento e la cancellazione dei dati in un sistema di transazioni online in tempo reale.

Questi modelli dimensionali e relazionali hanno il loro modo unico di archiviare i dati che presenta vantaggi specifici.

Ad esempio, nella modalità relazionale, la normalizzazione e i modelli ER riducono la ridondanza nei dati. Al contrario, il modello dimensionale nel data warehouse organizza i dati in modo tale che sia più semplice recuperare informazioni e generare report.

Pertanto, vengono utilizzati i modelli dimensionali sistemi di data warehouse e non adatto ai sistemi relazionali.

Elementi di modello dimensionale dei dati

Fatto

I fatti sono le misurazioni/metriche o i fatti del tuo processo aziendale. Per un processo aziendale Vendite, una misurazione sarebbe il numero di vendite trimestrali

Dimensioni

La dimensione fornisce il contesto che circonda un evento del processo aziendale. In termini semplici, danno chi, cosa, dove di un fatto. Nel processo aziendale Vendite, per il fatto numero di vendite trimestrali, le dimensioni sarebbero

  • Chi – Nomi dei clienti
  • Dove – Posizione
  • Cosa – Nome del prodotto

In altre parole, una dimensione è una finestra per visualizzare le informazioni sui fatti.

Attributi

Gli Attributi sono le varie caratteristiche della dimensione nella modellazione dei dati dimensionali.

Nella dimensione Posizione, gli attributi possono essere

  • Regione / Stato
  • Paese
  • Codice postale ecc.

Gli attributi vengono utilizzati per cercare, filtrare o classificare i fatti. Le tabelle dimensionali contengono attributi

Tabella dei fatti

Una tabella dei fatti è una tabella primaria nella modellazione delle dimensioni.

Una tabella dei fatti contiene

  1. Misurazioni/fatti
  2. Chiave esterna per la tabella delle dimensioni

Tabella delle dimensioni

  • Una tabella delle dimensioni contiene le dimensioni di un fatto.
  • Sono uniti alla tabella dei fatti tramite una chiave esterna.
  • Le tabelle delle dimensioni sono tabelle denormalizzate.
  • Gli attributi dimensione sono le varie colonne in una tabella dimensione
  • Le dimensioni offrono caratteristiche descrittive dei fatti con l'aiuto dei loro attributi
  • Nessun limite stabilito per il numero di dimensioni
  • La dimensione può contenere anche una o più relazioni gerarchiche

Tipi di dimensioni nel data warehouse

Di seguito sono riportati i Tipi di dimensioni nel data warehouse:

  • Dimensione conforme
  • Dimensione del bilanciere
  • Dimensione rimpicciolita
  • Dimensione del gioco di ruolo
  • Da dimensione a tabella delle dimensioni
  • Dimensione spazzatura
  • Dimensione degenerata
  • Dimensione scambiabile
  • Dimensione del passo

Fasi della modellazione dimensionale

L'accuratezza nella creazione della modellazione dimensionale determina il successo dell'implementazione del data warehouse. Ecco i passaggi per creare il modello dimensionale

  1. Identificare il processo aziendale
  2. Identificare il grano (livello di dettaglio)
  3. Identificare le dimensioni
  4. Identificare i fatti
  5. Costruisci stella

Il modello dovrebbe descrivere il perché, il quanto, il quando/dove/chi e il cosa del processo aziendale

Fasi della modellazione dimensionale

Passaggio 1) Identificare il processo aziendale

Identificare il processo aziendale effettivo che un datarehouse dovrebbe coprire. Potrebbe trattarsi di marketing, vendite, risorse umane, ecc. secondo il analisi dei dati esigenze dell'organizzazione. La selezione del processo aziendale dipende anche dalla qualità dei dati disponibili per quel processo. È il passaggio più importante del processo di modellazione dei dati e un fallimento in questo caso comporterebbe difetti a cascata e irreparabili.

Per descrivere il processo aziendale, è possibile utilizzare testo semplice oppure utilizzare la notazione BPMN (Business Process Modeling Notation) di base o il linguaggio di modellazione unificato (UML).

Passaggio 2) Identificare il grano

Il Grano descrive il livello di dettaglio del problema/soluzione aziendale. È il processo di identificazione del livello più basso di informazioni per qualsiasi tabella nel data warehouse. Se una tabella contiene dati di vendita giornalieri, dovrebbe essere granularità giornaliera. Se una tabella contiene dati sulle vendite totali per ogni mese, avrà una granularità mensile.

Durante questa fase, rispondi a domande come

  1. Dobbiamo immagazzinare tutti i prodotti disponibili o solo alcune tipologie di prodotti? Questa decisione si basa sui processi aziendali selezionati per Datawarehouse
  2. Archiviamo le informazioni sulla vendita dei prodotti su base mensile, settimanale, giornaliera o oraria? Questa decisione dipende dalla natura delle relazioni richieste dai dirigenti
  3. In che modo le due scelte precedenti influiscono sulla dimensione del database?

Esempio di grano:

Il CEO di una multinazionale vuole trovare quotidianamente le vendite di prodotti specifici in luoghi diversi.

Quindi, il granello è “informazioni sulla vendita del prodotto per località e giorno per giorno”.

Passaggio 3) Identificare le dimensioni

Le dimensioni sono sostantivi come data, negozio, inventario, ecc. Queste dimensioni sono dove devono essere archiviati tutti i dati. Ad esempio, la dimensione della data può contenere dati come anno, mese e giorno della settimana.

Esempio di dimensioni:

Il CEO di una multinazionale vuole trovare quotidianamente le vendite di prodotti specifici in luoghi diversi.

Dimensioni: prodotto, luogo e ora

Attributi: Per prodotto: chiave prodotto (chiave esterna), nome, tipo, specifiche

Gerarchie: Per posizione: Paese, Stato, Città, Indirizzo, Nome

Passaggio 4) Identificare il fatto

Questo passaggio è co-associato agli utenti aziendali del sistema perché è da qui che ottengono l'accesso ai dati archiviati nel data warehouse. La maggior parte delle righe della tabella dei fatti sono valori numerici come prezzo o costo per unità, ecc.

Esempio di fatti:

Il CEO di una multinazionale vuole trovare quotidianamente le vendite di prodotti specifici in luoghi diversi.

Il fatto qui è la somma delle vendite per prodotto per località per tempo.

Passaggio 5) Costruisci lo schema

In questo passaggio verrà implementato il modello dimensionale. Uno schema non è altro che la struttura del database (disposizione delle tabelle). Esistono due schemi popolari

  1. Schema a stella

L'architettura dello schema a stella è facile da progettare. È chiamata schema a stella perché il diagramma assomiglia a una stella, con punte che si irradiano da un centro. Il centro della stella è costituito dalla tabella dei fatti e le punte della stella sono le tabelle delle dimensioni.

Le tabelle dei fatti in uno schema a stella che è la terza forma normale mentre le tabelle dimensionali sono denormalizzate.

  1. Schema del fiocco di neve

Lo schema a fiocco di neve è un'estensione dello schema a stella. In uno schema a fiocco di neve, ciascuna dimensione è normalizzata e collegata a più tabelle dimensionali.

Controlla anche: - Schema a stella e fiocco di neve nel data warehouse con esempi di modelli

Regole per la modellazione dimensionale

Di seguito sono riportate le regole e i principi della modellazione dimensionale:

  • Caricare dati atomici in strutture dimensionali.
  • Costruisci modelli dimensionali attorno ai processi aziendali.
  • È necessario garantire che a ogni tabella dei fatti sia associata una tabella delle dimensioni della data.
  • Assicurarsi che tutti i fatti in un'unica tabella dei fatti abbiano lo stesso livello di dettaglio.
  • È essenziale archiviare le etichette dei report e filtrare i valori del dominio nelle tabelle delle dimensioni
  • È necessario garantire che le tabelle delle dimensioni utilizzino una chiave surrogata
  • Bilanciare continuamente requisiti e realtà per fornire soluzioni aziendali a supporto del processo decisionale

Vantaggi della modellazione dimensionale

  • La standardizzazione delle dimensioni consente un facile reporting tra le aree aziendali.
  • Le tabelle dimensionali memorizzano la cronologia delle informazioni dimensionali.
  • Permette di introdurre una dimensione completamente nuova senza grandi interruzioni nella tabella dei fatti.
  • Dimensionale anche per archiviare i dati in modo tale che sia più semplice recuperare le informazioni dai dati una volta archiviati nel database.
  • Rispetto al modello normalizzato le tabelle dimensionali sono di più facile comprensione.
  • Le informazioni sono raggruppate in categorie aziendali chiare e semplici.
  • Il modello dimensionale è molto comprensibile per l'azienda. Questo modello si basa sui termini aziendali, in modo che l'azienda sappia cosa significa ogni fatto, dimensione o attributo.
  • I modelli dimensionali sono deformati e ottimizzati per una rapida interrogazione dei dati. Molte piattaforme di database relazionali riconoscono questo modello e ottimizzano i piani di esecuzione delle query per migliorare le prestazioni.
  • La modellazione dimensionale nel data warehouse crea uno schema ottimizzato per prestazioni elevate. Ciò significa meno join e aiuta a ridurre al minimo la ridondanza dei dati.
  • Il modello dimensionale aiuta anche a migliorare le prestazioni delle query. È più denormalizzato quindi è ottimizzato per le query.
  • I modelli dimensionali possono accogliere comodamente il cambiamento. È possibile aggiungere alle tabelle dimensione più colonne senza influire sulle applicazioni di business intelligence esistenti che utilizzano queste tabelle.

Cos'è il modello di dati multidimensionale nel data warehouse?

Modello dati multidimensionale nel data warehouse è un modello che rappresenta i dati sotto forma di cubi di dati. Consente di modellare e visualizzare i dati in più dimensioni ed è definito da dimensioni e fatti. Il modello di dati multidimensionale è generalmente classificato attorno a un tema centrale e rappresentato da una tabella dei fatti.

Sommario

  • Un modello dimensionale è una tecnica di struttura dati ottimizzata per Strumenti di archiviazione dei dati.
  • I fatti sono le misurazioni/metriche o i fatti del tuo processo aziendale.
  • La dimensione fornisce il contesto che circonda un evento del processo aziendale.
  • Gli attributi sono le varie caratteristiche della modellazione dimensionale.
  • Una tabella dei fatti è una tabella primaria in un modello dimensionale.
  • Una tabella delle dimensioni contiene le dimensioni di un fatto.
  • Esistono tre tipi di fatti 1. Additivi 2. Non additivi 3. Semiadditivi.
  • I tipi di dimensioni sono Conforme, Outrigger, Rimpicciolito, Gioco di ruolo, Tabella da dimensione a dimensione, Spazzatura, Degenerata, Scambiabile e Dimensioni a gradini.
  • I cinque passaggi della modellazione dimensionale sono 1. Identificare il processo aziendale 2. Identificare la granularità (livello di dettaglio) 3. Identificare le dimensioni 4. Identificare i fatti 5. Costruire la stella
  • Per la modellazione dimensionale nel data warehouse, è necessario garantire che a ogni tabella dei fatti sia associata una tabella delle dimensioni della data.