数据仓库中的维度建模是什么?学习类型

维度建模

维度建模 (DM) 是一种针对数据仓库中的数据存储而优化的数据结构技术。维度建模的目的是优化数据库以更快地检索数据。维度建模的概念由 Ralph Kimball 开发,由“事实”表和“维度”表组成。

数据仓库中的维度模型旨在读取、汇总和分析数据仓库中的数值信息,例如值、余额、计数、权重等。相比之下,关系模型针对实时在线交易系统中数据的添加、更新和删除进行了优化。

这些维度和关系模型都有其独特的数据存储方式,具有特定的优势。

例如,在关系模式中,规范化和 ER 模型减少了数据的冗余。相反,数据仓库中的维度模型以一种更容易检索信息和生成报告的方式排列数据。

因此,维度模型用于 数据仓库系统 并且不太适合关系系统。

维度数据模型的元素

事实

事实是业务流程中的测量/指标或事实。对于销售业务流程,测量值将是季度销售数字

尺寸

维度提供了业务流程事件的上下文。简单来说,它们给出了事实的谁、什么、在哪里。在销售业务流程中,对于季度销售数字这一事实,维度将是

  • 谁——客户姓名
  • 地点
  • 什么 – 产品名称

换句话说,维度是查看事实信息的窗口。

Attributes

属性是维度数据建模中维度的各种特征。

在位置维度中,属性可以是

  • 国家
  • 邮政编码等。

属性用于搜索、过滤或分类事实。维度表包含属性

事实表

事实表是维度建模中的主要表。

事实表包含

  1. 测量/事实
  2. 维度表的外键

尺寸表

  • 维度表包含事实的维度。
  • 它们通过外键连接到事实表。
  • 维度表是非规范化的表。
  • 维度属性是维度表中的各个列
  • 维度借助事实的属性提供事实的描述特征
  • 维度数量没有设定限制
  • 维度还可以包含一个或多个层次关系

数据仓库中的维度类型

以下是 数据仓库中的维度类型:

  • 符合尺寸
  • 支腿尺寸
  • 缩小尺寸
  • 角色扮演维度
  • 维度到维度表
  • 垃圾维度
  • 退化维度
  • 可更换尺寸
  • 步进尺寸

维度建模的步骤

创建维度模型的准确性决定了数据仓库实施的成功。以下是创建维度模型的步骤

  1. 确定业务流程
  2. 识别颗粒(细节层次)
  3. 识别尺寸
  4. 确认事实
  5. 建星

该模型应该描述业务流程的为什么、多少、何时/何地/谁和什么

维度建模的步骤

步骤 1)确定业务流程

确定数据仓库应涵盖的实际业务流程。根据 数据分析 组织的需求。业务流程的选择还取决于该流程可用的数据质量。这是数据建模过程中最重要的一步,此处的失败将导致连锁和无法弥补的缺陷。

要描述业务流程,您可以使用纯文本,也可以使用基本业务流程建模符号 (BPMN) 或统一建模语言 (UML).

步骤 2)识别谷物

粒度描述了业务问题/解决方案的详细程度。它是识别数据仓库中任何表的最低信息级别的过程。如果表包含每天的销售数据,则它应该是每日粒度。如果表包含每个月的总销售数据,则它具有月粒度。

在此阶段,你要回答以下问题:

  1. 我们需要存储所有可用产品还是仅存储几种类型的产品?此决定基于为数据仓库选择的业务流程
  2. 我们是按月、周、日还是按小时存储产品销售信息?此决定取决于高管要求的报告性质
  3. 以上两个选择如何影响数据库大小?

谷物示例:

一家跨国公司的首席执行官希望了解每天不同地区特定产品的销售情况。

因此,核心内容是“按地点按天列出的产品销售信息”。

步骤 3)确定尺寸

维度是名词,如日期、商店、库存等。这些维度是所有数据应存储的地方。例如,日期维度可能包含年份、月份和星期几等数据。

尺寸示例:

一家跨国公司的首席执行官希望了解每天不同地区特定产品的销售情况。

维度:产品、地点、时间

属性:产品:产品键(外键)、名称、类型、规格

层次结构:针对位置:国家/地区、州、城市、街道地址、名称

步骤 4)确认事实

此步骤与系统的业务用户相关,因为这是他们访问存储在数据仓库中的数据的地方。大多数事实表行都是数值,如价格或单位成本等。

事实示例:

一家跨国公司的首席执行官希望了解每天不同地区特定产品的销售情况。

这里的事实是按产品、按地点、按时间划分的销售总额。

步骤 5)构建架构

在此步骤中,您将实现维度模型。模式只不过是数据库结构(表格的排列)。有两种流行的模式

  1. 星图

星型架构设计起来比较简单,之所以叫星型架构,是因为图的形状像一颗星,星点从中心向外辐射,星的中心是事实表,星点是维度表。

星型模式中的事实表是第三范式,而维度表则是非规范化的。

  1. 雪花模式

雪花模式是星型模式的扩展。在雪花模式中,每个维度都被规范化并连接到更多维度表。

还检查: - 数据仓库中的星型和雪花模式及其模型示例

维度建模规则

以下是维度建模的规则和原则:

  • 将原子数据加载到维度结构中。
  • 围绕业务流程构建维度模型。
  • 需要确保每个事实表都有一个关联的日期维度表。
  • 确保单个事实表中的所有事实都具有相同的粒度或细节级别。
  • 在维度表中存储报告标签和过滤域值至关重要
  • 需要确保维度表使用代理键
  • 不断平衡需求和现实,提供业务解决方案来支持他们的决策

维度建模的好处

  • 维度的标准化使得跨业务领域的报告变得容易。
  • 维度表存储维度信息的历史记录。
  • 它允许引入全新的维度,而不会对事实表造成重大破坏。
  • 维度还以这样一种方式存储数据,一旦将数据存储在数据库中,就可以更轻松地从数据中检索信息。
  • 与规范化模型相比,维度表更容易理解。
  • 信息被分为清晰、简单的业务类别。
  • 维度模型对于企业来说非常容易理解。该模型基于业务术语,因此企业知道每个事实、维度或属性的含义。
  • 维度模型经过变形和优化,可实现快速数据查询。许多关系数据库平台都认可此模型,并优化查询执行计划以提高性能。
  • 数据仓库中的维度建模创建了一个针对高性能进行了优化的模式。这意味着更少的连接并有助于最大限度地减少数据冗余。
  • 维度模型也有助于提高查询性能。它更加非规范化,因此针对查询进行了优化。
  • 维度模型可以轻松适应变化。维度表可以添加更多列,而不会影响使用这些表的现有商业智能应用程序。

什么是数据仓库中的多维数据模型?

多维数据模型 数据仓库中的多维数据模型是一种以数据立方体的形式表示数据的模型。它允许以多维方式对数据进行建模和查看,并由维度和事实定义。多维数据模型通常围绕一个中心主题进行分类,并由事实表表示。

总结

  • 维度模型是一种针对以下目的进行优化的数据结构技术: 数据仓库工具.
  • 事实是来自您的业务流程的测量/指标或事实。
  • 维度提供了围绕业务流程事件的背景。
  • 属性是维度建模的各种特征。
  • 事实表是维度模型中的主要表。
  • 维度表包含事实的维度。
  • 事实有三种类型:1. 加法事实 2. 非加法事实 3. 半加法事实。
  • 尺寸的类型有一致尺寸、延伸尺寸、缩小尺寸、角色扮演尺寸、尺寸到尺寸表、垃圾尺寸、退化尺寸、可交换尺寸和步进尺寸。
  • 维度建模的五个步骤是 1. 识别业务流程 2. 识别粒度(详细程度)3. 识别维度 4. 识别事实 5. 构建星型
  • 对于数据仓库中的维度建模,需要确保每个事实表都有一个关联的日期维度表。