数据仓库模型中的雪花模式

什么是雪花模式?

雪花模式 数据仓库是多维数据库中表的逻辑排列,以便 ER 图 形状类似雪花。雪花模式是星型模式的扩展,它添加了额外的维度。维度表经过规范化,将数据拆分到其他表中。

雪花模式示例

在下面的雪花模式示例中,国家/地区被进一步规范化为单独的表。

雪花模式
雪花模式示例

雪花模式的特点

  • 雪花模式的主要优点是它占用较小的磁盘空间。
  • 更容易实现将维度添加到架构中
  • 由于多表查询性能降低
  • 使用雪花模式时面临的主要挑战是,由于查找表较多,您需要执行更多的维护工作。

雪花模式的优势

  • 雪花模式的主要优势是它能够减少磁盘存储要求并连接更小的查找表,从而提高查询性能。
  • 在组件和维度级别之间的相互关系中提供了更大的可扩展性。
  • 没有冗余,因此更易于维护。

雪花模式的缺点

  • 雪花模式的一个显著缺点是需要增加维护。
  • 复杂的查询很难理解。
  • 表的数量越多意味着连接越多,因此查询执行时间就越长。

什么是 Galaxy Schema?

A 银河模式 包含两个共享维度表的事实表。它也被称为事实星座模式。该模式被视为星星的集合,因此得名星系模式。

银河模式
星系模式示例

正如你在上面的例子中看到的,有两个事实表

  1. 收入
  2. 产品。

在 Galaxy 模式中,共享维度被称为一致维度。

星系模式的特征

  • 此模式中的维度根据不同的层次结构级别分为单独的维度。
  • 例如,如果地理有四个层次结构,如地区、国家、州和城市,那么 Galaxy 模式应该有四个维度。
  • 此外,可以通过将一星型模式拆分为多个星型模式来构建这种类型的模式。
  • 此模式的维度很大,需要根据层次结构级别进行构建。
  • 该模式有助于聚合事实表以便更好地理解。

什么是星 Cluster 架构?

雪花模式包含完全扩展的层次结构。然而,这会增加模式的复杂性,并需要额外的连接。另一方面, 星型模式 包含完全折叠的层次结构,这可能会导致冗余。因此,最好的解决方案可能是在这两个模式之间取得平衡,即星型 Cluster 架构设计。

星 Cluster 架构
星号示例 Cluster 架构

重叠维度可以作为层次结构中的分叉出现。当实体在两个不同的维度层次结构中充当父级时,就会发生分叉。然后,分叉实体被标识为具有一对多关系的分类。