数据仓库中的数据集市是什么?类型和示例

什么是数据集市?

A 数据库 专注于组织的单一功能领域,包含存储在数据仓库中的数据子集。数据集市是数据仓库的精简版,专为组织中的特定部门、单位或用户组使用而设计。例如,营销、销售、人力资源或财务。它通常由组织中的单个部门控制。

与数据仓库相比,数据集市通常仅从少数来源提取数据。与数据仓库相比,数据集市规模较小,且更灵活。

为什么需要数据集市?

  • 数据集市通过减少数据量来帮助提高用户的响应时间
  • 它可以轻松访问经常请求的数据。
  • 与企业数据仓库相比,数据集市的实施更为简单。同时,与实施完整的数据仓库相比,实施数据集市的成本肯定更低。
  • 相比数据仓库,数据集市更灵活,当模型发生变化时,数据集市规模较小,可以更快地建立。
  • 数据集市由单个主题专家定义。相反,数据仓库由来自各个领域的跨学科 SME 定义。因此,与数据仓库相比,数据集市更容易改变。
  • 数据被分区并允许非常精细的访问控制权限。
  • 数据可以被分割并存储在不同的硬件/软件平台上。

数据集市的类型

数据集市主要有三种类型:

  1. 依赖的:依赖数据集市是通过直接从操作、外部或两个来源提取数据来创建的。
  2. 独立 (Independent):无需使用中央数据仓库即可创建独立数据集市。
  3. 杂交种:这种类型的数据集市可以从数据仓库或操作系统获取数据。

依赖数据集市

依赖数据集市允许从单个数据仓库获取组织的数据。它是提供集中化优势的数据集市示例之一。如果您需要开发一个或多个物理数据集市,则需要将它们配置为依赖数据集市。

数据仓库中的依赖数据集市可以用两种不同的方式构建。要么用户可以根据需要访问数据集市和数据仓库,要么访问仅限于数据集市。第二种方法不是最佳方法,因为它有时会产生所谓的数据垃圾场。在数据垃圾场中,所有数据都来自一个共同的来源,但它们会被废弃,而且大部分都是垃圾。

依赖数据集市
依赖数据集市

独立数据集市

无需使用中央数据仓库即可创建独立数据集市。这种数据集市是组织内较小团队的理想选择。

独立数据集市与企业数据仓库和其他数据集市均无关系,数据输入独立,分析也独立进行。

实施独立的数据集市与构建数据仓库的初衷背道而驰。首先,您需要一个一致的、集中的企业数据存储,可供具有不同兴趣、需要各种不同信息的多个用户进行分析。

独立数据集市

独立数据集市

混合数据集市

混合数据集市结合了来自数据仓库以外来源的输入。当您需要临时集成时,这可能会有所帮助,例如在组织中添加新组或产品后。

它是适用于多数据库环境和任何组织快速实施周转的最佳数据集市示例。它还需要最少的数据清理工作。混合数据集市还支持大型存储结构,并且最适合灵活的小型数据中心应用程序。

混合数据集市

混合数据集市

实施数据集市的步骤

实施数据集市的步骤

实施数据集市是一项有益但复杂的过程。以下是实施数据集市的详细步骤:

设计

设计是数据集市实施的第一阶段。它涵盖了从发起数据集市请求到收集需求信息的所有任务。最后,我们创建逻辑和物理数据集市设计。

设计步骤涉及以下任务:

  • 收集业务和技术需求并识别数据源。
  • 选择适当的数据子集。
  • 设计数据集市的逻辑和物理结构。

可以根据以下标准对数据进行分区:

  • 日期
  • 业务或职能部门
  • 地理
  • 以上任意组合

数据可以在应用程序或 DBMS 级别进行分区。但建议在应用程序级别进行分区,因为这样可以随着业务环境的变化每年使用不同的数据模型。

您需要什么产品和技术?

一支简单的笔和一张纸就足够了。虽然可以帮助您创建 UML 或 ER 图 还会将元数据附加到您的逻辑和物理设计中。

建造中

这是实施的第二阶段。它涉及创建 物理数据库和逻辑结构.

此步骤涉及以下任务:

  • 实现前期设计的物理数据库。例如,创建表、索引、视图等数据库模式对象。

您需要什么产品和技术?

你需要一个 关系数据库管理系统 构建数据集市。RDBMS 具有数据集市成功所需的几个功能。

  • 存储管理: RDBMS 存储和管理数据以创建、添加和删除数据。
  • 快速数据访问: 使用 SQL 查询,您可以轻松根据特定条件/过滤器访问数据。
  • 数据保护: RDBMS 系统还提供了一种从系统故障(如电源故障)中恢复的方法。它还允许在磁盘发生故障时从这些备份中恢复数据。
  • 多用户支持: 数据管理系统提供并发访问,即多个用户能够访问和修改数据而不会干扰或覆盖其他用户所做的更改。
  • 安全性: RDMS 系统还提供了一种方法来规范用户对对象和某些类型的操作的访问。

填充

在第三阶段,数据填充至数据集市。

填充步骤涉及以下任务:

  • 源数据到目标数据的映射
  • 提取源数据
  • 对数据进行清理和转换操作
  • 将数据加载到数据集市
  • 创建和存储元数据

您需要什么产品和技术?

您可以使用以下方式完成这些填充任务 ETL(提取转换加载)工具。此工具允许您查看数据源、执行源到目标的映射、提取数据、转换、清理数据并将其重新加载到数据集市中。

在此过程中,该工具还会创建一些元数据,涉及数据来源、数据的新旧程度、对数据进行了哪些类型的更改以及进行了哪些级别的汇总。

访问

访问是第四步,涉及使用数据:查询数据、创建报告、图表并发布它们。最终用户向数据库提交查询并显示查询结果

访问步骤需要执行以下任务:

  • 设置一个元层,将数据库结构和对象名称转换为业务术语。这有助于非技术用户轻松访问数据集市。
  • 建立和维护数据库结构。
  • 如果需要,设置 API 和接口

您需要什么产品和技术?

您可以使用命令行或 GUI 访问数据集市。GUI 是首选,因为它可以轻松生成图表,并且与命令行相比更加用户友好。

管理的

这是数据集市实施过程的最后一步。此步骤涵盖以下管理任务:

  • 持续的用户访问管理。
  • 系统优化和微调以实现增强的性能。
  • 在数据集市中添加并管理新数据。
  • 规划恢复方案并确保系统出现故障时系统可用性。

您需要什么产品和技术?

您可以使用 GUI 或命令行进行数据集市管理。

实施数据集市的最佳实践

以下是数据集市实施过程中需要遵循的最佳实践:

  • 数据集市的来源应按部门结构划分
  • 数据集市的实施周期应该以短时间来衡量,即以周而不是月或年。
  • 由于数据集市的实施可能很复杂,因此让所有利益相关者参与规划和设计阶段非常重要。
  • 数据集市硬件/软件、网络和实施成本应在您的计划中准确预算
  • 即使数据集市是在相同的硬件上创建的,他们也可能需要一些不同的软件来处理用户查询。应评估额外的处理能力和磁盘存储要求,以实现快速的用户响应
  • 数据集市可能与数据仓库位于不同的位置。因此,确保它们具有足够的网络容量来处理将数据传输到数据集市所需的数据量非常重要.
  • 实施成本应预算数据集市加载过程所需的时间。加载时间随着转换复杂性的增加而增加。

数据集市的优点和缺点

为什么选择

  • 数据集市包含组织范围内的数据子集。这些数据对于组织中的特定人群来说很有价值。
  • 它是具有成本效益的替代品 数据仓库,其建设成本可能很高。
  • 数据集市允许更快地访问数据。
  • 数据集市易于使用,因为它是专门为满足用户需求而设计的。因此,数据集市可以加速业务流程。
  • 与数据仓库系统相比,数据集市需要的实施时间更少。实施数据集市的速度更快,因为您只需要集中数据的唯一子集。
  • 它包含历史数据,使分析师能够确定数据趋势。

缺点

  • 很多时候,企业会创建太多分散、不相关的数据集市,但并没有什么好处。这可能会成为维护的巨大障碍。
  • 数据集市无法提供全公司的 数据分析 因为他们的数据集有限。

总结

  • 定义数据集市:数据集市被定义为数据仓库的一个子集,专注于组织的单一功能区域。
  • 数据集市通过减少数据量来帮助提高用户的响应时间。
  • 数据集市有三种类型:1)依赖型 2)独立型 3)混合型
  • 数据集市的重要实施步骤是1)设计2)构建3填充4)访问和5)管理
  • 数据集市的实施周期应该以短时间来衡量,即以周而不是月或年。
  • 数据集市是数据仓库的经济有效的替代方案,而数据仓库的构建成本可能很高。
  • 由于数据集市有限,因此无法提供全公司的数据分析。