什么是数据仓库?类型、定义和示例
什么是数据仓库?
A 数据仓库 (DW)是一种从各种来源收集和管理数据以提供有意义的业务洞察的过程。数据仓库通常用于连接和分析来自异构来源的业务数据。数据仓库是 BI 系统的核心,专为数据分析和报告而构建。
它是技术和组件的混合体,有助于战略性地使用数据。它是企业对大量信息的电子存储,旨在查询和分析,而不是交易处理。它是一个将数据转化为信息并及时提供给用户以产生影响的过程。
决策支持数据库(数据仓库)与组织的操作数据库分开维护。但是,数据仓库不是产品,而是一个环境。它是信息系统的架构构造,为用户提供当前和历史决策支持信息,这些信息在传统的操作数据存储中难以访问或呈现。
您可能知道,库存系统的 3NF 设计的数据库可能具有相互关联的表。例如,有关当前库存信息的报告可能包含超过 12 个连接条件。这会迅速减慢查询和报告的响应时间。数据仓库提供了一种新设计,可以帮助减少响应时间并有助于提高报告和分析查询的性能。
数据仓库系统也称为:
- 决策支持系统(DSS)
- 行政信息系统
- 管理信息系统
- 商业智能解决方案
- 分析应用
- 数据仓库
数据仓库的历史
数据仓库有助于用户了解和提高其组织的绩效。随着计算机系统变得越来越复杂,需要处理越来越多的信息,对数据进行仓库管理的需求也随之增加。然而,数据仓库并不是一个新事物。
以下是数据仓库发展过程中的一些关键事件:
- 1960 年——达特茅斯学院和通用磨坊大学在一个联合研究项目中,提出了维度和事实这两个术语。
- 1970 年——尼尔森 (Nielsen) 和 IRI 为零售业引入了维度数据集市。
- 1983 年 - Tera Data 公司推出专为决策支持而设计的数据库管理系统
- 数据仓库始于 1980 世纪 XNUMX 年代末,当时 IBM 员工保罗·墨菲 (Paul Murphy) 和巴里·德夫林 (Barry Devlin) 开发了商业数据仓库。
- 然而,真正的概念是由 Inmon 提出的 Bill。他被认为是数据仓库之父。他撰写了有关数据仓库和企业信息工厂的构建、使用和维护的各种主题的文章。
数据仓库如何工作?
数据仓库充当中央存储库,信息从一个或多个数据源传入。数据从交易系统和其他关系数据库流入数据仓库。
数据可能是:
- 结构化
- 半结构化
- 非结构化数据
数据经过处理、转换和提取,以便用户可以通过商业智能工具、SQL 客户端和电子表格访问数据仓库中已处理的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。
通过将所有这些信息合并到一个地方,组织可以更全面地分析其客户。这有助于确保它已经考虑了所有可用的信息。数据仓库使数据挖掘成为可能。数据挖掘正在寻找数据中的模式,从而提高销售额和利润。
数据仓库的类型
数据仓库(DWH)有三种主要类型:
1.企业数据仓库(EDW):
企业数据仓库 (EDW) 是一个集中式仓库。它为整个企业提供决策支持服务。它提供了一种组织和表示数据的统一方法。它还提供了根据主题对数据进行分类并根据这些部门提供访问权限的能力。
2. Opera国家数据存储:
Operantal 数据存储,也称为 ODS,是当数据仓库和 OLTP 系统都不支持组织报告需求时所需的数据存储。在 ODS 中,数据仓库是实时刷新的。因此,它被广泛用于存储员工记录等日常活动。
3.数据集市:
A 数据集市 是数据仓库的一个子集。它专门为特定业务线设计,例如销售、财务、销售或财务。在独立的数据集市中,数据可以直接从源收集。
数据仓库的一般阶段
早些时候,企业开始相对简单地使用数据仓库。然而,随着时间的推移,企业开始更加复杂地使用数据仓库。
以下是数据仓库(DWH)使用的一般阶段:
下架 Opera国家数据库:
在此阶段,数据只是从操作系统复制到另一台服务器。这样,复制数据的加载、处理和报告不会影响操作系统的性能。
离线数据仓库:
数据仓库中的数据定期从 Opera数据仓库中的数据经过映射和转换以满足数据仓库目标。
实时数据仓库:
在此阶段,只要操作数据库中发生任何交易,数据仓库就会更新。例如,航空公司或铁路预订系统。
集成数据仓库:
在此阶段,当操作系统执行事务时,数据仓库会不断更新。然后,数据仓库生成事务并传回操作系统。
数据仓库的组件
数据仓库的四个组成部分是:
负载管理器: 加载管理器也称为前端组件。它执行与提取和加载数据到仓库相关的所有操作。这些操作包括转换以准备数据进入数据仓库。
仓库经理: 仓库管理员执行与仓库中数据管理相关的操作。它执行的操作包括分析数据以确保一致性、创建索引和视图、生成非规范化和聚合、转换和合并源数据以及归档和烘焙数据。
查询管理器: 查询管理器也称为后端组件。它执行与管理用户查询相关的所有操作。此数据仓库组件的操作是直接查询适当的表以安排查询的执行。
最终用户访问工具:
它分为五个不同的类别,例如 1. 数据报告 2. 查询工具 3. 应用程序开发工具 4. EIS 工具,5. OLAP 工具和 数据挖掘工具.
谁需要数据仓库?
所有类型的用户都需要 DWH (数据仓库),例如:
- 依赖大量数据的决策者
- 使用定制的、复杂的流程从多个数据源获取信息的用户。
- 那些想要使用简单技术来访问数据的人也会使用它
- 对于那些想要采用系统方法做出决策的人来说,这也至关重要。
- 如果用户希望在大量数据上获得快速性能(这是报告、网格或图表的必需条件),那么数据仓库就会很有用。
- 如果您想发现数据流和分组的“隐藏模式”,数据仓库是第一步。
数据仓库用于什么?
以下是使用数据仓库的最常见领域:
航空公司:
在航空公司系统中,它用于机组人员分配、航线盈利能力分析、常旅客计划促销等运营目的。
银行业:
它被广泛用于银行业,以有效地管理柜台上的资源。少数银行也使用它进行市场研究、产品和运营绩效分析。
卫生保健:
医疗保健部门还使用数据仓库来制定策略和预测结果、生成患者的治疗报告、与相关保险公司、医疗援助服务等共享数据。
公共部门:
在公共部门,数据仓库用于情报收集。它帮助政府机构维护和分析每个人的税务记录、健康政策记录。
投资及保险业:
在该领域,仓库主要用于分析数据模式、客户趋势和跟踪市场动向。
保留链:
在零售连锁店中,数据仓库广泛用于分销和营销。它还有助于跟踪商品、客户购买模式、促销活动,还可用于确定定价政策。
电信:
该领域使用数据仓库来进行产品促销、销售决策和分销决策。
酒店业:
该行业利用仓库服务来设计和评估他们的广告和促销活动,根据客户的反馈和旅行模式来定位客户。
实施数据仓库的步骤
解决与数据仓库实施相关的业务风险的最佳方法是采用以下三管齐下的策略
- 企业战略:在这里,我们识别技术,包括当前架构和工具。我们还识别事实、维度和属性。还传递了数据映射和转换。
- 分阶段交付:数据仓库的实施应根据主题领域分阶段进行。应首先实施预订和计费等相关业务实体,然后再相互集成。
- 迭代原型设计:数据仓库不应该采用大规模实施的方法,而应该以迭代的方式进行开发和测试。
以下是数据仓库实施的关键步骤及其可交付成果。
步骤 | 任务 | 已有成果 |
---|---|---|
1 | 需要定义项目范围 | 范围定义 |
2 | 需要确定业务需求 | 逻辑数据模型 |
3 | 确定 Opera国家数据存储要求 | Opera国家数据存储模型 |
4 | 获取或开发提取工具 | 提取工具和软件 |
5 | 定义数据仓库数据要求 | 过渡数据模型 |
6 | 记录缺失数据 | 待办项目清单 |
7 | 地图 Opera数据仓库 | D/W数据集成图 |
8 | 开发数据仓库数据库设计 | D/W数据库设计 |
9 | 从中提取数据 Opera国家数据存储 | 集成 D/W 数据提取 |
10 | 加载数据仓库 | 初始数据加载 |
11 | 维护数据仓库 | 正在进行的数据访问和后续加载 |
实施数据仓库的最佳实践
- 决定一个计划来测试数据的一致性、准确性和完整性。
- 数据仓库必须良好地集成、明确定义并带有时间戳。
- 在设计数据仓库时,请确保使用正确的工具、遵守生命周期、注意数据冲突并随时准备了解自己的错误。
- 永远不要替换操作系统和报告
- 不要花太多时间在提取、清理和加载数据上。
- 确保所有利益相关者(包括业务人员)参与数据仓库实施过程。确立数据仓库是一个联合/团队项目。您不想创建对最终用户无用的数据仓库。
- 为最终用户制定培训计划。
为什么我们需要数据仓库?优点和缺点
数据仓库(DWH)的优点:
- 数据仓库允许业务用户在一个地方快速访问来自多个来源的关键数据。
- 数据仓库提供有关各种跨职能活动的一致信息。它还支持临时报告和查询。
- 数据仓库有助于整合多种数据源,以减轻生产系统的压力。
- 数据仓库有助于减少分析和报告的总周转时间。
- 重组和集成使用户更容易使用报告和分析。
- 数据仓库允许用户在一个地方访问来自多个来源的关键数据。因此,它节省了用户从多个来源检索数据的时间。
- 数据仓库存储了大量的历史数据。这有助于用户分析不同的时间段和趋势,从而做出未来的预测。
数据仓库的缺点:
- 对于非结构化数据来说这不是一个理想的选择。
- 数据仓库的创建和实施肯定是一件费时费力的事情。
- 数据仓库可能会相对较快地过时
- 难以更改数据类型和范围、数据源模式、索引和查询。
- 数据仓库看似简单,但实际上,对于普通用户来说它太复杂了。
- 尽管在项目管理上付出了最大的努力,数据仓库项目范围仍然会不断增加。
- 有时仓库用户会制定不同的业务规则。
- 组织需要投入大量资源用于培训和实施目的。
数据仓库的未来
- 在某一方面的变化 监管限制 可能会限制整合不同数据源的能力。这些不同的数据源可能包括难以存储的非结构化数据。
- 作为 尺寸 随着数据库规模的扩大,对超大型数据库的估计也不断增长。构建和运行规模不断扩大的数据仓库系统非常复杂。当今可用的硬件和软件资源不足以在线保存大量数据。
- 多媒体资料 文本数据无法轻易被处理,而文本信息却可以通过当今的关系软件检索。这可以作为一个研究课题。
数据仓库工具
市场上有许多数据仓库工具。以下是一些最突出的工具:
1. 马克逻辑:
MarkLogic 是一款实用的数据仓库解决方案,它使用一系列企业功能使数据集成变得更容易、更快捷。此工具有助于执行非常复杂的搜索操作。它可以查询不同类型的数据,如文档、关系和元数据。
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle 是业界领先的数据库。它为本地和云提供了广泛的数据仓库解决方案选择。它通过提高运营效率来帮助优化客户体验。
https://www.oracle.com/index.html
3. Amazon 红色Shift:
Amazon Redshift 是数据仓库工具。它是一种简单且经济高效的工具,可以使用标准 SQL 和现有的 BI 工具。它还允许使用查询优化技术针对 PB 级结构化数据运行复杂查询。
https://aws.amazon.com/redshift/?nc2=h_m1
以下是有用的 数据仓库工具。
重点学习
- 数据仓库(DWH),也称为企业数据仓库(EDW)。
- 数据仓库被定义为一个中央存储库,其中的信息来自一个或多个数据源。
- 数据仓库的三种主要类型是企业数据仓库 (EDW)、 Opera国家数据存储和数据集市。
- 数据仓库的一般状态是离线 Opera国家数据库、离线数据仓库、实时数据仓库和集成数据仓库。
- 数据仓库的四个主要组件是负载管理器、仓库管理器、查询管理器、最终用户访问工具
- 数据仓库用于航空、银行、医疗保健、保险、零售等不同行业。
- 实施数据仓库是一项三管齐下的战略,即企业战略、分阶段交付和迭代原型设计。
- 数据仓库允许业务用户在一个地方快速访问来自多个来源的关键数据。