88 个热门数据建模面试问题及答案(2024 年)
面向新生的数据建模面试问题和答案
1)什么是数据建模?
数据建模是创建模型以将数据存储在数据库中的过程。它是数据对象、不同数据对象之间的关联以及规则的概念表示。
2)解释各种类型的数据模型
主要有三种不同类型的数据模型:
概念上: 概念数据模型定义系统应包含哪些内容。此模型通常由业务利益相关者和数据架构师创建。目的是组织、界定和定义业务概念和规则。
逻辑: 定义系统应如何实施,无论 DBMS。该模型通常由数据架构师和业务分析师创建。目的是制定规则和数据结构的技术图。
物理特性: 该数据模型描述了如何使用特定的 DBMS 系统实现系统。该模型通常由 DBA 和开发人员创建。目的是数据库的实际实现。
3)解释事实和事实表
事实代表定量数据。例如,应付净额。事实表包含数值数据以及来自维度表的外键。
4)列出数据建模的各种设计方案
数据建模方案有两种:1)星型模式,2)雪花模式
5)什么时候应该考虑非规范化?
当检索数据时需要大量涉及表时,将使用非规范化。它用于构建数据仓库。
6)解释维度和属性
维度表示定性数据。例如,产品、类别、计划等。维度表具有文本或描述性属性。例如,产品类别和产品名称是产品维度表的两个属性。
7)无事实事实是什么?
无事实表是没有事实测量的表。它仅包含维度键。
8)什么是内存分析?
内存分析是将数据库缓存在 RAM 中的过程。
9)OLTP 和 OLAP 有什么区别?
下面是 OLAP 和 OLTP 之间的区别:
OLTP | OLAP |
---|---|
OLTP 是一个在线事务系统。 | OLAP 是一种联机分析和数据检索过程。 |
其特点是大量短暂的在线交易。 | 其特点是数据量巨大。 |
OLTP 使用传统的 DBMS。 | OLAP 使用数据仓库。 |
OLTP 数据库中的表是规范化的。 | OLAP 中的表未规范化。 |
它的响应时间以毫秒为单位。 | 其响应时间以秒到几分钟为单位。 |
OLTP 专为实时业务运营而设计。 | OLAP 旨在按类别和属性分析业务指标。 |
10)什么是表?
行和列的集合称为表。每一列都有一个数据类型。表以表格形式包含相关数据。
11)什么是列?
列或字段是包含相关信息的数据的垂直排列。
12)定义数据稀疏性
数据稀疏性是一个术语,用于描述模型的实体/维度拥有多少数据。
13)什么是复合主键?
复合主键是指使用多个表列作为主键的一部分的情况。
14)什么是主键?
首要的关键 是一列或一组列,用于不均匀地标识表中的每一行。主键的值不得为空。每个表都必须包含一个主键。
15)解释外键
外键 是一组用于连接父表和子表的属性。子表中的外键列的值指的是父表中主键的值。
16)什么是元数据?
元数据描述有关数据的数据。它显示了数据库系统中实际存储了什么类型的数据。
17)什么是数据集市?
A 数据集市 是数据仓库的精简版本,专为组织中的特定部门、单位或用户组使用而设计。例如,营销销售、人力资源或财务。
18)什么是 OLTP?
在线交易处理,简称 OLTP,支持三层架构的面向交易的应用程序。OLTP 管理公司或组织的日常交易。
19)OLTP 系统的例子有哪些?
OLTP 系统的示例包括:
- 发送短信
- 将书添加到购物车
- 网上机票预订
- 网上银行业务
- 订单输入
20)什么是检查约束?
检查约束用于验证列中的值范围。
21)列出规范化的类型?
规范化的类型有:1) 第一范式,2) 第二范式,3) 第三范式,4) boyce-codd 第四范式,和 5) 第五范式。
22)什么是前向数据工程?
正向工程是一个技术术语,用于描述将逻辑模型自动转化为物理实现的过程。
23)什么是 PDAP?
它是一个以摘要形式存储数据的数据立方体。它可以帮助用户快速分析数据。PDAP 中的数据存储方式便于轻松生成报告。
24)解释雪花模式数据库设计
雪花模式是维度表和事实表的排列。通常,这两个表都会进一步细分为更多维度表。
25)解释分析服务
分析服务提供了数据挖掘或 OLAP 中使用的数据的组合视图。
26)什么是序列聚类算法?
序列聚类算法收集相似或相关的路径以及具有事件的数据序列。
27)什么是离散数据和连续数据?
离散数据是有限数据或已定义的数据。例如性别、电话号码。连续数据是以连续且有序的方式变化的数据。例如年龄。
28)什么是时间序列算法?
时间序列算法是一种预测表中数据连续值的方法。例如,一名员工的绩效可以预测利润或影响力。
29)什么是商业智能?
BI(商业智能)是一套流程、架构和技术,可将原始数据转换为有意义的信息,从而推动有利可图的业务行动。它是一套软件和服务,可将数据转换为可操作的情报和知识。
30)什么是位图索引?
位图索引是一种特殊类型的数据库索引,它使用位图(位数组)通过执行按位运算来回答查询。
数据建模面试问题及答案
31)详细解释数据仓库
数据仓库是一种从各种来源收集和管理数据的过程。它提供有意义的企业洞察。数据仓库通常用于连接和分析来自异构来源的数据。它是 BI 系统的核心,专为数据分析和报告而构建。
32)什么是垃圾尺寸?
垃圾维度将两个或多个相关基数组合成一个维度。它通常是布尔值或标志值。
33)解释数据方案
数据方案是一种说明数据关系和结构的图表。
34)解释数据收集频率
数据收集频率是收集数据的速率。它还经过各个阶段。这些阶段包括:1) 从各种来源提取,3) 转换,4) 清理,5) 存储。
35)什么是数据库基数?
基数是两个实体或实体集之间关系的数值属性。
36) 基本关系有哪些不同类型?
不同类型的关键基本关系包括:
- 一对一关系
- 一对多关系
- 多对一关系
- 多对多关系
37)定义关键成功因素并列出其四种类型
关键成功因素是组织实现其目标所需的任何活动的有利结果。
四种关键成功因素是:
- 行业关键成功因素
- 战略关键成功因素
- 环境关键成功因素
- 颞叶 CSF
38)什么是数据挖掘?
数据挖掘是一项多学科技能,使用机器学习、统计学、人工智能和数据库技术。它的目的是发现数据之间意想不到的/以前未知的关系。
39)星型模式和雪花模式有什么区别?
以下是 星型模式与雪花模式:
星图 | 雪花模式 |
---|---|
维度的层次结构存储在维度表中。 | 层次结构被划分为单独的表。 |
它包含一个被维度表包围的事实表。 | 一个事实表被维度表包围,而维度表又被维度表包围 |
在星型模式中,仅需一个连接即可创建事实表和任何维度表之间的关系。 | 雪花模式需要许多连接来获取数据。 |
它有一个简单的数据库设计 | 数据库设计复杂 |
非规范化的数据结构和查询也运行得更快。 | 规范化的数据结构。 |
高水平数据冗余 | 极低级别的数据冗余 |
使用星型连接查询优化提供更高性能的查询。表可以与多个维度连接。 | 雪花模式由一个集中的事实表表示,该表不太可能与多个维度相关。 |
40)什么是识别关系?
在 DBMS 中识别实体关系用于识别两个实体之间的关系:1) 强实体,和 2) 弱实体。
41)什么是自递归关系?
递归关系是表中的一个独立列,它与同一个表的主键相连。
42)解释关系数据建模
关系数据建模是关系数据库中对象的表示,通常是规范化的。
43)什么是预测模型分析?
验证或测试模型的过程,用于预测测试和验证结果。它可用于机器学习、人工智能以及统计学。
44)逻辑数据模型和物理数据模型有什么区别?
逻辑数据模型 | 物理数据模型 |
---|---|
逻辑数据模型可以逻辑地设计业务需求。 | 物理数据模型提供有关目标数据库源及其属性的信息。 |
它负责存储在数据库中的数据的实际实现。 | 物理数据模型可帮助您从现有数据库模型创建新的数据库模型并应用引用完整性约束。 |
它包含实体、主键属性、反转键、备用键、规则、业务关系、定义等。 | 物理数据模型包含表、键约束、唯一键、列、外键、索引、默认值等。 |
45)有哪些不同类型的约束?
不同类型的约束可以是唯一的、空值、外键、复合键或检查约束等。
46)什么是数据建模工具?
数据建模工具 是一种帮助构建数据流和数据关系的软件。此类工具的示例包括 Borland Together、 Altova 数据库间谍、casewise、Case Studio 2 等
47)什么是分层 DBMS?
在分层数据库中,模型数据以树状结构组织。数据以分层格式存储。数据使用父子关系表示。在分层 DBMS 中,父级可能有许多子级,子级只有一个父级。
48)分层数据模型有什么缺点?
分层数据模型的缺点是:
- 它不够灵活,因为它需要时间来适应不断变化的业务需求。
- 该结构提出了跨部门沟通、垂直沟通以及跨机构沟通的问题。
- 分层数据模型可能会造成不统一的问题。
49)解释数据建模的流程驱动方法
数据建模采用的过程驱动方法遵循实体关系模型和组织过程之间关系的逐步方法。
50)使用数据建模有什么好处?
在数据仓库中使用数据建模的优点是:
- 它通过规范化业务数据和定义其属性来帮助您管理业务数据。
- 数据建模整合各个系统的数据,以减少数据冗余。
- 它能够创建高效的数据库设计。
- 数据建模有助于组织部门作为一个团队发挥作用。
- 它有助于轻松访问数据。
51)使用数据建模有什么缺点?
使用数据建模的缺点是:
- 结构独立性较低
- 它会使系统变得复杂。
52)什么是指数?
索引用于一列或一组列,以便快速检索数据。
53)逻辑数据模型的特点是什么?
逻辑数据模型的特点是:
- 描述单个项目的数据需求,但可以根据项目范围与其他逻辑数据模型集成。
- 独立于 DBMS 进行设计和开发。
- 数据属性将具有精确精度和长度的数据类型。
- 对模型进行规范化处理,一般适用于3NF。
54)物理数据模型有哪些特点?
物理数据模型的特点是:
- 物理数据模型描述单个项目或应用程序的数据需求。它可以根据项目范围与其他物理数据模型集成。
- 数据模型包含表之间的关系,解决关系的基数和可空性。
- 为项目中使用的 DBMS、位置、数据存储或技术的特定版本而开发。
- 列应该具有精确的数据类型、指定的长度和默认值。
- 定义主键、外键、视图、索引、访问配置文件和授权等。
55)两种类型的数据建模技术是什么?
两种类型的数据建模技术是:1)实体关系(ER)模型,和2)UML(统一建模语言).
56)什么是UML?
UML(统一建模语言)是软件工程领域的一种通用数据库开发建模语言。主要目的是提供一种可视化系统设计的通用方法。
57)解释面向对象的数据库模型
面向对象数据库模型是对象的集合。这些对象可以具有相关的特性和方法。
58)什么是网络模型?
它是一个建立在层次模型上的模型。它允许多个关系链接记录,这表明它有多个记录。可以构建一组父记录和子记录。每条记录可以属于多个集合,使您能够执行复杂的表关系。
59)什么是哈希?
散列是一种用于搜索所有索引值并检索所需数据的技术。它有助于计算记录在磁盘上的数据的直接位置,而无需使用索引的结构。
60) 什么是业务键或自然键?
业务或自然键是唯一标识实体的字段。例如,客户 ID、员工编号、电子邮件等。
61)什么是复合键?
当使用多个字段来表示一个键时,它被称为复合键。
62)什么是第一范式?
第一范式或 1NF 是关系数据库管理系统中可用的关系属性。如果每个属性的域都包含原子值,则任何关系都称为第一范式。它包含该域中的一个值。
63)主键和外键有什么区别?
首要的关键 | 外键 |
---|---|
主键帮助您唯一地标识表中的记录。 | 外键是表中的字段,它是另一个表的主键。 |
主键永不接受空值。 | 外键可以接受多个空值。 |
主键是聚集索引,DBMS表中的数据在物理上是按照聚集索引的顺序组织的。 | 外键不能自动创建索引(无论是聚集索引还是非聚集索引)。但是,您可以手动为外键创建索引。 |
您可以在表中拥有单个主键。 | 一个表中可以有多个外键。 |
64)第二范式的要求是什么?
第二范式的要求是:
- 它应该符合第一范式。
- 它不包含任何非主属性,该属性在功能上依赖于表关系的候选键的任何子集。
65)第三范式的规则是什么?
第三范式的规则是:
- 它应该符合第二范式
- 它没有传递函数依赖性。
66)使用钥匙的重要性是什么?
- 键可帮助您识别表中的任何一行数据。在实际应用中,一个表可能包含数千条记录。
- 尽管存在这些挑战,键仍可确保您能够唯一地标识表记录。
- 允许您建立表之间的关系并识别表之间的关系
- 帮助您在关系中强化身份和完整性。
67)什么是代理键?
旨在唯一标识每条记录的人工键称为代理键。这类键是唯一的,因为它们是在没有任何自然主键的情况下创建的。它们不会为表中的数据赋予任何意义。代理键通常是一个整数。
68)详细解释备用键
备用键是表中的一列或一组列,用于唯一标识该表中的每一行。一个表可以有多个主键选择,但只能将一个设置为主键。所有非主键的键都称为备用键。
69)DBMS 中的第四范式是什么?
第四范式是数据库规范化的一个级别,其中除了候选键之外,不能有非平凡依赖关系。
70)什么是数据库管理系统?
数据库管理系统 或 DBMS 是用于存储和检索用户数据的软件。它由一组操作数据库的程序组成。
71)第五范式规则是什么?
5 中有一张桌子th 仅当它是 4 时才是正常形式th 正常形式,并且它不能在不丢失数据的情况下分解成任意数量的较小表。
72)什么是规范化?
正常化 是一种数据库设计技术,它以减少数据冗余和依赖的方式组织表格。它将较大的表格分成较小的表格,并使用关系将它们链接起来。
73)解释数据库管理系统的特点
- 提供安全性并消除冗余
- 数据库系统的自描述特性
- 程序和数据抽象之间的绝缘
- 支持多种数据视图。
- 数据共享和多用户交易处理
- DBMS 允许实体及其之间的关系形成表。
- 它遵循 ACID 概念(Atom一致性、隔离性和持久性)。
- DBMS支持多用户环境,允许用户并行访问和存取以及操作数据。
74)列出流行的 DBMS 软件
热门选择 DBMS 软件 是:
- MySQL
- Microsoft 使用权
- Oracle
- PostgreSQL
- 质数据库
- FoxPro
- SQLite
- IBM DB2
- Microsoft SQL Server.
75)解释 RDBMS 的概念
关系数据库管理系统 是一种以表格形式存储数据的软件。在这种系统中,数据以行和列的形式进行管理和存储,这被称为元组和属性。RDBMS 是一种强大的数据管理系统,在世界范围内被广泛使用。
76)数据模型有什么优点?
该数据模型的优点是:
- 设计数据模型的主要目标是确保功能团队提供的数据对象准确表示。
- 数据模型应该足够详细,以用于构建物理数据库。
- 数据模型中的信息可用于定义表、主键和外键以及存储过程之间的关系。
- 数据模型帮助企业在组织内部和跨组织进行沟通。
- 数据模型有助于记录 ETL 过程中的数据映射
- 帮助识别正确的数据源以填充模型
77)数据模型有什么缺点?
数据模型的缺点是:
- 要开发数据模型,应该了解物理数据存储的特性。
- 这是一个产生复杂应用开发和管理的导航系统。因此,它需要了解传记真相。
- 即使结构上做出的较小改变也需要对整个应用程序进行修改。
- DBMS中没有一套数据操作语言。
78)解释各种类型的事实表
事实表有三种类型:
- 添加剂: 它是添加到任何维度的度量。
- 无添加剂: 它是一种无法添加到任何维度的度量。
- 半加成型: 这是一种可以添加到几个维度的度量。
79)什么是聚合表?
聚合表包含可以使用以下函数计算的聚合数据:1) Average、2) MAX、3) Count、4) SUM、5) SUM 和 6) MIN。
80)什么是确认尺寸?
一致维度是一种以可在数据仓库各个区域中的多个事实表中使用的方式设计的维度。
81)列出数据建模中的层次结构类型
层次结构有两种类型:1)基于级别的层次结构和2)父子层次结构。
82)数据集市和数据仓库有什么区别?
以下是主要内容 数据集市和数据仓库之间的区别:
数据库 | 数据仓库 |
---|---|
数据集市专注于单一主题业务领域。 | 数据仓库关注多个业务领域。 |
它用于为业务增长做出战术决策。 | 它可以帮助企业主做出战略决策 |
数据集市遵循自下而上的模型 | 数据仓库遵循自上而下的模型 |
数据源来自一个数据源 | 数据源来自多个异构数据源。 |
83)什么是 XMLA?
XMLA 是一种 XML 分析,被视为访问 在线分析处理 (OLAP).
84)解释垃圾维度
垃圾维度有助于存储数据。当数据不适合存储在架构中时使用它。
85)解释链式数据复制
当辅助节点使用 ping 时间选择目标或最近的节点是辅助节点的情况称为链式数据复制。
86)解释虚拟数据仓库
虚拟数据仓库提供了完整数据的集体视图。虚拟数据仓库没有历史数据。它被视为具有元数据的逻辑数据模型。
87)解释数据仓库的快照
快照是数据提取过程开始时数据的完整可视化。
88)什么是双向提取?
系统在两个方向上提取、清理和传输数据的能力称为定向提取。
这些面试问题也会对你的口试有帮助