关系及相关概念
在关系模型中,无论是实体还是实体之间的联系均由关系(二维表)来表示。
1.域(Domain)
- 定义:域是一组具有相同数据类型的值的集合。
- 例子:实数集合、整数集合、英文字母集合等。
2.笛卡儿积(Cartesian Product)
- 定义:一种数据组合方法,它将多个域的元素组合成所有可能的元组(tuples)。
- 公式:对于域 D 1 D_1 D1, D 2 D_2 D2,…, D n D_n Dn,其笛卡儿积是 D 1 ∗ D 2 ∗ . . . ∗ D n = { ( d 1 , d 2 , . . . , d n ) ∣ d i ∈ D i , i = 1 , 2 , . . . , n } D_1 * D_2 * ... * D_n=\{(d_1,d_2,...,d_n)|d_i∈D_i,i=1,2,...,n\} D1∗D2∗...∗Dn={(d1,d2,...,dn)∣di∈Di,i=1,2,...,n}。
- 应用:例如,书名、作者、出版社的域可以组合成一个二维表,其中每一行是一个元组,表示一本书的信息。
D
1
=
书名集合
B
O
O
K
N
A
M
E
=
{
C
语言程序设计、数据结构、数据库技术
}
D_1=书名集合 BOOKNAME=\{C 语言程序设计、数据结构、数据库技术\}
D1=书名集合BOOKNAME={C语言程序设计、数据结构、数据库技术},
D
2
=
作者集合
A
U
T
H
O
R
=
{
王一
,
李二
}
D_2=作者集合 AUTHOR=\{王一,李二\}
D2=作者集合AUTHOR={王一,李二},
D
3
=
出版社集合
P
U
B
L
I
S
H
E
R
=
{
清华大学出版社,天津大学出版社
,
科学出版社
}
D_3=出版社集合 PUBLISHER=\{清华大学出版社,天津大学出版社,科学出版社\}
D3=出版社集合PUBLISHER={清华大学出版社,天津大学出版社,科学出版社}
D
1
∗
D
2
∗
D
3
D_1* D_2*D_3
D1∗D2∗D3的笛卡儿积如表所示,共有 18(3*2*3)个元组
3.关系(Relation)
- 定义:域的笛卡儿积的子集称为关系,用 R ( D 1 , D 2 , . . . , D n ) R(D_1,D_2,...,D_n) R(D1,D2,...,Dn) 表示。
- 特点:关系也是一个二维表,但它是从笛卡儿积中选取的特定元组集合,根据某些规则或约束。
关系 BAP 的元组是从笛卡儿积中抽取的,但不是任意抽取的,例如元组(C 语言程序设计,王一,科学出版社)就不能成为关系 BAP 的元组,因为它与元组(C 语言程序设计,王一,清华大学出版社)相矛盾。
4.关键字(Key)
- 定义:关系中的某些属性组,如果能唯一标识一个元组,则称为候选码(Candidate Key)。
- 主码(Primary Key):从候选码中选定的一个,用于唯一标识元组。
- 主属性与非码属性:主码的属性称为主属性,不属于任何候选码的属性称为非码属性。
5.关系的约束(Constraints)
- 规则:
- 列是同质的(同一域)。
- 不同列的属性名不同。
- 列的顺序可以任意交换。
- 行的顺序可以任意交换。
- 关系中不含重复元组。
- 分量必须是原子值(不可再分的数据项)。
6.关系的三种类型
- 基本关系(Base Relation or Base Table):实际存在的表,存储数据。
- 视图表(View Table):由基本表或其他视图表导出的表,是虚拟的,不独立存储数据。
- 查询表(Query Table):查询结果对应的表,仅在查询执行时存在。
关系模式
前面已经指出了关系是一个二维表,这种二维表可以存放两类信息,即实体本身的信息和实体间的联系。
1.关系模式的定义
- 关系模式 是对关系的形式化描述和抽象。在这里,“关系”指的是数据存储的二维表结构,而“模式”则是对这些表的静态、稳定的描述。关系模式定义了表的结构,包括它们的属性(columns)和这些属性的类型(domains)。
- 形式化地,关系模式可以被表示为一个五元组R(U,D,DOM,F),其中:
- R 代表关系名。
- U 是属性组,即表中所有属性的集合。
- D 是域的集合,指每个属性可能取值的类型。
- DOM 是属性与域之间的映射关系。
- F 是属性组上的数据依赖关系集合。
2.关系模式的优点
- 简单的数据结构:关系模型基于二维表,易于理解和使用。
- 直接处理多对多关系:与层次或网状模型相比,关系模型能更直接地表示和处理实体间的多对多关系。
- 一次提供元组集合:能够一次性返回满足特定条件的多个记录。
- 高数据独立性:用户只需关心数据的逻辑结构,而不必操心物理存储细节。
- 坚实的理论基础:关系模型建立在集合代数的基础上,提供了坚实的理论支持。
3.关系模式的缺点
- 查询效率问题:由于关系模型的高级别抽象,复杂查询可能导致效率下降。
- 实现难度:优化查询和维护数据一致性等任务使得关系数据库管理系统(DBMS)的实现变得复杂。
- 规范化要求:有效使用关系DBMS需要对关系模型有深入了解,并进行合适的数据库设计。
4.关系系统的六大目标
由 E.F. Codd 提出的这些目标大部分已实现:
- 高度的数据独立性:数据的物理存储与逻辑结构分离。
- 严格而简明的数据视图:提供清晰的数据表示。
- 简化数据库管理员(DBA)工作:通过自动化和优化减少DBA负担。
- 建立理论基础:确保数据库设计和操作基于坚实的理论。
- 事务管理和文件管理的结合:提高数据处理的效率和可靠性。
- 提升基于数据的应用程序设计:操作对象是记录集合,而不仅是单个记录,从而提高编程的抽象级别。
这些目标和优缺点共同描绘了关系模型的理论架构和实践应用的全貌,指明了其在现代数据库管理中的重要性和应用范围。
关系数据库
关系数据库是一个核心概念,在理解这个概念时,可以将其想象为一个由多张表格组成的复杂系统。这里的每张表格都代表了数据库中的不同类型数据和它们之间的关系。以下是对关系数据库中的几个关键概念的简化解释:
-
关系数据库模式(Schema):这可以被看作是关系数据库的蓝图或结构。它包括了定义数据库的所有元素,比如不同类型的数据(称为域),以及这些数据如何组织成表(称为关系模式)。这个模式是对数据库的全面描述,包括了数据应该如何存储、关联以及管理。
-
关系数据库的值(Instance):这是关系数据库在特定时间点的实际内容。它由多个关系组成,每个关系都是一个表格,包含了特定类型的数据记录。
-
表(Table):在关系数据库中,表是逻辑上的结构,而不是物理上的。用户看到的数据表实际上是对物理存储(如硬盘上的文件)的抽象表示。数据库系统在背后处理所有复杂的存储细节,比如数据是如何在硬盘上存储的,它们的存取方式等。
-
术语对应关系:
- 关系 ↔️ 表:数据库中的“关系”就是用户看到的数据表。
- 元组 ↔️ 记录:表中的每一行,代表一个“元组”,在日常用语中,我们称之为记录或条目。
- 属性 ↔️ 字段:表中的每一列称为“属性”,在常规用语中我们称其为字段,代表记录的一个特定特征或信息。
- 关系模式 ↔️ 数据库:整个数据库的结构和设计称为“关系模式”。
通过这种方式,关系数据库使数据管理变得更加有序和易于操作,同时也保证了数据的完整性和一致性。