1. 什么是数据库规范化?
1.1 规范化概念
规范化是一种数据库设计技术,可减少数据冗余并消除插入、更新和删除异常等不良特征。规范化规则将较大的表划分为较小的表并使用关系链接它们。SQL 中的规范化的目的是消除冗余(重复)数据并确保数据以逻辑方式存储。
关系模型的发明者Edgar Codd 提出了数据规范化的理论,引入了第一范式,并继续扩展理论,提出了第二范式和第三范式。后来他与 Raymond F. Boyce 合作发展了Boyce-Codd 范式(巴斯范式/鲍依斯-科得范式)理论。
1.2 继续之前先了解下相关基础概念
1.2.1 什么是主键?
主值是用于唯一标识数据库记录的单列值。
它具有以下特性
- 主键不能为 NULL
- 主键值必须是唯一的
- 主键值很少应该改变
- 插入新记录时必须给主键赋值。
1.2.2 什么是外键?
外键引用另一个表的主键!它具备如下特性:
- 外键可以与其主键有不同的名称。
- 确保一个表中的行在另一个表中有对应的行。
- 与主键不同,它们不必是唯一的。
- 外键可以为空,而主键不能为空。
1.2.3 什么是复合键?
复合键是由多个列组成的主键,用于唯一地标识一条记录
在我们的数据库中,有两个同名的人,分别是 Robert Phil,但他们住在不同的地方。
数据库中的复合键
2. DBMS 中的范式类型
以下是 SQL 中的范式列表,共7种,前三种尤为主要。
2.1 1NF(第一范式)
- 消除单个表中的重复组。
- 为每组相关数据创建一个单独的表。
- 使用主键标识每组相关数据。
确保数据库表的组织方式使得每列包含原子(不可分割)值,并且每条记录都是唯一的。这消除了重复组,从而将数据结构化为表和列。
2.2 2NF(第二范式)
- 为适用于多条记录的值集创建单独的表。
- 将这些表与外键关联起来。
建立在 1NF 的基础上,我们需要从应用于多行的表中删除冗余数据。并将它们放在单独的表中。它要求所有非键属性在主键上完全发挥作用。
即记录不应依赖于表的主键(必要时为复合键)以外的任何内容。例如,考虑会计系统中的客户地址。客户表需要该地址,订单、发货、发票、应收账款和收款表也需要该地址。不要将客户地址作为单独的条目存储在每个表中,而是将其存储在一个地方,即客户表或单独的地址表中。
2.3 3NF(第三范式)
- 消除不依赖于键的字段。
通过确保所有非键属性不仅在主键上完全发挥作用,而且彼此独立,扩展了 2NF。这消除了传递依赖性。
2.4 BCNF(博伊斯-科德范式)
3NF 的改进,解决了 3NF 无法处理的异常。它要求每个决定因素都是候选键,确保更严格地遵守规范化规则。
2.5 4NF(第四范式)
解决多值依赖关系。它确保记录中不存在关于实体的多个独立多值事实。
2.6 5NF(第五范式)
也称为“投影连接范式”(PJNF),它涉及从较小的、不同排列的数据片段重建信息。
2.7 6NF(第六范式)
理论性的,并未得到广泛实施。它通过进一步分解表格来消除所有非时间冗余,从而处理时间数据(处理随时间而发生的变化)。
MySQL 服务器中的数据规范化理论仍在进一步发展。例如,甚至有关于第六范式的讨论。然而,在大多数实际应用中,规范化在第三范式中达到最佳效果。SQL 理论中规范化的演变如下所示:
数据库范式演变过程
3. 数据库规范化示例
借助案例研究,可以轻松理解数据库规范化示例。假设一个视频库维护着一个出租电影的数据库。如果数据库中没有任何规范化,则所有信息都存储在一个表中,如下所示。让我们通过带解决方案的规范化示例来了解规范化数据库:
这里你可以看到电影租赁列有多个值。现在让我们进入第一范式:
3.1 第一范式(1NF)
- 每个表格单元格应包含一个值。
- 每条记录都必须是唯一的。
上表符合 1NF 规范
DBMS 中的 1NF 示例
3.2 第二范式(2NF)
- 规则 1- 符合 1NF
- 规则 2- 单列主键在功能上不依赖于任何候选键关系的子集
很明显,除非我们对上面的表进行分区,否则我们无法继续将我们的简单数据库创建为第二范式形式。
我们将范式一( 1NF) 表分为两个表,即表 1 和表 2。表 1 包含会员信息。表 2 包含租借电影的信息。
我们引入了一个名为 Membership_id 的新列,它是表 1 的主键。可以使用会员 ID 在表 1 中唯一地标识记录。
3.2.1 数据库 — 外键
在表 2 中,Membership_ID 是外键
3.2.2 为什么需要外键?
假设一个新手在表 B 中插入一条记录,例如:
您只能将父表中唯一键中存在的值插入外键中。这有助于实现引用完整性。
可以通过将表 2 中的成员 ID 声明为表 1 中成员 ID 的外键来解决上述问题,现在,如果有人尝试在会员 ID 字段中插入父表中不存在的值,则会显示错误!这起到减少脏数据的作用!
3.3 第三范式(3NF)
- 规则 1- 符合 2NF
- 规则 2- 没有传递函数依赖
3.3.1 什么是传递函数依赖?
传递函数依赖是指更改非关键列时,可能导致任何其他非关键列发生更改,考虑表 1,更改非键列“全名”可能会更改“称呼”,如下所示:
好,理解这个后,让我们进入 3NF!
3.3.2 3NF 示例
为了将我们的 2NF 表移到 3NF,我们需要再次划分我们的表。下面是 SQL 数据库中的 3NF 示例:
表1,成员表
表2,成员电影租借表
表3,称呼表
我们再次划分了表格并创建了一个存储称呼的新表。
没有传递函数依赖关系,因此我们的表符合 3NF。
在表 3 中,称呼 ID 是主键,而在表 1 中,称呼 ID 与表 3 中的主键无关。
现在,我们的小示例处于无法进一步分解的级别,无法在 DBMS 中获得更高范式类型的规范化。事实上,它已经处于更高的规范化形式。在复杂的数据库中,通常需要单独努力才能进入下一个规范化数据级别。但是,我们将在下文中简要讨论 DBMS 中的下一个规范化级别。
3.4 Boyce-Codd 范式 (BCNF)
即使数据库符合第三范式,如果它有多个候选键,仍然会导致异常。
有时 BCNF 也称为3.5 范式。
3.5 第四范式(4NF)
如果没有任何数据库表实例包含两个或多个描述相关实体的独立多值数据,则它属于第四范式。
3.6 第五范式(5NF)
仅当表符合 4NF 时,它才符合第五范式,并且它不能在不丢失数据的情况下分解为任意数量的较小表。
3.7 第六范式(6NF)
第六范式目前尚未标准化,但数据库专家已经讨论了一段时间。希望在不久的将来,我们能对第六范式有一个清晰而标准化的定义……
4. 范式的优点
4.1 提高数据一致性
规范化确保每条数据只存储在一个地方,减少数据不一致的机会。当数据更新时,只需在一个地方更新,确保一致性。
4.2 减少数据冗余
规范化通过将数据分成多个相关表来帮助消除重复数据。这可以节省存储空间,同时提高数据库的效率。
4.3 提高查询性能
规范化数据库通常更易于查询。由于数据按逻辑组织,因此可以优化查询以加快运行速度。
4.4 使数据更有意义
规范化涉及以合理且直观的方式对数据进行分组。这可以使数据库更易于理解和使用,尤其是对于没有设计数据库的人来说。
4.5 降低异常发生的可能性
异常是添加、更新或删除数据时可能发生的问题。规范化可以通过确保数据按逻辑方式组织来降低这些异常发生的可能性。
5. 规范化的缺点
5.1 复杂性增加
规范化会导致关系复杂。大量带有外键的表可能难以管理,从而导致混乱。
5.2 灵活性降低
由于规范化规则严格,存储不遵守这些规则的数据可能会缺乏灵活性。
5.3 增加的存储要求
虽然规范化可以减少冗余,但可能需要分配更多的存储空间来容纳额外的表和索引。
5.4 性能开销
连接多个表可能会对性能造成很大影响。数据越规范化,需要的连接就越多,这会减慢数据检索时间。
5.5 数据上下文丢失
规范化将数据分解为单独的表,这可能导致业务上下文丢失。检查相关表对于了解数据上下文是必不可少的。
5.5 需要专业知识
实施规范化数据库需要深入了解数据、数据之间的关系以及规范化规则。这需要专业知识,而且可能非常耗时。
6.全篇总结
以上就是 SQL 规范化的全部内容!!!我们概括为以下6点:
- 数据库设计对于成功实施满足企业系统数据要求的数据库管理系统至关重要。
- DBMS 中的规范化是一个有助于生成具有更好的安全模型的数据库系统的过程。
- 函数依赖性是规范化数据过程中非常重要的组成部分。
- 大多数数据库系统都是符合 DBMS 中的第三范式的规范化数据库。
- 主键唯一地标识表中的记录,并且不能为空。
- 外键帮助连接表并引用主键。
感谢大家拜读本文!!关注我,下期会有更好的干货学习分享!