数据库系列文章

1. 零基础带你快速上手SQL语言
2. 玩转表及其数据
3. 上手表设计

4. 索引和事务

📖前言

1. 索引

1.1 索引的概念

1.2 索引的作用

1.3 索引的使用场景

1.4 索引的使用

1.5 索引背后的数据结构(B+树)

2. 事务

2.1 事务的概念

2.2 数据库使用的经典场景

2.3 事务的使用

2.4 事务的特性

2.5 并发执行事务时可能会出现的问题

2.5 数据库中的事务隔离级别

🎉小结ending

📖前言

本文讲解的是数据库中非常重要的知识, 也是面试中会场问到的问题 ---- 索引和事务

1. 索引

1.1 索引的概念

索引是一种特殊的文件, 包含着对数据表里所有记录的引用指针. 可以对表中的一列或多列创建索引, 并指定索引的类型, 各类索引有各自的数据结构实现. 索引存在的意义, 就是为了加快查找的速度, 因为使用索引, 便减少了遍历的步骤.

我们可以将索引理解为一本书的目录, 当我们想查找书中某个内容时, 直接通过目录翻到指定页面即可, 而省去了逐页翻书查找的步骤, 这样便加快了我们查找的速度.

1.2 索引的作用

数据库中的表、数据、索引之间的关系，类似于书架上的图书、书籍内容和书籍目录的关系。
索引所起的作用类似书籍目录，可用于快速定位、检索数据。
索引对于提高数据库的性能有很大的帮助。

不过在使用索引中, 查找速度是变快了, 但是也付出了一定的代价.

需要付出额外的空间为代价, 来保存索引数据.
索引可能会拖慢新增, 删除, 修改的速度.

举例子来讲就是, 当书籍内容很多时, 目录的内容也会很多, 光目录就会占有几十页的空间, 当我们在写一些计划书或者论文时, 正文内容是会不断修改的, 目录随之也得不断修改.

当然, 索引总体来说, 还是利大于弊的, 因为在实际开发中, 查询场景往往比增删改查场景频繁很多, 所以我们仍然会选择牺牲一些空间, 来换取时间上的优势.

1.3 索引的使用场景

要考虑对数据库表的某列或某几列创建索引, 需要考虑以下几点:

数据量较大时, 且经常对这些列进行条件查询.
该数据库表的插入操作, 及对这些列的修改操作频率较低.
索引会占用额外的磁盘空间.

满足以上条件时, 考虑对表中的这些字段创建索引, 以提高查询效率. 反之, 如果非条件查询列, 或经常做插入, 修改操作, 或磁盘空间不足时, 不考虑创建索引.

1.4 索引的使用

在讲使用之前, 先告诉大家一个知识点, 创建主键约束(Primary Key), 唯一约束(Unique), 外键约束(Foreign Key)时，都会自动创建对应列的索引。

1.4.1 查看索引

语法:

show index from 表名;

示例: 查看student表的索引.

show index from student;

可以看到, 由于创建 student 表时, id列为主键, 所以自动创建了名为Primary的索引

1.4.2 创建索引

语法:

create index 索引名 on 表名(列名);

示例: 创建学生表中, name字段的索引, 叫做index_student_name.

create index index_student_name on student(name);

可以看到, 在student表中, 我们根据name列, 又创建了一个索引出来.

大家要注意, 使用创建索引操作, 可能会很危险, 如果表里的数据特别多, 这个建立索引的操作, 开销是会很大的. 那我们该如何避免该操作呢? 好的做法应该是, 在建表之处, 就提前规划好索引该创建哪些, 这样就不会在中途有很多数据的时候, 临时创建索引了.

1.4.3 删除索引

语法:

drop index 索引名 on 表名;

示例: 删除学生表中, 叫做index_student_name的索引.

drop index index_student_name on student;

可以看到, 我们之前创建的索引, 已经被删掉了.

删除索引和创建索引类似, 也是有可能存在危险的操作.

1.5 索引背后的数据结构(B+树)

索引使用的操作很容易, 但是我们要理解其背后的数据结构, 在我们之前学习过的数据结构当中, 有哪些数据结构是能加快我们的查找速度呢?

哈希表, 说到加快查询速度的数据结构, 我们无法避免的就是哈希表, 哈希表的插入和查询操作的时间复杂度可以到O(1), 虽然哈希表的查找很快, 但是索引背后的数据结构并不是哈希表. 哈希表存在一个问题, 它无法支持范围查询(between and), 也无法支持模糊匹配(like).
二叉搜索树, 改进之后的二叉搜索树(红黑树), 其时间复杂度能达到O(logN), 但是它也不适合做为支撑索引建立的数据结构, 为什么呢? 因为当树中元素变多时, 树的高度也会越来越高, 而树的高度就可以相当于元素比较次数, 由于数据库的数据都是存放在磁盘中的, 每向孩子结点访问一次, 便会发生一次磁盘IO, 所以当树的高度越高, 进行查询比较的时候, 访问此盘的次数就越多, 这样便会影响我们操作的整体性能.

那么, 什么数据结构能完美的解决我们这些问题呢? 答案就是B+树, B+树是为了数据库索引, 而量身定做的数据结构. 我们先了解B树, 再了解B+树.

1.5.1 B树

B树可以认为是一颗N叉搜索树, 它与二叉搜索树不同的点就是, 它每个结点不止有2个孩子结点, 而是根据结点中存储的数据来决定孩子结点数的.

我们可以规定每⼀个节点可以存多少个元素，当节点中达到了规定的元素个数时，才去调整树.

B树就是将数据都划分了范围, 该图中父亲结点存储了四个数据分别为30, 40, 50, 60, 其就有5个孩子结点分别用来存储小于30的数据, 大于30并且40的数据, 大于40并且小于50的数据, 大于50并且小于60的数据, 大于60的数据. 而其孩子结点也同理.

与二叉搜书树相比较来说, B树的每个结点的子树更多, 节点上保存的key值也多了, 意味着在同样key的个数的前提下, B树的高度就要比二叉搜索树的高度低很多.

不过我们索引使用的数据结构并不是B树, 而是它的改进版 ---- B+树

1.5.2 B+树

B+树做为B树的改进版, 他改进了哪里呢? 给大家看一颗B+树.

可以看到, B+树当中的数据有重复出现的, 那是因为, B+树中的每一个结点中存储的最大数据, 便是该结点范围中的最大值. 所以整个树的所有数据都会包含在叶子结点中的(所有非叶子结点中的数据, 也都会出现在叶子结点中).

😶B+树的特点:

一个结点, 可以存储N个数据, N个数据又划分出了N个区间(B树会划分N+1个区间).
每个结点中的数据, 都会在子节点中也存在(同时该数据是其子节点中的最大值).
B+树的叶子结点, 首位相连, 类似于一个链表.
由于叶子结点, 是完整的数据集合, 只需要在叶子结点存储数据表中每一行的详细数据即可, 而非叶子结点, 存储索引值本身即可, 并不用详细存储数据内容是什么.

😶B+树的优势:

当前一个结点可以保存更多的数据, 最终树的高度也是相对更矮的, 查询的时候减少了磁盘IO访问次数(原理和B树相同).
具有稳定性, 所有的查询最终都会落到叶子结点上, 查询任何一个数据, 经过的IO访问次数, 都是一样的.
B+树的所有叶子结点构成一个列表, 此时比较方便程序员进行范围查询. 当查询学号大于5并且小于11的同学, 只需要先找到5所在的位置, 再找到11所在的位置, 然后从5沿着链表遍历到11的位置, 中间所得结果集, 便为查询结果, 十分的高效.
由于数据都在叶子节点上, 而非叶子结点, 只需要存储索引值, 所以非叶子结点所占空间是比较小的, 这些非叶子结点就可能在内存中缓存一部分, 进一步减少了磁盘IO次数

1.5.3 补充: 回表

请大家思考一个问题, 当我们一个数据表中, 存在多个索引时, 比如 student 表中, 针对 id 有主键索引, 针对 name 又有一个索引时, 其数据是如何构建出来的呢?

这时表的数据还是按照 id 为主键, 构建一个B+树出来, 通过叶子结点组织所有的数据行. 其次, 针对 name 这一列, 也会构建一个B+树, 但是这个B+树的叶子结点跟非叶子结点一样也不会再存储这一样的完整数据, 而是寸主键 id 的值. 此时, 如果根据 name 来查询, 查到叶子结点时, 得到的只是主键 id 的值, 还需要再通过主键 id 的值去, 根据主键够贱的B+树里再查一遍(相当于查了两次B+树). 上述过程便称为回表, 整个过程, 在MySQL中, 都是MySQL自动完成的, 用户感知不到.

2. 事务

2.1 事务的概念

事务是指逻辑上的一组操作, 组成这组操作的各个单元, 要么全部成功, 要么全部失败. 在不同的环境中, 都可以有事务. 对应在数据库中, 就是数据库事务.

数据库事务是指一系列的数据库操作，这些操作被视为单个逻辑单元，必须全部完成或者全部撤销。在事务的执行过程中，如果任意一个操作失败，整个事务都必须回滚，恢复到执行事务之前的状态，保证数据库的一致性和完整性。在数据库应用中，事务通常是为了确保数据的完整性、一致性和可靠性而使用的。一些常用的应用包括银行交易、航班预订系统、电子商务等。

2.2 数据库使用的经典场景

我们来讲一下数据库事务中的经典问题 ---- 银行的转账问题.

现在我们有两个账户, 小张和小王, 其数据都存放在 account 表中.

account
name	savings
小张	1000
小王	0

# 小王给小张转账500元
# 1. 小王先减500元
update account set savings = savings - 500 where name = '小王';
# 2. 小张再加500元
update account set savings = savings + 500 where name = '小张';

我们假设, 在执行转账的过程中, 执行完操作1后, 数据库崩溃了, 此时这个转账就出现问题了, 因为小王的钱减了, 但是小张却没加钱.

而事务就是为了解决上述问题而产生的概念, 本质上就是将多个SQL语句打包为一个整体, 要么全部执行成功, 要么就一个都不执行(并不是真的没有执行, 而是看起来像是没执行一样, 是因为在执行出错之后, 选择了恢复, 把数据还原到执行前的样子, 这种操作, 叫做回滚rollback), 这样就不会出现只 "执行一半" 的尴尬场景了.

如果将以上两部操作成为一个事务, 当第一个SQL语句执行结束后, 数据库崩溃, 当下次数据库重新启动后, 就会把上次修改一半的数据给自动还原(转账出现了错误, 将小王转出去的钱给加回去), 进行回滚的时候, 怎样就能知道数据库操作前的状态呢? 数据库当中有一个专门的日志用来记录事务, 正因为如此, 使用事务的时候, 执行SQL的开销会变大, 效率也会变低, 但是提高了数据准确性.

2.3 事务的使用

使用事务的步骤主要是以下三步:

开启事务: start transaction;
执行多条SQL语句
回滚或提交: commit/rollback;

注: commit是全部成功, rollback是全部失败.

# 小王给小张转账500元
# 1. 开启事务
start transaction;

# 2. 执行多条SQL语句
# 小王先减500元
update account set savings = savings - 500 where name = '小王';
# 小张再加500元
update account set savings = savings + 500 where name = '小张';

# 提交事务 
# 到这一步,相当于事务就执行完了
commit;

2.4 事务的特性

事物的四大特性是面试中的经典题目, 请同学们务必记住:

原子性 (Atomicity): 指整个事务中的所有操作要么全部成功, 要么全部失败回滚, 不允许出现部分成功或部分失败的情况.
一致性 (Consistency): 指事务开始之前和结束之后, 数据库的状态必须是一致的, 即满足所有的约束条件和完整性规则.
隔离性 (Isolation): 指事务的执行不受其他事务的干扰, 一个事务执行过程中的中间状态对其他事务是不可见的.
持久性 (Durability): 指事务一旦提交, 对数据库的修改将永久保存到数据库中, 即使出现宕机等故障, 也不会丢失数据.

其中事务的隔离性, 其实就是为了解决 "并发" 执行事务, 而引出的一些问题. 数据库也是服务器, 就有可能有多个客户端给服务器提交事务, 这时数据库就需要同时处理处理多个客户端的事务, 这就叫做并发.

接下来就说一说, 并发处理事务, 可能有哪些问题, 以及这些问题, 数据库的隔离性是怎样给解决的.

2.5 并发执行事务时可能会出现的问题

2.5.1 脏读

假设用户A向数据库中的账户表中插入了一条新记录，但是还未提交事务，此时用户B查询账户表发现了这条新记录。但是由于用户A还未提交事务，这条记录实际上还未被确认有效，如果用户A在事务提交之前回滚了该记录，那么用户B查询到的新记录实际上是“脏数据”，这就是脏读。

为了解决脏读问题, 在MySQL中, 引入了 "给操作加锁" 这样的机制, 在本例子中, 就是当用户A向数据库中插入数据时, 给写入操作上锁, 只有当用户A确认提交事务后, 用户B才能查询该数据, 这意味着, 修改操作跟插入操作没法并发了(不能同时执行), 这个给写入操作上锁, 就降低了并发程度(效率变低), 提高了隔离性(数据准确度提高).

2.5.2 不可重复读

假设用户A在一个事务中正在查询账户表中的某个记录，但是此时用户B也开始了一个事务并且对该记录进行了修改，然后用户A再次查询该记录，发现此时该记录已经与之前查询到的不同了，这就是不可重复读。

在本例子中, 我们就可以对读操作进行上锁, 就是当用户A在查询数据时, 用户B不可以修改改数据, 通过对读加锁, 又进一步降低了并发程度, 提高了隔离性.

2.5.3 幻读

假设用户A在一个事务中查询了账户表中某个范围的记录，但是此时用户B插入了一条新记录，这个新记录就像是幻觉一样出现在了该范围内，这就是幻读。例如，A事务查询到了某个部门的所有员工信息，但是在查询过程中，B事务插入了一些新的员工记录，导致A事务查询到的结果集中出现了未查询到的员工信息。

在读加锁和写加锁的前提下, 一个事务两次读取同一个数据, 发现读取的数据值是一样的, 但是结果集不一样, 我们可以使用 "串行化" 这样的方式来解决幻读. 串行化就是彻底放弃并发处理事务, 像糖葫芦串一样一个接一个的串行的处理事务. 这样做, 并发程度是最低的, 效率是最慢的, 隔离性是最高的, 数据准确性也是最高的.

2.5 数据库中的事务隔离级别

为了处理上述所说的并发处理事务可能发生的三个经典问题, MySQL提供了4种隔离级别, 用来对应上面的几个情况.

read uncommitted(读未提交): 没有进行任何锁限制. 并发程度最高, 隔离性最低.
read committed(读已提交): 给写加锁. 并发程度降低, 隔离性提高.(解决脏读)
repeatable read(可重复读): 给写和读都加锁. 并发程度进一步降低, 隔离性进一步提高.(解决不可重复读)
serializable(可序列化的): 串行化. 并发程度最低, 隔离性最高.(解决幻读)

这几个隔离级别该如何选择, 我们需要在准确性和效率之间做权衡, 看实际业务需求, 看业务使用的场景是怎样的来决定. 比如在涉及到钱的转账问题上, 一分钱都是不能错的, 那怕效率差点, 也得保证了钱的准确性. 再比如给一个热门视屏点赞, 来看一个视屏有多少赞, 只要求快, 成千上万的人都在同一时间点赞, 如果一个一个排队来的话, 效率得慢死, 但此场景我们追求的是效率, 赞的数据有十个八个的误差并不关键.

🎉小结ending

✨ 本文主要讲述了数据库当中的索引和事务, 并且花大量篇幅讲解了一下索引背后的数据结构 ---- B+树, 又讲了一下B树和B+树到底是什么, 以及有什么特点和优势.

✨ 想了解更多数据库知识, 可以打开博主的数据库专栏目录↓小白的数据库学习之路http://t.csdn.cn/Fh557✨ 感谢你们的耐心阅读, 博主本人也是一名学生, 也还有需要很多学习的东西. 写这篇文章是以本人所学内容为基础, 日后也会不断更新自己的学习记录, 我们一起努力进步, 变得优秀, 小小菜鸟, 也能有大大梦想, 关注我, 一起学习.

再次感谢你们的阅读, 你们的鼓励是我创作的最大动力!!!!!