mysql高级知识点

一、mysql架构

连接层：负责接收客户端的连接请求，可以进行授权、认证(验证账号密码)。
服务层：负责调用sql接口，对sql语法进行解析，对查询进行优化，缓存。
引擎层：是真正进行执行sql的地方，不同的引擎特点不同。
物理文件存储层：使用各种文件以及各种日志文件来存储数据。

与数据库交互一次：首先通过语言向数据库发送SQL，SQL经过服务层经过一系列处理，然后到达引擎层，选择不同的引擎进行处理，最后将数据存储在文件或者日志中。

二、mysql引擎

引擎：对数据处理的不同的方式(锁的方式、事物方式)。mysql中提供了多种不同的引擎，在实际的开发中，可以根据需要选择不同的引擎，这样会提高灵活度。

1、查看数据库支持的所有引擎 show engines;

2、查看表的引擎 show table status like 'user';

3、修改引擎

方式1：将 mysql.ini 中 default-storage-engine=InnoDB，重启服务.

方式2：创建表时指定引擎

create table user(
	id int,
	account int
)engine=myisam;

方式3：修改表的引擎

alter table 表名 engine = INNODB;

存储引擎主要有：MyIsam，InnoDB，Memory，Blackhole，CSV，Performance_Schema，Archive，Federated，Mrg_Myisam（innodb是唯一一个支持事物的引擎）

主要分析InnoDB和MyIsam：

对比项	Innodb（默认）	MyISAM
事务	支持	不支持
强外键约束	支持	不支持
缓存	缓存索引，还缓存真实数据	只缓存索引，不缓存真实数据
锁	行级锁(对某行数据操作时，只会锁定某一行数据，效率高)	表锁(进行增删改操作时，会锁定整张表，效率低)
主要适用于	增删改多的场景	查询多的场景
存储表的总行数	不支持	支持
表空间	大	小
关注点	事务	性能

三、索引

为什么要用到索引？数据量大的时候，需要查询一个数据，效率非常低。因为要从第一个开始进行查找，直到找到数据为止。

索引是一种有序的数据结构，利用索引可以提高mysql的查询效率。类似于书的目录，不需要翻遍每一页去查询数据，可以通过目录快速定位获取。创建数据库表的时候，会为一些列创建索引，这样查询效率高。

本质都是：通过不断地缩小范围，来获取数据，同时把随机的事件变成顺序的事件。

为了加快col2的查找，给col2创建索引，就会给col2列创建一个二叉树。

优势：提高查询效率，体现在与硬盘IO次数减少了；由于是排好序的，降低了查询次数，cpu消耗低。

劣势：实际上索引也是一张表，该表保存了主键与索引字段，并指向实体表的记录。所以索引需要存储空间；新增、修改、删除操作时也需要维护索引需要的时间开销。

1、索引创建原则

哪些情况需要创建索引：

主键会自动创建唯一的索引
查询条件的列（where后面的语句)，加快条件的判断速度。
外键的列
排序的列
分组中的字段

哪些列不适合建立索引：

表记录太少
经常增删改的表（因为更新表时，MySQL不仅要保存数据，还要保存一下索引文件）
Where条件里用不到的字段
数据重复率高的列（例如性别：男、女）

2、索引分类

查看索引：show index from 表名;

1.主键索引：设定为主键后数据库会自动建立索引

alter table 表名 drop primary key;#删除主键(索引)
ALTER TABLE test add PRIMARY KEY test(id);#添加主键

2.单值索引：一个索引中只包含一个列，一个表可以有多个单列索引

创建单值索引：create index 索引名 on 表名(列名);

删除索引：alter table 表名 drop index 索引名;

create index index_student_name on student(name);#创建单值索引
explain select * from student where name="张三" #测试
alter table student drop index index_student_name;#删除索引

3.唯一索引：索引列的值必须唯一，允许为null

create unique index 索引名 on 表名(列名);

4.组合索引(复合索引)：一个索引中可以包含多个列。组合索引比单值索引的开销小

创建复合索引：create index 索引名 on 表名(列 1,列 2...);

删除索引：alter table 表名 drop index 索引名;

create index index_student_name_gender on student(name,gender);#创建

组合索引要满足最左前缀原则：

例如表中有a、b、c 3列，a、b两列创建组合索引。当查询条件中用到组合索引时，必须使用到最左边列，否则索引失效。

create index index_test_a_b on test(a,b); #a列就是最左边列
explain select * from test where a = 'aa' and b='bb'
explain select * from test where b = 'aa' and a='bb'
explain select * from test where a = 'aa' and c='bb'

explain select * from test where b = 'aa' and c='bb' -- 组合索引失效 因为没有用到最左边列

5.全文索引：可以解决模糊查询索引失效的问题。（模糊查询时，索引会失效。）

explain select * from test where name like '%j%'#模糊查询时，索引失效

create fulltext index 索引名 on 表名(字段名) with parser ngram;

select 结果 from 表名 where match(列名) against('搜索词')

create fulltext index index_content ON test(content) with parser ngram;#test表中,content列创建了全文索引
 
explain select * from  test where MATCH(content) against('中国')#content列中有没有出现“中国”

3、索引的数据结构

二叉树、红黑树在自增主键中使用，效率不高。

使用B+树：

排好序的，一个节点可以存储多个数据，使得B+树的高度不会太高。
数据存储在叶子节点，叶子节点之间还有连接
非叶子节点只存储索引，可以放更多的索引。

4、聚簇索引和非聚簇索引

聚簇索引：找到了索引就找到了数据。innodb中的主键索引就是聚簇索引，主键索引的B+树的叶子节点存储的就是数据。

一个表生成的数据、索引、表结构都存储在.ibd文件中，因为数据和主键的索引树绑在一起的。

innodb中除了主键索引是聚簇索引，其他索引是非聚簇索引。例如name列添加了索引，但是不能直接通过name找到数据，先通过name索引树找到主键索引，再通过主键找到数据，需要两次查找，所以是非聚簇索引。

非聚簇索引：找到了索引，并没有找到数据，需要二次查询。myisam引擎中的索引都是非聚簇索引，因为表结构、索引、数据都在不同的表中存储。

5、回表查询

回表查询也就是二次查询。例如通过学号/姓名等信息作为条件查询，首先通过学号/姓名找到主键索引，再通过主键索引找到数据，称为回表查询。

例如：学生表

id 主键索引

no 唯一索引

name 单值索引

如果我们通过主键查询学生信息，因为主键索引是聚簇索引，找到主键索引就找到了数据，所以不需要回表查询。

select * FROM student WHERE id = 1

如果通过学号去查询学号和姓名，因为学号是非聚簇索引，通过学号找到主键索引，再通过主键索引找到学号和姓名，需要二次回表查询。

SELECT NO,NAME FROM student WHERE NO = 123

如果通过学号只查询学号是否存在，找到学号索引，就找到了数据，此种场景不需要再回表查询了，也属于聚簇索引。

SELECT NO FROM student WHERE NO = 123

四、锁机制

多个事物(线程)对同一个表中的同一行数据进行操作，需要通过锁进行保护。按照粒度，锁可以分为表锁、行锁、间隙锁。innodb引擎支持行级锁，可以将锁的粒度到行级。

表锁：操作时会锁住整张表，效率低。myisam就只支持表锁。

行锁：操作时会锁住操作的行，并发量高。innodb支持支持表锁和行锁，且出于性能考虑，绝大多数情况下使用的都是行锁

间隙锁：当条件为一个范围区间时，只对某个区间进行加锁。innodb支持间隙锁。

共享锁(S)：又称读锁。一个事物对数据A进行读操作时，如果添加了共享锁，其他事物可以对数据A进行读操作，但是其他事物就不能对数据A进行修改，不能加排他锁。添加共享锁语法：select … lock in share mode;

排他锁(Ｘ)：又称写锁。事物A对数据进行增删改操作时，会自动添加锁，其他事物不能对数据加任何锁，直到事物A释放锁才可以。增删改会自动加锁；查询时如果需要添加排他锁，可以使用select … for update;语句。

五、事务

mybatis中提交事物，sqlsession.commit();

spring对事物进行管理：编程式事物、声明式事物(xml配置, 注解)

事物：数据库操作的过程中可能包含多条sql执行，多条sql执行应该是一个整体，保多条sql语句要么全部执行，要么全部不执行。用来管理insert、update、delete语句。

mysql中只有innodb引擎支持事物

1、事物特征(ACID)

原子性(Atomicity)：一个事物中有多条sql，要么都成功执行，要么都不执行，执行过程中如果发生错误，会被回滚到事务开始前的状态，就像这个事务从来没有执行过一样。

持久性(Durability)：在事物提交后，要保证数据的持久化。

隔离性(Isolation)：在多个事物并发访问下，对多个事物操作要进行隔离，各个事务之间不能互相干扰。

一致性(Consistency)：最终目标就是保证数据操作的一致性。例如经过多次转账操作后，最终的结果和预期的结果应该一致。

2、事务设置

默认情况下，MySQL启用自动提交模式（变量autocommit为on）。只要执行DML操作的语句，MySQL会立即隐式提交事务。

用SET来改变MySQL的自动提交模式

SET GLOBAL autocommit=0; #禁止自动提交 
SET GLOBAL autocommit=1;#开启自动提交

查看autocommit模式

SHOW GLOBAL VARIABLES LIKE 'autocommit';

例如：

begin;/START TRANSACTION;#开始一个事务
	insert into test(id,name) value(2,'aaa');
commit#事务确认

rollback#事务回滚

3、事务隔离级别

只有InnoDB支持事务，所以这里说的事务隔离级别是指InnoDB下的事务隔离级别。

理论上在某个事务对数据进行操作时，其他事务应该进行排队，当该事务提交之后，其他事务才可以继续操作这个数据。但是这样的话对性能影响太大，所以设计数据库的大叔提出了各种隔离级别，来最大限度的提升系统并发处理事务的能力。

查看隔离级别：SELECT @@global.transaction_isolation,@@transaction_isolation;

设置隔离级别：SET GLOBAL TRANSACTION ISOLATION LEVEL READ UNCOMMITTED

多个事物对同一个数据操作时，采用哪种隔离级别。mysql中默认的隔离级别是可重复读。

4种隔离级别：

1.读未提交(read uncommitted)：A事物正在对数据操作，事物没有提交，此时B事物可以读到A事物修改后未提交的数据。可能出现的问题：脏读、不可重复读、幻读。

2.读已提交(read committed)：A事物对数据正在操作，B事物只能读到A事物已经提交的数据，如果未提交，是读不到的。解决了脏读问题，但是仍然有不可重复读、幻读问题。

3.可重复读(repeatable read)：事物B在事物A中连续读取同一个数据，两次读到结果是一致的，哪怕在此期间有别的事物修改数据。解决了不可重读问题。

mysql8中的可重读的正常查询解决了幻读问题，如果在查询语句后面添加for update语句，会出现幻读问题。

4.串行化(serializable)：当一个事物对一行进行操作时(即使是读操作)，还未提交，其他事物不能进行增删改操作。

脏读：B事务读取A事务中的数据，但A事物有可能回滚，B事物读到的就是脏数据。

不可重复读：在同一个事物中，两次读同一个id的数据不相同的。（事务A将数据改了，事务B读不到，只能读到和之前一样的？？？？）

幻读：在一个事物，两次读到数量不一致。（事务A新增了一条数据，事务B读不到，只能读到和之前一样的？？？？）

4、事物实现原理（和增删改相关的）

1.原子性原理

在底层使用undolog(回滚日志)日志，保存一个相反的操作。例如执行insert操作，那么undolog日志中会记录一个相反的delete操作；执行delete操作，记录一个insert，当事物回滚时，执行反向操作。

2.持久性实现原理

使用redolog(重做日志)保证持久性。执行sql时，先将sql写入到redolog中，然后再执行保存到数据库；万一这个过程中，数据还没有写入到硬盘，突然断电，那么下次mysql启动时，会重新执行redolog日志，保证持久性。

3.隔离性

多版本并发控制(MVCC Multi-Version Concurrent Control)

为了实现可重复读，底层每次事物操作时，都会生成一个版本，对于数据的多个操作，每个版本之间都存在关系，形成一个版本链。

如果是读已提交，每次会生成一个最新的版本快照，读到最新提交的数据。

如果是可重复读，会在第一次读的时候生成一个版本快照，之后再次读取时，仍然从第一次生成的快照中读。

4.一致性

通过满足原子性、持久性、隔离性，最终达到一致性。

SQL优化

1. 使用varchar代替char

varchar：字符串长度不固定时使用，按数据的实际长度存储，可以节省存储空间；如：姓名，地址，QQ号
char：字符串长度固定时使用，不足补空格；如：性别，手机号

1）char定长字符串, 不足的会以空格补齐，最多可以存储255个字符

2）varchar变长字符串，有几个字符就存储几个字符，最多可以存储65535个字符

2. 清空表时优先使用truncate

（一张表里有100万条数据，需要清空，怎么做？）

truncate table比delete速度快，且使用的系统和事务日志资源少。

delete 语句每次删除一行，并在事务日志中为所删除的每行记录一项。truncate table 通过释放存储表数据所用的数据页来删除数据

delete是一行一行删的

truncate是DDL语句，对表结构操作的

3.查询SQL尽量不要使用select *，而是具体字段

节省资源、减少网络开销。

可能用到覆盖索引，减少回表，提高查询效率。

4.表连接不宜太多，索引不宜太多，一般5个以内

联的表个数越多，编译的时间和开销也就越大

每次关联内存中都生成一个临时表

应该把连接表拆开成较小的几个执行，可读性更高

5. 尽量使用数值替代字符串类型

主键（id）：primary key优先使用数值类型int

性别（sex）：0代表女，1代表男；数据库没有布尔类型，mysql推荐使用tinyint

因为引擎在处理查询和连接时会逐个比较字符串中每一个字符；而对于数字型而言只需要比较一次就够了；

字符会降低查询和连接的性能，并会增加存储开销；

6. 提高 group by 语句的效率

反例：先分组，再过滤

正例：先过滤，后分组

7. inner join 、left join、right join，优先使用inner join

三种连接如果结果相同，优先使用 inner join

inner join 内连接，只保留两张表中完全匹配的结果集；

left join 会返回左表所有的行，即使在右表中没有匹配的记录；

right join 会返回右表所有的行，即使在左表中没有匹配的记录；

8.首先考虑在where及 order by涉及的列上建立索引

9.避免在where子句中使用or来连接条件

反例：SELECT * FROM user WHERE id=1 OR salary=5000

正例：使用union all把两个两个SQL结果合并

对于or没有索引的salary这种情况，假设它走了id的索引，但是走到salary查询条件时，它还得全表扫描；

10. 避免在索引列上使用内置函数，索引失效

11. 避免索引失效

1. 模糊查询将导致全表扫描（两边都有%）

select id from t where name like '%abc%'

2. 避免在where子句中使用or来连接条件，否则导致索引失效，而进行全表扫描，如:select id from t where num=10 or num=20

3. in和not in要慎用，否则会导致全表扫描，如：select id from t where num in(1,2,3)，对于连续的数值，能用between就不用in，因为B+树中，叶子节点之间有联系，范围查找快一些。select id from t where num between 1 and 3

4. 避免where子句中对字段进行函数操作，这将导致引擎放弃使用索引而进行全表扫描。如: select id from t where substring(name,1,3)='abc'