MySQL高级_第10章_索引优化与查询优化

news2024/11/20 0:37:04

MySQL高级_第10_索引优化与查询优化

1. 数据准备

学员表 50 条, 班级表 1 条。
步骤 1 :建表
CREATE TABLE `class` (
`id` INT ( 11 ) NOT NULL AUTO_INCREMENT ,
`className` VARCHAR ( 30 ) DEFAULT NULL ,
`address` VARCHAR ( 40 ) DEFAULT NULL ,
`monitor` INT NULL ,
PRIMARY KEY ( `id` )
) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET =utf8;
CREATE TABLE `student` (
`id` INT ( 11 ) NOT NULL AUTO_INCREMENT ,
`stuno` INT NOT NULL ,
`name` VARCHAR ( 20 ) DEFAULT NULL ,
`age` INT ( 3 ) DEFAULT NULL ,
`classId` INT ( 11 ) DEFAULT NULL ,
PRIMARY KEY ( `id` )
#CONSTRAINT `fk_class_id` FOREIGN KEY (`classId`) REFERENCES `t_class` (`id`)
) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET =utf8;
步骤 2 :设置参数
命令开启:允许创建函数设置:
set global log_bin_trust_function_creators= 1 ; # 不加 global 只是当前窗口有效。
步骤 3 :创建函数
保证每条数据都不同。
# 随机产生字符串
DELIMITER //
CREATE FUNCTION rand_string(n INT ) RETURNS VARCHAR ( 255 )
BEGIN
DECLARE chars_str VARCHAR ( 100 ) DEFAULT
'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ' ;
DECLARE return_str VARCHAR ( 255 ) DEFAULT '' ;
DECLARE i INT DEFAULT 0 ;
WHILE i < n DO
SET return_str =CONCAT(return_str,SUBSTRING(chars_str,FLOOR( 1 +RAND()* 52 ), 1 ));
SET i = i + 1 ;
END WHILE ;
RETURN return_str;
END //
DELIMITER ;
# 假如要删除
#drop function rand_string;
随机产生班级编号
# 用于随机产生多少到多少的编号
DELIMITER //
CREATE FUNCTION rand_num (from_num INT ,to_num INT ) RETURNS INT ( 11 )
BEGIN
DECLARE i INT DEFAULT 0 ;
SET i = FLOOR(from_num +RAND()*(to_num - from_num+ 1 )) ;
RETURN i;
END //
DELIMITER ;
# 假如要删除
#drop function rand_num;
步骤 4 :创建存储过程
# 创建往 stu 表中插入数据的存储过程
# 创建往 stu 表中插入数据的存储过程
DELIMITER //
CREATE PROCEDURE insert_stu( START INT , max_num INT )
BEGIN
DECLARE i INT DEFAULT 0 ;
SET autocommit = 0 ; # 设置手动提交事务
REPEAT # 循环
SET i = i + 1 ; # 赋值
INSERT INTO student (stuno, name ,age ,classId ) VALUES
(( START +i),rand_string( 6 ),rand_num( 1 , 50 ),rand_num( 1 , 1000 ));
UNTIL i = max_num
END REPEAT ;
COMMIT ; # 提交事务
END //
DELIMITER ;
# 假如要删除
#drop PROCEDURE insert_stu;
创建往 class 表中插入数据的存储过程
# 执行存储过程,往 class 表添加随机数据
DELIMITER //
CREATE PROCEDURE `insert_class` ( max_num INT )
BEGIN
DECLARE i INT DEFAULT 0 ;
SET autocommit = 0 ;
REPEAT
SET i = i + 1 ;
INSERT INTO class ( classname,address,monitor ) VALUES
(rand_string( 8 ),rand_string( 10 ),rand_num( 1 , 100000 ));
UNTIL i = max_num
END REPEAT ;
COMMIT ;
END //
DELIMITER ;
# 假如要删除
#drop PROCEDURE insert_class;
步骤 5 :调用存储过程
class
# 执行存储过程,往 class 表添加 1 万条数据
CALL insert_class( 10000 );
stu
# 执行存储过程,往 stu 表添加 50 万条数据
CALL insert_stu( 100000 , 500000 );
步骤 6 :删除某表上的索引
创建存储过程
DELIMITER //
CREATE PROCEDURE `proc_drop_index` (dbname VARCHAR ( 200 ),tablename VARCHAR ( 200 ))
BEGIN
DECLARE done INT DEFAULT 0 ;
DECLARE ct INT DEFAULT 0 ;
DECLARE _index VARCHAR ( 200 ) DEFAULT '' ;
DECLARE _cur CURSOR FOR SELECT index_name FROM
information_schema .STATISTICS WHERE table_schema=dbname AND table_name =tablename AND
seq_in_index= 1 AND index_name <> 'PRIMARY' ;
# 每个游标必须使用不同的 declare continue handler for not found set done=1 来控制游标的结束
DECLARE CONTINUE HANDLER FOR NOT FOUND set done= 2 ;
# 若没有数据返回 , 程序继续 , 并将变量 done 设为 2
OPEN _cur;
FETCH _cur INTO _index;
WHILE _index<> '' DO
SET @str = CONCAT( "drop index " , _index , " on " , tablename );
PREPARE sql_str FROM @str ;
EXECUTE sql_str;
DEALLOCATE PREPARE sql_str;
SET _index= '' ;
FETCH _cur INTO _index;
END WHILE ;
CLOSE _cur;
END //
DELIMITER ;
执行存储过程
CALL proc_drop_index( "dbname" , "tablename" );

2. 索引失效案例

2.1 全值匹配我最爱

2.2 最佳左前缀法则

拓展: Alibaba Java 开发手册》
索引文件具有 B-Tree 的最左前缀匹配特性,如果左边的值未确定,那么无法使用此索引。
2.3 主键插入顺序
如果此时再插入一条主键值为 9 的记录,那它插入的位置就如下图:

可这个数据页已经满了,再插进来咋办呢?我们需要把当前 页面分裂 成两个页面,把本页中的一些记录移动到新创建的这个页中。页面分裂和记录移位意味着什么?意味着: 性能损耗 !所以如果我们想尽量避免这样无谓的性能损耗,最好让插入的记录的 主键值依次递增 ,这样就不会发生这样的性能损耗了。所以我们建议:让主键具有 AUTO_INCREMENT ,让存储引擎自己为表生成主键,而不是我们手动插入 ,比如: person_info 表:
CREATE TABLE person_info(
id INT UNSIGNED NOT NULL AUTO_INCREMENT ,
name VARCHAR ( 100 ) NOT NULL ,
birthday DATE NOT NULL ,
phone_number CHAR ( 11 ) NOT NULL ,
country varchar ( 100 ) NOT NULL ,
PRIMARY KEY (id),
KEY idx_name_birthday_phone_number (name( 10 ), birthday, phone_number)
);
我们自定义的主键列 id 拥有 AUTO_INCREMENT 属性,在插入记录时存储引擎会自动为我们填入自增的主键值。这样的主键占用空间小,顺序写入,减少页分裂。
2.4 计算、函数、类型转换 ( 自动或手动 ) 导致索引失效
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student .name LIKE 'abc%'
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT (student .name , 3 ) = 'abc' ;
创建索引
CREATE INDEX idx_name ON student(NAME);
第一种:索引优化生效
mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student .name LIKE 'abc%' ;
mysql> SELECT SQL_NO_CACHE * FROM student WHERE student .name LIKE 'abc%' ;
+---------+---------+--------+------+---------+
| id | stuno | name | age | classId |
+---------+---------+--------+------+---------+
| 5301379 | 1233401 | AbCHEa | 164 | 259 |
| 7170042 | 3102064 | ABcHeB | 199 | 161 |
| 1901614 | 1833636 | ABcHeC | 226 | 275 |
| 5195021 | 1127043 | abchEC | 486 | 72 |
| 4047089 | 3810031 | AbCHFd | 268 | 210 |
| 4917074 | 849096 | ABcHfD | 264 | 442 |
| 1540859 | 141979 | abchFF | 119 | 140 |
| 5121801 | 1053823 | AbCHFg | 412 | 327 |
| 2441254 | 2373276 | abchFJ | 170 | 362 |
| 7039146 | 2971168 | ABcHgI | 502 | 465 |
| 1636826 | 1580286 | ABcHgK | 71 | 262 |
| 374344 | 474345 | abchHL | 367 | 212 |
| 1596534 | 169191 | AbCHHl | 102 | 146 |
...
| 5266837 | 1198859 | abclXe | 292 | 298 |
| 8126968 | 4058990 | aBClxE | 316 | 150 |
| 4298305 | 399962 | AbCLXF | 72 | 423 |
| 5813628 | 1745650 | aBClxF | 356 | 323 |
| 6980448 | 2912470 | AbCLXF | 107 | 78 |
| 7881979 | 3814001 | AbCLXF | 89 | 497 |
| 4955576 | 887598 | ABcLxg | 121 | 385 |
| 3653460 | 3585482 | AbCLXJ | 130 | 174 |
| 1231990 | 1283439 | AbCLYH | 189 | 429 |
| 6110615 | 2042637 | ABcLyh | 157 | 40 |
+---------+---------+--------+------+---------+
401 rows in set , 1 warning ( 0.01 sec)
第二种:索引优化失效
mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT (student .name , 3 ) = 'abc' ;
mysql> SELECT SQL_NO_CACHE * FROM student WHERE LEFT (student .name , 3 ) = 'abc' ;
+---------+---------+--------+------+---------+
| id | stuno | name | age | classId |
+---------+---------+--------+------+---------+
| 5301379 | 1233401 | AbCHEa | 164 | 259 |
| 7170042 | 3102064 | ABcHeB | 199 | 161 |
| 1901614 | 1833636 | ABcHeC | 226 | 275 |
| 5195021 | 1127043 | abchEC | 486 | 72 |
| 4047089 | 3810031 | AbCHFd | 268 | 210 |
| 4917074 | 849096 | ABcHfD | 264 | 442 |
| 1540859 | 141979 | abchFF | 119 | 140 |
| 5121801 | 1053823 | AbCHFg | 412 | 327 |
| 2441254 | 2373276 | abchFJ | 170 | 362 |
| 7039146 | 2971168 | ABcHgI | 502 | 465 |
| 1636826 | 1580286 | ABcHgK | 71 | 262 |
| 374344 | 474345 | abchHL | 367 | 212 |
| 1596534 | 169191 | AbCHHl | 102 | 146 |
...
| 5266837 | 1198859 | abclXe | 292 | 298 |
| 8126968 | 4058990 | aBClxE | 316 | 150 |
| 4298305 | 399962 | AbCLXF | 72 | 423 |
| 5813628 | 1745650 | aBClxF | 356 | 323 |
| 6980448 | 2912470 | AbCLXF | 107 | 78 |
| 7881979 | 3814001 | AbCLXF | 89 | 497 |
| 4955576 | 887598 | ABcLxg | 121 | 385 |
| 3653460 | 3585482 | AbCLXJ | 130 | 174 |
| 1231990 | 1283439 | AbCLYH | 189 | 429 |
| 6110615 | 2042637 | ABcLyh | 157 | 40 |
+---------+---------+--------+------+---------+
401 rows in set , 1 warning ( 3.62 sec)
type “ALL” ,表示没有使用到索引,查询时间为 3.62 秒,查询效率较之前低很多。
再举例:
  • student表的字段stuno上设置有索引
CREATE INDEX idx_sno ON student(stuno);
EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno+ 1 = 900001 ;
运行结果:

  • 索引优化生效:
EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno = 900000 ;
再举例:
  • student表的字段name上设置有索引
CREATE INDEX idx_name ON student(NAME);
EXPLAIN SELECT id, stuno, name FROM student WHERE SUBSTRING(name, 1 , 3 )= 'abc' ;

 EXPLAIN SELECT id, stuno, NAME FROM student WHERE NAME LIKE 'abc%';

2.5 类型转换导致索引失效

下列哪个 sql 语句可以用到索引。(假设 name 字段上设置有索引)
# 未使用到索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name= 123 ;
# 使用到索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name= '123' ;

  • name=123发生类型转换,索引失效。

2.6 范围条件右边的列索引失效

ALTER TABLE student DROP INDEX idx_name;
ALTER TABLE student DROP INDEX idx_age;
ALTER TABLE student DROP INDEX idx_age_classid;
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student .age = 30 AND student .classId > 20 AND student .name = 'abc' ;

create index idx_age_name_classid on student(age,name,classid); 

  • 将范围查询条件放置语句最后:

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student .age = 30 AND student .name =
'abc' AND student .classId > 20 ;

2.7 不等于(!= 或者<>)索引失效

2.8 is null可以使用索引,is not null无法使用索引

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;

2.9 like以通配符%开头索引失效

拓展: Alibaba Java 开发手册》
【强制】页面搜索严禁左模糊或者全模糊,如果需要请走搜索引擎来解决。

2.10 OR 前后存在非索引的列,索引失效

# 未使用到索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100 ;
# 使用到索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR name = 'Abel' ; 

2.11 数据库和表的字符集统一使用utf8mb4

统一使用 utf8mb4( 5.5.3 版本以上支持 ) 兼容性更好,统一字符集可以避免由于字符集转换产生的乱码。不同的 字符集 进行比较前需要进行 转换 会造成索引失效。

2.12 练习及一般性建议

练习:假设: index(a,b,c)

Where语句索引是否被使用
where a= 3Y,使用到a
where a = 3 and b=5Y,使用到a,b
where a= 3 and b= 5 and c= 4Y,使用到a,b,c
where b= 3或者where b= 3 and c= 4或者where c= 4N
where a= 3 and c=5使用到a,但是c不可以,b中间断了
where a = 3 and b> 4 and c= 5使用到a和b,c不能用在范围之后,b断了
where a is null and b is not nullis null支持索引但是is not null不支持。所以a可以使用索引,但是b不可以使用
where a <> 3不能使用索引
where abs(a) =3不能使用索引
where a = 3 and b like 'kk%' and c =4Y,使用到a,b,c
where a= 3 and b like '%kk' and c =4Y,只用到a
where a= 3 and b like '%kk%' and c=4Y,只用到a
where a = 3 and b like " k%kks%"and c = 4Y,使用到a,b,c


一般性建议:

  • 对于单列索引,尽量选择针对当前query过滤性更好的索引
  • 在选择组合索引的时候,当前query中过滤性最好的字段在索引字段顺序中,位置越靠前越好。
  • 在选择组合索引的时候,尽量选择能够包含当前query中的where子句中更多字段的索引。
  • 在选择组合索引的时候,如果某个字段可能出现范围查询时,尽量把这个字段放在索引次序的最后面。
总之,书写SQL语句时,尽量避免造成索引失效的情况。

3. 关联查询优化

3.1 数据准备

3.2 采用左外连接

下面开始 EXPLAIN 分析
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type .card = book .card ;
结论: type All
添加索引优化
ALTER TABLE book ADD INDEX Y ( card); # 【被驱动表】,可以避免全表扫描
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type .card = book .card ;
可以看到第二行的 type 变为了 ref rows 也变成了优化比较明显。这是由左连接特性决定的。 LEFT JOIN 条件用于确定如何从右表搜索行,左边一定都有,所以 右边是我们的关键点 , 一定需要建立索引
ALTER TABLE `type` ADD INDEX X (card); # 【驱动表】,无法避免全表扫描
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type .card = book .card ;
接着:

3.3 采用内连接

drop index X on type;
drop index Y on book; (如果已经删除了可以不用再执行该操作)
换成 inner join MySQL 自动选择驱动表)
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type .card =book .card ;
添加索引优化
ALTER TABLE book ADD INDEX Y ( card);
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type .card =book .card ;
ALTER TABLE type ADD INDEX X (card);
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type .card =book .card ;
接着:
DROP INDEX X ON `type` ;
EXPLAIN SELECT SQL_NO_CACHE * FROM TYPE INNER JOIN book ON type .card =book .card ;
接着:
ALTER TABLE `type` ADD INDEX X (card);
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type .card =book .card ;

3.4 join语句原理

join方式连接多个表,本质就是各个表之间数据的循环匹配。MySQL5.5版本之前,MySQL只支持一种表间关联方式,就是嵌套循环(Nested Loop Join)。如果关联表的数据量很大,则join关联的执行时间会非常长。在MySQL5.5以后的版本中,MySQL通过引入BNLJ算法来优化嵌套执行。
 

1.驱动表和被驱动表

驱动表就是主表。被驱动表就是从表、非驱动表。

  • 对于内连接来说:

SELECT * FROM A JOIN B ON ...

A一定是驱动表吗?不一定,优化器会根据你查询语句做优化,决定先查哪张表。先查询的那张表就是驱动表,反之就是被驱动表。通过explain关键字可以查看,

  • 对于外连接来说:

SELECT * FROM A LEFT JOIN B ON ...

#或
SELECT  FROM B RIGHT JOIN A ON...


通常,大家会认为A就是驱动表,B就是被驱动表。但也未必。测试如下:

CREATE TABLE a(f1 INT,f2 INT,INDEX(f1) )ENGINE=INNODB;


CREATE TABLE b(f1 INT,f2 INT)ENGINE=INNODB;

INSERT INT0 a VALUES(1,1),(2,2),(3,3 ),(4,4),(5,5),(6,6);


INSERT INTO b VALUES(3,3),(4,4),(5,5),(6,6),(7,7), (8,8);


SELECT *FROM b ;


#测试1
EXPLAIN SELECT * FROM a LEFT JOIN b ON(a.f1=b.f1 ) WHERE (a . f2=b.f2);


#测试2
EXPLAIN SELECT * FROM a LEFT JOIN b ON(a.f1=b.f1) AND ( a.f2=b.f2);

2.Simple Nested-Loop Join (简单嵌套循环连接)

算法相当简单,从表A中取出一条数据1,遍历表B,将匹配到的数据放到result..以此类推,驱动表A中的每一条记录与被驱动表B的记录进行判断:

可以看到这种方式效率是非常低的,以上述表A数据100条,表B数据1000条计算,则A*B=10万次。开销统计如下:

当然mysql肯定不会这么粗暴的去进行表的连接,所以就出现了后面的两种对Nested-Loop Join优化算法。

3.Index Nested-Loop Join(索引嵌套循环连接)

Index Nested-Loop Join其优化的思路主要是为了减少内层表数据的匹配次数,所以要求被驱动表上必须有索引才行。通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录去进行比较,这样极大的减少了对内层表的匹配次数。

驱动表中的每条记录通过被驱动表的索引进行访问,因为索引查询的成本是比较固定的,故mysql优化器都倾向于使用记录数少的表作为驱动表(外表)。

如果被驱动表加索引,效率是非常高的,但如果索引不是主键索引,所以还得进行一次回表查询。相比,被驱动表的索引是主键索引,效率会更高。

我们来看一下这个语句:
EXPLAIN SELECT * FROM t1 STRAIGHT_JOIN t2 ON (t1 .a =t2 .a );
如果直接使用 join 语句, MySQL 优化器可能会选择表 t1 t2 作为驱动表,这样会影响我们分析 SQL 语句的执行过程。所以,为了便于分析执行过程中的性能问题,我改用 straight_join MySQL 使用固定的连接方式执行查询,这样优化器只会按照我们指定的方式去join 。在这个语句里, t1 是驱动表, t2 是被驱动表。
可以看到,在这条语句里,被驱动表 t2 的字段 a 上有索引, join 过程用上了这个索引,因此这个语句的执行流程是这样的:
1. 从表 t1 中读入一行数据 R
2. 从数据行 R 中,取出 a 字段到表 t2 里去查找;
3. 取出表 t2 中满足条件的行,跟 R 组成一行,作为结果集的一部分;
4. 重复执行步骤 1 3 ,直到表 t1 的末尾循环结束。
这个过程是先遍历表 t1 ,然后根据从表 t1 中取出的每行数据中的 a 值,去表 t2 中查找满足条件的记录。在形式上,这个过程就跟我们写程序时的嵌套查询类似,并且可以用上被驱动表的索引,所以我们称之为“Index Nested-Loop Join”,简称 NLJ
它对应的流程图如下所示:

在这个流程里:
1. 对驱动表 t1 做了全表扫描,这个过程需要扫描 100 行;
2. 而对于每一行 R ,根据 a 字段去表 t2 查找,走的是树搜索过程。由于我们构造的数据都是一一对应的,因此每次的搜索过程都只扫描一行,也是总共扫描100行;
3. 所以,整个执行流程,总扫描行数是 200
引申问题 1 :能不能使用 join?
引申问题 2 :怎么选择驱动表?
比如: N 扩大 1000 倍的话,扫描行数就会扩大 1000 倍;而 M 扩大 1000 倍,扫描行数扩大不到 10 倍。
两个结论:
1. 使用 join 语句,性能比强行拆成多个单表执行 SQL 语句的性能要好;
2. 如果使用 join 语句的话,需要让小表做驱动表。

4.Block Nested-Loop Join(块嵌套循环连接)


如果存在索引,那么会使用index的方式进行join,如果join的列没有索引,被驱动表要扫描的次数太多了。每次访问被驱动表,其表中的记录都会被加载到内存中,然后再从驱动表中取一条与其匹配,匹配结束后清除内存,然后再从驱动表中加载一条记录,然后把被驱动表的记录在加载到内存匹配这样周而复始,大大增加了IO的次数。为了减少被驱动表的Io次数,就出现了Block Nested-Loop Join的方式。


不再是逐条获取驱动表的数据,而是一块一块的获取,引入了join buffer缓冲区,将驱动表join相关的部分数据列(大小受join buffer的限制)缓存到join buffer中,然后全表扫描被驱动表。被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低了被驱动表的访问频率。
 

注意:
这里缓存的不只是关联表的列, select后面的列也会缓存起来。
在一个有N个join关联的sql中会分配N-1个join buffer。所以查询的时候尽量减少不必要的字段,可以让joinbuffer中可以存放更多的列。

 

参数设置:

  • block_nested_loop

通过 show variables like '%optimizer_switch%’查看block_nested_loop状态。默认是开启的。

  • join_buffer_size

驱动表能不能一次加载完,要看join buffer能不能存储所有的数据,默认情况下join_buffer_size=256k

mysql> show variables like '%join_buffer% ' ;
十----------------—-十+--—-——--+
l Variable_namel Valuel

十-—--------------——+-----—--+l

join_buffer_size | 262144 |

十-——------------——-十-—-
1 row in set (0.0e sec) 

join_buffer_size的最大值在32位系统可以申请4G,而在64位操做系统下可以申请大于4G的Join Buffer空间(64位Windows除外,其大值会被截断为4GB并发出警告)。
 
这个过程的流程图如下:
执行流程图也就变成这样:

总结 1 :能不能使用 xxx join 语句?
总结 2 :如果要使用 join ,应该选择大表做驱动表还是选择小表做驱动表?
总结 3 :什么叫作 小表
在决定哪个表做驱动表的时候,应该是两个表按照各自的条件过滤,过滤完成之后,计算参与 join 的各 个字段的总数据量,数据量小的那个表,就是 小表 ,应该作为驱动表。

5 Join小结

1、整体效率比较:INLJ >BNLJ > SNLJ
2、永远用小结果集驱动大结果集(其本质就是减少外层循环的数据数量)
(小的度量单位指的是表行数*每行大小)

select t1.b, t2.* from t1 straight_join t2 on (t1.b=t2.b) where t2.id<=100;#推荐
select t1.b, t2.* from t2 straight_join t1 on (t1.b=t2.b) where t2.id<=108;#不推荐

3、为被驱动表匹配的条件增加索引(减少内层表的循环匹配次数)
4、增大join buffer size的大小(一次缓存的数据越多,那么内层包的扫表次数就越少)5、减少驱动表不必要的字段查询(字段越少,join buffer所缓存的数据就越多)

 

  • 保证被驱动表的JOIN字段已经创建了索引
  • 需要JOIN 的字段,数据类型保持绝对一致。
  • LEFT JOIN 时,选择小表作为驱动表, 大表作为被驱动表 。减少外层循环的次数。
  • INNER JOIN 时,MySQL会自动将 小结果集的表选为驱动表 。选择相信MySQL优化策略。
  • 能够直接多表关联的尽量直接关联,不用子查询。(减少查询的趟数)
  • 不建议使用子查询,建议将子查询SQL拆开结合程序多次查询,或使用 JOIN 来代替子查询。
  • 衍生表建不了索引

6.Hash Join

从MySQL的8.0.20版本开始将废弃BNLJ,因为从MySQL8.0.18版本开始就加入了hash join默认都会使用hash join

  • Nested Loop:

对于被连接的数据子集较小的情况,Nested Loop是个较好的选择。

  • Hash Join是做大数据集连接时的常用方式,优化器使用两个表中较小(相对较小)的表利用Join Key在内存中建立散列表,然后扫描较大的表并探测散列表,找出与Hash表匹配的行。
    • 这种方式适用于较小的表完全可以放于内存中的情况,这样总成本就是访问两个表的成本之和。
    • 在表很大的情况下并不能完全放入内存,这时优化器会将它分割成若干不同的分区,不能放入内存的部分就把该分区写入磁盘的临时段,此时要求有较大的临时段从而尽量提高I/o 的性能。
    • 它能够很好的工作于没有索引的大表和并行查询的环境中,并提供最好的性能。大多数人都说它是Join的重型升降机。Hash Join只能应用于等值连接(如WHERE A.COL1 =B.COL2),这是由Hash的特点决定的。
       

4. 子查询优化

MySQL 4.1 版本开始支持子查询,使用子查询可以进行 SELECT 语句的嵌套查询,即一个 SELECT 查询的结果作为另一个SELECT 语句的条件。 子查询可以一次性完成很多逻辑上需要多个步骤才能完成的 SQL 操作
子查询是 MySQL 的一项重要的功能,可以帮助我们通过一个 SQL 语句实现比较复杂的查询。但是,子 查询的执行效率不高。 原因:
① 执行子查询时, MySQL 需要为内层查询语句的查询结果 建立一个临时表 ,然后外层查询语句从临时表中查询记录。查询完毕后,再 撤销这些临时表 。这样会消耗过多的 CPU IO 资源,产生大量的慢查询。
② 子查询的结果集存储的临时表,不论是内存临时表还是磁盘临时表都 不会存在索引 ,所以查询性能会受到一定的影响。
③ 对于返回结果集比较大的子查询,其对查询性能的影响也就越大。
MySQL 中,可以使用连接( JOIN )查询来替代子查询。 连接查询 不需要建立临时表 ,其 速度比子查询要快 ,如果查询中使用索引的话,性能就会更好。
结论:尽量不要使用 NOT IN 或者 NOT EXISTS ,用 LEFT JOIN xxx ON xx WHERE xx IS NULL 替代

5. 排序优化

5.1 排序优化

问题: WHERE 条件字段上加索引,但是为什么在 ORDER BY 字段上还要加索引呢?
优化建议:
1. SQL 中,可以在 WHERE 子句和 ORDER BY 子句中使用索引,目的是在 WHERE 子句中 避免全表扫描 ,在 ORDER BY 子句 避免使用 FileSort 排序 。当然,某些情况下全表扫描,或者 FileSort 排序不一定比索引慢。但总的来说,我们还是要避免,以提高查询效率。
2. 尽量使用 Index 完成 ORDER BY 排序。如果 WHERE ORDER BY 后面是相同的列就使用单索引列; 如果不同就使用联合索引。
3. 无法使用 Index 时,需要对 FileSort 方式进行调优。
INDEX a_b_c(a,b,c)
order by 能使用索引最左前缀
- ORDER BY a
- ORDER BY a,b
- ORDER BY a,b,c
- ORDER BY a DESC ,b DESC ,c DESC
如果 WHERE 使用索引的最左前缀定义为常量,则 order by 能使用索引
- WHERE a = const ORDER BY b,c
- WHERE a = const AND b = const ORDER BY c
- WHERE a = const ORDER BY b,c
- WHERE a = const AND b > const ORDER BY b,c
不能使用索引进行排序
- ORDER BY a ASC ,b DESC ,c DESC /* 排序不一致 */
- WHERE g = const ORDER BY b,c /* 丢失 a 索引 */
- WHERE a = const ORDER BY c /* 丢失 b 索引 */
- WHERE a = const ORDER BY a,d /*d 不是索引的一部分 */
- WHERE a in (...) ORDER BY b,c /* 对于排序来说,多个相等条件也是范围查询 */

5.3 案例实战

ORDER BY 子句,尽量使用 Index 方式排序,避免使用 FileSort 方式排序。
执行案例前先清除 student 上的索引,只留主键:
DROP INDEX idx_age ON student;
DROP INDEX idx_age_classid_stuno ON student;
DROP INDEX idx_age_classid_name ON student;
# 或者
call proc_drop_index( 'atguigudb2' , 'student' );
场景 : 查询年龄为 30 岁的,且学生编号小于 101000 的学生,按用户名称排序
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno < 101000 ORDER BY
NAME ;

查询结果如下:
mysql> SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno < 101000 ORDER BY
NAME ;
+---------+--------+--------+------+---------+
| id | stuno | name | age | classId |
+---------+--------+--------+------+---------+
| 922 | 100923 | elTLXD | 30 | 249 |
| 3723263 | 100412 | hKcjLb | 30 | 59 |
| 3724152 | 100827 | iHLJmh | 30 | 387 |
| 3724030 | 100776 | LgxWoD | 30 | 253 |
| 30 | 100031 | LZMOIa | 30 | 97 |
| 3722887 | 100237 | QzbJdx | 30 | 440 |
| 609 | 100610 | vbRimN | 30 | 481 |
| 139 | 100140 | ZqFbuR | 30 | 351 |
+---------+--------+--------+------+---------+
8 rows in set , 1 warning ( 3.16 sec)
结论: type ALL ,即最坏的情况。 Extra 里还出现了 Using filesort, 也是最坏的情况。优化是必须的。
优化思路:
方案一 : 为了去掉 filesort 我们可以把索引建成
# 创建新索引
CREATE INDEX idx_age_name ON student(age,NAME);
方案二 : 尽量让 where 的过滤条件和排序使用上索引
建一个三个字段的组合索引:
DROP INDEX idx_age_name ON student;
CREATE INDEX idx_age_stuno_name ON student (age,stuno,NAME);
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno < 101000 ORDER BY
NAME ;
mysql> SELECT SQL_NO_CACHE * FROM student
-> WHERE age = 30 AND stuno < 101000 ORDER BY NAME ;
+-----+--------+--------+------+---------+
| id | stuno | name | age | classId |
+-----+--------+--------+------+---------+
| 167 | 100168 | AClxEF | 30 | 319 |
| 323 | 100324 | bwbTpQ | 30 | 654 |
| 651 | 100652 | DRwIac | 30 | 997 |
| 517 | 100518 | HNSYqJ | 30 | 256 |
| 344 | 100345 | JuepiX | 30 | 329 |
| 905 | 100906 | JuWALd | 30 | 892 |
| 574 | 100575 | kbyqjX | 30 | 260 |
| 703 | 100704 | KJbprS | 30 | 594 |
| 723 | 100724 | OTdJkY | 30 | 236 |
| 656 | 100657 | Pfgqmj | 30 | 600 |
| 982 | 100983 | qywLqw | 30 | 837 |
| 468 | 100469 | sLEKQW | 30 | 346 |
| 988 | 100989 | UBYqJl | 30 | 457 |
| 173 | 100174 | UltkTN | 30 | 830 |
| 332 | 100333 | YjWiZw | 30 | 824 |
+-----+--------+--------+------+---------+
15 rows in set , 1 warning ( 0.00 sec)
结果竟然有 filesort sql 运行速度, 超过了已经优化掉 filesort sql ,而且快了很多,几乎一瞬间就出现了结果。
结论:
1. 两个索引同时存在, mysql 自动选择最优的方案。(对于这个例子, mysql 选择
idx_age_stuno_name )。但是, 随着数据量的变化,选择的索引也会随之变化的
2. 当【范围条件】和【 group by 或者 order by 】的字段出现二选一时,优先观察条件字段的过
滤数量,如果过滤的数据足够多,而需要排序的数据并不多时,优先把索引放在范围字段
上。反之,亦然。
思考:这里我们使用如下索引,是否可行?
DROP INDEX idx_age_stuno_name ON student;
CREATE INDEX idx_age_stuno ON student(age,stuno);

5.4 filesort算法:双路排序和单路排序

双路排序 (慢)
  • MySQL 4.1之前是使用双路排序 ,字面意思就是两次扫描磁盘,最终得到数据, 读取行指针和 order by,对他们进行排序,然后扫描已经排序好的列表,按照列表中的值重新从列表中读取对应的数据输出
  • 从磁盘取排序字段,在buffer进行排序,再从 磁盘取其他字段
取一批数据,要对磁盘进行两次扫描,众所周知, IO 是很耗时的,所以在 mysql4.1 之后,出现了第二种改进的算法,就是单路排序。
单路排序 (快)
从磁盘读取查询需要的 所有列 ,按照 order by 列在 buffer 对它们进行排序,然后扫描排序后的列表进行输出, 它的效率更快一些,避免了第二次读取数据。并且把随机IO 变成了顺序 IO ,但是它会使用更多的空间, 因为它把每一行都保存在内存中了。
结论及引申出的问题
  • 由于单路是后出的,总体而言好过双路
  • 但是用单路有问题
优化策略
1. 尝试提高 sort_buffer_size
2. 尝试提高 max_length_for_sort_data
3. Order by select * 是一个大忌。最好只 Query 需要的字段。

6. GROUP BY优化

  • group by 使用索引的原则几乎跟order by一致 ,group by 即使没有过滤条件用到索引,也可以直接使用索引。
  • group by 先排序再分组,遵照索引建的最佳左前缀法则
  • 当无法使用索引列,增大 max_length_for_sort_data sort_buffer_size 参数的设置
  • where效率高于having,能写在where限定的条件就不要写在having中了
  • 减少使用order by,和业务沟通能不排序就不排序,或将排序放到程序端去做。Order bygroup bydistinct这些语句较为耗费CPU,数据库的CPU资源是极其宝贵的。
  • 包含了order bygroup bydistinct这些查询的语句,where条件过滤出来的结果集请保持在1000以内,否则SQL会很慢。

7. 优化分页查询

优化思路一
在索引上完成排序分页操作,最后根据主键关联回原表查询所需要的其他列内容。
EXPLAIN SELECT * FROM student t,( SELECT id FROM student ORDER BY id LIMIT 2000000 , 10 )
a
WHERE t .id = a .id ;

优化思路二
该方案适用于主键自增的表,可以把 Limit 查询转换成某个位置的查询 。
EXPLAIN SELECT * FROM student WHERE id > 2000000 LIMIT 10 ;

8. 优先考虑覆盖索引

8.1 什么是覆盖索引?

理解方式一 :索引是高效找到行的一个方法,但是一般数据库也能使用索引找到一个列的数据,因此它不必读取整个行。毕竟索引叶子节点存储了它们索引的数据;当能通过读取索引就可以得到想要的数据,那就不需要读取行了。 一个索引包含了满足查询结果的数据就叫做覆盖索引。
理解方式二 :非聚簇复合索引的一种形式,它包括在查询里的 SELECT JOIN WHERE 子句用到的所有列(即建索引的字段正好是覆盖查询条件中所涉及的字段)。
简单说就是, 索引列 + 主键 包含 SELECT FROM 之间查询的列

8.2 覆盖索引的利弊

好处:
1. 避免 Innodb 表进行索引的二次查询(回表)
2. 可以把随机 IO 变成顺序 IO 加快查询效率
弊端:
索引字段的维护 总是有代价的。因此,在建立冗余索引来支持覆盖索引时就需要权衡考虑了。这是业务DBA,或者称为业务数据架构师的工作。

9. 如何给字符串添加索引

有一张教师表,表定义如下:
create table teacher(
ID bigint unsigned primary key ,
email varchar ( 64 ),
...
) engine = innodb ;
讲师要使用邮箱登录,所以业务代码中一定会出现类似于这样的语句:
mysql> select col1, col2 from teacher where email= 'xxx' ;
如果 email 这个字段上没有索引,那么这个语句就只能做 全表扫描

9.1 前缀索引

MySQL 是支持前缀索引的。默认地,如果你创建索引的语句不指定前缀长度,那么索引就会包含整个字符串。
mysql> alter table teacher add index index1(email);
#
mysql> alter table teacher add index index2(email( 6 ));
这两种不同的定义在数据结构和存储上有什么区别呢?下图就是这两个索引的示意图。
以及

如果使用的是 index1 (即 email 整个字符串的索引结构),执行顺序是这样的:
1. index1 索引树找到满足索引值是 zhangssxyz@xxx.com 的这条记录,取得 ID2 的值;
2. 到主键上查到主键值是 ID2 的行,判断 email 的值是正确的,将这行记录加入结果集;
3. index1 索引树上刚刚查到的位置的下一条记录,发现已经不满足 email=' zhangssxyz@xxx.com 的条件了,循环结束。
这个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行。
如果使用的是 index2 (即 email(6) 索引结构),执行顺序是这样的:
1. index2 索引树找到满足索引值是 ’zhangs’ 的记录,找到的第一个是 ID1
2. 到主键上查到主键值是 ID1 的行,判断出 email 的值不是 zhangssxyz@xxx.com ,这行记录丢弃;
3. index2 上刚刚查到的位置的下一条记录,发现仍然是 ’zhangs’ ,取出 ID2 ,再到 ID 索引上取整行然后判断,这次值对了,将这行记录加入结果集;
4. 重复上一步,直到在 idxe2 上取到的值不是 ’zhangs’ 时,循环结束。
也就是说 使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。 前面已经讲过区分度,区分度越高越好。因为区分度越高,意味着重复的键值越少。

9.2 前缀索引对覆盖索引的影响

结论:
使用前缀索引就用不上覆盖索引对查询性能的优化了,这也是你在选择是否使用前缀索引时需要考
虑的一个因素。

10. 索引下推

Index Condition Pushdown(ICP) MySQL 5.6 中新特性,是一种在存储引擎层使用索引过滤数据的一种优化方式。ICP 可以减少存储引擎访问基表的次数以及 MySQL 服务器访问存储引擎的次数。

10.1 使用前后的扫描过程

在不使用 ICP 索引扫描的过程:
storage 层:只将满足 index key 条件的索引记录对应的整行记录取出,返回给 server
server 层:对返回的数据,使用后面的 where 条件过滤,直至返回最后一行。

使用 ICP 扫描的过程:
  • storage层:
首先将 index key 条件满足的索引记录区间确定,然后在索引上使用 index filter 进行过滤。将满足的 index filter条件的索引记录才去回表取出整行记录返回 server 层。不满足 index filter 条件的索引记录丢弃,不回表、也不会返回server 层。
  • server 层:
对返回的数据,使用 table filter 条件做最后的过滤。

 

使用前后的成本差别
使用前,存储层多返回了需要被 index filter 过滤掉的整行记录
使用 ICP 后,直接就去掉了不满足 index filter 条件的记录,省去了他们回表和传递到 server 层的成本。
ICP 加速效果 取决于在存储引擎内通过 ICP 筛选 掉的数据的比例。

10.2 ICP的使用条件

ICP 的使用条件:
① 只能用于二级索引 (secondary index)
explain 显示的执行计划中 type 值(join 类型)为 range ref eq_ref 或者 ref_or_null
③ 并非全部 where 条件都可以用 ICP 筛选,如果 where 条件的字段不在索引列中,还是要读取整表的记录到server 端做 where 过滤。
ICP 可以用于 MyISAM InnnoDB 存储引擎
MySQL 5.6 版本的不支持分区表的 ICP 功能, 5.7 版本的开始支持。
⑥ 当 SQL 使用覆盖索引时,不支持 ICP 优化方法。

10.3 ICP使用案例

案例 1
SELECT * FROM tuser
WHERE NAME LIKE ' %'
AND age = 10
AND ismale = 1 ;

 

 案例2

11. 普通索引 vs 唯一索引

从性能的角度考虑,你选择唯一索引还是普通索引呢?选择的依据是什么呢?
假设,我们有一个主键列为 ID 的表,表中有字段 k ,并且在 k 上有索引,假设字段 k 上的值都不重复。
这个表的建表语句是:
mysql> create table test(
id int primary key ,
k int not null ,
name varchar ( 16 ),
index (k)
) engine = InnoDB ;
表中 R1~R5 (ID,k) 值分别为 (100,1) (200,2) (300,3) (500,5) (600,6)

11.1 查询过程

假设,执行查询的语句是 select id from test where k=5
  • 对于普通索引来说,查找到满足条件的第一个记录(5,500)后,需要查找下一个记录,直到碰到第一个不满足k=5条件的记录。
  • 对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检索。
那么,这个不同带来的性能差距会有多少呢?答案是, 微乎其微

11.2 更新过程

为了说明普通索引和唯一索引对更新语句性能的影响这个问题,介绍一下 change buffer
当需要更新一个数据页时,如果数据页在内存中就直接更新,而如果这个数据页还没有在内存中的话,在不影响数据一致性的前提下, InooDB 会将这些更新操作缓存在 change buffer ,这样就不需要从磁盘中读入这个数据页了。在下次查询需要访问这个数据页的时候,将数据页读入内存,然后执行change buffer中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性。
change buffer 中的操作应用到原数据页,得到最新结果的过程称为 merge 。除了 访问这个数据页 会触发merge 外,系统有 后台线程会定期 merge 。在 数据库正常关闭( shutdown 的过程中,也会执行 merge操作。
如果能够将更新操作先记录在 change buffer 减少读磁盘 ,语句的执行速度会得到明显的提升。而且,数据读入内存是需要占用 buffer pool 的,所以这种方式还能够 避免占用内存 ,提高内存利用率。
唯一索引的更新就不能使用 change buffer ,实际上也只有普通索引可以使用。
如果要在这张表中插入一个新记录 (4,400) 的话, InnoDB 的处理流程是怎样的?

11.3 change buffer的使用场景

1. 普通索引和唯一索引应该怎么选择?其实,这两类索引在查询能力上是没差别的,主要考虑的是
更新性能 的影响。所以,建议你 尽量选择普通索引
2. 在实际使用中会发现, 普通索引 change buffer 的配合使用,对于 数据量大 的表的更新优化
还是很明显的。
3. 如果所有的更新后面,都马上 伴随着对这个记录的查询 ,那么你应该 关闭 change buffer 。而在其他情况下,change buffer 都能提升更新性能。
4. 由于唯一索引用不上 change buffer 的优化机制,因此如果 业务可以接受 ,从性能角度出发建议优先考虑非唯一索引。但是如果" 业务可能无法确保 " 的情况下,怎么处理呢?
  • 首先, 业务正确性优先 。我们的前提是业务代码已经保证不会写入重复数据的情况下,讨论性能问题。如果业务不能保证,或者业务就是要求数据库来做约束,那么没得选,必须创建唯一索引。 这种情况下,本节的意义在于,如果碰上了大量插入数据慢、内存命中率低的时候,给你多提供一个排查思路。
  • 然后,在一些归档库 的场景,你是可以考虑使用唯一索引的。比如,线上数据只需要保留半年,然后历史数据保存在归档库。这时候,归档数据已经是确保没有唯一键冲突了。要提高归档效率,可以考虑把表里面的唯一索引改成普通索引。

12. 其它查询优化策略

12.1 EXISTS IN 的区分

问题:
不太理解哪种情况下应该使用 EXISTS ,哪种情况应该用 IN 。选择的标准是看能否使用表的索引吗?

12.2 COUNT(*)COUNT(具体字段)效率

问:在 MySQL 中统计数据表的行数,可以使用三种方式: SELECT COUNT(*) SELECT COUNT(1) SELECT COUNT(具体字段 ) ,使用这三者之间的查询效率是怎样的?

12.3 关于SELECT(*)

在表查询中,建议明确字段,不要使用 * 作为查询的字段列表,推荐使用 SELECT < 字段列表 > 查询。原因:
MySQL 在解析的过程中,会通过 查询数据字典 "*" 按序转换成所有列名,这会大大的耗费资源和时间。
② 无法使用 覆盖索引

12.4 LIMIT 1 对优化的影响

针对的是会扫描全表的 SQL 语句,如果你可以确定结果集只有一条,那么加上 LIMIT 1 的时候,当找到一条结果的时候就不会继续扫描了,这样会加快查询速度。
如果数据表已经对字段建立了唯一索引,那么可以通过索引进行查询,不会全表扫描的话,就不需要加上 LIMIT 1 了。

12.5 多使用COMMIT

只要有可能,在程序中尽量多使用 COMMIT ,这样程序的性能得到提高,需求也会因为 COMMIT 所释放的资源而减少。
COMMIT 所释放的资源:
  • 回滚段上用于恢复数据的信息
  • 被程序语句获得的锁
  • redo / undo log buffer 中的空间
  • 管理上述 3 种资源中的内部花费

13. 淘宝数据库,主键如何设计的?

聊一个实际问题:淘宝的数据库,主键是如何设计的?
某些错的离谱的答案还在网上年复一年的流传着,甚至还成为了所谓的 MySQL 军规。其中,一个最明显的错误就是关于MySQL 的主键设计。
大部分人的回答如此自信:用 8 字节的 BIGINT 做主键,而不要用 INT
这样的回答,只站在了数据库这一层,而没有 从业务的角度 思考主键。主键就是一个自增 ID 吗?站在2022年的新年档口,用自增做主键,架构设计上可能 连及格都拿不到

13.1 自增ID的问题

自增 ID 做主键,简单易懂,几乎所有数据库都支持自增类型,只是实现上各自有所不同而已。自增 ID 除了简单,其他都是缺点,总体来看存在以下几方面的问题:
1. 可靠性不高
存在自增 ID 回溯的问题,这个问题直到最新版本的 MySQL 8.0 才修复。
2. 安全性不高
对外暴露的接口可以非常容易猜测对应的信息。比如: /User/1/ 这样的接口,可以非常容易猜测用户 ID 的值为多少,总用户数量有多少,也可以非常容易地通过接口进行数据的爬取。
3. 性能差
自增 ID 的性能较差,需要在数据库服务器端生成。
4. 交互多
业务还需要额外执行一次类似 last_insert_id() 的函数才能知道刚才插入的自增值,这需要多一次的
网络交互。在海量并发的系统中,多 1 SQL ,就多一次性能上的开销。
5. 局部唯一性
最重要的一点,自增 ID 是局部唯一,只在当前数据库实例中唯一,而不是全局唯一,在任意服务器间都是唯一的。对于目前分布式系统来说,这简直就是噩梦。

13.2 业务字段做主键

为了能够唯一地标识一个会员的信息,需要为 会员信息表 设置一个主键。那么,怎么为这个表设置主键,才能达到我们理想的目标呢? 这里我们考虑业务字段做主键。
表数据如下:
在这个表里,哪个字段比较合适呢?
  • 选择卡号(cardno
会员卡号(cardno)看起来比较合适,因为会员卡号不能为空,而且有唯一性,可以用来 标识一条会员记录。
mysql> CREATE TABLE demo .membermaster
-> (
-> cardno CHAR ( 8 ) PRIMARY KEY , -- 会员卡号为主键
-> membername TEXT ,
-> memberphone TEXT ,
-> memberpid TEXT ,
-> memberaddress TEXT ,
-> sex TEXT ,
-> birthday DATETIME
-> );
Query OK, 0 rows affected ( 0.06 sec)
不同的会员卡号对应不同的会员,字段 “cardno” 唯一地标识某一个会员。如果都是这样,会员卡号与会员一一对应,系统是可以正常运行的。
但实际情况是, 会员卡号可能存在重复使用 的情况。比如,张三因为工作变动搬离了原来的地址,不再到商家的门店消费了 (退还了会员卡),于是张三就不再是这个商家门店的会员了。但是,商家不想让这个会 员卡空着,就把卡号是“10000001” 的会员卡发给了王五。
从系统设计的角度看,这个变化只是修改了会员信息表中的卡号是 “10000001” 这个会员 信息,并不会影响到数据一致性。也就是说,修改会员卡号是“10000001” 的会员信息, 系统的各个模块,都会获取到修改后的会员信息,不会出现“ 有的模块获取到修改之前的会员信息,有的模块获取到修改后的会员信息,而导致系统内部数据不一致” 的情况。因此,从 信息系统层面 上看是没问题的。
但是从使用 系统的业务层面 来看,就有很大的问题 了,会对商家造成影响。
比如,我们有一个销售流水表(trans),记录了所有的销售流水明细。 2020 12 01 日,张三在门店购买了一本书,消费了 89 元。那么,系统中就有了张三买书的流水记录,如下所示:
接着,我们查询一下 2020 12 01 日的会员销售记录:
mysql> SELECT b .membername ,c .goodsname ,a .quantity ,a .salesvalue ,a .transdate
-> FROM demo .trans AS a
-> JOIN demo .membermaster AS b
-> JOIN demo .goodsmaster AS c
-> ON (a .cardno = b .cardno AND a .itemnumber =c .itemnumber );
+------------+-----------+----------+------------+---------------------+
| membername | goodsname | quantity | salesvalue | transdate |
+------------+-----------+----------+------------+---------------------+
| 张三 | | 1.000 | 89.00 | 2020 - 12 - 01 00 :00:00 |
+------------+-----------+----------+------------+---------------------+
1 row in set ( 0.00 sec)
如果会员卡 “10000001” 又发给了王五,我们会更改会员信息表。导致查询时:
mysql> SELECT b .membername ,c .goodsname ,a .quantity ,a .salesvalue ,a .transdate
-> FROM demo .trans AS a
-> JOIN demo .membermaster AS b
-> JOIN demo .goodsmaster AS c
-> ON (a .cardno = b .cardno AND a .itemnumber =c .itemnumber );
+------------+-----------+----------+------------+---------------------+
| membername | goodsname | quantity | salesvalue | transdate |
+------------+-----------+----------+------------+---------------------+
| 王五 | | 1.000 | 89.00 | 2020 - 12 - 01 00 :00:00 |
+------------+-----------+----------+------------+---------------------+
1 row in set ( 0.01 sec)
这次得到的结果是:王五在 2020 12 01 日,买了一本书,消费 89 元。显然是错误的!结论:千万不能把会员卡号当做主键。
  • 选择会员电话 或 身份证号
会员电话可以做主键吗?不行的。在实际操作中,手机号也存在 被运营商收回 ,重新发给别人用的情况。
那身份证号行不行呢?好像可以。因为身份证决不会重复,身份证号与一个人存在一一对 应的关系。可问题是,身份证号属于 个人隐私 ,顾客不一定愿意给你。要是强制要求会员必须登记身份证号,会把很多客人赶跑的。其实,客户电话也有这个问题,这也是我们在设计会员信息表的时候,允许身份证号和电话都为空的原因。
所以,建议尽量不要用跟业务有关的字段做主键。毕竟,作为项目设计的技术人员,我们谁也无法预测 在项目的整个生命周期中,哪个业务字段会因为项目的业务需求而有重复,或者重用之类的情况出现。
经验:
刚开始使用 MySQL 时,很多人都很容易犯的错误是喜欢用业务字段做主键,想当然地认为了解业务需求,但实际情况往往出乎意料,而更改主键设置的成本非常高。

13.3 淘宝的主键设计

在淘宝的电商业务中,订单服务是一个核心业务。请问, 订单表的主键 淘宝是如何设计的呢?是自增 ID吗?
打开淘宝,看一下订单信息:

从上图可以发现,订单号不是自增 ID !我们详细看下上述 4 个订单号:
1550672064762308113
1481195847180308113
1431156171142308113
1431146631521308113
订单号是 19 位的长度,且订单的最后 5 位都是一样的,都是 08113 。且订单号的前面 14 位部分是单调递增的。
大胆猜测,淘宝的订单 ID 设计应该是:
订单 ID = 时间 + 去重字段 + 用户 ID 6 位尾号
这样的设计能做到全局唯一,且对分布式系统查询及其友好。

13.4 推荐的主键设计

非核心业务 :对应表的主键自增 ID ,如告警、日志、监控等信息。
核心业务 主键设计至少应该是全局唯一且是单调递增 。全局唯一保证在各系统之间都是唯一的,单调递增是希望插入时不影响数据库性能。
这里推荐最简单的一种主键设计: UUID
UUID 的特点:
全局唯一,占用 36 字节,数据无序,插入性能差。
认识 UUID
  • 为什么UUID是全局唯一的?
  • 为什么UUID占用36个字节?
  • 为什么UUID是无序的?
MySQL 数据库的 UUID 组成如下所示:
UUID = 时间 +UUID 版本( 16 字节) - 时钟序列( 4 字节) - MAC 地址( 12 字节)
我们以 UUID e0ea12d4-6473-11eb-943c-00155dbaa39d举例:

为什么 UUID 是全局唯一的?
UUID 中时间部分占用 60 位,存储的类似 TIMESTAMP 的时间戳,但表示的是从 1582-10-15 00 00 00.00 到现在的100ns 的计数。可以看到 UUID 存储的时间精度比 TIMESTAMPE 更高,时间维度发生重复的概率降低到1/100ns
时钟序列是为了避免时钟被回拨导致产生时间重复的可能性。 MAC 地址用于全局唯一。
为什么 UUID 占用 36 个字节?
UUID 根据字符串进行存储,设计时还带有无用 "-" 字符串,因此总共需要 36 个字节。
为什么 UUID 是随机无序的呢?
因为 UUID 的设计中,将时间低位放在最前面,而这部分的数据是一直在变化的,并且是无序。
改造 UUID
若将时间高低位互换,则时间就是单调递增的了,也就变得单调递增了。 MySQL 8.0 可以更换时间低位和时间高位的存储方式,这样UUID 就是有序的 UUID 了。
MySQL 8.0 还解决了 UUID 存在的空间占用的问题,除去了 UUID 字符串中无意义的 "-" 字符串,并且将字符串用二进制类型保存,这样存储空间降低为了16 字节。
可以通过 MySQL8.0 提供的 uuid_to_bin 函数实现上述功能,同样的, MySQL 也提供了 bin_to_uuid 函数进行转化:
SET @uuid = UUID();
SELECT @uuid ,uuid_to_bin( @uuid ),uuid_to_bin( @uuid , TRUE );

通过函数 uuid_to_bin(@uuid,true) UUID 转化为有序 UUID 了。全局唯一 + 单调递增,这不就是我们想要的主键!
4 、有序 UUID 性能测试
16 字节的有序 UUID ,相比之前 8 字节的自增 ID ,性能和存储空间对比究竟如何呢?
我们来做一个测试,插入 1 亿条数据,每条数据占用 500 字节,含有 3 个二级索引,最终的结果如下所示:

从上图可以看到插入 1 亿条数据有序 UUID 是最快的,而且在实际业务使用中有序 UUID 业务端就可以生成 。还可以进一步减少 SQL 的交互次数。
另外,虽然有序 UUID 相比自增 ID 多了 8 个字节,但实际只增大了 3G 的存储空间,还可以接受。
在当今的互联网环境中,非常不推荐自增 ID 作为主键的数据库设计。更推荐类似有序 UUID 的全局唯一的实现。
另外在真实的业务系统中,主键还可以加入业务和系统属性,如用户的尾号,机房的信息等。这样的主键设计就更为考验架构师的水平了。
如果不是 MySQL8.0 肿么办?
手动赋值字段做主键!
比如,设计各个分店的会员表的主键,因为如果每台机器各自产生的数据需要合并,就可能会出现主键重复的问题。
可以在总部 MySQL 数据库中,有一个管理信息表,在这个表中添加一个字段,专门用来记录当前会员编号的最大值。
门店在添加会员的时候,先到总部 MySQL 数据库中获取这个最大值,在这个基础上加 1 ,然后用这个值作为新会员的“id” ,同时,更新总部 MySQL 数据库管理信息表中的当 前会员编号的最大值。
这样一来,各个门店添加会员的时候,都对同一个总部 MySQL 数据库中的数据表字段进 行操作,就解决了各门店添加会员时会员编号冲突的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/541300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FlinkKafkaProducer 源码分析

initializeState 先查询是否开启isCheckpointingEnabled配置&#xff0c;如果没开&#xff0c;但是使用了EXACTLY_ONCE或者AT_LEAST_ONCE语义&#xff0c;就报错。 然后从checkpoint中保存的state中读取nextTransactionalIdHintState。 NEXT_TRANSACTIONAL_ID_HINT_DESCRIPTOR…

表情、特殊字符、字符串截取

码元与码点 关于码元和和码点&#xff0c;通过一个例子进行介绍。 如图&#xff0c;字符串&#x1f60a;只有一个“笑脸”符号&#xff0c;但是通过length属性发现&#xff0c;“长度”为2&#xff0c;string.length到底表示什么&#xff1f; 答&#xff1a;码元的个数 什么是…

C语言爬取HTML-爬取壁纸 文末附源码

前言&#xff1a;这学期计算机软件课程设计的其中一个题目是使用C语言爬取HTML&#xff0c;本打算使用C语言的CSpidr库来实现&#xff0c;但是因为它的依赖liburi没有找到在哪里安装&#xff0c;所以放弃了这个想法&#xff0c;使用的是curl以及libxml2这两个库&#xff0c;能够…

这几款实用且有趣的软件不容错过

软件一&#xff1a;天若ocr 这款Windows平台的天若OCR文字识别工具一定更适合你。 软件作者来自天若游心&#xff0c;我爱破解。 发布一年半以来一直深受好评&#xff0c;更新速度也非常快。 最近&#xff0c;它增加了批次识别功能。 软件二&#xff1a;腾讯柠檬精简版 除了Q…

P2233 [HNOI2002]公交车路线

题目描述 在长沙城新建的环城公路上一共有 8 个公交站&#xff0c;分别为 A、B、C、D、E、F、G、H。公共汽车只能够在相邻的两个公交站之间运行&#xff0c;因此你从某一个公交站到另外一个公交站往往要换几次车&#xff0c;例如从公交站 A 到公交站 D&#xff0c;你就至少需要…

keycloak介绍与使用示例,超时时间设置

keycloak介绍 Keycloak是一款由Red Hat开源社区开发的开放源代码的身份和访问管理解决方案&#xff0c;它提供了安全的单点登录(SSO)、多因素身份验证、社交登录和基于角色的访问控制等功能Keycloak基于OAuth 2.0和OpenID Connect协议&#xff0c;并支持SAML 2.0&#xff0c;可…

spring Bean的循环依赖问题

public class Husband {private String name;private Wife wife;public void setName(String name) {this.name name;}public String getName() {return name;}public void setWife(Wife wife) {this.wife wife;}// toString()方法重写时需要注意&#xff1a;不能直接输出wif…

【计算机网络基础】章节测试2 物理层

文章目录 判断题选择题辨析题应用题 判断题 现在的无线局域网常用的频段是2.8GHz和5.4GHz。 多模光纤只适合于近距离传输。√ 数据在计算机内部多采用串行传输方式&#xff0c;但在通信线路上多采用并行传输方式。 统计时分复用可以按需动态分配时隙。√ 相对于同步时分复用…

卷麻了,新来的00后实在是太卷了...

在程序员职场上&#xff0c;什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事&#xff0c;我们可以帮他。 是技术太强的人吗?也不是。技术很强的同事&#xff0c;可遇不可求&#xff0c;向他学习还来不及呢。 真正让人反感的&#xff0c;是技术平平&…

geoserver切片数据本地缓存和层级配置

很多业务场景中&#xff0c;我们会用到图层切片功能&#xff0c;默认情况下&#xff0c;每次调用都是新的重新切片&#xff0c;这样在性能上存在一定问题&#xff1b;基于此我们可以进行本地缓存切片&#xff0c;及此地理位置只进行一次切片处理&#xff0c;数据缓存在本地磁盘…

基于Python实现线性分类器

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 在机器学习领域&#xff0c;分类的目标是指将具有相似特征的对象聚集。而一个线性分类器则透过特征的线性组合来做出分类决定&#xff0c;以达到此种目的。对象的特征通常被描述为特征值&#xff0c;而在向量中则描述为特征向…

Visual studio 配置intel realsense sdk环境

前面的部分已经有博主写过了&#xff0c;这里就不赘述了&#xff0c;附上链接&#xff1a;VS配置使用realsense相机SDK 仅仅配置上述文章中的部分&#xff0c;运行realsense example的部分例子程序时会出现找不到glfw3.h的问题。我查找了github上的提问发现这个问题原因是没有…

网络安全中NISP二级证书和CISP证书的优势有什么

优势&#xff1f;那就需要多个点展开说说啦~ 1.权威含金量高 我国信息安全领域唯一的国家级注册安全专业人员证书 2.就业面宽&#xff0c;企业优先选择证书持有者 通过专业培训和考试提高个人信息安全从业水平&#xff0c;证明具备从事信息安全技术和管理工作的能力&#x…

opencv二值化详解

大家好&#xff0c;今天来跟大家讲讲 opencv二值化。 先从一个比较经典的方法开始讲解&#xff0c;看 opencv官方文档&#xff1a; 二值化&#xff08;binary&#xff09;的定义&#xff1a;在一个输入图像中&#xff0c;将其一个像素点设置为0,将其两个像素点设置为1。 二值化…

开发笔记之:文件读取值溢出bug分析(QT C++版)

&#xff08;1&#xff09;引言 以下是QT C读取数据文件&#xff08;QDataStream&#xff09;的代码&#xff1a; /*** 按双字读取* param fis 文件输入流* param isBigEndian 是否大头&#xff08;字节序&#xff09;* return 双字值*/ DWORD FsFileUtil::readAsD…

怎么用问卷工具做市场调研?

对于希望开发新产品或服务、拓展新市场或确定潜在客户的公司来说&#xff0c;市场调查是一个至关重要的过程。然而&#xff0c;进行市场调查可能既耗时又昂贵&#xff0c;特别是在涉及对大量人群进行调查的情况下。今天&#xff0c;小编将来聊一聊调查问卷工具如何帮助企业进行…

微信小程序-基础知识

文章目录 AppIdOpenIDUnionId处理方法session_key AppId appid 是微信账号的唯一标识&#xff0c;这个是固定不变的&#xff1b; 如果了解微信公众号开发的就需要注意一下&#xff0c;小程序的appid 和 公众号的appid 是不一致的 OpenID 为了识别用户&#xff0c;每个用户针…

如何成为自动化测试工程师?8年测试总结,自动化测试岗晋升的技能...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 Python自动化测试&…

程序设计入门——C语言2023年5月18日

程序设计入门——C语言 第二周 计算表达式 课程来源&#xff1a;链接: 浙江大学 翁恺 程序设计入门——C语言 学习日期&#xff1a;2023年5月18日 第二周 计算 表达式 有两个变量a和b&#xff0c;交换a和b的值。 老师举例&#xff1a;有两杯液体&#xff0c;一杯茶&#xff…

03)FastDFS配置nginx 服务,使用http方式访问图片

FastDFS是没有文件访问功能的,需要借助其他工具实现图片HTTP访问的。 没安装nginx时比如前端html网页想获取 FastDFS的一张图片显示,需要java写个controller,然后使用 FastDFS-java client客户端调用文件获取api,HttpServletResponre在返回图片流.给前端显示。 安装了nginx…