文章目录
- 一、MySQL缓冲区
- 二、MySQL的page
- 1.认识单个page
- 2.认识多个页
- 3.聚簇索引和非聚簇索引
- 三、索引的操作
- 1.创建主键索引
- 2.创建唯一索引
- 3.创建普通索引
- 4.查询索引的方法
- 5.删除索引的方法
- 6.索引创建原则
一、MySQL缓冲区
MySQL是一款有客户端和服务端的网络应用,mysql是它的客户端,mysqld是它的服务端。服务端本质就是一个进程,它存在于内存当中。而我们存储在MySQL中的数据是保存在磁盘上的,当我们对MySQL中数据进行增删查改操作时,不可能是直接在磁盘上进行操作,而是将对应的数据加载到内存中,在内存中对数据进行操作,操作完毕之后再写回磁盘。
mysqld是MySQL的服务端,它存在于内存中,mysqld服务端启动起来以后会先向内存申请一段空间buffer pool,作为MySQL的数据缓冲区。MySQL是有着更高IO场景的应用软件,所以为了提高基本IO的效率,MySQL进行IO的基本单位是16KB。也就是说,磁盘这个硬件设备的基本单位是512字节,而MySQL InnoDB存储引擎使用16KB进行IO交互,即MySQL与磁盘进行数据交互的基本单位是16KB。这个基本数据单元,在MySQL这里叫做page(注意这里的page是MySQL的page,不是系统的page)。
当mysqld的buffer pool中充满大量page的时候,MySQL也要管理所有的page,管理的原则也是先描述再组织。MySQL会为每个page建立一个数据结构,该数据结构记录了每个page的详细信息,再通过特定的算法和数据结构将其组织起来。这里的组织方式就和MySQL的索引有关。
为什么MySQL和磁盘进行IO交互要采用page方案,而不是用多少加载多少呢?
如果我们向MySQL的一张表中插入五条数据,设其id值分别为1、2、3、4、5。如果MySQL要查找id=2的记录,第一次加载id=1,第二次加载id=2,一次一条记录,那么就需要2次IO。如果要找id=5的记录,那么就需要5次IO。但如果这五条数据一次性保存到MySQL的page中,只需要完成一次IO,下次再查询id=1、2、3、4、5时,完全不需要进行IO,直接是在内存中访问了,这样就会大大地减少了IO的次数。这种page方案其实是利用计算机的局部性原理实现的预加载策略。
二、MySQL的page
我们先来做一个实验,创建一张user表,表中将id设置为主键,它会默认生成主键索引。
create table if not exists user (
id int primary key,
age int not null,
name varchar(16) not null
);
然后我们向user表中依次插入以下数据,注意我们插入的时候id值是没有排序的,也就是乱序插入的。
mysql> insert into user (id, age, name) values(3, 18, '杨过');
Query OK, 1 row affected (0.01 sec)
mysql> insert into user (id, age, name) values(4, 16, '小龙女');
Query OK, 1 row affected (0.00 sec)
mysql> insert into user (id, age, name) values(2, 26, '黄蓉');
Query OK, 1 row affected (0.00 sec)
mysql> insert into user (id, age, name) values(5, 36, '郭靖');
Query OK, 1 row affected (0.00 sec)
mysql> insert into user (id, age, name) values(1, 56, '欧阳锋');
Query OK, 1 row affected (0.01 sec)
但当我们查看表中数据的时候,我们会发现,表中的数据自动按照id升序排序了。这是MySQL帮我们做的主键排序。MySQL为什么要帮我们做排序呢?这就需要理解MySQL单个page的内部结构了。
1.认识单个page
MySQL中要管理很多数据表文件,而要管理好这些文件,就需要先描述再组织。我们以上面创建的user表为例子,假设user表中的数据加载到MySQL的page中,呈现出来的是下图的形式:
不同的page在MySQL中,都是16KB,并且使用page_prev和page_next构成双向链表。而单个page内部的数据记录之间,也是通过单链表连接的。因为创建user表时我们添加了主键,所以MySQL会默认按照主键给我们的数据进行排序。排序的目的是为了优化查询的效率。在单个page内部存放数据的模块,实质上也是一个链表的结构,链表的特点就是增和删特别快,查询和修改比较慢,所以必须要优化查询效率,数据有序了是非常方便查询的,查询快了,修改也就快了。
除此之外,单个page内部还会引入页目录,就像一本书的目录一样,通过目录可以快速定位每一章每一节的起始页码。例如下图的例子,引入页目录以后,如果我们要查找id=4的记录,原本要线性遍历,查找4个节点才能找到。现在可以直接从页目录2开始查找,只需要查找2个节点就可以找到,这也是提高了查询的效率。但这必须建立在page内部数据是有序的基础上,所以MySQL对表内数据按主键排序也是为了更好地引入页目录。
2.认识多个页
MySQL每个页大小只有16KB,单个page大小固定,所以随着数据量的不断增大,16KB的单页不可能存下所有的数据,那么必定会有多个页来存储数据。
单个页内部通过目录可以快速定位到需要查找的数据记录,但这仅局限于单页内查找数据,如果我们的MySQL表数据很大,分布在多个page中,不仅要对单个page内部进行查询,还要在page之间进行查询,如果page之间查询还是按照链式查询的话,那么查询的效率依旧是很低的。
所以为了解决这个问题,MySQL为多个page之间也引入了目录结构。它会让几个page不存放任何数据记录,单独存放page的目录。每个目录对应每个page的第一个数据记录的地址,这样在多page之间查找的效率就得到了提高。
但是又有一个问题,如果顶层的用于保存目录的page很多了,我们查找目录不也是需要线性遍历吗?这样不就还是会导致查找效率低吗?所以为了解决这个问题,我们可以再加目录页,在最顶层再加一个目录页,用来保存下一层目录的目录,说起来可能很绕,其实就是通过这个新加的目录页,可以快速定位下一层的目录页。
上图中的结构其实就是一棵B+树,它通过层层的目录页可以快速定位下一层需要查找的位置,所以查找效率比线性遍历快很多。因此,MySQL的索引本质就是一种利于查找的数据结构。所以我们user表中创建的主键,MySQL就自动帮我们建立了主键索引。如果一张表中没有主键,MySQL也会自动形成隐藏主键。
3.聚簇索引和非聚簇索引
聚簇索引指的是B+树的叶子节点是将索引和数据存放在一起的,而非聚簇索引指的是B+树的叶子节点没有将索引和数据存放在一起。
MySQL的InnoDB存储引擎就是聚簇索引,它将用户的数据和索引数据保存在一起。而MySQL的MyISAM存储引擎是非聚簇索引,它将索引数据和用户数据分离,也就是说B+树的叶子节点没有数据,只有对应数据的地址。
我们可以通过建表查看聚簇索引和非聚簇索引的表现。我们创建一张user1表使用InnoDB存储引擎,创建一张user2表使用MyISAM存储引擎,在Linux下的/var/lib/mysql路径下查看刚刚创建的两张表,我们会发现user1表对应的只有两个文件,user2表对应的却有三个文件。
其中user1和user2都有一个.frm文件,这个文件保存的是表的结构信息。但user1除此之外只有一个.ibd文件,这个文件保存的就是表的数据信息和索引信息。而user2除此之外有两个文件,分别是.MYD文件和.MYI文件,其中.MYD文件对应的是数据信息,.MYI文件对应的是索引信息。因此从这里就可以看出来,InnoDB是聚簇索引,MyISAM是非聚簇索引。
当然,MySQL除了默认会建立主键索引之外,我们用户也有可能建立按照其它列信息建立的索引,一般这种索引称为辅助索引或者普通索引。对于MyISAM存储引擎,建立辅助索引和主键索引没有区别,无非就是主键不能重复,而非主键可以重复。但是InnoDB存储引擎的辅助索引和主键索引却不一样,InnoDB的辅助索引中叶子节点并没有数据,而只有列数据对应记录的主键值,所以在查找数据的时候,通过辅助索引找到目标记录的主键值,然后用主键值在主键索引中检索获得记录,这个过程称为回表的过程。所以如果是通过辅助索引来查找数据,需要查找两遍索引。
三、索引的操作
1.创建主键索引
第一种方式:
在建表的时候,直接在字段后面指定primary key,即给某一字段添加主键。
mysql> create table user1(
-> id int primary key,
-> name varchar(20) not null
-> );
Query OK, 0 rows affected (0.05 sec)
mysql> show index from user1\G
*************************** 1. row ***************************
Table: user1
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
1 row in set (0.05 sec)
第二种方式:
在创建表的最后,指定某列或某几列为主键索引。
mysql> create table user2(
-> id int,
-> name varchar(20),
-> primary key(id)
-> );
Query OK, 0 rows affected (0.03 sec)
mysql> show index from user2\G
*************************** 1. row ***************************
Table: user2
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
1 row in set (0.00 sec)
第三种方式:
创建表以后再添加主键索引。
mysql> create table user3(
-> id int,
-> name varchar(20)
-> );
Query OK, 0 rows affected (0.04 sec)
mysql> alter table user3 add primary key(id);
Query OK, 0 rows affected (0.04 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> show index from user3\G
*************************** 1. row ***************************
Table: user3
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
1 row in set (0.00 sec)
主键索引的特点:
- 一个表中,最多有一个主键索引,当然也可以使用复合主键。
- 主键索引的效率高,因为主键不可重复。
- 创建主键索引的列,它的值不能为null,且不能重复。
- 主键索引的列基本上是int。
2.创建唯一索引
第一种方式:
在表定义时,直接在某列后直接指定unique唯一属性。
mysql> create table user4(
-> id int primary key,
-> name varchar(20) unique
-> );
Query OK, 0 rows affected (0.03 sec)
mysql> show index from user4\G
*************************** 1. row ***************************
Table: user4
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user4
Non_unique: 0
Key_name: name
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
第二种方式:
创建表时,在表的后面指定某列或某几列为unique属性。
mysql> create table user5(
-> id int primary key,
-> name varchar(20),
-> unique(name)
-> );
Query OK, 0 rows affected (0.03 sec)
mysql> show index from user5\G
*************************** 1. row ***************************
Table: user5
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user5
Non_unique: 0
Key_name: name
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
第三种方式:
创建表之后再添加唯一索引。
mysql> create table user6(
-> id int primary key,
-> name varchar(20)
-> );
Query OK, 0 rows affected (0.04 sec)
mysql> alter table user6 add unique(name);
Query OK, 0 rows affected (0.06 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> show index from user6\G
*************************** 1. row ***************************
Table: user6
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user6
Non_unique: 0
Key_name: name
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
唯一索引的特点:
- 一个表中,可以有多个唯一索引。
- 唯一索引查询效率高。
- 如果在某一列上建立唯一索引,必须保证这列不能有重复数据。
- 如果一个唯一索引上指定not null,那么等价于主键索引。
3.创建普通索引
第一种方式:
在表定义的最后,指定某列为索引。
mysql> create table user7(
-> id int primary key,
-> name varchar(20),
-> email varchar(20),
-> index(name)
-> );
Query OK, 0 rows affected (0.04 sec)
mysql> show index from user7\G
*************************** 1. row ***************************
Table: user7
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user7
Non_unique: 1
Key_name: name
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
第二种方式:
在创建完表之后,指定某列为普通索引。
mysql> create table user8(
-> id int primary key,
-> name varchar(20),
-> email varchar(20)
-> );
Query OK, 0 rows affected (0.04 sec)
mysql> alter table user8 add index(name);
Query OK, 0 rows affected (0.03 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> show index from user8\G
*************************** 1. row ***************************
Table: user8
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user8
Non_unique: 1
Key_name: name
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
第三种方式:
在表创建完之后,再创建一个指定索引名的索引。这种方法不建议使用,建议直接就用列名做索引名,因为列名本身就具有唯一性,额外维护新的索引名代价比较大。
mysql> create table user9(
-> id int primary key,
-> name varchar(20),
-> email varchar(20)
-> );
Query OK, 0 rows affected (0.06 sec)
mysql> create index name_index on user9(name);
Query OK, 0 rows affected (0.04 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> show index from user9\G
*************************** 1. row ***************************
Table: user9
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user9
Non_unique: 1
Key_name: name_index
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
普通索引的特点:
- 一个表中可以有多个普通索引,普通索引在实际开发中用的比较多。
- 如果某列需要创建索引,但是该列有重复的值,那么我们就应该使用普通索引。
4.查询索引的方法
第一种方法:show keys from 表名
mysql> show keys from user9\G
*************************** 1. row ***************************
Table: user9
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user9
Non_unique: 1
Key_name: name_index
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.00 sec)
第二种方法:show index from 表名
mysql> show index from user9\G
*************************** 1. row ***************************
Table: user9
Non_unique: 0
Key_name: PRIMARY
Seq_in_index: 1
Column_name: id
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE
Comment:
Index_comment:
*************************** 2. row ***************************
Table: user9
Non_unique: 1
Key_name: name_index
Seq_in_index: 1
Column_name: name
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null: YES
Index_type: BTREE
Comment:
Index_comment:
2 rows in set (0.01 sec)
第三种方法(信息比较简略):desc 表名
mysql> desc user9;
+-------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id | int(11) | NO | PRI | NULL | |
| name | varchar(20) | YES | MUL | NULL | |
| email | varchar(20) | YES | | NULL | |
+-------+-------------+------+-----+---------+-------+
3 rows in set (0.00 sec)
5.删除索引的方法
- 删除主键索引:
alter table 表名 drop primary key;
- 删除其它索引:
alter table 表名 drop index 索引名
,索引名就是show keys from 表名中的key_name字段。 - 使用drop删除:
drop index 索引名 on 表名;
6.索引创建原则
- 比较频繁作为查询条件的字段应该创建索引。
- 唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件。
- 更新非常频繁的字段不适合创建索引。
- 不会出现在where子句中的字段不该创建索引。