Mysql 索引基数与选择性

news2024/12/27 15:13:03

这篇文章主要介绍 MySQL 索引的 Cardinality 值(基数)以及索引的可选择性。

什么是索引?

先看一下 wiki 定义:

索引(英语:Index),是一本书籍的重要组成部分,它把书中的重要名词名称罗列出来,并给出它们相应的页码,方便读者快速查找该名词的定义和含义。

在 Mysql 中,索引也叫做 “键(key)”,是存储引擎用于快速找到记录的一种数据结构。这是索引的基本功能。

恰当的索引对于良好的性能非常关键。当数据量较小是,不恰当的索引对性能的影响可能不明显,但是,当数据量很大时,性能可能会急剧下降。

本小节我们就 Mysql 中索引的基数和选择性做一些讨论。

什么是索引基数(Cardinality)

先来看下索引基数的定义:

索引基数:索引基数是数据列所包含的不同值的数量。
MySQL 中,基数可以通过“show index from 表名”查看。

其会通过两个 API 来了解存储引擎的索引值的分布信息,以便决定如何使用索引。

  • records_in_range() :通过向存储引擎传入两个边界值获取在这个范围内大概有多少条记录。对于 MyISAM 来说是精确值,对于 InnoDB 来说是一个估算值。
  • info(): 返回各种类型的索引统计信息,其中就包括索引基数(Cardinality)(每个索引有多少条记录)。

在InnoDB存储引擎中,Cardinality 统计信息的更新发生在两个操作中:INSERT 和 UPDATE。当表中数据非常多时,不可能在每次发生 INSERT 和 UPDATE 时都去更新 Cardinality 的信息,这会增加数据库系统的负荷,同时对大表进行统计时,时间上也不允许。

因此 InnoDB 存储引擎对于更新 Cardinality 信息的策略为:表中1/16 的数据已发生变化

与索引基数值最为密切的典型场景就是:一条 SQL 在某一时刻执行比较慢,其中较为可能的原因就是当前表记录更新频繁,这条 SQL 执行计划走的索引基数值没及时更新,优化器选择走备用索引或者走全表扫描,从而非最优执行计划,最终执行结果没有达到预期,总体查询时间较慢,这时可能得手工更新索引的基数值。

另外统计一次 Cardinality 信息所需要的时间可能非常长。这在生产环境的应用中也是不能接受的。因此,数据库对于 Cardinality 的统计都是通过采样的方法来完成的。

通过随机地读取少量的索引页面,然后以此为样本,计算索引的统计信息,默认采样页数是 8。InnoDB 可以通参数 innodb_stats_sample_pags 来设置样本也的数量。设置更大的值,理论上来说可以帮助生成更准确的索引信息。特别是对于索引页记录数较少时。

什么是索引选择性?

索引选择性 = 索引基数/数据总数。

索引的可选择性好与坏,和索引基数关系非常密切。基数值越高,索引的可选择性越好;相反,基数越低,索引的可选择性越差。优化器优先使用的索引一般选择性都不差,除非没得选,才会走选择性稍差点的索引或者走全表扫描。

MYSQL 如何使用索引?

之所周知,MYSQL 优化器使用的是基于成本的模型。而衡量成本的主要指标就是一个查询需要扫描多少行。如果表没有索引统计信息,或者索引统计信息不准确,优化器就很有可能做出错误的决定。

统计信息不准确的问题可以通过 ANALYZE TABLE 来重新生成统计信息解决。

如果存储引擎向优化器提供的扫描行数信息是不准确的数据,或者执行计划本身太复杂以致无法准确的获取各个阶段匹配的行数,那么优化器就会使用索引统计信息来估算扫描行数。

下面来举例说明索引基数在不同的数据分布场景下的变化以及对优化器的影响。

案例分析

数据准备

存储过程:

delimiter //
# 删除表数据
DROP TABLE IF EXISTS `cardinality_sample`;
# 创建表
CREATE TABLE `cardinality_sample` (
  `id` int NOT NULL AUTO_INCREMENT,
  `r1` int DEFAULT NULL,
  `r2` int DEFAULT NULL,
  `r3` int DEFAULT NULL,
  `r4` int DEFAULT NULL,
  `r5` tinyint DEFAULT NULL,
  `r6` date DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_u1` (`r1`,`r2`,`r3`),
  KEY `idx_r4` (`r4`),
  KEY `idx_r5` (`r5`),
  KEY `idx_r6` (`r6`)
) ENGINE=InnoDB ;

drop procedure IF EXISTS batchInsert; 
create procedure batchInsert()
begin
    declare num int; 
    set num=1;
    while num<=100 do
       INSERT INTO `cardinality_sample` (`r1`, `r2`, `r3`, `r4`, `r5`, `r6`) VALUES ( MOD(num,29), MOD(num,91),MOD(num,97),MOD(num,20),MOD(num,10),date_add(NOW(), interval num day));
        set num=num+1;
    end while;
end
//
delimiter; #恢复;表示结束

执行上述存储过程: CALL batchInsert;

数据如下:

查看索引基数

# 查询索引基数
show index from cardinality_sample

从以上结果可以看出,主键基数最高,极限接近于表记录数;联合索引 idx_u1 次之;索引 idx_r6 值为 86,也不差;比较差的为 idx_r4、idx_r5,分别为 20、10,其中 idx_r5 最差,仅仅为表记录数的 1/10。索引 idx_r5 类似于我们常说的状态类索引,由于所以基数很低,优化器一般不选择这个索引,一般不需要加,加了反而影响表的写性能。

其中,联合索引 idx_u1 的基数是按照多个键值依次组合计算,分别为(r1),(r1,r2),(r1,r2,r3)

select 'r1', count(distinct r1) idx_u1 from cardinality_sample
union all
select 'r1,r2', count(distinct r1,r2) idx_u1 from cardinality_sample
union all
select 'r1,r2,r3', count(distinct r1,r2,r3) idx_u1 from cardinality_sample;

现在有一个 sql;

select * from cardinality_sample where  r4 = 2 and r5 = 2;

select * from cardinality_sample where r4 = 2 ; 有 5 条记录返回
select * from cardinality_sample where r5 = 2 ; 有 10 条记录返回

问,要想这个 sql 语句的查询效率,需要 给 r4 和 r5 建立联合索引吗,如果需要的话,r4 在前?还是 r5 在前?

ALTER TABLE `test`.`cardinality_sample` 
ADD INDEX `idx_u45`(`r4`, `r5`) USING BTREE,
ADD INDEX `idx_u54`(`r5`, `r4`) USING BTREE;

EXPLAIN select * from cardinality_sample where r4=30 and r5 = 30

如果是

EXPLAIN select count(*) from cardinality_sample where r4=2 and r5 = 2

再看两条基于字段 r6 的 SQL 语句:

SQL1: select * from cardinality_sample where r6 between '2022-11-28' and '2023-03-12'
SQL2: select count(*) from cardinality_sample where r6 between '2022-11-28' and '2023-03-12'

上面 SQL 2、SQL 3 两条 SQL 的过滤条件一样,都是一个范围。不同的是 SQL 2 打印符合过滤条件的记录,而 SQL 3 是打印符号过滤条件的记录条数。单从过滤条件来看,这两条 SQL 的执行计划应该一样,那分别看下两条 SQL 的执行计划:

EXPLAIN select * from cardinality_sample where r6 between '2022-11-28' and '2023-03-12'

EXPLAIN select count(*) from cardinality_sample where r6 between '2022-11-28' and '2023-03-12'

从执行计划看,SQL1 没走索引,走全表扫描;而 SQL2 直接走索引取回记录数,避免了访问表数据。那为什么两条 SQL 的过滤条件一样,执行计划却不一样呢?

SQL 2 顺序全表扫描表数据的速度要比走索引再随机扫描表数据快很多,因为要打印的记录数有 100 条,表记录总数也有 100 条。索引 idx_r6 的基数其实很高了,但是由于最终返回的记录数太多,MySQL 只能放弃走索引;而 SQL2 由于只求符合过滤条件的记录数,直接从索引入口就可以计算出来结果。

那如果把 SQL1 的过滤条件收缩下,再次查看执行计划:

EXPLAIN select * from cardinality_sample where r6 between '2022-11-28' and '2022-11-31';


从执行计划看,直接走了索引。

那之前的 SQL 2 过滤条件要是不变化,能否会用到索引呢?这个就与索引的基数值以及索引基于一定过滤条件的选择性好坏有很大的关系。比如由于某些业务变化,表 cardinality_sample 字段 r6 的数据分布发生了变化(表行数变大,字段 r6 对应范围的数据收窄)。由于数据分布发生变化,索引基数值也发生了改变,基于同样过滤条件的索引选择性也从差变好,可能就会走到索引。

假如我们的数据经过一段时间变化,索引基数如下:

再次用相同的查询语句,查看执行计划:

EXPLAIN select * from cardinality_sample where r6 between '2022-11-28' and '2023-03-12'

索引 idx_r6 的基数由之前的 100 提升到 32w 多。所以即使同样的字段,同样的过滤条件,不同的索引基数值以及基于索引基数值的索引选择性高低的不同,也会让优化器选择不同的执行计划。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序中基础入门

一、数据绑定 1.数据绑定的基本原则 ① 在data中定义数据&#xff08;在.js文件&#xff09; ② 在wxml中使用数据 2.Mustache语法的格式 把data中的数据绑定到页面中进行渲染&#xff0c;使用MUstache语法&#xff08;双大括号&#xff0c;可以理解为vue中的插值表达式&…

Redis——》数据类型:List(列表)

推荐链接&#xff1a; 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 Redis——》数据类型&#xff1a;List&#xff08;列表&#xff09;一、简介…

Linux02——操作系统接口

一、前言 OS是软硬件之前的桥梁&#xff1a;操作系统管理硬件&#xff0c;最终以服务的形式提供给用户。如用户读取磁盘数据&#xff0c;OS设备管理将读出来的数据通过文件系统交给用户。OS管理员对CPU&#xff08;进程&#xff09;管理&#xff0c;对内存管理&#xff0c;对设…

PyCharm中鼠标悬停在函数上时显示函数和帮助

一、问题 1.1 鼠标放上去不显示文档的提示 鼠标放在随意一个函数上面不显示他的说明了 我也不知道是咋了 二、解决 2.1 首先我只记得有一个侧边栏叫document 经典的解决办法 2.2 在setting中查看这是干嘛的 很多东西都可以在setting中查看到具体的功能 还可以查看到从哪里能…

Redis高级篇——持久化

Redis持久化 1.RDB 1.1RDB简介 RDB全称Redis Database Backup file &#xff08;Redis数据备份文件&#xff09;&#xff0c;也被叫做Redis数据快照。把内存中的数据都记录到磁盘中&#xff0c;当Redis实例故障重启后&#xff0c;从磁盘中读取快照文件&#xff0c;恢复数据。…

蓝海创意云接受【看苏州】独家专访:助力苏州数字文化行业全方位发展

近日&#xff0c;由蓝海创意云提供渲染服务的动漫电影《老鹰抓小鸡》获金鸡奖最佳美术片提名&#xff0c;位列获奖名单的《长津湖》《独行月球》也由蓝海创意云渲染提供了后期服务。 就此&#xff0c;苏州广播电视总台旗下的苏州权威热点新闻和视频平台【看苏州】对蓝海彤翔执…

# Vue 中 JSON 编辑器使用

Vue 中 JSON 编辑器使用 文章目录Vue 中 JSON 编辑器使用背景描述vue-json-edit安装依赖测试页面效果图bin-code-editor安装依赖测试页面效果图CodeMirror安装依赖测试页面效果图vue-json-views安装依赖属性说明测试页面效果图vue-json-pretty安装依赖属性说明测试页面效果图码…

【CSS3】重点知识内容,快速上手

推荐前端学习路线如下&#xff1a; HTML、CSS、JavaScript、noodJS、组件库、JQuery、前端框架&#xff08;Vue、React&#xff09;、微信小程序和uniapp、TypeScript、webpack 和 vite、Vue 和 React 码源、NextJS、React Native、后端内容。。。。。。 层级选择器 a>b …

Kotlin高仿微信-第3篇-主页

Kotlin高仿微信-项目实践58篇详细讲解了各个功能点&#xff0c;包括&#xff1a;注册、登录、主页、单聊(文本、表情、语音、图片、小视频、视频通话、语音通话、红包、转账)、群聊、个人信息、朋友圈、支付服务、扫一扫、搜索好友、添加好友、开通VIP等众多功能。 Kotlin高仿…

Matlab图像处理基础(2):区域处理,边沿检测

目录 0. 概要 2. 卷积和相关 2.1 卷积 2.2 相关 2.3 卷积与相关的关系 2.4 Matlab函数 2.5 2-D卷积/相关的分解 3. 高通滤波&#xff0c;edge detection 3.1 matlab edge()函数 3.2 各种算子简介 3.2.1 Robert算子 3.2.2 Prewitt算子 3.2.3 Sobel算子 3.4 Cann…

维也纳国际酒店+丽柏酒店首个同物业双品牌项目成功加盟,中高端酒店品牌联动浮现新模式

从改革开放开启中国酒店市场化浪潮伊始&#xff0c;中国酒店市场一直处在高速发展的快车道。但四十年来&#xff0c;这条赛道上的竞争也出现了多次驱动引擎的动能转换。1996年起的20年里&#xff0c;庞大的经济型酒店切割了市场的主要蛋糕。而从2016年开始&#xff0c;中端酒店…

P2 Pytorch 张量数据类型

前言 1&#xff1a; 数据类型 2&#xff1a; 常用API 参考&#xff1a; 课时14 张量数据类型-1_哔哩哔哩_bilibili 一 数据类型 除了string ,相对于Numpy PyTorch 都能找到对应的数据类型 1.1 常用的Data type 常用的5种: IntTensor, LogTensor, ByteTensor, DoubleTensor,…

从迷之自信到逻辑自信(简版)

从2012年开始工作&#xff0c;10多年了&#xff1b; 从2002年开始奋斗&#xff0c;20多年了。 回首这20年&#xff0c;感觉自己的成绩很有限&#xff0c;相比过往的勤奋努力。 时代因素也有&#xff0c;个人智商等先天性制约也存在&#xff0c;但是呢&#xff0c;我就特别想…

ObjectARX的对象引用关系以及深克隆(deepClone)

目录1、对象引用概念1.1 概念1.2 所有权引用1.3 指针引用1.4 对象引用实现的例子2 关于深克隆(Deep Clone)2.1 深克隆基础2.2 clone() 和deepClone()2.3 关键概念2.3.1 克隆和存档2.3.2 克隆和所有权2.3.3 克隆和ID映射2.3.4 克隆和转换2.4 典型的deepClone操作1、对象引用概念…

第3讲 Android Camera Native Framework cameraserver.rc详解(上)

本讲是Android Camera Native Framework专题的第3讲&#xff0c;我们介绍cameraserver.rc详解&#xff08;上&#xff09;&#xff0c;包括如下内容&#xff1a; Android init语言简介cameraserver.rc详解 serviceuser选项group选项ioprio选项task_profiles选项rlimit选项 视频…

ubuntu安装配置mysql

ubuntu安装配置mysql 提示&#xff1a;ubuntu版本16.0.4&#xff0c;默认安装的mysql版本为 5.7 提示&#xff1a;MYSQL的安装、配置&#xff1a; ubuntu mysql的安装既可以使用命令直接安装&#xff0c;也可以安装包方式安装。本文主要介绍命令直接安装方式&#xff0c;包括安…

Spring更加简单地存储Bean

目录 前提引入 更加简单地存储Bean对象到Spring中 context:component-scan 将Bean存储到Spring中用到的注解 Controller Service Repository Component Configuration 这五大类注解都有什么关系呢 ? 为什么要有这么多类注解有什么作用么 ? Bean命名规则 Bean注解…

61 - 智能指针类模板

---- 整理自狄泰软件唐佐林老师课程 1. 智能指针 1.1 智能指针的意义 现代C开发库中最重要的类模板之一C中自动内存管理的主要手段能够很大程度上避开内存相关的问题 1.2 STL中智能指针 auto_ptr 生命周期结束时&#xff0c;销毁指向的内存空间不能指向堆数组&#xff0c;只…

大数据平台功能

一 前言 计算机设备和信息数据的相互融合&#xff0c;对各个行业来说都是一次非常大的进步&#xff0c;已经渗入到工业、农业、商业、军事等领域&#xff0c;同时其大数据平台软件也得到一定发展。就目前来看&#xff0c;各类编程语言的发展、人工智能相关算法的应用、大数据时…

【DevPress】V2.4.4版本发布,增加数据看板功能

DevPress V2.4.4版本于2022年11月24日发版&#xff0c;增加社区数据看板功能&#xff0c;方便客户查看社区数据概览。 一、该版本功能包含 1、新需求 1&#xff09;社区控制台增加数据看板功能&#xff0c;方便客户根据每日查看社区流量数据、用户数据和内容数据。 - 社区流…