mysql原理---InnoDB统计数据是如何收集的

news2025/1/17 0:03:41

以下聚焦于 InnoDB 存储引擎的统计数据收集策略。

1.两种不同的统计数据存储方式
InnoDB 提供了两种存储统计数据的方式:
(1). 永久性的统计数据
这种统计数据存储在磁盘上,也就是服务器重启之后这些统计数据还在。
(2). 非永久性的统计数据
这种统计数据存储在内存中,当服务器关闭时这些这些统计数据就都被清除掉了,等到服务器重启之后,在某些适当的场景下才会重新收集这些统计数据。

设计 MySQL 的大叔们给我们提供了系统变量 innodb_stats_persistent 来控制到底采用哪种方式去存储统计数据。在 MySQL 5.6.6 之前, innodb_stats_persistent 的值默认是 OFF ,也就是说 InnoDB 的统计数据默认是存储到内存的,之后的版本中 innodb_stats_persistent 的值默认是 ON ,也就是统计数据默认被存储到磁盘中。

不过 InnoDB 默认是以表为单位来收集和存储统计数据的,也就是说我们可以把某些表的统计数据(以及该表的索引统计数据)存储在磁盘上,把另一些表的统计数据存储在内存中。怎么做到的呢?

我们可以在创建和修改表的时候通过指定 STATS_PERSISTENT 属性来指明该表的统计数据存储方式:

CREATE TABLE 表名 (...) Engine=InnoDB, STATS_PERSISTENT = (1|0);
ALTER TABLE 表名 Engine=InnoDB, STATS_PERSISTENT = (1|0);

STATS_PERSISTENT=1 时,表明我们想把该表的统计数据永久的存储到磁盘上,当 STATS_PERSISTENT=0 时,表明我们想把该表的统计数据临时的存储到内存中。如果我们在创建表时未指定 STATS_PERSISTENT 属性,那默认采用系统变量 innodb_stats_persistent 的值作为该属性的值。

2.基于磁盘的永久性统计数据
当我们选择把某个表以及该表索引的统计数据存放到磁盘上时,实际上是把这些统计数据存储到了两个表里:
在这里插入图片描述
可以看到,这两个表都位于 mysql 系统数据库下边,其中:
(1). innodb_table_stats 存储了关于表的统计数据,每一条记录对应着一个表的统计数据。
(2). innodb_index_stats 存储了关于索引的统计数据,每一条记录对应着一个索引的一个统计项的统计数据。

2.1.innodb_table_stats
直接看一下这个 innodb_table_stats 表中的各个列都是干嘛的:

字段名描述
database_name数据库名
table_name表名
last_update本条记录最后更新时间
n_rows表中记录的条数
clustered_index_size表的聚簇索引占用的页面数量
sum_of_other_index_sizes表的其他索引占用的页面数量

注意这个表的主键是 (database_name,table_name) ,也就是innodb_table_stats表的每条记录代表着一个表的统计信息。

2.1.1.n_rows统计项的收集
InnoDB 统计一个表中有多少行记录的套路是这样的:
(1). 按照一定算法(并不是纯粹随机的)选取几个叶子节点页面,计算每个页面中主键值记录数量,然后计算平均一个页面中主键值的记录数量乘以全部叶子节点的数量就算是该表的 n_rows 值。

可以看出来这个 n_rows 值精确与否取决于统计时采样的页面数量,设计 MySQL 的大叔很贴心的为我们准备了一个名为 innodb_stats_persistent_sample_pages 的系统变量来控制使用永久性的统计数据时,计算统计数据时采样的页面数量。该值设置的越大,统计出的 n_rows 值越精确,但是统计耗时也就最久;该值设置的越小,统计出的 n_rows 值越不精确,但是统计耗时特别少。

InnoDB 默认是以表为单位来收集和存储统计数据的,我们也可以单独设置某个表的采样页面的数量,设置方式就是在创建或修改表的时候通过指定 STATS_SAMPLE_PAGES 属性来指明该表的统计数据存储方式:

CREATE TABLE 表名 (...) Engine=InnoDB, STATS_SAMPLE_PAGES = 具体的采样页面数量;
 ALTER TABLE 表名 Engine=InnoDB, STATS_SAMPLE_PAGES = 具体的采样页面数量;

如果我们在创建表的语句中并没有指定 STATS_SAMPLE_PAGES 属性的话,将默认使用系统变量 innodb_stats_persistent_sample_pages 的值作为该属性的值。

2.1.2.clustered_index_sizesum_of_other_index_sizes统计项的收集
这两个统计项的收集过程如下:
(1). 从数据字典里找到表的各个索引对应的根页面位置。
系统表 SYS_INDEXES 里存储了各个索引对应的根页面信息。
(2). 从根页面的 Page Header 里找到叶子节点段和非叶子节点段对应的 Segment Header
在每个索引的根页面的 Page Header 部分都有两个字段:
a. PAGE_BTR_SEG_LEAF :表示B+树叶子段的 Segment Header 信息。
b. PAGE_BTR_SEG_TOP :表示B+树非叶子段的 Segment Header 信息。
(3). 从叶子节点段和非叶子节点段的 Segment Header 中找到这两个段对应的 INODE Entry 结构。
这个是 Segment Header 结构:在这里插入图片描述
(4). 从对应的 INODE Entry 结构中可以找到该段对应所有零散的页面地址以及 FREE 、 NOT_FULL 、 FULL 链表的基节点。
这个是 INODE Entry 结构:
在这里插入图片描述
(5). 直接统计零散的页面有多少个,然后从那三个链表的 List Length 字段中读出该段占用的区的大小,每个区占用 64 个页,所以就可以统计出整个段占用的页面。

(6). 分别计算聚簇索引的叶子结点段和非叶子节点段占用的页面数,它们的和就是 clustered_index_size 的值,按照同样的套路把其余索引占用的页面数都算出来,加起来之后就是 sum_of_other_index_sizes 的值。

这里需要大家注意一个问题,我们说一个段的数据在非常多时(超过32个页面),会以 区 为单位来申请空间,这里头的问题是以区为单位申请空间中有一些页可能并没有使用,但是在统计 clustered_index_sizesum_of_other_index_sizes 时都把它们算进去了,所以说聚簇索引和其他的索引占用的页面数可能比这两个值要小一些。

2.2.innodb_index_stats
直接看一下这个 innodb_index_stats 表中的各个列都是干嘛的:

字段名描述
database_name数据库名
table_name表名
index_name索引名
last_update本条记录最后更新时间
stat_name统计项的名称
stat_value对应的统计项的值
sample_size为生成统计数据而采样的页面数量
stat_description对应的统计项的描述

注意这个表的主键是 (database_name,table_name,index_name,stat_name) ,其中的 stat_name 是指统计项的名称,也就是说innodb_index_stats表的每条记录代表着一个索引的一个统计项。
在这里插入图片描述

这个结果有点儿多,正确查看这个结果的方式是这样的:
(1). 先查看 index_name 列,这个列说明该记录是哪个索引的统计信息。
(2). 针对 index_name 列相同的记录, stat_name 表示针对该索引的统计项名称, stat_value 展示的是该索引在该统计项上的值, stat_description 指的是来描述该统计项的含义的。我们来具体看一下一个索引都有哪些统计项:
a. n_leaf_pages :表示该索引的叶子节点占用多少页面。
b. size :表示该索引共占用多少页面。
c. n_diff_pfxNN :表示对应的索引列不重复的值有多少。其中的 NN 长得有点儿怪呀,啥意思呢?
其实 NN 可以被替换为 01 、 02 、 03 ... 这样的数字。比如对于 idx_key_part 来说:
c.1. n_diff_pfx01 表示的是统计 key_part1 这单单一个列不重复的值有多少。
c.2. n_diff_pfx02 表示的是统计 key_part1、key_part2 这两个列组合起来不重复的值有多少。
c.3. n_diff_pfx03 表示的是统计 key_part1、key_part2、key_part3 这三个列组合起来不重复的值有多少。
c.4. n_diff_pfx04 表示的是统计 key_part1、key_part2、key_part3、id 这四个列组合起来不重复的值有多少。

对于普通的二级索引,并不能保证它的索引列值是唯一的,比如对于 idx_key1来说,key1列就可能有很多值重复的记录。此时只有在索引列上加上主键值才可以区分两条索引列值都一样的二级索引记录。对于主键和唯一二级索引则没有这个问题,它们本身就可以保证索引列值的不重复,所以也不需要再统计一遍在索引列后加上主键值的不重复值有多少。比如上边的 idx_key1有n_diff_pfx01、n_diff_pfx02两个统计项,而 idx_key2却只有n_diff_pfx01一个统计项。

(3). 在计算某些索引列中包含多少不重复值时,需要对一些叶子节点页面进行采样, sample_size 列就表明了采样的页面数量是多少。
对于有多个列的联合索引来说,采样的页面数量是:innodb_stats_persistent_sample_pages × 索引列的个数。当需要采样的页面数量大于该索引的叶子节点数量的话,就直接采用全表扫描来统计索引列的不重复值数量了。所以大家可以在查询结果中看到不同索引对应的sample_size 列的值可能是不同的。

3.定期更新统计数据
设计 MySQL 的大叔提供了如下两种更新统计数据的方式:
(1). 开启 innodb_stats_auto_recalc
系统变量 innodb_stats_auto_recalc 决定着服务器是否自动重新计算统计数据,它的默认值是 ON ,也就是该功能默认是开启的。每个表都维护了一个变量,该变量记录着对该表进行增删改的记录条数,如果发生变动的记录数量超过了表大小的 10% ,并且自动重新计算统计数据的功能是打开的,那么服务器会重新进行一次统计数据的计算,并且更新 innodb_table_stats 和 innodb_index_stats 表。不过自动重新计算统计数据的过程是异步发生的,也就是即使表中变动的记录数超过了 10% ,自动重新计算统计数据也不会立即发生,可能会延迟几秒才会进行计算。

InnoDB 默认是以表为单位来收集和存储统计数据的,我们也可以单独为某个表设置是否自动重新计算统计数的属性,设置方式就是在创建或修改表的时候通过指定 STATS_AUTO_RECALC 属性来指明该表的统计数据存储方式:

 CREATE TABLE 表名 (...) Engine=InnoDB, STATS_AUTO_RECALC = (1|0);
 ALTER TABLE 表名 Engine=InnoDB, STATS_AUTO_RECALC = (1|0);

当 STATS_AUTO_RECALC=1 时,表明我们想让该表自动重新计算统计数据,当 STATS_AUTO_RECALC=0 时,表明不想让该表自动重新计算统计数据。如果我们在创建表时未指定 STATS_AUTO_RECALC 属性,那默认采用系统变量 innodb_stats_auto_recalc 的值作为该属性的值。

(2). 手动调用 ANALYZE TABLE 语句来更新统计信息
如果 innodb_stats_auto_recalc 系统变量的值为 OFF 的话,我们也可以手动调用 ANALYZE TABLE 语句来重新计算统计数据,比如我们可以这样更新关于 single_table 表的统计数据:ANALYZE TABLE single_table;

需要注意的是,ANALYZE TABLE语句会立即重新计算统计数据,也就是这个过程是同步的,在表中索引多或者采样页面特别多时这个过程可能会特别慢,请不要没事儿就运行一下 ANALYZE TABLE 语句,最好在业务不是很繁忙的时候再运行。

2.4.手动更新 innodb_table_statsinnodb_index_stats
其实 innodb_table_stats 和 innodb_index_stats 表就相当于一个普通的表一样,我们能对它们做增删改查操作。这也就意味着我们可以手动更新某个表或者索引的统计数据。

比如说我们想把 single_table 表关于行数的统计数据更改一下可以这么做:
(1). 更新 innodb_table_stats 表。

 UPDATE innodb_table_stats 
 SET n_rows = 1
 WHERE table_name = 'single_table';

(2). 让 MySQL 查询优化器重新加载我们更改过的数据。
更新完 innodb_table_stats 只是单纯的修改了一个表的数据,需要让 MySQL 查询优化器重新加载我们更改过的数据,运行下边的命令就可以了: FLUSH TABLE single_table;

之后我们使用 SHOW TABLE STATUS 语句查看表的统计数据时就看到 Rows 行变为了 1 。

3.基于内存的非永久性统计数据
当我们把系统变量 innodb_stats_persistent 的值设置为 OFF 时,之后创建的表的统计数据默认就都是非永久性的了,或者我们直接在创建表或修改表时设置 STATS_PERSISTENT 属性的值为 0 ,那么该表的统计数据就是非永久性的了。

非永久性的统计数据采样的页面数量是由 innodb_stats_transient_sample_pages 控制的,这个系统变量的默认值是 8 。由于非永久性的统计数据经常更新,所以导致 MySQL 查询优化器计算查询成本的时候依赖的是经常变化的统计数据,也就会生成经常变化的执行计划,不过最近的 MySQL 版本都不咋用这种基于内存的非永久性统计数据了,所以我们也就不深入唠叨它了。

4.innodb_stats_method的使用
我们知道 索引列不重复的值的数量 这个统计数据对于 MySQL 查询优化器十分重要,因为通过它可以计算出在索引列中平均一个值重复多少行,它的应用场景主要有两个:
(1). 单表查询中单点区间太多,比方说这样:SELECT * FROM tbl_name WHERE key IN ('xx1', 'xx2', ..., 'xxn');
当 IN 里的参数数量过多时,采用 index dive 的方式直接访问 B+ 树索引去统计每个单点区间对应的记录的数量就太耗费性能了,所以直接依赖统计数据中的平均一个值重复多少行来计算单点区间对应的记录数量。

(2). 连接查询时,如果有涉及两个表的等值匹配连接条件,该连接条件对应的被驱动表中的列又拥有索引时,则可以使用 ref 访问方法来对被驱动表进行查询,比方说这样: SELECT * FROM t1 JOIN t2 ON t1.column = t2.key WHERE ...;
在真正执行对 t2 表的查询前, t1.comumn 的值是不确定的,所以我们也不能通过 index dive 的方式直接访问 B+ 树索引去统计每个单点区间对应的记录的数量,所以也只能依赖统计数据中的平均一个值重复多少行来计算单点区间对应的记录数量。

在统计索引列不重复的值的数量时,有一个比较烦的问题就是索引列中出现 NULL 值怎么办,比方说某个索引列的内容是这样:
在这里插入图片描述
此时计算这个 col 列中不重复的值的数量就有下边的分歧:
a. 有的人认为 NULL 值代表一个未确定的值,所以设计 MySQL 的大叔才认为任何和 NULL 值做比较的表达式的值都为 NULL ,就是这样:
在这里插入图片描述
所以每一个NULL值都是独一无二的,也就是说统计索引列不重复的值的数量时,应该把NULL值当作一个独立的值,所以col列的不重复的值的数量就是:4(分别是1、2、NULL、NULL这四个值)。

b. 有的人认为其实 NULL 值在业务上就是代表没有,所有的 NULL 值代表的意义是一样的,所以 col 列不重复的值的数量就是: 3 (分别是1、2、NULL这三个值)。

c.有的人认为这 NULL 完全没有意义嘛,所以在统计索引列不重复的值的数量时压根儿不能把它们算进来,所以 col 列不重复的值的数量就是: 2 (分别是1、2这两个值)。

设计 MySQL 的大叔蛮贴心的,他们提供了一个名为 innodb_stats_method 的系统变量,相当于在计算某个索引列不重复值的数量时如何对待 NULL 值这个锅甩给了用户,这个系统变量有三个候选值:
a. nulls_equal :认为所有 NULL 值都是相等的。这个值也是 innodb_stats_method 的默认值。
b. nulls_unequal :认为所有 NULL 值都是不相等的。
c. nulls_ignored :直接把 NULL 值忽略掉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1340523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

❀My学习小记录之算法❀

目录 算法:) 一、定义 二、特征 三、基本要素 常用设计模式 常用实现方法 四、形式化算法 五、复杂度 时间复杂度 空间复杂度 六、非确定性多项式时间(NP) 七、实现 八、示例 求最大值算法 求最大公约数算法 九、分类 算法:) 一、定义 …

Smartbi获工信部旗下赛迪网“2023行业信息技术应用创新产品”奖

近日,由工信部旗下的赛迪网、《数字经济》杂志共同主办的2023行业信息技术应用创新大会上,“信息技术应用创新成果名单”重磅揭晓,思迈特软件凭借“Smartbi 自然语言分析引擎”斩获“2023行业信息技术应用创新产品”大奖。 据了解&#xff0c…

codellama模型部署(待补充)

codellama介绍 Code Llama 是一个基于Llama 2的大型代码语言模型系列,在开放模型、填充功能、对大输入上下文的支持以及编程任务的零样本指令跟踪能力中提供最先进的性能。我们提供多种风格来覆盖广泛的应用程序:基础模型 (Code Llama)、Python 专业化 …

【String str = new String(“AAA“) 创建了几个对象?】

✅典型解析 创建的对象数应该是1个或者2个。 首先要清楚什么是对象? Java是一种面向对象的语言,而Java对象在JVM中的存储也是有一定的结构的,在HotSpot虚机中,存储的形式就是oop-klass model,即ava对象模型。我们在Java代码中&am…

Vue框架引入Axios

首先已经创建好了 Vue 框架,安装好了 node.js。 没有完成的可按照此博客搭建:搭建Vue项目 之后打开终端,使用命令。 1、命令安装 axios 和 vue-axios npm install axios --save npm install vue-axios --save2、package.json 查看版本 在 p…

Binder系列-service_manager.c

1. service_manager的任务 open 驱动告诉驱动,它是“servicemanager”在一个循环里 从驱动读取数据 解析数据 调用,根据code执行注册服务或者获取服务 (图来自韦老师的视频) 2.代码流程 2.1.open驱动 //framework…

elasticsearch列一:索引模板的使用

概述 近期一直在负责es这块,就想着和大家分享一些使用经验,我们从存储、查询、优化、备份、运维等几个方面来做分享。今天咱们先看下如何更加合理的存储数据。 初见索引模板 记得刚接触es还是18年那会,项目上线后因一些原因导致日志这部分的…

深入理解JVM虚拟机第三十二篇:详解JVM当中本地方法栈

😉😉 欢迎加入我们的学习交流群呀! ✅✅1:这是孙哥suns给大家的福利! ✨✨2:我们免费分享Netty、Dubbo、k8s、Mybatis、Spring等等很多应用和源码级别的高质量视频和笔记资料,你想学的我们这里都有! 🥭🥭3:QQ群:583783824 📚📚 工作VX:BigTreeJava 拉你…

059:vue中使用 AJAX来读取来自XML文件的信息

第059个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下,本专栏提供行之有效的源代码示例和信息点介绍,做到灵活运用。 (1)提供vue2的一些基本操作:安装、引用,模板使…

SpreadJS 集成使用案例

SpreadJS 集成案例 介绍: SpreadJS 基于 HTML5 标准,支持跨平台开发和集成,支持所有主流浏览器,无需预装任何插件或第三方组件,以原生的方式嵌入各类应用,可以与各类后端技术框架相结合。SpreadJS 以 纯前…

Python之路:网络工程师的自动化进阶(第2版)

💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 I. 引言 随着网络技术的不断发展,…

H5向微信小程序发送信息(小程序web-view打开H5)

引入weixin-js-sdk npm i weixin-js-sdk 页面引入 // 引入wxjsimport wx from "weixin-js-sdk"; 点击触发方法 methods: {goweap(id){console.log(wx);// H5传递数据 (navigateBack)wx.miniProgram.navigateBack({delta: 1});wx.min…

混沌工程的核心原则是什么?

在软件开发和系统运维领域,一种新兴的实践逐渐崭露头角,那就是混沌工程。混沌工程的核心理念是通过有计划的、控制的实验引入混沌,以验证和改善系统的稳健性。本文将介绍混沌工程的定义及核心原则是什么! 什么是混沌工程? 混沌工程是一种系统…

【理论】STM32定时器时间计算公式 +【实践】TIM中断1s计时一次

前言:定时器TIM的详细知识点见我的博文:11.TIM定时中断-CSDN博客 STM32定时器时间计算公式 公式解释: ARR(TIM_Period):自动重装载值,是定时器溢出前的计数值 PSC(TIM_Prescaler&…

k8s的二进制部署(源码包部署)

实验条件: 主机名 IP地址 组件 作用 master01 20.0.0.17 kube-apiserver、kube-controller-manager、kube-scheduler、etcd k8s部署 master02 20.0.0.27 kube-apiserver、kube-controller-manager、kube-scheduler node01 20.0.0.37 kubelet、kube-pro…

工具系列:TimeGPT_(8)使用不规则时间戳进行时间序列预测

文章目录 介绍不规则时间戳的单变量时间预测不规则时间戳的外生变量时间预测 介绍 在处理时间序列数据时,时间戳的频率是一个关键因素,可以对预测结果产生重大影响。像每日、每周或每月这样的常规频率很容易处理。然而,像工作日这样的不规则…

OpenAPI,已支持表单数据格式校验

OpenAPI 路径 开放平台 功能简介 「OpenAPI」- 支持表单数据格式校验。 通过「OpenAPI-新增表单数据」接口,新增数据时,若数据格式不匹配,会导致无法新增。 例如,数字不能新增到日期格式的表单字段。 请参考数据格式传参&a…

IPv4归属地信息查询方法与应用

IPv4地址归属地信息查询是网络管理和安全领域的关键工具。本文将介绍IPv4地址的概念,探讨IPv4归属地信息的重要性,并详细介绍几种查询IPv4归属地信息的方法以及其应用场景。 第一部分:IPv4地址简介 1.1 什么是IPv4地址 IPv4(In…

HTML 网页设计 简约风格 注册界面

成品如下 html <!DOCTYPE html> <html><head><meta charset"utf-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Science科幻注册界面</title><link href"…

游戏服务器列表-增量处理

前言 服务器列表比较简单 固定表/开服表&#xff08;一般只会增加及合并),操作频率很低 一般由 服务器ID IP NAME 开服时间 为什么要自己写个&#xff0c; MySQL的增量备份日志&#xff0c;相对太复杂了 看下 一条UPDATE 语句 随便找了表 修改了 10002 level 1 ->2 得用专门…