MySQL前缀索引、脏页和干净页、COUNT(*)讨论、表删除内存问题

news2025/1/12 0:00:24

文章目录

  • 如何加索引
      • 如何给身份证号添加索引
  • SQL语句变慢
      • 脏页 (Dirty Pages)
      • 干净页 (Clean Pages)
      • 为何区分脏页和干净页
      • 处理脏页
      • 管理策略
    • flush
      • 如何控制
  • 为什么删除表数据后表文件大小不变
    • 问题背景
    • 核心原因
      • 数据存储方式
      • 参数影响
    • 解决方案
      • 1. 调整`innodb_file_per_table`设置
      • 2. 使用表重建来回收空间
      • 3. 定期优化表
    • 注意事项
    • online和inplace
      • Inplace DDL
      • Online DDL
  • COUNT(*) 讨论
    • `COUNT(*)` 的实现方式
    • InnoDB 的设计和挑战
    • 解决策略
    • 建议
    • 总结

本文为mysql11-15讲总结

如何加索引

MySQL是支持前缀索引的,也就是说,你可以定义字符串的一部分作为索引。默认地,如果你创建索引的语句不指定前缀长度,那么索引就会包含整个字符串。

mysql> alter table SUser add index index1(email);
或
mysql> alter table SUser add index index2(email(6));

第一个语句代表着以整个字符串作为索引,第二个则是只取前6个字节

第二种由于只取前6个字节所以占用空间更少,但是会增加额外的记录扫描次数

如果使用的是index2(即email(6)索引结构),执行顺序是这样的:

  1. 从index2索引树找到满足索引值是’zhangs’的记录,找到的第一个是ID1;

  2. 到主键上查到主键值是ID1的行,判断出email的值不是’zhangssxyz@xxx.com,这行记录丢弃;

  3. 取index2上刚刚查到的位置的下一条记录,发现仍然是’zhangs’,取出ID2,再到ID索引上取整行然后判断,这次值对了,将这行记录加入结果集;

  4. 重复上一步,直到在index2上取到的值不是’zhangs’时,循环结束。

使用前缀索引时要定义好长度才能做到节省空间的同时尽可能减少增加的额外查询成本

首先,你可以使用下面这个语句,算出这个列上有多少个不同的值:

mysql> select count(distinct email) as L from SUser;

然后,依次选取不同长度的前缀来看这个值,比如我们要看一下4~7个字节的前缀索引,可以用这个语句:

mysql> select
  count(distinct left(email,4)as L4,
  count(distinct left(email,5)as L5,
  count(distinct left(email,6)as L6,
  count(distinct left(email,7)as L7,
from SUser;

当然,使用前缀索引很可能会损失区分度,所以你需要预先设定一个可以接受的损失比例,比如5%。然后,在返回的L4~L7中,找出不小于 L * 95%的值,假设这里L6、L7都满足,你就可以选择前缀长度为6。

使用前缀索引比不上覆盖索引对查询性能的优化,就算将前缀索引的长度设置为字段长度,innodb也是会回到索引再查一遍

如何给身份证号添加索引

  1. 很多网页比如说校园卡,会跟你说默认密码为身份证后六位,所以我们也可以把身份证倒过来存储,取六位为前缀索引
  2. 使用hash字段:在表上创建一个整数字段,保存身份证的校验码,同时创建索引
mysql> alter table t add id_card_crc int unsigned, add index(id_card_crc);

然后每次插入新记录的时候,都同时用crc32()这个函数得到校验码填到这个新字段。由于校验码可能存在冲突,也就是说两个不同的身份证号通过crc32()函数得到的结果可能是相同的,所以你的查询语句where部分要判断id_card的值是否精确相同。

mysql> select field_list from t where id_card_crc=crc32('input_id_card_string') and id_card='input_id_card_string'

这样,索引的长度变成了4个字节,比原来小了很多。

接下来,我们再一起看看 使用倒序存储和使用hash字段这两种方法的异同点。

首先,它们的相同点是,都不支持范围查询。倒序存储的字段上创建的索引是按照倒序字符串的方式排序的,已经没有办法利用索引方式查出身份证号码在[ID_X, ID_Y]的所有市民了。同样地,hash字段的方式也只能支持等值查询。

它们的区别,主要体现在以下三个方面:

  1. 从占用的额外空间来看,倒序存储方式在主键索引上,不会消耗额外的存储空间,而hash字段方法需要增加一个字段。当然,倒序存储方式使用4个字节的前缀长度应该是不够的,如果再长一点,这个消耗跟额外这个hash字段也差不多抵消了。

  2. 在CPU消耗方面,倒序方式每次写和读的时候,都需要额外调用一次reverse函数,而hash字段的方式需要额外调用一次crc32()函数。如果只从这两个函数的计算复杂度来看的话,reverse函数额外消耗的CPU资源会更小些。

  3. 从查询效率上看,使用hash字段方式的查询性能相对更稳定一些。因为crc32算出来的值虽然有冲突的概率,但是概率非常小,可以认为每次查询的平均扫描行数接近1。而倒序存储方式毕竟还是用的前缀索引的方式,也就是说还是会增加扫描行数。

SQL语句变慢

脏页 (Dirty Pages)

  • 定义:内存中已被修改但尚未写回磁盘的数据页。
  • 重要性:允许数据库延迟磁盘写操作,提高性能。
  • 风险:系统崩溃时可能丢失未写回的数据。

干净页 (Clean Pages)

  • 定义:内存中的数据页内容与磁盘上的内容完全一致。
  • 优点:可以随时从内存中移除而不影响数据完整性。
  • 场景:系统无需担心数据丢失即可释放这些数据页。

为何区分脏页和干净页

  1. 性能优化:允许数据页在内存中保持脏状态可以显著提高数据库的性能。这是因为磁盘I/O操作通常比内存操作要慢得多。通过减少必须执行的磁盘写操作的次数,系统的整体响应时间和吞吐量可以得到提升。
  2. 事务的一致性和恢复:在发生系统崩溃或其他故障时,脏页的存在是关键的,因为它们包含了重要的未持久化的数据。数据库恢复机制(如日志重做)依赖于这些脏页的信息来确保数据的一致性和完整性。
  3. 缓冲管理:数据库系统通常包含一个缓冲池管理器,它负责决定何时读取或写入磁盘数据页。通过智能地管理脏页和干净页,缓冲池管理器可以优化数据访问和写回策略,例如使用LRU(最近最少使用)算法来决定哪些页应当被保留在缓存中,哪些应当被写回磁盘。

处理脏页

数据库通常通过一种称为“检查点”(checkpoint)的机制定期将所有脏页写回磁盘。这不仅有助于减少系统崩溃后恢复所需的时间,还可以确保数据的持久性和一致性。

总之,脏页和干净页的概念是数据库缓存管理的核心部分,对于理解和优化数据库的性能和可靠性至关重要。

管理策略

  • 检查点:定期将所有脏页数据同步到磁盘,帮助减少数据恢复时间,确保数据一致性。
  • 缓冲池管理:有效管理脏页和干净页,优化数据访问和持久化策略。

flush

平时执行很快的更新操作,其实就是在写内存和日志,而MySQL偶尔“抖”一下的那个瞬间,可能就是在刷脏页(flush)。

flush:将脏页写入磁盘,确保持久性和一致性

引发flush的情况:

  1. 检查点 (Checkpoint):数据库定期执行检查点操作,这是一个系统过程,旨在将所有当前的脏页写入磁盘。这样做可以在系统崩溃后加快恢复速度,因为只需重新处理从最后一个检查点之后的事务日志。
  2. 事务提交:当事务提交时,为保证数据的持久性,会触发脏页的写入。这确保了一旦事务被标记为成功,它的更改就永久保存了。
  3. 脏页的限制:如果脏页的数量达到了数据库系统设定的阈值,系统可能会自动触发flush操作,以防内存中积累过多未写入磁盘的更改。
  4. 内存压力:当系统内存不足时,数据库可能需要清空缓冲池中的页,以为新的数据页腾出空间。这种情况下,脏页需要先被flush到磁盘,才能被清出内存。
  5. 系统关闭:在数据库正常关闭过程中,为了确保所有暂存于内存中的更改都被持久化,会进行一次全面的flush操作。
  6. 手动触发:数据库管理员可以手动触发flush操作,例如通过特定的SQL命令或数据库管理工具,来管理数据库的物理存储情况。

如何控制

需要明确告诉innodb所在主机的io能力:

 fio -filename=$filename -direct=1 -iodepth 1 -thread -rw=randrw -ioengine=psync -bs=16k -size=500M -numjobs=10 -runtime=10 -group_reporting -name=mytest

关注脏页比例,不要让他经常接近75%,脏页比例则是通过Innodb_buffer_pool_pages_dirty/Innodb_buffer_pool_pages_total得到的,具体的命令参考下面的代码:

select VARIABLE_VALUE into @a from global_status where VARIABLE_NAME = 'Innodb_buffer_pool_pages_dirty';
select VARIABLE_VALUE into @b from global_status where VARIABLE_NAME = 'Innodb_buffer_pool_pages_total';
select @a/@b;

innodb_flush_neighbors在MySQL8.0中已经默认为0,这样可以在如果邻数据页同为脏页的情况下不被刷掉,也可以减少sql语句的响应时间

InnoDB刷脏页速度策略|500

为什么删除表数据后表文件大小不变

问题背景

在MySQL数据库中,尤其是使用InnoDB存储引擎的情况下,用户经常遇到删除表中大量数据后,表文件的物理大小没有相应减小的问题。

核心原因

数据存储方式

  • InnoDB存储结构: InnoDB使用B+树索引结构存储数据,数据按页(通常大小为16KB)组织。
  • 删除操作的实际效果: 在InnoDB中,删除操作仅标记数据行为删除状态,实际数据并未从磁盘中移除。这意味着物理空间不会立即释放,而是留待将来重用。

参数影响

  • innodb_file_per_table:
    • 设置为OFF: 所有表数据存放在共享表空间(ibdata1文件)中,删除数据后空间不会回收到操作系统,而是留在共享空间中待后续使用。
    • 设置为ON: 每个表数据存储在单独的.ibd文件中。虽然便于管理,但删除表内数据或整表后,空间仍然不会自动缩减。

解决方案

1. 调整innodb_file_per_table设置

推荐将innodb_file_per_table设置为ON,以便每个表使用独立的文件,便于管理和优化。

2. 使用表重建来回收空间

  • 重建单个表:

    ALTER TABLE your_table_name ENGINE=InnoDB;
    

    这个命令会重建表,期间移除了所有标记为删除的记录的空间,压缩表中未使用的空间。

  • 创建新表并复制数据:

    CREATE TABLE new_table LIKE original_table;
    INSERT INTO new_table SELECT * FROM original_table;
    DROP TABLE original_table;
    RENAME TABLE new_table TO original_table;
    

    这种方法通过完全重建数据来优化存储布局和页的利用率。

3. 定期优化表

对于频繁更新的表,定期执行表优化可以提高性能和空间利用率。

OPTIMIZE TABLE your_table_name;

注意事项

  • 操作风险: 重建表或优化表是资源密集型操作,可能会导致服务性能下降,特别是在高峰期进行这些操作时。建议在低峰时段进行,并确保有完整的备份。
  • 数据安全: 在进行任何结构修改前,确保备份所有重要数据,防止操作失误导致数据丢失。

online和inplace

Inplace DDL

  • 定义: Inplace操作指的是在进行表结构变更时,数据不需要被移动到外部结构,而是在原有的表结构上直接进行修改。
  • 实现细节: 在InnoDB中,例如执行 ALTER TABLE 操作时,可能会创建一个临时文件(tmp_file),这个文件用于处理数据重组过程。尽管操作在物理上看起来像是在原地进行(即不需要额外的临时表),但实际上仍然需要额外的磁盘空间来存储临时数据。
  • 空间要求: 如果服务器的可用磁盘空间不足以创建所需的临时文件,即使是inplace操作也无法完成。

Online DDL

  • 定义: Online DDL 允许在表结构变更过程中,表继续对外提供服务,即允许对表进行读写操作。

  • 关系与区别: 所有Online DDL操作均是Inplace的,但并非所有Inplace操作都是Online的。例如,添加全文索引的过程虽然是inplace的,但它会阻塞表的写操作,因此不是Online的。

  • Inplace but not Online: 例如,添加全文索引(FULLTEXT)或空间索引(SPATIAL),这些操作虽然在物理上不需要移动数据到新表,但会阻塞表的某些操作。

  • Online and Inplace: 某些表结构变更如增加新列或者修改某些不影响表数据排列的属性,可以在线进行,同时在物理存储上也是在原地完成。

以下是对您提供的文档内容的总结和笔记:

COUNT(*) 讨论

  • 问题讨论:为什么在 MySQL 中使用 SELECT COUNT(*) FROM t 查询表行数会随着数据增多而变慢。
  • 焦点:分析 COUNT(*) 的执行机制,特别是在不同的存储引擎(MyISAM 和 InnoDB)中的表现,并探讨应对策略。

COUNT(*) 的实现方式

  • MyISAM:存储行数在磁盘上,使得 COUNT(*) 很快,因为直接返回已存储的数值。
  • InnoDB:需要逐行读取数据并判断行的可见性(MVCC),因此随着数据量的增加,COUNT(*) 的性能会显著下降。

InnoDB 的设计和挑战

  • 多版本并发控制(MVCC):InnoDB 使用 MVCC 支持高并发,但这使得即使是简单的 COUNT(*) 查询也需要逐行检视,以确定每行是否对查询事务可见。
  • 索引优化:虽然 InnoDB 会尝试通过遍历最小的索引树来优化 COUNT(*) 查询,但这仍可能涉及大量数据处理。

解决策略

  1. 缓存系统(如 Redis):
    • 优点:快速读写。
    • 缺点:可能丢失更新,需要定期从数据库同步来确保准确性。
  2. 定期同步:
    • 方法:定期从数据库执行 COUNT(*) 并更新缓存。
    • 考量:平衡更新频率和性能需求。

建议

  • 对于需要频繁访问数据行数的应用,推荐使用缓存系统维护计数,并结合定期同步策略以防数据丢失。
  • 需要权衡实时性和性能,选择适合自己业务场景的数据同步频率。

总结

  • 虽然 COUNT(*) 在 MyISAM 中非常快速,但不支持事务和并发控制,而 InnoDB 虽然支持高级功能,却因为其数据一致性和并发控制设计,使得 COUNT(*) 变得较慢。
  • 在面对实际业务需求时,特别是在数据量大且更新频繁的情况下,推荐采用外部缓存系统来处理计数,以提高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1669298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2.4 输入和显示

本节必须掌握的知识点: 示例五源代码 代码分析 汇编解析 2.4.1 示例五 ■格式化输入函数scanf scanf函数可以从键盘读取输入的信息。scanf函数同样可以像printf函数那样,通过转换说明“%d”来限制函数只能读取十进制数。scanf函数的参数为可变参数…

雷军-2022.8小米创业思考-6-互联网七字诀之快:天下武功,唯快不破;快不是目的,快是手段;不要用战术上的勤奋掩盖战略上的懒惰。

第六章 互联网七字诀 专注、极致、口碑、快,这就是我总结的互联网七字诀,也是我对互联网思维的高度概括。 快 我们期待非常多的快,比如研发进展快、库存周转快、资金回笼快等等。但在这里,我们集中讨论的是公司在业务发展和面对…

【5分钟学会一个知识点】01.Elasticsearch基本操作-增删改查

目录 【5分钟学会一个知识点-探索现代搜索与分析引擎的魅力】01.Elasticsearch基本操作-增删改查1.基本操作1.1索引操作1.2文档操作1.3查询1.4修改数据1.5查询1.5.1条件查询1.5.1.1遍历所有的索引1.5.1.2查询某个索引1.5.1.3条件查询1:使用GET url传参数1.5.1.4条件…

18、案例实战:上亿请求轻松应对,看年轻代垃圾回收如何助力电商性能飞跃!

18.1、背景引入 我们通常会通过案例分析,来指导大家如何在不同的场景下,预测系统的内存使用模型。我们需要合理地调整新生代、老年代、Eden和Survivor各个区域的内存大小,然后尽可能地优化参数,以减少新生代对象进入老年代的情况…

An 2024下载

An2024下载: 百度网盘下载https://pan.baidu.com/s/1cQQCFL16OUY1G6uQWgDbSg?pwdSIMS Adobe Animate 2024,作为Flash技术的进化顶点,是Adobe匠心打造的动画与交互内容创作的旗舰软件。这款工具赋予设计师与开发者前所未有的创意自由&#x…

火绒安全原理、用法、案例和注意事项

火绒安全是一款功能强大的安全软件,它采用了先进的安全技术和算法,通过实时监测、恶意代码识别、防火墙功能、沙箱技术和网络保护等多种手段,为用户提供全面的计算机安全防护。 1.为什么选用火绒安全? 火绒安全是一款优秀的安全软…

用lobehub打造一个永久免费的AI个人助理

Lobe Chat是一个开源的高性能聊天机器人框架,它被设计来帮助用户轻松创建和部署自己的聊天机器人。这个框架支持多种智能功能,比如语音合成(就是让机器人能说话),还能理解和处理多种类型的信息,不仅限于文字…

AI图书推荐:用GPT-4进行预测分析的实用指南

《用GPT-4进行预测分析的实用指南》(A Practical Guide to Predictive Analytics with GPT-4)为读者提供了一个全面的指南,介绍了如何利用GPT-4的强大预测能力,从理解预测分析的基础,到掌握GPT-4的使用,再到…

基于yolov5+gradio目标检测演示系统设计

YOLOv5与Gradio:目标检测可视化展示的新篇章 随着人工智能技术的深入发展,目标检测已成为现代智能应用中的一项关键技术。YOLOv5,作为目标检测领域的杰出代表,凭借其出色的实时性和准确性,赢得了广泛的认可和应用。而…

电力场景设备漏油检测数据集VOC+YOLO格式338张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):338 标注数量(xml文件个数):338 标注数量(txt文件个数):338 标注类别…

数据缓存,可以尝试RocksDB了

shigen坚持更新文章的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。记录成长,分享认知,留住感动。 个人IP:shigen shigen在最近的学习中,接触到了一款新的缓存数据库RocksDB&#xff…

SQL语句优化技巧

目录 1、sql语句规范 2、sql语句优化 1、sql语句规范 MySQL在Linux系统下数据库名,表名,存储过程名,函数名称,触发器名称等区分大小写,列名不区分大小写,原因是这些操作系统下文件名称区分大小写。 MySQL…

LNMP 环境下 Nginx 1.26.0 开启 HTTP/3 QUIC 支持

前几天 Nginx 1.26.0 主线版发布了,明月总算抽出时间更新了,那么自然的也要尝试一下开启 HTTP/3 QUIC 支持了,今天就给大家分享一下。对于我们的网站来说开启 HTTP/3 QUIC 最大的好处是页面载入速度的提升,尤其是在支持 HTTP/3 QU…

安卓模拟器怎么修改ip地址

最近很多老铁玩游戏的,想多开模拟器一个窗口一个IP,若模拟器窗口开多了,IP一样会受到限制,那么怎么更换自己电脑手机模拟器IP地址呢,今天就教大家一个修改模拟器IP地址的方法!废话不多说,直接上…

牛客NC363 开锁【中等 BFS Java/Go/PHP】

题目 题目链接: https://www.nowcoder.com/practice/e7cbabbf7e0a41ec98055ee5f3d33bbe https://www.lintcode.com/problem/796 思路 Java代码 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改&#x…

文件系统(未打开的文件)

之前我们讲述的一些文件操作都是在文件被打开的基础上的,因为用户想要对某个文件做操作的话,这个文件一定是被打开的,也就是一定是内存级的文件。 但是有的没有被操作的文件,是在磁盘中的,我们的笔记本是在SSD中&…

Debian Linux 下给Nginx 1.26.0 编译增加Brotli算法支持

明月发现参考【给Nginx添加谷歌Brotli压缩算法支持】一文给出的方法,在Debian Linux 12.5下就一直编译失败,主要的错误是因为文件缺失,在专门又安装了apt-get install libbrotli-dev的依赖库后依然会因为文件缺失无法编译完成,就这…

JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测

JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测 目录 JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预…

Postman基础功能-常见类型的接口请求

天空灰暗到一定程度,星辰就会熠熠生辉。大家好,之前给大家分享了关于 Postman 工具的介绍以及安装,在当今数字化的时代,接口请求在软件开发和系统集成中扮演着至关重要的角色。而 Postman 作为一款强大且广受认可的接口测试工具&a…

信息系统项目管理师0105:项目评估与决策(7项目立项管理—7.3项目评估与决策)

点击查看专栏目录 文章目录 7.3项目评估与决策1.评估依据2.评估的程序3.项目评估的内容4.项目评估报告内容大纲记忆要点总结7.3项目评估与决策 项目评估指在项目可行性研究的基础上,由第三方(国家、银行或有关机构)根据国家颁布的政策、法规、方法、参数和条例等,从国民经济…