MySQL批量导入数据时,为何表空间膨胀了N倍

news2024/12/22 16:22:12
  • GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源。
  • GreatSQL是MySQL的国产分支版本,使用上与MySQL一致。
  • 作者:叶金荣
  • 文章来源:GreatSQL社区原创

问题缘起

同事在客户现场利用DTS工具,从A实例将数据迁移到B实例过程中,发现几乎稍大点的表在迁移完成后,目标端表空间大小差不多都是源端的3倍,也就是说表空间膨胀了2倍。

排查思路

对这篇文章 《叶问》第16期 有印象的话,应该还能记得,数据迁移(导入导出)过程中,也包括主从复制场景,导致表空间膨胀的原因有几种:

  1. MySQL表默认是InnoDB引擎且目前索引只支持B+树索引,在数据的增删改过程中,会因为page分裂而导致表产生碎片,主从服务器上同张表的碎片率不同也会导致表空间相差很大。
  2. 主库整理过碎片(相当于重建整表),从库则是从原先的未整理的物理备份中恢复出来的。
  3. 两端表结构不一致,如从库可能比主库多索引。
  4. 两端表的行格式不一致,如主库为dynamic,从库为compressed。
  5. 两端字符集不同,例如源端是latin1,目标端是utf8mb4。
  6. 个别云数据库在从库上可能采用特殊的并行复制技术,导致在从库上有更高的碎片率(有个极端的案例,同一个表在主库只有6G,从库上则有将近150G)。
  7. 数据表上没有自增ID作为主键,数据写入随机离散,page频繁分裂造成碎片率很高。

问题发现

顺着上面的思路,逐一排查,看能否定位问题原因。

  1. 因素1,不存在,这是全量迁移场景,不是在日常随机增删改的过程中导致膨胀的。
  2. 因素2,不存在,这是利用DTS工具迁移数据的场景。
  3. 因素3、4、5,不存在,两边表结构一致。
  4. 因素6,不存在,原因同2。
  5. 因素7,不存在,每个表都有自增ID作为主键。

排查到这里,就显得有点诡异了,似乎遇到了玄学问题。不过没关系,我们还需要先了解DTS工具的工作方式,大致如下:

  1. 计算数据表总行数。
  2. 根据batch size,分成多段并行读取数据;例如总共10000行数据,batch size是1000,则总共分为10次读取数据。
  3. 将读取出来的数据拼接成 INSERT...VALUES...ON DUPLICATE KEY UPDATE,因为DTS工具要支持增量迁移数据,所以才加上 ON DUPLICATE KEY UPDATE 子句。
  4. 将拼接后的SQL并行写入到目标端。

初看上述工作过程,似乎也没什么特别之处会导致数据写入后产生大量碎片,从而表空间文件急剧膨胀。

首先,读取数据阶段只涉及到源端,可以先排除了。所以,疑点集中在第3、4两步。

了解InnoDB引擎特点的话应该知道,当InnoDB表有自增ID作为主键时,如果写入的数据总是顺序递增的话,那么产生碎片的概率就会很低。但是,如果写入的数据是离散化的(比如插入的顺序是随机离散的,或者比如插入顺序为1、10000、2、3000、3、5000...这种完全离散无序的),则有极大可能会造成碎片率很高。

按照上述疑点,我们需要确认DTS工具构造的SQL是什么样的,这就需要修改选项 binlog_format = statement,这是为了获取其原生的SQL,row模式下可能就相对不好排查了。然后再次运行DTS工具,查看生成的SQL。

经过排查,终于发现问题所在,原来是DTS工具在拼接SQL时,虽然是分段读取数据,但没有将读取出来的结果集先行排序,造成了拼接后的SQL大概像下面这样的:

INSERT INTO t VALUES (100, ...), (99, ...), (98, ...)...(1, ...);

这种方式写入的话,而且还是并发写入,就会极大概率造成InnoDB data page频繁分裂,所以表空间文件才膨胀到原来的3倍之巨。原因不难理解,就好比排队机制,本来我们是按照身高顺序排,但现在有几位高个子的先排在前面了,那么后来的每次都要让这几个人频繁往后移动才行,这就造成了data page分裂,产生大量碎片。

我用几万条sysbench标准表做测试,采用这种方式写入的话,大概会造成约20%的表空间膨胀率。

问题已然明确,只需要在读取数据拼接插入SQL这个阶段,先行对结果集进行排序,就可以完美解决这个问题了

并顺手给负责SQL优化器的同学提了个feature request(MySQL bug#109087),希望能在遇到上述倒序INSERT的情况下,自动完成SQL改写,改倒序为正序(或者说,INSERT的顺序和表主键定义的顺序一致,通常都是正序的INT),也就可以完美避开这类风险了。


Enjoy GreatSQL :)

关于 GreatSQL

GreatSQL是由万里数据库维护的MySQL分支,专注于提升MGR可靠性及性能,支持InnoDB并行查询特性,是适用于金融级应用的MySQL分支版本。

相关链接: GreatSQL社区 Gitee GitHub Bilibili

GreatSQL社区:

捉虫活动详情:https://greatsql.cn/thread-97-1-1.html

社区博客有奖征稿详情:https://greatsql.cn/thread-100-1-1.html

6440

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/127034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

I2C(IIC)的仲裁、时钟同步和时钟扩展

I2C(IIC)的仲裁、时钟同步和时钟扩展 注意,CSDN以及博客园上有大量抄袭和以讹传讹的情况,注意鉴别。 本文参考了Philip的I2C specification以及wiki pedia,并且通过实践验证。 阅读本文要求你已经对i2c的协议有基本的…

调剂的事情该什么时间想?

小部分硕士考生已经开始关心调剂的事情了,其实这个事情还早,但对于考试成绩不是很理想又想要今年顺利读书的考生,调剂有可能会成为实现其目标的一条途径。针对这个问题小立老师针对MBA/MPA/MEM管理类硕士为大家做个前期的梳理,以平…

立足信创国产化运维,打造安全可控IT运维管理系统

随着国产化信创应用试点行业的不断扩大,应用信创产品的企事业单位逐渐增多。大多数企业均面临着陌生的国产化环境与产品,其使用习惯和解决问题的方式都面临改变。北京智和信通切实立足用户需求,提供信创运维服务。 通过“监、管、控、析、安…

监控 DolphinDB 进程对服务器资源的使用情况

本方案主要用于监控 DolphinDB 进程对服务器资源的使用情况及 DolphinDB 性能,如 DolphinDB 进程 CPU 占用情况、DolphinDB 进程内存占用情况、DolphinDB 进程磁盘资源使用情况等。DolphinDB 内置了相应的运维函数以获取当前节点的资源使用情况,Promethe…

OpenHarmony#深入浅出学习eTs#(五)eTs语言初识

本项目Gitee仓地址:深入浅出eTs学习: 带大家深入浅出学习eTs (gitee.com) 一、eTs介绍 概述 基于TS扩展的声明式开发范式的方舟开发框架是一套开发极简、高性能、跨设备应用的UI开发框架,支持开发者高效的构建跨设备应用UI界面。 基础能力 使用基于…

实战:一个脚本实现统计linux进程相关的信息

文章目录公司任务脚本思路脚本源码及写作过程执行测试又遇到问题问题解决总结公司任务 王同学刚刚入职,就被安排了一项任务,据说还比较紧急。 公司一共有200多台服务器,要求王同学统计一下每台服务器的IP,以及各个进程的数量。 …

Spring Boot[概述、功能、快速入门]

系列文章目录 从今天开始,将会发关于SpringBoot的内容,持续更新基础篇、高级篇(查看源码部分)。今天是第一天,我们来了解SpringBoot和快速创建SpringBoot项目。 该系列文章会持续更新~ 目录 系列文章目录 前言 一…

在国内用Windows给BT做种,真是一山绕过一山缠(附解决方案)

国内的网盘,动不动就乱删东西,实在是狗的不像样子,于是我有了玩一下BT(俗称 比特洪流,种子)的想法。 BT技术的玩法是,我有一份资源,制作一个种子,然后分享这个种子&#…

【1.2】认识微服务--微服务技术对比SpringCloud

认识微服务--微服务技术对比&SpringCloud微服务结构微服务技术对比DubboSpringCloudSpringCloudAlibaba企业需求SpringCloud知识内容来自于黑马程序员视频教学和百度百科。博主仅作笔记整理便于回顾学习。如有侵权请私信我。 微服务结构 微服务这种方案需要技术框架来落地…

如何用电脑录制视频?图文教学,快速学会

​与图片相比,视频可以更生动地表达信息。除了记录一些应用程序的内容外,有时我们还需要记录电脑桌面和录制视频。如何用电脑录制视频?本篇文章,将会以图文讲解的方式,教你如何用电脑录制视频。 电脑录制视频1&#xf…

第001课 - 项目介绍

文章目录 项目背景项目技术和特色项目前置要求分布式基础篇,就是快速开发一个电商的后台管理系统。 后端使用的技术栈,就是springboot+springcloud+mybatis+docker作为后端的基础环境。 结合前端的vue和elementui。 使用逆向工程的方式,快速帮助我们开发出来一个后台管理…

想入行软件测试不知道往哪个职业发展方向

现在关于软件测试领域的群体就有4种情况:‘低管理,低技术’ ‘低管理,高技术’ ‘高管理,低技术’ ‘高管理,高技术’ 好多人对自己测试的职业发展很迷茫,个人觉得这篇文章不错,转给大家分享下&…

数据可视化④:大学生就业可视化呈现

大学生就业是和我们息息相关的话题,每一位大学生都关注着,我们常常在网络上看到有关大学生就业的话题,比如毕业季的一些讨论。在大一的创新创业课中,我们也了解到自己所学的专业和以后如何就业,往哪方面就业。但我们了…

高校课程知识库系统|基于Springboot+vue实现高校课程知识库在线学校平台

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、掘金特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、毕业设计、简历模板、学习资料、面试题库、技术互助 收藏点赞不迷路 关注作者有好处 文末获取源…

前端常见问题汇总(九)

一、let ,const, var 有什么区别 用let声明变量,它的用法类似var,但是let所声明的变量,只在所在的代码块内有效 {let a 10 var b 1}console.log(a) //: a is not definedconsole.log(b) //1let const 不存在变量提升,规范代码&#xff08…

华尔街抢Web3商标!汇丰注册元宇宙虚拟信用卡、富达抢NFT市场

全球最大投行摩根大通(JPMorgan)在今年2月发布了一份元宇宙研究报告,指出元宇宙、Web3 经济在未来每年可创造1 兆美元的商机。 与此同时,摩根大通于今年2月15日成为首家进入元宇宙的银行,其在热门元宇宙平台Decentral…

企业数据上下云高速传输解决方案

国家大力发展数字经济,工信部将提供一批成本低、见效快、适用性强的数字化解决方案,让中小企业逐步将业务数据上云,实现高质量发展,数据上云则将成为趋势。 镭速传输便是提供这种数字化解决方案的一款软件,使用镭速的高…

C#,大数计算类Skyiv.BigInterger和任意精度算术运算的静态类BigArithmetic的C#源代码

尊重与诚信是软件发展的根本因素。 1、多年前 Skyivben 发布的大数计算的代码 本文的代码全部来自于 银河 的文章。 博客园——Skyivbenhttps://www.cnblogs.com/skyivben/ 因为 博客园 的格式问题,大家用起来不方便,因而作者稍微整理一下,…

程序员必学的编辑语法——Markdown

Markdown是一种纯文本格式的标记语言。通过简单的标记语法,它可以使普通文本内容具有一定的格式。能使博客笔记更易阅读。 优点:因为是纯文本,所以只要是支持Markdown的地方都能获得一样的编辑效果,可以让作者摆脱排版的困扰,专心…

激光雷达点云投影到前视图(附 python代码)

根据激光雷达的线束编号和水平角度(也可以通过计算得到),把点云投影到前视图,效果如下图: 球面投影推导过程 假设有一个m 线的旋转扫描式激光雷达,它的垂直视场角FOV 被分为上下两个部分:FOV_up 和FOV_down ,通常以FOV_up 的数值为正数而FOV_down 数值为负数…