技术分享 | MySQL级联复制下进行大表的字段扩容

news2025/3/11 3:11:56

作者:雷文霆

爱可生华东交付服务部 DBA 成员,主要负责Mysql故障处理及相关技术支持。爱好看书,电影。座右铭,每一个不曾起舞的日子,都是对生命的辜负。

本文来源:原创投稿

*爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。


一、背景

某客户的业务中有一张约4亿行的表,因为业务扩展,表中open_id varchar(50) 需要扩容到 varchar(500).
变更期间尽量减少对主库的影响(最好是不要有任何影响->最终争取了4个小时的窗口期)。

二、库表信息

环境:Mysql 8.0.22
1主1从 基于Gtid复制

1.第一个问题,这是一张大表吗? 是的,请看

此表的ibd 文件280G + count长时间无返回 + 使用备库看了一下确认行数>4亿

以下语句也可以查看:
show table status from dbname like 'tablename'\G # Rows 的值不准,有时误差有2倍

SELECT a.table_schema,a.table_name,concat(round(sum(DATA_LENGTH/1024/1024)+sum(INDEX_LENGTH/1024/1024),2) ,'MB')total_size,concat(round(sum(DATA_LENGTH/1024/1024),2),'MB') AS data_size,concat(round(sum(INDEX_LENGTH/1024/1024),2),'MB') AS index_size FROM information_schema.TABLES a WHERE a.table_schema = 'dbname' AND a.table_name = 'tablename'; #看下此表的数据量

既然是大表,我们应该使用什么方式做变更呢?

三、方案选择

下文中的 M 表示主库,S1 为从1 ,S2 为从2

方式优点缺点可行性
OnlineDDL原生,使用中间临时表ALGORITHM=COPY时,会阻塞DML,推荐版本>MySQL5.75星
Gh-ost使用binlog+回放线程代替触发器第三方工具,根据不同的参数导致执行时间较长4星
Pt-osc版本兼容性好,使用触发器保持主副表一致第三方工具,且使用限制较多3星
M-S1-S2时间可预估级联复制,人工操作1星

为什么我们没有选择前3种方案?

根据实际情况评估,本次业务侧的需求是此表24h都有业务流量,且不接受超过4小时的业务不可用时间

OnlineDDL的方式,ALGORITHM=COPY时,期间会阻塞DML(只读),最后主副表rename操作时(不可读写),直到DDL完成(其中需要的时间不确定)。

Gh-ost的方式,推荐的模式为连接从库,在主库转换,此模式对主库影响最小,可通过参数设置流控。致命的缺点是此工具的变更时间太长,4亿的表,测试环境使用了70个小时。最后我们还需要下发切换命令及手动删除中间表*_del。如果是1主2从还是比较推荐这种方式的,因为还有一个从库可以保障数据安全。

Pt-osc 和Gh-ost都属于第三方,Pt-osc 对大表的操作和OnlineDDL有一个共同的缺点就是失败回滚的代价很大。

如果是低版本如MySQL<5.7可以使用,理论上OnlineDDL是在MySQL5.6.7开始支持,刚开始支持的不是很好,可适当取舍。

最后我们选择了,DBA最喜爱(xin ku)的一种方式,在M-S1-S2级联复制下进行。

四、如何进行操作

  1. 新建一个S1的从库,构建M-S1-S2级联复制

  2. 使用OnlineDDL在S2上进行字段扩容 (优点是期间M-S1的主从不受影响)

  3. 扩容完成后,等待延迟同步M-S1-S2 (降低S2与M的数据差异,并进行数据验证)

  4. 移除S1,建立M-S2的主从关系(使S2继续同步M的数据)

  5. 备份S2恢复S1,建立M-S2-S1级联复制

  6. 应用停服,等待主从数据一致(优点是差异数据量的同步时间很短)

  7. 最终S2成为主库,S1为从库(应用需要修改前端连接信息)

  8. 应用进行回归验证

以上内容看上去很复杂,本质上就是备份恢复。读者可将其做为备选方案。分享一下具体步骤?

环境装备:开启Gtid,注意M,S1 binlog保存时长,磁盘剩余空间大于待变更表的2倍
show global variables like 'binlog_expire_logs_seconds'; # 默认604800
set global binlog_expire_logs_seconds=1209600; # 主库和级联主库都需要设置
1.搭建 1主2从的级联复制,M -> S1 -> S2 ,安装MySQL注意本次环境lower_case_table_names = 0 
2.在S2 上做字段扩容。 预估 10个小时
`参数设置:`
set global slave_type_conversions='ALL_NON_LOSSY'; # 防止复制报错SQL_Errno: 13146,属于字段类型长度不一致无法回放
set global interactive_timeout=144000;set global wait_timeout =144000;
`磁盘IO参数设置:`
set global innodb_buffer_pool_size=32*1024*1024*1024;# 增加buffer_pool 防止Error1206The total number of locks exceeds the lock table size 资源不足
set global sync_binlog=20000;set global innodb_flush_log_at_trx_commit=2;
set global innodb_io_capacity=600000;set global innodb_io_capacity_max=1200000; # innodb_io_capacity需要设置两次
show variables like '%innodb_io%'; # 验证以上设置
screen 下执行:
time mysql -S /data/mysql/3306/data/mysqld.sock -p'' dbname -NBe "ALTER TABLE tablename MODIFY COLUMN open_id VARCHAR(500) NULL DEFAULT NULL COMMENT 'Id' COLLATE 'utf8mb4_bin';"
查看DDL进度:
SELECT EVENT_NAME, WORK_COMPLETED, WORK_ESTIMATED  FROM performance_schema.events_stages_current;
3.扩容完成后,等待延迟同步M-S1-S2 
数据同步至主从一致,对比主从Gtid
4.移除S1,建立M-S2的主从关系
S1 (可选)
stop slave;
reset slave all;
systemctl stop mysql_3306
S2
stop slave;
reset slave all;
# MASTER_HOST='M主机IP'  
CHANGE MASTER TO
  MASTER_HOST='',
  MASTER_USER='',
  MASTER_PASSWORD=',
  MASTER_PORT=3306,
  MASTER_AUTO_POSITION=1,
  MASTER_CONNECT_RETRY=10;
start slave; (flush privileges;# 验证数据可正常同步)
5.备份S2恢复S1,建立M-S2-S1级联复制
物理备份S2,重做S2->S1 级联主从
rm -rf binlog/*
rm -rf redolog/*
xtrabackup --defaults-file=/data/mysql/3306/my.cnf.3306 --move-back --target-dir=/data/actionsky/xtrabackup_recovery/data
chown -R mysql. data/
chown -R mysql. binlog/*
chown -R mysql. redolog/*
systemctl start mysql_3306
set global gtid_purged='';
reset slave all;
# MASTER_HOST='S2主机IP'  ,已扩容变更完的主机
CHANGE MASTER TO
  MASTER_HOST='',
  MASTER_USER='',
  MASTER_PASSWORD='',
  MASTER_PORT=3306,
  MASTER_AUTO_POSITION=1,
  MASTER_CONNECT_RETRY=10;
`MySQL8.0版本需要在上面语句中添加 GET_MASTER_PUBLIC_KEY=1; #防止 Last_IO_Errno: 2061 message: Authentication plugin 'caching_sha2_password' reported error: Authentication requires secure connection.`
start slave;
6.应用停服,等待主从数据一致
主库停服+可设置read_only+flush privileges,对比主从Gtid
7.最终S2成为主库,S1为从库
应用更改配置连接新主库。
S2上:
stop slave;reset slave all;
set global read_only=0;set global super_read_only=0;
`show master status\G 观察是否有新事务写入`

收尾:还原第2步的参数设置。
set global interactive_timeout=28800;set global wait_timeout =28800;
set global innodb_buffer_pool_size=8*1024*1024*1024;
set global slave_type_conversions='';
set global sync_binlog=1;set global innodb_flush_log_at_trx_commit=1;
set global innodb_io_capacity=2000;set global innodb_io_capacity_max=4000;

补充场景: 基于磁盘IO能力的测试

直接在主库上修改,且无流量的情况下:
场景1,磁盘是NVME的物理机,4亿数据大约需要5个小时(磁盘性能1G/s)。
场景2,磁盘是机械盘的虚拟机,此数据量大约需要40个小时(磁盘性能100M/s)

五、总结

  1. 使用级联,对于业务侧来说,时间成本主要在应用更改连接和回归验证。如果从库无流量,不需要等待业务低峰。
  2. OnlineDDL可通过修改参数,提高效率,其中双一参数会影响数据安全,推荐业务低峰期操作。
  3. Gh-ost 适合变更时间宽裕的场景,业务低峰期操作,可调整参数加快进度,自定义切换的时间。
  4. 以上方式均不推荐多个DDL同时进行,即并行DDL。
  5. 大表操作和大数据量操作,需要我们贴合场景找到合适的变更方案,不需要最优,需要合适。

福利时间:分享一个速查表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/433400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Vite工具构建OpenLayers应用

vite作为最近大火的前端构建工具,吸引了大批开发者和工具框架作者的关注。vite自称为下一代的构建工具,这是要取代webpack的节奏啊。openlayers最新版本的案例代码就使用了vite来构建,因此这一篇文章我们来给大家示范一下如何使用vite来构建一个基于openlayers的应用。 首先…

从「搭子」文化,看融云如何助力垂类社交应用增长

互联网人拜佛 be like &#x1f446;&#xff0c;主打的就是一个垂直和精准。关注【融云全球互联网通信云】了解更多 其实&#xff0c;这也是年轻人的交友现状。最近随着大学生“特种兵式”旅游出圈的“搭子”友情&#xff0c;就是这样。 “搭子”&#xff0c;AKA 垂直细分领…

怎么把图片拼接成长图,3招教你快速处理

怎么把图片拼接成长图的方法&#xff0c;有没有快速便捷可一键操作的呢&#xff1f;当我们把图片拼接成长图有很多优点&#xff0c;比如说我们在图片文件传输的时候就更加快捷方便&#xff0c;还有就是我们在图片展示的时候更加统一。虽然有这么多优点&#xff0c;但是如果我们…

【RobotFramework自动化测试】

robotframework介绍 RF是一个基于Python语言开发的&#xff0c;可扩展的&#xff0c;是以关键字驱动模式的自动化测试框架。RF最新的版本是2019 年7月份发布&#xff0c;7月份之前只支持python2.7&#xff0c;7月之后支持3.X的版本 robotframework的安装 安装python环境&…

【JUC】CAS

【JUC】CAS 文章目录 【JUC】CAS1. 概述2. Unsafe类 1. 概述 在Java并发编程中&#xff0c;CAS是一种非阻塞的算法&#xff0c;即Compare and Swap&#xff08;比较并交换&#xff09;。 CAS通过比较内存中某个位置的值和预期值&#xff0c;如果相同&#xff0c;则将该位置的…

springcloud各个组件搭配使用演示

springcloud各个组件使用demo Eureka服务注册中心 创建三个eureka服务注册中心,分别为: eureka-server1 spring:application:name: eureka-server1 server:port: 8001eureka:client:service-url:defaultZone: http://localhost:8002/eureka/,http://localhost:8003/eureka/…

EtherCAT和Ethernet的不同点有哪些, 通信周期又是什么意思?

小伙伴们&#xff0c;我们又来了。上期大概介绍了EtherCAT的一些特性&#xff0c;本期我们将会更详细的介绍一下EtherCAT的实现方式&#xff0c;通信周期的意义到底是什么、SDO和PDO到底是什么等概念。 首先要声明&#xff0c;尽管本期介绍略微深入&#xff0c;实际上小伙伴使…

超详细!腾讯NLP算法岗面经(已offer)

作者 | ZipZou 整理 | NewBeeNLP 面试锦囊之面经分享系列&#xff0c;持续更新中 可以后台回复"面试"加入交流讨论组噢 分享一篇旧文&#xff0c;希望大家都成功上岸~ 写在前面 首先来段简单的自我介绍&#xff1a;2021届硕士&#xff0c;硕士期间未有实习经历&…

【Micropython】ESP8266通过NTP同步本地RTC时间

【Micropython】ESP8266通过NTP同步本地RTC时间 &#x1f4cc;相关篇《【MicroPython esp8266】固件烧写教程》✨本案例基于Thonny平台开发。✨ &#x1f4cb;实时时钟 (RTC) &#x1f516;RTC属于machine模块中的子类。 datetime([value]): 获取或设置当前时间。如果没有指定…

GitLab合并操作自动构建Jenkins任务

最终实现当git库 有合并操作自动构建jenkins的指定任务 1、安装Build Authorization Token Root插件 Build Authorization Token Root&#xff1a;使用拥有读取权限的匿名用户访问&#xff0c;配置钩子链接时需要用到,如果不使用&#xff0c;每次访问链接都需要提供认证&#…

Rancher 部署带有密码认证 Elasticsearch 服务

Rancher 部署带有密码认证 Elasticsearch 服务 1. 工作负载部署 镜像地址 elasticsearch:7.6.2端口映射 NodePort 9200 -> 31627(随机)环境变量 node.namees1 network.host0.0.0.0 discovery.typesingle-node配置映射 新建配置映射&#xff0c;内容如下&#xff1a; xpack.…

Python VTK 绘制线条

前言&#xff1a; Python-VTK绘制线条&#xff0c;主要绘制直线和曲线 主要函数介绍&#xff1a; vtk.vtkPoints() 在VTK中用于定义点的类&#xff0c;使用points.InsertPoint(index, x, y, z) 即可插入点集。函数中&#xff0c;第一个参数是点的序号&#xff0c;后面是三个参…

垃圾回收面试总结

堆空间的基本结构 Java 的自动内存管理主要是针对对象内存的回收和对象内存的分配。同时&#xff0c;Java 自动内存管理最核心的功能是 堆 内存中对象的分配与回收。 Java 堆是垃圾收集器管理的主要区域&#xff0c;因此也被称作 GC 堆&#xff08;Garbage Collected Heap&am…

含可再生能源的配电网最佳空调负荷优化控制

目录 1 主要内容 2 部分代码 3 程序结果 4 程序链接 1 主要内容 该程序完美复现《Optimal air-conditioning load control in distribution network with intermittent renewables》&#xff0c;中文题目&#xff08;翻译&#xff09;为《含可再生能源的配电网最佳空调负荷…

如何快速用本地文件建立一个Url资源定位符

今天有一个需求&#xff0c;用easyExcel从服务端的一个Url来获取excel做处理。 搜了很多方案&#xff0c;首先要解决的一个问题就是&#xff0c;我得从一个Url获取一个excel&#xff0c;那就意味着我要上传一个文件到我的服务器上&#xff0c;把文件传递上去&#xff0c;然后访…

《API加速优化方案:多级缓存设计》

点击上方蓝字关注我们&#xff01; 这事情还得从两天前说起...话说迭代上了个接口&#xff0c;该接口横跨多个应用服务&#xff0c;链路如下图所示&#xff1a; 问题来了&#xff1a;通过skywalking&#xff0c;我们的监控到dev环境的该接口偶尔请求耗时很长&#xff0c;且抛异…

震撼开源!首个1万多人共同标注的35种语言的高质量对话数据集来啦

文 | 小戏 “数据”&#xff01;“数据”&#xff01;“数据”&#xff01; 大模型时代&#xff0c;最珍贵的是什么&#xff1f;是 Transformer 的架构吗&#xff1f;是 RLHF 的方法吗&#xff1f; 不是&#xff01;是数据&#xff0c;是高质量的数据&#xff0c;是高质量且开源…

科幻AI生活来临,博联版“贾维斯”让全屋智能触手可及

1 ChatGPT提升交互体验 解决人机语音交互痛点 据洛图科技(RUNTO)《中国智能音箱零售市场月度追踪》报告&#xff0c;2022年中国智能音箱市场销量为2631万台&#xff0c;市场销额达到75.3亿元。当前智能音箱已完成初轮用户普及&#xff0c;舒适的居家定制服务走入千家万户&…

低代码开发重要工具:jvs-logic(逻辑引擎)基础原理与功能架构

逻辑引擎介绍 逻辑引擎是一种能够处理逻辑表达式的程序&#xff0c;它能够根据用户输入的表达式计算出表达式的值。在实际应用中&#xff0c;逻辑引擎通常被用于处理规则引擎、决策系统、业务规则配置等领域&#xff0c;具有广泛的应用前景。 原理与核心功能描述 基础原理 …

JUC并发编程之CompletableFuture

Future future是java5新加的一个接口&#xff0c;他提供了一种异步并行计算的功能 接口定义了操作异步任务执行的一些方法&#xff0c;如获取异步任务的执行结果、取消任务的执行、判断任务是否被取消、判断任务是否执行完毕 目的&#xff1a;异步多线程执行且有返回结果&#…