揭秘MySQL主从复制：打造高可用性与数据冗余的强效引擎

作者简介：我是团团儿，是一名专注于云计算领域的专业创作者，感谢大家的关注
座右铭：云端筑梦，数据为翼，探索无限可能，引领云计算新纪元
个人主页：团儿.-CSDN博客

前言：

1.全年无故障率(非计划内故障停机)

2.高可用架构方案

正文：

一.MySQL Replication(主从复制)

1.职责

2. 主从复制介绍

3. 主从复制的前提 (搭建主从复制)

4. 主从复制搭建过程(生产)

（1）两台服务器实现主从：

master: 192.168.8.10

slave: 192.168.8.20

（2）主库创建复制用户

（3） "复制历史数据"

主:

从:

（4）告诉从库信息

先查看主库的二进制日志名和position号：

在从库使用命令连接主库：

（5）从库开启复制线程(IO,SQL)

（6）在从库检查主从复制状态

（7）测试主从同步

主库:

从库:

二.主从复制原理 *****

1.主从复制中涉及的文件

主库:

从库:

2.主从复制中涉及的线程

主库:

从库:

3.主从复制工作(过程)原理******

补充说明:

4.主从复制监控

命令:

主库有关的信息(master.info):

从库relay应用信息有关的(relay.info):

从库线程运行状态(排错)

过滤复制有关的信息:

从库延时主库的时间(秒):

延时从库（延时误操作）:

GTID复制有关的状态信息

5.主从复制故障 *****

5.1 IO 线程故障

(1) 连接主库: connecting

网络,连接信息错误或变更了,防火墙,连接数上限排查思路:

解决:

(2) 请求Binlog

解决：

终极解决方案:

(3) 存储binlog到relaylog

5.2 SQL线程故障

合理处理方法:

暴力的解决方法

方法一：

方法二：

常见错误代码:

为了避免SQL线程故障

(1) 从库只读

(2) 使用读写分离中间件

6.主从延时监控及原因 *****

6.1 主库方面原因

(1) binlog写入不及时

(2) 默认情况下dump_t 是串行传输binlog *****

(3) 主库极其繁忙

6.2 从库方面原因

6.3 主从延时的监控

主库方面原因的监控

主库:

从库

从库方面原因监控:

拿了多少:

执行了多少:

前言：

1.全年无故障率(非计划内故障停机)

99.9% 0.001*365*24*60 525.6Min
99.99% 0.0001*365*24*60 52.56Min
99.999% 0.00001*365*24*60 5.256Min

2.高可用架构方案

（1）负载均衡:有一定的高可用性
   LVS Nginx haproxy
（2）主备系统:有高可用性,但是需要切换,是单活的架构
   Keepalived , MHA, MMM
（3）真正高可用(多活系统):
   NDB Cluster Oracle RAC Sybase cluster , InnoDB Cluster（MGR）,PXC(percona) , MGC(mariadb)

本文将带领大家深入探索mysql之主从复制的奥秘！

正文：

一.MySQL Replication(主从复制)

1.职责

（1）搭建主从复制
（2）主从原理熟悉
（3）主从的故障处理
（4）主从延时，同步不及时
（5）主从的特殊架构（过滤复制、延时从库）的配置使用
（6）主从架构的演变（读写分离、高可用、分布式架构）

2. 主从复制介绍

(1) 主从复制基于binlog来实现的
(2) 主库发生新的操作,都会记录binlog
(3) 从库取得主库的binlog进行回放
(4) 主从复制的过程是异步

3. 主从复制的前提 (搭建主从复制)

(1) 2个或以上的数据库实例
(2) 主库需要开启二进制日志
(3) server_id要不同,区分不同的节点
(4) 主库需要建立专用的复制用户 (replication slave)
(5) 从库应该通过备份主库、恢复的方法进行复制历史数据
(6) 人为告诉从库一些复制信息(ip port user pass,二进制日志起点)
(7) 从库应该开启专门的复制线程

4. 主从复制搭建过程(生产)

（1）两台服务器实现主从：

master: 192.168.8.10

cat > /etc/my.cnf << EOF
[mysqld]
user=mysql
basedir=/usr/local/mysql
datadir=/usr/local/mysql/data
socket=/tmp/mysql.sock
server_id=1
log_bin=/data/binlog/master-bin
port=3306
[mysql]
socket=/tmp/mysql.sock
prompt=master>
EOF

mkdir -p /data/binlog
chown -R mysql.mysql /data 

systemctl restart mysqld

slave: 192.168.8.20

cat > /etc/my.cnf << EOF
[mysqld]
user=mysql
basedir=/usr/local/mysql
datadir=/usr/local/mysql/data
socket=/tmp/mysql.sock
server_id=2
log_bin=/data/binlog/slave-bin
port=3306
[mysql]
socket=/tmp/mysql.sock
prompt=slave>
EOF

mkdir -p /data/binlog
chown -R mysql.mysql /data 

systemctl restart mysqld

（2）主库创建复制用户

登录数据库：

grant replication slave on *.* to repl@'192.168.8.%' identified by '123';

（3） "复制历史数据"

主:

mysqldump -uroot  -A --master-data=2 --single-transaction -R -E --triggers >/tmp/full.sql
scp /tmp/full.sql  root@192.168.10/root

从:

set sql_log_bin=0;
source /root/full.sql
set sql_log_bin=1;

（4）告诉从库信息

先查看主库的二进制日志名和position号：

    show master status;

在从库使用命令连接主库：

CHANGE MASTER TO   
       MASTER_HOST='192.168.8.9',  
       MASTER_USER='repl',  
       MASTER_PASSWORD='123',  
       MASTER_PORT=3306,  
       MASTER_LOG_FILE='master-bin.000001',  
       MASTER_LOG_POS=447,  
       MASTER_CONNECT_RETRY=10;

（5）从库开启复制线程(IO,SQL)

start slave;

（6）在从库检查主从复制状态

show slave status \G

显示信息：
Slave_IO_Running: Yes
Slave_SQL_Running: Yes

（7）测试主从同步

主库:

create database ms;
use ms;
create table t1 (id int,name varchar(20));
insert into t1 values (1,'z3'),(2,'l4'),(3,'w5');

从库:

show databases;
use ms;
select * from t1;

二.主从复制原理 *****

1.主从复制中涉及的文件

主库:

binlog 主库的二进制日志

从库:

relaylog         中继日志
   master.info     主库信息文件
   relaylog.info    relaylog应用的信息

2.主从复制中涉及的线程

主库:

Binlog_Dump Thread : DUMP_T

从库:

SLAVE_IO_THREAD : IO_T
SLAVE_SQL_THREAD : SQL_T

3.主从复制工作(过程)原理******

1.从库执行change master to 命令(主库的连接信息+复制的起点)
2.从库会将以上信息,记录到master.info文件
3.从库执行 start slave 命令,立即开启IO_T和SQL_T
4. 从库 IO_T,读取master.info文件中的信息,获取到IP,PORT,User,Pass,binlog的位置信息
5. 从库IO_T请求连接主库,主库专门提供一个DUMP_T,负责和IO_T交互
6. IO_T根据binlog的位置信息(mysql-bin.000004 , 444),请求主库新的binlog
7. 主库通过DUMP_T将最新的binlog,通过网络TP给从库的IO_T
8. IO_T接收到新的binlog日志,存储到TCP/IP缓存,立即返回ACK给主库,并更新master.info
9.IO_T将TCP/IP缓存中数据,转储到磁盘relaylog中.
10. SQL_T读取relay.info中的信息,获取到上次已经应用过的relaylog的位置信息
11. SQL_T会按照上次的位置点回放最新的relaylog,再次更新relay.info信息
12. 从库会自动purge应用过relay进行定期清理

补充说明:

一旦主从复制构建成功,主库当中发生了新的变化,都会通过dump_T发送信号给IO_T,增强了主从复制的实时性.

4.主从复制监控

命令:

show slave status \G

主库有关的信息(master.info):

Master_Host: 192.168.8.9
Master_User: repl
Master_Port: 3306
Connect_Retry: 10
*******************************
Master_Log_File: mysql-bin.000001
Read_Master_Log_Pos: 608

*******************************

从库relay应用信息有关的(relay.info):

Relay_Log_File: mysql-relay-bin.000002
Relay_Log_Pos: 479
Relay_Master_Log_File: mysql-bin.000001

从库线程运行状态(排错)

Slave_IO_Running: Yes
Slave_SQL_Running: Yes
Last_IO_Errno: 0
Last_IO_Error:
Last_SQL_Errno: 0
Last_SQL_Error:

过滤复制有关的信息:

Replicate_Do_DB:
Replicate_Ignore_DB:
Replicate_Do_Table:
Replicate_Ignore_Table:
Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:

从库延时主库的时间(秒):

Seconds_Behind_Master: 0

延时从库（延时误操作）:

SQL_Delay: 0
SQL_Remaining_Delay: NULL

GTID复制有关的状态信息

Retrieved_Gtid_Set:
Executed_Gtid_Set:
Auto_Position: 0

5.主从复制故障 *****

5.1 IO 线程故障

(1) 连接主库: connecting

网络,连接信息错误或变更了,防火墙,连接数上限
排查思路:

1. 使用复制用户手工登录
测试是否用户名、密码、IP出错。

解决:

从库
1. stop slave        #停止同步
2. reset slave all;     #清空master.info
3. change master to ...   #重新查看master，再次连接master
4. start slave       #再次开启同步

(2) 请求Binlog

binlog 没开
binlog 损坏,不存在

解决：

主库开启binlog

终极解决方案:

主库 reset master 处理:
从库

stop slave ;
reset slave all; 
CHANGE MASTER TO 
MASTER_HOST='192.168.8.10',
MASTER_USER='repl',
MASTER_PASSWORD='123',
MASTER_PORT=3306,
MASTER_LOG_FILE='master-bin.000001',
MASTER_LOG_POS=154,
MASTER_CONNECT_RETRY=10;
start slave;

(3) 存储binlog到relaylog

5.2 SQL线程故障

relay-log损坏
回放relaylog
研究一条SQL语句为什么执行失败?
insert delete update ---> t1 表不存在
create table t1 ---> t1 已存在
约束冲突(主键,唯一键,非空..)

合理处理方法:

把握一个原则,一切以主库为准进行解决.
如果出现问题,尽量进行反操作
最直接稳妥办法,重新构建主从

暴力的解决方法

方法一：

stop slave; 
set global sql_slave_skip_counter = 1;
start slave;

#将同步指针向下移动一个，如果多次不同步，可以重复操作。
start slave;

方法二：

/etc/my.cnf

slave-skip-errors = 1032,1062,1007

常见错误代码:

1007:对象已存在
1032:无法执行DML,可能对象不存在
1062:主键冲突,或约束冲突

但是，以上操作有时是有风险的，最安全的做法就是重新构建主从。把握一个原则,一切以主库为主.

为了避免SQL线程故障

(1) 从库只读

read_only
super_read_only

(2) 使用读写分离中间件

amoeba
atlas
mycat
ProxySQL
MaxScale

6.主从延时监控及原因 *****

6.1 主库方面原因

(1) binlog写入不及时

sync_binlog=1

(2) 默认情况下dump_t 是串行传输binlog *****

在并发事务量大时或者大事务,由于dump_t 是串型工作的,导致传送日志较慢
如何解决问题?
必须GTID,使用Group commit方式.可以支持DUMP_T并行

(3) 主库极其繁忙

慢语句
锁等待
从库个数
网络延时

6.2 从库方面原因

(1) 传统复制(Classic)中 *****

如果主库并发事务量很大,或者出现大事务
由于从库是单SQL线程,导致,不管传的日志有多少,只能一次执行一个事务.
5.6 版本,有了GTID,可以实现多SQL线程,但是只能基于不同库的事务进行并发回放.(database)
5.7 版本中,有了增强的GTID,增加了seq_no,增加了新型的并发SQL线程模式(logical_clock),MTS技术
(2) 主从硬件差异太大
(3) 主从的参数配置
(4) 从库和主库的索引不一致
(5) 版本有差异

6.3 主从延时的监控

show slave  status\G
Seconds_Behind_Master: 0

主库方面原因的监控

主库:

show master status ;

File: mysql-bin.000001
Position: 1373

从库

Master_Log_File: mysql-bin.000001
Read_Master_Log_Pos: 1373

从库方面原因监控:

拿了多少:

Master_Log_File: mysql-bin.000001
Read_Master_Log_Pos: 691688

执行了多少:

Relay_Log_File: db01-relay-bin.000004
Relay_Log_Pos: 690635
Exec_Master_Log_Pos: 691000
Relay_Log_Space: 690635

期待您的关注~