【MySQL日志与备份篇】主从复制

主从复制

文章目录

主从复制
- 1. 概述
- 2. 主从复制的原理
- - 2.1 原理剖析
  - 2.2 复制的基本原则
- 3. 一主一从架构搭建
- - 3.1 准备工作
  - 3.2 主机配置文件
  - 3.3 从机配置文件
  - 3.4 主机：建立账户并授权
  - 3.5 从机：配置需要复制的主机
  - 3.6 停止主从同步
  - 3.7 后续
- 4. 同步数据一致性问题
- - 4.1 理解主从延迟问题
  - 4.2 主从延迟问题原因
  - 4.3 如何减少主从延迟
  - 4.4 如何解决一致性问题
  - - 方法 1：异步复制
    - 方法 2：半同步复制
    - 方法 3：组复制

1. 概述

主从同步设计不仅可以提高数据库的吞吐量，还有以下 3 个方面的作用。

读写分离
数据备份
具有高可用性

在这里插入图片描述

2. 主从复制的原理

Slave 会从 Master 读取 binlog 来进行数据同步。

2.1 原理剖析

三个线程

实际上主从同步的原理就是基于 binlog 进行数据同步的。在主从复制过程中，会基于 3 个线程 来操作，一个主库线程，两个从库线程

在这里插入图片描述

二进制日志转储线程 （Binlog dump thread）是一个主库线程。当从库线程连接的时候，主库可以将二进制日志发送给从库，当主库读取事件（Event）的时候，会在 Binlog 上加锁，读取完成之后，再将锁释放掉。
从库 I/O 线程 会连接到主库，向主库发送请求更新 Binlog。这时从库的 I/O 线程就可以读取到主库的二进制日志转储线程发送的 Binlog 更新部分，并且拷贝到本地的中继日志（Relay log）。
从库 SQL 线程 会读取从库中的中继日志，并且执行日志中的事件，将从库中的数据与主库保持同步。

在这里插入图片描述

复制三步骤

Master 将写操作记录到二进制日志（ binlog ）；
Slave 将 Master 的binary log events拷贝到它的中继日志（ relay log ）；
Slave 重做中继日志中的事件，将改变应用到自己的数据库中。 MySQL复制是异步的且串行化的，而且重启后从 接入点 开始复制。

复制的最大问题：延时

2.2 复制的基本原则

每个 Slave 只有一个 Master
每个 Slave 只能有一个唯一的服务器ID
每个 Master 可以有多个 Slave

3. 一主一从架构搭建

一台主机用于处理所有 写请求 ，一台 从机 负责所有 读请求 ，架构图如下：

在这里插入图片描述

3.1 准备工作

准备 2台 CentOS 服务器
每台虚拟机上需要安装好MySQL (可以是MySQL8.0 )

3.2 主机配置文件

建议mysql版本一致且后台以服务运行，主从所有配置项都配置在 [mysqld] 节点下，且都是小写字母。

具体参数配置如下：

必选

#[必须]主服务器唯一ID
server-id=1
#[必须]启用二进制日志,指明路径。比如：自己本地的路径/log/mysqlbin
log-bin=log-bin

可选

#[可选] 0（默认）表示读写（主机），1表示只读（从机）
read-only=0
#设置日志文件保留的时长，单位是秒
binlog_expire_logs_seconds=6000
#控制单个二进制日志大小。此参数的最大和默认值是1GB
max_binlog_size=200M
#[可选]设置不要复制的数据库
binlog-ignore-db=test
#[可选]设置需要复制的数据库,默认全部记录。比如：binlog-do-db=master_slave
binlog-do-db=需要复制的主数据库名字
#[可选]设置binlog格式
binlog_format=ROW

3.3 从机配置文件

要求主从所有配置项都配置在 my.cnf 的 [mysqld] 栏位下，且都是小写字母。

必选

#[必须]从服务器唯一ID
server-id=2

可选

#[可选]启用中继日志
relay-log=mysql-relay

3.4 主机：建立账户并授权

MySQL 8.0以下版本

#在主机MySQL里执行授权主从复制的命令
GRANT REPLICATION SLAVE ON *.* TO 'slave1'@'从机器数据库IP' IDENTIFIED BY 'abc123';
#5.5,5.7

MySQL8，需要如下的方式建立账户，并授权slave：

CREATE USER 'slave1'@'%' IDENTIFIED BY '123456';
GRANT REPLICATION SLAVE ON *.* TO 'slave1'@'%';
#此语句必须执行。否则见下面。
ALTER USER 'slave1'@'%' IDENTIFIED WITH mysql_native_password BY '123456';
flush privileges;

注意：未执行上面语句，在从机执行show slave status\G时报错：
Last_IO_Error: error connecting to master ‘slave1@192.168.1.150:3306’ - retry-time: 60 retries: 1 message: Authentication plugin ‘caching_sha2_password’ reported error: Authentication requires secure connection.

查询Master的状态，并记录下File和Position的值。

show master status;

注意：执行完此步骤后不要再操作主服务器MySQL，防止主服务器状态值变化。

3.5 从机：配置需要复制的主机

步骤1：从机上复制主机的命令，需进入mysql命令模式

CHANGE MASTER TO
MASTER_HOST='主机的IP地址',
MASTER_USER='主机用户名',
MASTER_PASSWORD='主机用户名的密码',
MASTER_LOG_FILE='mysql-bin.具体数字',
MASTER_LOG_POS=具体值;

步骤2：

#启动slave同步
START SLAVE;

如果报错

在这里插入图片描述

可以执行如下操作，删除之前的relay_log信息。然后重新执行 CHANGE MASTER TO ... 语句即可。

mysql> reset slave; #删除SLAVE数据库的relaylog日志文件，并重新启用新的relaylog文件

接着，查看同步状态：

SHOW SLAVE STATUS\G;

在这里插入图片描述

如果不成功，可排查以下情况：

网络不通
账户密码错误
防火墙
mysql配置文件问题
连接服务器时语法
主服务器mysql权限

3.6 停止主从同步

停止主从同步命令
```
stop slave;
```
重新配置主从同步

如果停止从服务器复制功能，再使用需要重新配置主从。否则会报错，重新配置主从，需要在从机上执行
```
stop slave;

reset master; # 删除Master中所有的binlog文件，并将日志索引文件清空，重新开始所有新的日志文件（慎用）
```

3.7 后续

搭建主从复制：双主双从，待学习完Mycat再补充

4. 同步数据一致性问题

主从同步的要求：

读库和写库的数据一致(最终一致)；
写数据必须写到写库；
读数据必须到读库(不一定)；

4.1 理解主从延迟问题

进行主从同步的内容是二进制日志，它是一个文件，在进行 网络传输 的过程中就一定会 存在主从延迟（比如 500ms），这样就可能造成用户在从库上读取的数据不是最新的数据，也就是主从同步中的 数据不一致性 问题。

4.2 主从延迟问题原因

在网络正常的时候，日志从主库传给从库所需的时间是很短的，即T2-T1的值是非常小的。即，网络正常情况下，主备延迟的主要来源是备库接收完binlog和执行完这个事务之间的时间差。

主备延迟最直接的表现是，从库消费中继日志（relay log）的速度，比主库生产binlog的速度要慢。造成原因：

从库的机器性能比主库要差
从库的压力大
大事务的执行

举例1：一次性用delete语句删除太多数据

结论：后续再删除数据的时候，要控制每个事务删除的数据量，分成多次删除。

举例2：一次性用insert…select插入太多数据

举例3：大表DDL
比如在主库对一张500W的表添加一个字段耗费了10分钟，那么从节点上也会耗费10分钟。

4.3 如何减少主从延迟

降低多线程大事务并发的概率，优化业务逻辑
优化SQL，避免慢SQL， 减少批量操作 ，建议写脚本以update-sleep这样的形式完成
提高从库机器的配置 ，减少主库写binlog和从库读binlog的效率差
尽量采用 短的链路 ，也就是主库和从库服务器的距离尽量要短，提升端口带宽，减少binlog传输的网络延时
实时性要求的业务读强制走主库，从库只做灾备，备份

4.4 如何解决一致性问题

如果操作的数据存储在同一个数据库中，那么对数据进行更新的时候，可以对记录加写锁，这样在读取的时候就不会发生数据不一致的情况。但这时从库的作用就是 备份 ，并没有起到 读写分离 ，分担主库读压力 的作用。

读写分离情况下，解决主从同步中数据不一致的问题，就是解决主从之间 数据复制方式 的问题，如果按照数据一致性 从弱到强 来进行划分，有以下 3 种复制方式。

方法 1：异步复制

异步模式就是客户端提交 COMMIT 之后不需要等从库返回任何结果，而是直接将结果返回给客户端，这样做的好处是不会影响主库写的效率，但可能会存在主库宕机，而 Binlog 还没有同步到从库的情况，也就是此时的主库和从库数据不一致。这时候从从库中选择一个作为新主，那么新主则可能缺少原来主服务器中已提交的事务。所以，这种复制模式下的数据一致性是最弱的。

在这里插入图片描述

方法 2：半同步复制

MySQL5.5 版本之后开始支持半同步复制的方式。原理是在客户端提交 COMMIT 之后不直接将结果返回给客户端而是等待至少有一个从库接收到了 Binlog，并且写入到中继日志中，再返回给客户端。

这样做的好处就是提高了数据的一致性，当然相比于异步复制来说，至少多增加了一个网络连接的延迟，降低了主库写的效率。

在 MySQL5.7 版本中还增加了一个 rpl_semi_sync_master_wait_for_slave_count 参数，可以对应答的从库数量进行设置，默认为 1，也就是说只要有1个从库进行了响应，就可以返回给客户端。如果将这个参数调大可以提升数据一致性的强度，但也会增加主库等待从库响应的时间。

在这里插入图片描述

方法 3：组复制

异步复制和半同步复制都无法最终保证数据的一致性问题，半同步复制是通过判断从库响应的个数来决定是否返回给客户端，虽然数据一致性相比于异步复制有提升，但仍然无法满足对数据一致性要求高的场景，比如金融领域。MGR 很好地弥补了这两种复制模式的不足。

组复制技术，简称 MGR（MySQL Group Replication）。是 MySQL 在 5.7.17 版本中推出的一种新的数据复制技术，这种复制技术是基于 Paxos 协议的状态机复制。

MGR 是如何工作的

首先我们将多个节点共同组成一个复制组，在 执行读写（RW）事务 的时候，需要通过一致性协议层（Consensus 层）的同意，也就是读写事务想要进行提交，必须要经过组里“大多数人”（对应 Node 节点）的同意，大多数指的是同意的节点数量需要大于（N/2+1），这样才可以进行提交，而不是原发起方一个说了算。而针对 只读（RO）事务 则不需要经过组内同意，直接 COMMIT 即可。

在一个复制组内有多个节点组成，它们各自维护了自己的数据副本，并且在一致性协议层实现了原子消息和全局有序消息，从而保证组内数据的一致性。

在这里插入图片描述

MGR 将 MySQL 带入了数据强一致性的时代，是一个划时代的创新，其中一个重要的原因就是MGR 是基于 Paxos 协议的。Paxos 算法是由 2013 年的图灵奖获得者 Leslie Lamport 于 1990 年提出的，有关这个算法的决策机制可以搜一下。事实上，Paxos 算法提出来之后就作为 分布式一致性算法 被广泛应用，比如Apache 的 ZooKeeper 也是基于 Paxos 实现的。