目录
一.MHA概述
1.1 什么是MHA
1.2 MHA的组成
1.3 MHA的特点
二.MHA的工作原理
2.1 MHA的优点总结
三、实现过程
3.1 准备实验 Mysql 的 Replication 环境
3.1.1 相关配置
3.1.2 初始主节点 master 的配置
3.1.3 所有 slave 节点依赖的配置
3.1.4 配置一主多从复制架构
3.2 安装配置MHA
3.2.1 在 master 上进行授权
3.2.2 准备 ssh 互通环境
3.2.3 安装 MHA 包
3.2.4 初始化 MHA ,进行配置
3.2.5 定义 MHA 管理配置文件
3.2.6 对四个节点进行检测
3.3 启动 MHA
3.4 测试 MHA 故障转移
3.4.1 在 master 节点关闭 mariadb 服务,模拟主节点数据崩溃
3.4.2 在 manger 节点查看日志
3.5 提供新的从节点以修复复制集群
3.6 新节点提供后再次执行检查操作
3.7新节点上线, 故障转换恢复注意事项
一.MHA概述
1.1 什么是MHA
MHA(MasterHigh Availability)是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。
MHA 的出现就是解决MySQL 单点故障的问题。
MySQL故障切换过程中,MHA能做到0-30秒内自动完成故障切换操作。
MHA能在故障切换的过程中最大程度上保证数据的一致性,以达到真正意义上的高可用。
1.2 MHA的组成
1)MHA Node(数据节点)
MHA Node 运行在每台 MySQL 服务器上。
2)MHA Manager(管理节点)
1. MHA Manager 可以单独部署在一台独立的机器上,管理多个 master-slave 集群;也可以部署 在一台 slave 节点上。
2. MHA Manager 会定时探测集群中的 master 节点。当 master 出现故障时,它可以自动将最新 数据的 slave 提升为新的 master, 然后将所有其他的 slave 重新指向新的 master。整个故 障转移过程对应用程序完全透明。
1.3 MHA的特点
1. 自动故障切换过程中,MHA试图从宕机的主服务器上保存二进制日志,最大程度的保证数据 不丢失。
2. 使用半同步复制,可以大大降低数据丢失的风险,如果只有一个slave已经收到最新的二进制日志,MHA可以将最新的二进制日志应用于其他所有的slave服务器上,因此可以保证所有节点的数据一致性
3. 目前MHA支持一主多从架构,最少三台服务器,即一主两从。
二.MHA的工作原理
相较于其它HA软件,MHA的目的在于维持MySQL Replication中Master库的高可用性,其最大特点是可以修复多个Slave之间的差异日志,最终使所有Slave保持数据一致,然后从中选择一个充当新的Master,并将其它Slave指向它。
1.从宕机崩溃的master保存二进制日志事件(binlogevents)。 2. 识别含有最新更新的slave。 3.应用差异的中继日志(relay log)到其它slave。 4.应用从master保存的二进制日志事件(binlogevents)。 5.提升一个slave为新master。 使其它的slave连接新的master进行复制。
目前MHA主要支持一主多从的架构,要搭建MHA,要求一个复制集群中必须最少有三台数据库服务器,一主二从,即一台充当master,一台充当备用master,另外一台充当从库,因为至少需要三台服务器。
2.1 MHA的优点总结
- 自动的故障检测与转移,通常在10-30秒以内
- MHA还提供在线主库切换的功能,能够安全地切换当前运行的主库到一个新的主库中(通过将从库提升为主库),大概0.5-2秒内即可完成。
- 很好地解决了主库崩溃数据的一致性问题。
- 不需要对当前的mysql环境做重大修改。
- 不需要在现有的复制框架中添加额外的服务器,仅需要一个manager节点,而一个Manager能管理多套复制,所以能大大地节约服务器的数量。
- 性能优秀,可以工作在半同步和异步复制框架,支持gtid,当监控mysql状态时,仅需要每隔N秒向master发送ping包(默认3秒),所以对性能无影响。你可以理解为MHA的性能和简单的主从复制框架性能一样。
- 只要replication支持的存储引擎都支持MHA,不会局限于innodb。
- 对于一般的keepalived高可用,当vip在一台机器上的时候,另一台机器是闲置的,而MHA中并无闲置主机。
三、实现过程
3.1 准备实验 Mysql 的 Replication 环境
3.1.1 相关配置
MHA 对 MYSQL 复制环境有特殊要求,例如各节点都要开启二进制日志及中继日志,各从节点必须显示启用其read-only
属性,并关闭relay_log_purge
功能等,这里对配置做事先说明。 为了方便我们后期的操作,我们在各节点的/etc/hosts文件配置内容中添加如下内容
192.168.37.111 node1.keer.com node1
192.168.37.122 node2.keer.com node2
192.168.37.133 node3.keer.com node3
192.168.37.144 node4.keer.com node4
这样的话,我们就可以通过 host 解析节点来打通私钥访问,会方便很多。
3.1.2 初始主节点 master 的配置
我们需要修改 master 的数据库配置文件来对其进行初始化配置
[root@master ~]# vim /etc/my.cnf
[mysqld]
server-id = 1 //复制集群中的各节点的id均必须唯一
log-bin = master-log //开启二进制日志
relay-log = relay-log //开启中继日志
skip_name_resolve //关闭名称解析(非必须)
[root@master ~]# systemctl restart mariadb
3.1.3 所有 slave 节点依赖的配置
我们修改两个 slave 的数据库配置文件,两台机器都做如下操作:
[root@slave1 ~]# vim /etc/my.cnf
[mysqld]
server-id = 2 //复制集群中的各节点的id均必须唯一;
relay-log = relay-log //开启中继日志
log-bin = master-log //开启二进制日志
read_only = ON //启用只读属性
relay_log_purge = 0 //是否自动清空不再需要中继日志
skip_name_resolve //关闭名称解析(非必须)
log_slave_updates = 1 //使得更新的数据写进二进制日志中
[root@slave1 ~]# systemctl restart mariadb
[root@slave2 ~]# vim /etc/my.cnf
[mysqld]
server-id = 3 //复制集群中的各节点的id均必须唯一;
relay-log = relay-log //开启中继日志
log-bin = master-log //开启二进制日志
read_only = ON //启用只读属性
relay_log_purge = 0 //是否自动清空不再需要中继日志
skip_name_resolve //关闭名称解析(非必须)
log_slave_updates = 1 //使得更新的数据写进二进制日志中
[root@slave2 ~]# systemctl restart mariadb
3.1.4 配置一主多从复制架构
master 节点上
MariaDB [(none)]>grant replication slave,replication client on *.* to 'slave'@'192.168.%.%' identified by 'keer';
MariaDB [(none)]> show master status;
slave 节点上:
MariaDB [(none)]> change master to master_host='192.168.37.122',
-> master_user='slave',
-> master_password='keer',
-> master_log_file='mysql-bin.000001',
-> master_log_pos=415;
MariaDB [(none)]> start slave;
MariaDB [(none)]> show slave status\G;
3.2 安装配置MHA
3.2.1 在 master 上进行授权
在所有 Mysql 节点授权拥有管理权限的用户可在本地网络中有其他节点上远程访问。 当然, 此时仅需要且只能在 master 节点运行类似如下 SQL 语句即可。
MariaDB [(none)]> grant all on *.* to 'mhaadmin'@'192.168.%.%' identified by 'mhapass';
3.2.2 准备 ssh 互通环境
MHA集群中的各节点彼此之间均需要基于ssh互信通信,以实现远程控制及数据管理功能。简单起见,可在Manager节点生成密钥对儿,并设置其可远程连接本地主机后, 将私钥文件及authorized_keys文件复制给余下的所有节点即可。
下面操作在所有节点上操作:
[root@manager ~]# ssh-keygen -t rsa
[root@manager ~]# ssh-copy-id -i .ssh/id_rsa.pub root@node1
当四台机器都进行了上述操作以后,我们可以在 manager 机器上看到如下文件:
[root@manager ~]# cd .ssh/
[root@manager .ssh]# ls
authorized_keys id_rsa id_rsa.pub known_hosts
[root@manager .ssh]# cat authorized_keys
四台机器的公钥都已经在authorized_keys
这个文件中了,接着,我们只需要把这个文件发送至另外三台机器,这四台机器就可以实现 ssh 无密码互通了:
[root@manager .ssh]# scp authorized_keys root@node2:~/.ssh/
[root@manager .ssh]# scp authorized_keys root@node3:~/.ssh/
[root@manager .ssh]# scp authorized_keys root@node4:~/.ssh/
当然,我们也可以在机器上实验一下,看看 ssh 是否还需要输入密码。
3.2.3 安装 MHA 包
在本步骤中, Manager节点需要另外多安装一个包。具体需要安装的内容如下:
四个节点都需安装:
mha4mysql-node-0.56-0.el6.norch.rpm
Manager 节点另需要安装:mha4mysql-manager-0.56-0.el6.noarch.rpm
我们使用rz
命令分别上传,然后使用yum
安装即可。
[root@manager ~]# rz
[root@manager ~]# ls
anaconda-ks.cfg initial-setup-ks.cfg Pictures
Desktop mha4mysql-manager-0.56-0.el6.noarch.rpm Public
Documents mha4mysql-node-0.56-0.el6.noarch.rpm Templates
Downloads Music Videos
[root@manager ~]# yum install -y mha4mysql-node-0.56-0.el6.noarch.rpm
[root@manager ~]# yum install -y mha4mysql-manager-0.56-0.el6.noarch.rpm
3.2.4 初始化 MHA ,进行配置
Manager 节点需要为每个监控的 master/slave 集群提供一个专用的配置文件,而所有的 master/slave 集群也可共享全局配置。全局配置文件默认为/etc/masterha_default.cnf
,其为可选配置。如果仅监控一组 master/slave 集群,也可直接通过 application 的配置来提供各服务器的默认配置信息。而每个 application 的配置文件路径为自定义。具体操作见下一步骤。
3.2.5 定义 MHA 管理配置文件
为MHA专门创建一个管理用户, 方便以后使用, 在mysql的主节点上, 三个节点自动同步:
mkdir /etc/mha_master
vim /etc/mha_master/mha.cnf
配置文件内容如下
[server default] //适用于server1,2,3个server的配置
user=mhaadmin //mha管理用户
password=mhapass //mha管理密码
manager_workdir=/etc/mha_master/app1 //mha_master自己的工作路径
manager_log=/etc/mha_master/manager.log // mha_master自己的日志文件
remote_workdir=/mydata/mha_master/app1 //每个远程主机的工作目录在何处
ssh_user=root // 基于ssh的密钥认证
repl_user=slave //数据库用户名
repl_password=magedu //数据库密码
ping_interval=1 //ping间隔时长
[server1] //节点2
hostname=192.168.37.133 //节点2主机地址
ssh_port=22 //节点2的ssh端口
candidate_master=1 //将来可不可以成为master候选节点/主节点
[server2]
hostname=192.168.37.133
ssh_port=22
candidate_master=1
[server3]
hostname=192.168.37.144
ssh_port=22
candidate_master=1
3.2.6 对四个节点进行检测
1)检测各节点间 ssh 互信通信配置是否 ok
我们在 Manager 机器上输入下述命令来检测:
[root@manager ~]# masterha_check_ssh -conf=/etc/mha_master/mha.cnf
如果最后一行显示为[info]All SSH connection tests passed successfully.
则表示成功。
2)检查管理的MySQL复制集群的连接配置参数是否OK
[root@manager ~]# masterha_check_repl -conf=/etc/mha_master/mha.cnf
我们发现检测失败,这可能是因为从节点上没有账号,因为这个架构,任何一个从节点, 将有可能成为主节点, 所以也需要创建账号。
因此,我们需要在master节点上再次执行以下操作:
MariaDB [(none)]> grant replication slave,replication client on *.* to 'slave'@'192.168.%.%' identified by 'keer';
MariaDB [(none)]> flush privileges;
执行完这段操作之后,我们再次运行检测命令:
[root@manager ~]# masterha_check_repl -conf=/etc/mha_master/mha.cnf
Thu Nov 23 09:07:08 2017 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.
Thu Nov 23 09:07:08 2017 - [info] Reading application default configuration from /etc/mha_master/mha.cnf..
Thu Nov 23 09:07:08 2017 - [info] Reading server configuration from /etc/mha_master/mha.cnf..
……
MySQL Replication Health is OK.
3.3 启动 MHA
我们在 manager 节点上执行以下命令来启动 MHA:
[root@manager ~]# nohup masterha_manager -conf=/etc/mha_master/mha.cnf &> /etc/mha_master/manager.log &
[1] 7598
启动成功以后,我们来查看一下 master 节点的状态:
[root@manager ~]# masterha_check_status -conf=/etc/mha_master/mha.cnf
mha (pid:7598) is running(0:PING_OK), master:192.168.37.122
上面的信息中“mha (pid:7598) is running(0:PING_OK)”表示MHA服务运行OK,否则, 则会显示为类似“mha is stopped(1:NOT_RUNNING).”
如果,我们想要停止 MHA ,则需要使用 stop 命令:
[root@manager ~]# masterha_stop -conf=/etc/mha_master/mha.cnf
3.4 测试 MHA 故障转移
3.4.1 在 master 节点关闭 mariadb 服务,模拟主节点数据崩溃
[root@master ~]# killall -9 mysqld mysqld_safe
[root@master ~]# rm -rf /var/lib/mysql/*
3.4.2 在 manger 节点查看日志
[root@manager ~]# tail -200 /etc/mha_master/manager.log
……
Thu Nov 23 09:17:19 2017 - [info] Master failover to 192.168.37.133(192.168.37.133:3306) completed successfully.
表示 manager 检测到192.168.37.122节点故障, 而后自动执行故障转移, 将192.168.37.133提升为主节点。
注意,故障转移完成后, manager将会自动停止, 此时使用 masterha_check_status 命令检测将会遇到错误提示, 如下所示:
[root@manager ~]# masterha_check_status -conf=/etc/mha_master/mha.cnf
mha is stopped(2:NOT_RUNNING).
3.5 提供新的从节点以修复复制集群
原有 master 节点故障后,需要重新准备好一个新的 MySQL 节点。基于来自于master 节点的备份恢复数据后,将其配置为新的 master 的从节点即可。注意,新加入的节点如果为新增节点,其 IP 地址要配置为原来 master 节点的 IP,否则,还需要修改 mha.cnf 中相应的 ip 地址。随后再次启动 manager ,并再次检测其状态。
我们就以刚刚关闭的那台主作为新添加的机器,来进行数据库的恢复:
原本的 slave1 已经成为了新的主机器,所以,我们对其进行完全备份,而后把备份的数据发送到我们新添加的机器上:
[root@slave1 ~]# mkdir /backup
[root@slave1 ~]# mysqldump --all-database > /backup/mysql-backup-`date +%F-%T`-all.sql
[root@slave1 ~]# scp /backup/mysql-backup-2017-11-23-09\:57\:09-all.sql root@node2:~
然后在 node2 节点上进行数据恢复:
[root@master ~]# mysql < mysql-backup-2017-11-23-09\:57\:09-all.sql
接下来就是配置主从。照例查看一下现在的主的二进制日志和位置,然后就进行如下设置:
MariaDB [(none)]> change master to master_host='192.168.37.133', master_user='slave', master_password='keer', master_log_file='mysql-bin.000006', master_log_pos=925;
MariaDB [(none)]> start slave;
MariaDB [(none)]> show slave status\G;
Slave_IO_State: Waiting for master to send event
Master_Host: 192.168.37.133
Master_User: slave
Master_Port: 3306
Connect_Retry: 60
Master_Log_File: mysql-bin.000006
Read_Master_Log_Pos: 925
Relay_Log_File: mysql-relay-bin.000002
Relay_Log_Pos: 529
Relay_Master_Log_File: mysql-bin.000006
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
……
3.6 新节点提供后再次执行检查操作
我们来再次检测状态:
[root@manager ~]# masterha_check_repl -conf=/etc/mha_master/mha.cnf
记录日志:
[root@manager ~]# masterha_manager -conf=/etc/mha_master/mha.cnf > /etc/mha_master/manager.log 2>&1 &
[1] 10012
启动成功以后,我们来查看一下 master 节点的状态:
[root@manager ~]# masterha_check_status -conf=/etc/mha_master/mha.cnf
mha (pid:9561) is running(0:PING_OK), master:192.168.37.133
3.7新节点上线, 故障转换恢复注意事项
1)在生产环境中, 当你的主节点挂了后, 一定要在从节点上做一个备份, 拿着备份文件把主节 点手动提升为从节点, 并指明从哪一个日志文件的位置开始复制
2)每一次自动完成转换后, 每一次的(replication health )检测不ok始终都是启动不了必须手动修 复主节点, 除非你改配置文件
3)手动修复主节点提升为从节点后, 再次运行检测命令
[root@manager ~]# masterha_check_status -conf=/etc/mha_master/mha.cnf
mha (pid:9561) is running(0:PING_OK), master:192.168.37.133
4)再次运行起来就恢复成功了
[root@manager ~]# masterha_manager --conf=/etc/mha_master/mha.cnf