keepalived服务详解与实验基于centos8

keepalived
- HA简介
- - 常用的高可用软件
  - keepalived简介
- keepalived常用模块
- keepalived功能简介
- keepalived常用文件
- keepalived配置文件详解
- keepalived实验1-上手
- - 环境准备
  - 安装服务
  - 主配置文件修改
  - 启动服务
  - 效果查看
- keepalived脑裂
- - 1. 脑裂现象简介
  - 2. 脑裂的原因
  - 3. 脑裂的预防和解决方案
  - 4. 脑裂的处理流程
- keepalived实验2-nginx+keepalived联动
- - 编写脚本，检测到nginx down，关闭keepalived服务使主备切换
  - 测试脚本
  - 修改keepalived配置脚本，使其调用
  - 验证
- keepalived 非抢占&延迟抢占
- - 不抢占
  - 延迟抢占
- keepalived 双主模式
- keeplived 通知脚本
- - 语法
  - 脚本
  - - 脚本解释
  - 脚本增加x权限并修改keepalived配置文件
  - 测试

keepalived

官网：http://keepalived.org/
官方文档：https://keepalived.org/doc/
官方文档：http://keepalived.org/documentation.html

HA简介

高可用，即HA，是指系统或服务能够在大部分时间内保持可用状态的能力。高可用性的设计目标是确保系统在面对硬件故障、软件错误、网络问题或其他意外情况时，能够持续提供服务而不中断或降低性能。

常用的高可用软件

heartbeat
keepalived（本文核心）
HAproxy

keepalived简介

keepalived是基于vrrp协议改进出的一种用于Linux主机上的高可用软件，用于进行L4的负载均衡（ipvs）。
keepalived的检查原理即vrrp协议是数通的一个常用协议，用于热备路由器，若主路由器宕机，备份路由器自动接管业务，无需修改配置，本文不过多赘述，可期待我后续文章或自行查阅别的文档。
keepalived为vip地址所在的节点生成ipvs规则(在配置文件中预先定义)，为ipvs集群的各RS做健康状态检测
keeplived支持基于脚本调用接口完成脚本中定义的功能，进而影响集群事务，以此支持nginx、haproxy等服务

分为主,备一般是2个节点.主备之间通过vrrp协议发送数据包沟通.
主给备定期发送数据包,备收到数据包表示主还活着,备无法收到数据包,表示主挂了,备胎转正了,接管用户请求流量.
vrrp协议使用组播的ip. 224.xx.xx.xx（可修改）

keepalived常用模块

官方文档：https://keepalived.org/doc/software_design.html

核心模块包含：
- LVS Framework: Uses the getsockopt and setsockopt calls to get and set options on sockets.
- Netfilter Framework: IPVS code that supports NAT and Masquerading
- Netlink Interface: Sets and removes VRRP virtual IPs on network interfaces.
- Multicast: VRRP advertisements are sent to the reserved VRRP MULTICAST group (224.0.0.18).
Core：是keepalived的核心，负责主进程的启动和维护，全局配置文件的加载解析等。
Check：负责healthchecker(健康检查)，包括了各种健康检查方式，以及对应的配置的解析包括LVS的配置解析；
Vrrp：VRRPD子进程，VRRPD子进程就是来实现VRRP协议；
Libipfwc：iptables(ipchains)库，配置LVS会用到；
Libipvs：虚拟服务集群，配置LVS会使用。

keepalived功能简介

提供负载均衡：以vip（虚拟ip）进行工作，提供L4的负载均衡（但实际是主备架构）
检测服务器状态：定时检查服务器状态，不正常时自动启用备份服务器

keepalived常用文件

主配置文件：/etc/keepalived/keepalived.conf
主程序文件：/etc/sysconfig/keepalived
/usr/sbin/keepalived
日志文件(keeplived没有自己的日志文件)：/var/log/messages

keepalived配置文件详解

配置文件keepalived.conf可以包含三个文本块：全局定义块、VRRP实例定义块及虚拟服务器定义块。全局定义块和虚拟服务器定义块是必须的，如果在只有一个负载均衡器的场合，就不须VRRP实例定义块。

Global definitions（全局配置）：定义邮件配置，route_id，vrrp配置，组播地址等
VRRP instance(s)：定义vrrp协议中的每个vrrp虚拟路由器的规则，基本信息,vrrp协议配置,vip,主备,网卡…经常改动部分.
Virtual server(s)：LVS集群的VS和RS

[全局定义块]
global_defs {
      notification_email {           			    # 指定keepalived在发生切换时需要发送email到的对象，一行一个;
         xxx@yyy.com	                      
      }	
     notification_email_from  root@localhost	    # 指定发件人
     smtp_server  127.0.0.1           			    # 指定smtp服务器地址
     smtp_connect_timeout 3          	            # 指定smtp连接超时时间
     router_id LVS_DEVEL             			    # 运行keepalived机器的标识
}	
[监控Nginx进程]			
vrrp_script	chk_nginx  {	
    script "/server/script/nginx.sh"      		    # 监控服务脚本，脚本需要有x执行权限；
    interval 2                    				    # 检测时间间隔(执行脚本间隔)
    weight 1	                                    # 权重
    user root                                       # 执行脚本的用户
}				
[VRRP实例定义块]				
vrrp_sync_group VG_1{                			    # 监控多个网段的实例
        group {			 	
  VI_1                     			                # 实例名1
  VI_2	
 }	
 notify_master /data/sh/nginx.sh          		    # 指定当切换到master时，执行的脚本
 notify_backup /data/sh/nginx.sh          		    # 指定当切换到backup时，执行的脚本
 notify   /data/sh/nginx.sh						    # 发生任何切换，均执行的脚本
 smtp_alert                         			    # 使用global_defs中提供的邮件地址和smtp服务器发送邮件通知；
}		
vrrp_instance VI_1 {		
    state BACKUP                    			    # 设置主机状态，MASTER|BACKUP
	nopreempt                       			    # 设置为不抢占
interface ens33                   			        # 对外提供服务的网络接口
lvs_sync_daemon_inteface ens33                       # 负载均衡器之间监控接口; 
    track_interface {               	 			# 设置额外的监控，网卡出现问题都会切换；
     ens33	
     ens37	
    }	
    mcast_src_ip                    			    # 发送组播包的地址，如果不设置默认使用绑定网卡的primary ip
    garp_master_delay              				    # 在切换到master状态后，延迟进行gratuitous ARP请求
    virtual_router_id 50            			    # VRID标记 ,路由ID，可通过#tcpdump vrrp查看
    priority 90                    				    # 优先级，优先级高者竞选为master
    advert_int 5                    			    # 检查间隔，默认5秒
    preempt_delay                   			    # 抢占延时，默认5分钟
    debug                           			    # debug日志级别
    authentication {                			    # 设置认证
        auth_type PASS              			    # 认证方式
        auth_pass 1111          				    # 认证密码
    }
	track_script {                      		    # 以脚本为监控chk_nginx；
        chk_nginx		
    }		
    virtual_ipaddress {             			    # 设置vip地址
        192.168.111.188
    }
}
注意：使用了脚本监控Nginx或者MYSQL，不需要下面虚拟服务器设置块。
[虚拟服务器定义块]
virtual_server 192.168.111.188 3306 {
    delay_loop 6                   	               # 健康检查时间间隔
    lb_algo rr                     	               # 调度算法rr|wrr|lc|wlc|lblc|sh|dh
    lb_kind DR                     				   # 负载均衡转发规则NAT|DR|TUN
    persistence_timeout  5        	     		   # 会话保持时间
    protocol TCP                   				   # 使用的协议
    real_server 192.168.1.12 3306 {	
               weight 1            				   # 默认为1,0为失效
               notify_up   <string> | <quoted-string> # 在检测到server up后执行脚本；
               notify_down <string> | <quoted-string> # 在检测到server down后执行脚本；
               TCP_CHECK {
               connect_timeout 3    		       # 连接超时时间;
               nb_get_retry  1     				   # 重连次数;
               delay_before_retry 1  			   # 重连间隔时间;
               connect_port 3306  				   # 健康检查的端口;
               }
       HTTP_GET {    
       url  {
          path /index.html          		       # 检测url，可写多个
          digest  24326582a86bee478bac72d5af25089e # 检测效验码
          # digest效验码获取方法：genhash -s IP -p 80 -u http://IP/index.html 
          status_code 200                          # 检测返回http状态码
      }
}
}

不过上述完整脚本非常复杂，实际上简单实用仅需以下内容即可：

[root@lb01 scripts]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalived

global_defs {
   router_id lb01  # 所有keepalived集群中router_id唯一
}

vrrp_instance VRRP_55 { # 实例名相同的在一个vrrp实例组中
    state MASTER # 只有一个master，可以有多个BACKUP
    interface ens33 # 使用的网口
    virtual_router_id 55 # vrrp id
    priority 100 # 优先级，越高越优先
    advert_int 1 # vrrp通告报文间隔1s
    authentication { # 认证模块
        auth_type PASS # 是否认证
        auth_pass 5555 # 认证密码
    }
    virtual_ipaddress { # 该vrrp实例的vip
        192.168.100.55 dev ens33 label ens33:0
    }
}

keepalived实验1-上手

环境准备

lb01  nginx+keeplived
lb02  (克隆lb01)

安装服务

rpm -qa | grep keepalived

yum install -y keepalived

主配置文件修改

具体的主配置文件参数，见上文配置详解

在这里插入图片描述

启动服务

# 关闭防火墙和selinux，不然会导致脑裂
systemctl stop firewalld
setenforce 0
systemctl start keeplived

效果查看

vip
抓包

keepalived脑裂

1. 脑裂现象简介

脑裂是指在多节点系统中，由于网络问题、节点故障或其他原因导致系统中的多个节点同时认为自己是活动的，从而产生数据不一致或服务中断的现象。在分布式系统中，脑裂是一个严重的问题，可能导致数据丢失或损坏，服务不可用，甚至系统崩溃。
在keeplived中，即主备均有vip

2. 脑裂的原因

脑裂通常由以下原因引起：

时钟同步问题：节点间的时间不一致可能导致节点对系统状态的理解产生分歧。
配置错误：不当的配置可能导致节点无法正确判断其他节点的状态。
节点故障：节点的硬件故障或软件异常可能导致节点行为异常。
防火墙：selinux和防火墙默认不放行vrrp流量，需要进行放行流量或关闭。

3. 脑裂的预防和解决方案

为了预防和解决脑裂问题，可以采取以下措施：

心跳检测：节点之间通过定期发送心跳消息来监控彼此的状态，一旦发现某个节点失联，可以及时采取措施。
时钟同步：使用NTP（网络时间协议）或其他同步机制来确保节点间的时间一致性。
监控和报警：实时监控系统的状态，一旦发现异常立即报警并采取措施。可以考虑只要BACKUP上出现vip，就让MASTER下线（非常粗暴的解决方式）

4. 脑裂的处理流程

当系统发生脑裂时，可以按照以下步骤进行处理：

检测脑裂：通过监控系统或日志分析，发现节点间通信异常。
隔离问题节点：将问题节点从服务中隔离，避免其继续影响系统状态。
故障排查：分析脑裂的原因，修复网络或配置问题。

keepalived实验2-nginx+keepalived联动

需求：在nginx服务down时，自动触发keepalived主备切换
keepalived是主机down才会切换，默认不会监控某个服务
可以修改主配置文件，增加脚本监控

编写脚本，检测到nginx down，关闭keepalived服务使主备切换

[root@lb01 scripts]# cat check_ngx.sh
#!/bin/bash
# 脚本用于检测nginx的进程是否等于0，nginx没有进程时就关闭keepalived服务
# 注意： 脚本名.sh不要写全服务名，不然在过滤进程时会将脚本过滤出来，导致出现错误
count=`ss -tunlp  | grep nginx | wc -l`
echo "ngx 端口数量 $count"

# -eq用于数值的比较，==用于字符串的比较；-ne不等于
if [ ${count} -eq 0 ]; then
        systemctl stop keepalived
fi

测试脚本

nginx存在

[root@lb01 scripts]# sh check_ngx.sh
ngx 端口数量 1
[root@lb01 scripts]# systemctl status keepalived.service
   Active: active (running) since Tue 2024-06-18 11:18:08 CST; 17min ago

nginx不存在

[root@lb01 scripts]# pkill nginx
[root@lb01 scripts]# sh check_ngx.sh
ngx 端口数量 0

[root@lb01 scripts]# systemctl status keepalived.service
   Active: inactive (dead) 

# 查看日志
[root@lb01 scripts]# tail -10 /var/log/messages
Jun 18 11:35:41 lb01 systemd[1]: nginx.service: Failed with result 'exit-code'.
Jun 18 11:35:44 lb01 systemd[1]: Stopping LVS and VRRP High Availability Monitor...
Jun 18 11:35:44 lb01 Keepalived[19322]: Stopping
Jun 18 11:35:45 lb01 Keepalived_vrrp[19323]: (VRRP_55) sent 0 priority
Jun 18 11:35:45 lb01 Keepalived_vrrp[19323]: (VRRP_55) removing VIPs.
Jun 18 11:35:46 lb01 Keepalived_vrrp[19323]: Stopped - used 0.001242 user time, 0.161294 system time
Jun 18 11:35:46 lb01 Keepalived[19322]: CPU usage (self/children) user: 0.001348/0.001242 system: 0.000000/0.162545
Jun 18 11:35:46 lb01 Keepalived[19322]: Stopped Keepalived v2.1.5 (07/13,2020)
Jun 18 11:35:46 lb01 systemd[1]: keepalived.service: Succeeded.
Jun 18 11:35:46 lb01 systemd[1]: Stopped LVS and VRRP High Availability Monitor.

修改keepalived配置脚本，使其调用

# 脚本增加x权限
[root@lb01 scripts]# chmod +x check_ngx.sh
[root@lb01 scripts]# ll
total 4
-rwxr-xr-x 1 root root 144 Jun 16 09:52 check_ngx.sh

# 修改keepalived配置文件
[root@lb01 scripts]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalived

global_defs {
   router_id lb01
}
# 添加以下内容，定义vrrp脚本
vrrp_script check_ngx { # 脚本名，用于在vrrp_instance中调用
    script /server/scripts/check_ngx.sh # 指定的运行脚本，需要x权限
    interval 2 # 检测间隔2s
    weight 1 # 权重1
    user root # 执行脚本的用户为root
}

vrrp_instance VRRP_55 {
    state MASTER
    interface ens33
    virtual_router_id 55
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 5555
    }
    virtual_ipaddress {
        192.168.100.55 dev ens33 label ens33:0
    }
    track_script { # 调用上述vrrp脚本
        check_ngx # 即上面定义的名字
    }
}

# 重启服务
[root@lb01 scripts]# systemctl restart keepalived.service

验证

# 直接kill nginx，不用执行脚本，keepalived自动检测，并关闭自身
[root@lb01 scripts]# pkill nginx
[root@lb01 scripts]# tail -5 /var/log/messages
Jun 18 11:50:21 lb01 Keepalived_vrrp[21044]: Stopped - used 0.000000 user time, 0.026432 system time
Jun 18 11:50:21 lb01 Keepalived[21043]: CPU usage (self/children) user: 0.001334/0.090439 system: 0.000000/0.265936
Jun 18 11:50:21 lb01 Keepalived[21043]: Stopped Keepalived v2.1.5 (07/13,2020)
Jun 18 11:50:21 lb01 systemd[1]: keepalived.service: Succeeded.
Jun 18 11:50:21 lb01 systemd[1]: Stopped LVS and VRRP High Availability Monitor.


[root@lb01 scripts]# systemctl status keepalived.service
   Active: inactive (dead) 

# 现在vip出现在lb02即BACKUP上
[root@lb02 ~]# ip a | grep 100.55
    inet 192.168.100.55/32 scope global ens33:0
# 即使手动拉起lb01的keepalived，若没有在lb01上启动nginx，keepalived仍然会自动关闭

keepalived 非抢占&延迟抢占

keepalived默认是抢占模式，即MASTER活了之后会抢夺vip的控制权
如果在动荡网络中，一直抢占与被抢占，会导致业务不稳定
所以可以考虑修改为不抢占，延迟抢占

不抢占

修改流程：

两个节点均为BACKUP
两个节点都增加一行nopreempt

延迟抢占

修改流程：

两个节点均为BACKUP
仅其中一台增加一行preempt_delay 30

keepalived 双主模式

即两个vrrp实例，类似于数通中mstp+vrrp实验。

在这里插入图片描述

keeplived 通知脚本

具体的配置邮件分发，请参考我之前的博客如何使用openEuler 22.03 配置mail.rc给邮箱发送邮件

语法

事件	脚本参数
当前节点成为主节点时触发的脚本	`notify_master
当前节点转为备节点时触发的脚本	`notify_backup
当前节点转为“失败”状态时触发的脚本	`notify_fault
通用格式的通知触发机制	`notify
当停止VRRP时触发的脚本	`notify_stop

脚本

#!/bin/bash
#
contact='xxx@qq.com'
notify() {
 mailsubject="$(hostname) to be $1, vip floating"
 mailbody="$(date +'%F %T'): vrrp transition, $(hostname) changed to be $1"
 echo "$mailbody" | mail -s "$mailsubject" $contact
}
case $1 in
master)
 notify master
 ;;
backup)
 notify backup
 ;;
fault)
 notify fault
 ;;
*)
 echo "Usage: $(basename $0) {master|backup|fault}"
 exit 1
 ;;
esac

脚本解释

联系邮箱：contact=‘xxx@qq.com’，这行代码设置了接收通知的电子邮件地址。在实际使用中，应该替换为真实的邮箱地址。
notify 函数：这个函数用于发送电子邮件。它接受一个参数，表示Keepalived的新状态（master、backup 或 fault）。函数内部，它构建了邮件的主题和正-文，并使用 mail 命令将通知发送到指定的邮箱。
mailsubject：邮件主题，包含了主机名和新状态的信息。
mailbody：邮件正文，包含了变化发生的时间和主机名以及状态变化的信息。
case 语句：这是一个选择语句，根据脚本接收的第一个参数（$1）来执行不同的操作。
master：如果参数是 master，则调用 notify 函数并传入 master 参数，表示主机成为主节点。
backup：如果参数是 backup，则调用 notify 函数并传入 backup 参数，表示主机成为备节点。
fault：如果参数是 fault，则调用 notify 函数并传入 fault 参数，表示主机状态变为故障。
*：如果参数不是以上任何一个，脚本会输出一条使用帮助信息，并退出脚本，返回码为1。

脚本增加x权限并修改keepalived配置文件

chmod +x malikl.sh

# vrrp_instance中添加
[root@lb01 scripts]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalived

global_defs {
   router_id lb01
}
vrrp_script check_ngx {
    script /server/scripts/check_ngx.sh
    interval 2
    weight 1
    user root
}

vrrp_instance VRRP_55 {
    state MASTER
    interface ens33
    virtual_router_id 55
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 5555
    }
    virtual_ipaddress {
        192.168.100.55 dev ens33 label ens33:0
    }
    # 添加以下3行
    notify_master "/server/scripts/mailkl.sh master"
    notify_backup "/server/scripts/malikl.sh backup"
    notify_fault "/server/scripts/malikl.sh fault"
    track_script {
        check_ngx
    }
}

测试

[root@lb01 scripts]# systemctl restart keepalived.service

检测到keepalived服务变化时，自动发送邮件
在这里插入图片描述