LVS （Linux Virtual server）集群介绍

一集群和分布式

（一）系统性能扩展方式：

Scale UP：垂直扩展，向上扩展,增强，性能更强的计算机运行同样的服务

（即升级单机的硬件设备）

Scale Out：水平扩展，向外扩展,增加设备，并行地运行多个服务调度分配问题，Cluster

（二）集群 Cluster

1，集群定义

Cluster：集群,为解决某个特定问题将多台计算机组合起来形成的单个系统

2，集群类型

LB： Load Balancing，负载均衡，多个主机组成，每个主机只承担一部分访问请求（即反向代理）
HA： High Availiablity，高可用（即备胎技术），避免 SPOF（single Point Of failure）
HPC： High-performance computing，高性能

3， SLA 介绍

3.1 具体内容

服务等级协议（简称：SLA，全称：service level agreement）。是在一定开销下为保障服
务的性能和可用性，服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服
务质量的主要因素。在常规的领域中，总是设定所谓的三个9，四个9来进行表示，当没有达到这
种水平的时候，就会有一些列的惩罚措施，而运维，最主要的目标就是达成这种服务水平。

3.2 几个9的含义

1年 = 365天 = 8760小时
90 = (1-90%)*365=36.5天
99 = 8760 * 1% = 87.6小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
99.9999= (1-99.9999%)*365*24*60*60=31秒

（三）分布式系统

（最简单理解为黑客挖矿）

1，分布式存储

Ceph，GlusterFS，FastDFS，MogileFS

2，分布式计算

hadoop，Spark

3，分布式常见应用

分布式应用-服务按照功能拆分，使用微服务（单一应用程序划分成一组小的服务，服务之间互相协调、互相配合，为用户提供最终价值服务）
分布式静态资源--静态资源放在不同的存储集群上
分布式数据和存储--使用key-value缓存系统
分布式计算--对特殊业务使用分布式计算，比如Hadoop集群

（四）集群和分布式

1，集群

同一个业务系统，部署在多台服务器上。集群中，每一台服务器实现的功能没有差别，数据和代码都是一样的。

2，分布式

一个业务被拆成多个子业务，或者本身就是不同的业务，部署在多台服务器上。分布式中，每一台服务器实现的功能是有差别的，数据和代码也是不一样的，分布式每台服务器功能加起来，才是完整的业务。

3，集群分布式一起使用

分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。

对于大型网站，访问用户很多，实现一个群集，在前面部署一个负载均衡服务器，后面几台服务器完成同一业务。如果有用户进行相应业务访问时，负载均衡器根据后端哪台服务器的负载情况，决定由给哪一台去完成响应，并且一台服务器垮了，其它的服务器可以顶上来。分布式的每一个节点，都完成不同的业务，如果一个节点垮了，那这个业务可能就会失败

（五）集群设计原则

可扩展性—集群的横向扩展能力

可用性—无故障时间 (SLA service level agreement)

性能—访问响应时间

容量—单位时间内的最大并发吞吐量(C10K 并发问题)

（六）集群设计实现

1，基础设施层面

提升硬件资源性能—从入口防火墙到后端 web server 均使用更高性能的硬件资源
多域名—DNS 轮询A记录解析
多入口—将A记录解析到多个公网IP入口
多机房—同城+异地容灾
CDN(Content Delivery Network)—基于GSLB(Global Server Load Balance)实现全局负载均衡，如：DNS

2，业务层面

分层：安全层、负载层、静态层、动态层、(缓存层、存储层)持久化与非持久化
分割：基于功能分割大业务为小服务
分布式：对于特殊场景的业务，使用分布式计算

（七） LB Cluster 负载均衡集群

1，按实现方式划分

1.1 按硬件

F5 Big-IP（F5服务器负载均衡模块）

Citrix Netscaler

A10 A10 等

1.2 按软件

lvs：Linux Virtual Server，阿里四层 SLB (Server Load Balance)使用

nginx：支持七层调度（可以识别url 支持url hash 算法），阿里七层SLB使用 Tengine （可七层可四层）

haproxy：支持七层调度

ats：Apache Traffic Server，yahoo捐助给apache

perlbal：Perl 编写

pound

2，基于工作的协议层次划分

2.1 传输层（通用）：

DNAT 和 DPORT

LVS

nginx：stream

haproxy：mode tcp

2.2应用层（专用）

针对特定协议，常称为 proxy server

http：nginx, httpd, haproxy(mode http), ...

fastcgi：nginx, httpd, ...

mysql：mysql-proxy, mycat... （读写分离）

3，负载均衡的会话保持

session sticky：同一用户调度固定服务器

Source IP：LVS sh算法（对某一特定服务而言）

session replication：每台服务器拥有全部session（复制）

session multicast cluster

session server：专门的session服务器（server）

Memcached，Redis

（八） HA 高可用集群实现

keepalived：vrrp协议

Ais：应用接口规范

heartbeat

cman+rgmanager(RHCS)

coresync_pacemaker

二 Linux Virtual Server简介

（一） LVS介绍

LVS：Linux Virtual Server，负载调度器，内核集成，章文嵩（花名正明）, 阿里的四层SLB(Server Load Balance)是基于LVS+keepalived实现

LVS 官网：http://www.linuxvirtualserver.org/
阿里SLB和LVS：
https://yq.aliyun.com/articles/1803
https://github.com/alibaba/LVS

（二） LVS工作原理

VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS，根据调度算法来挑选RS。LVS是内核级功能，工作在INPUT链的位置，将发往INPUT的流量进行“处理”

（三） LVS 功能及组织架构

负载均衡的应用场景为高访问量的业务，提高应用程序的可用性和可靠性。

1，应用于高访问量的业务

如果您的应用访问量很高，可以通过配置监听规则将流量分发到不同的云服务器 ECS（Elastic Compute Service 弹性计算服务）实例上。此外，可以使用会话保持功能将同一客户端的请求转发到同一台后端ECS

2，扩展应用程序

可以根据业务发展的需要，随时添加和移除ECS实例来扩展应用系统的服务能力，适用于各种Web服务器和App服务器。

3，消除单点故障

可以在负载均衡实例下添加多台ECS实例。当其中一部分ECS实例发生故障后，负载均衡会自动屏蔽故障的ECS实例，将请求分发给正常运行的ECS实例，保证应用系统仍能正常工作

4，同城容灾（多可用区容灾）

为了提供更加稳定可靠的负载均衡服务，阿里云负载均衡已在各地域部署了多可用区以实现同地域容灾。当主可用区出现机房故障或不可用时，负载均衡仍然有能力在非常短的时间内（如：大约30s中断）切换到另外一个备可用区恢复服务能力；当主可用区恢复时，负载均衡同样会自动切换到主可用区提供服务。使用负载均衡时，您可以将负载均衡实例部署在支持多可用区的地域以实现同城容灾。此外，建议您结合自身的应用需要，综合考虑后端服务器的部署。如果您的每个可用区均至少添加了一台ECS实例，那么此种部署模式下的负载均衡服务的效率是最高的。

（四） LVS集群类型中的术语

VS（代理服务器）：Virtual Server，Director Server(DS), Dispatcher(调度器)，Load Balancer（lvs服务器）
RS（真实服务器）：Real Server(lvs), upstream server(nginx), backend server(haproxy)（真实服务器）
CIP：Client IP（客户机IP）
VIP：Virtual serve IP VS外网的IP 代理服务器的外网ip
DIP：Director IP VS内网的IP 代理服务器的内网ip
RIP：Real server IP （真实IP）真实服务器 ip

访问流程：CIP <--> VIP == DIP <--> RIP

三 LVS工作模式和相关命令

（一） LVS集群的工作模式

lvs-nat：修改请求报文的目标IP,多目标IP的DNAT
lvs-dr：操纵封装新的MAC地址（直接路由）这是默认模式
lvs-tun：隧道模式

（二）LVS的NAT模式

1，架构图

2，文字描述整个过程

2.1 当客户端发起请求报文是:

源ip:客户端的ip地址(cip) 目的地址:vip(代理服务器的外网地址)

2.2.当数据包到达我们的代理服务器源ip不变，需要修改目的ip及端口号

源ip:客户端的ip地址(cip) 目的地址:rip (后端真实服务器ip)

2.3 .真实服务器收到报文后构建响应报文

源ip:改成真实服务器自己的ip(vip 是内网地址) 目的地址:cip 外网客户端地址

2.4.再发给代理服务器，代理服务会修改源ip 将内网地址改成外网地址

源ip:代理服务器的外网ip (vip) 目的地址: cip(外网客户端的地址)

3，注意事项

lvs-nat：本质是多目标IP的DNAT，通过将请求报文中的目标地址和目标端口修改为某处的RS的RIP和PORT实现转发

（1）RIP和DIP应在同一个IP网络，且应使用私网地址；RS的网关要指向DIP

（2）请求报文和响应报文都必须经由lvs服务器转发，lvs服务器易于成为系统瓶颈

（3）支持端口映射，可修改请求报文的目标PORT

（4）VS必须是Linux系统，RS可以是任意OS系统

（三） IP隧道

1，架构图

2，过程

RIP和DIP可以不处于同一物理网络中，RS的网关一般不能指向DIP,且RIP可以和公网通信。也就是

说集群节点可以跨互联网实现。DIP, VIP, RIP可以是公网地址。
RealServer的通道接口上需要配置VIP地址，以便接收DIP转发过来的数据包，以及作为响应的

报文源IP。
DIP转发给RealServer时需要借助隧道，隧道外层的IP头部的源IP是DIP，目标IP是RIP，而

RealServer响应给客户端的IP头部是根据隧道内层的IP头分析得到的，源IP是VIP，目标IP是CIP
请求报文要经由Director，但响应不经由Director,响应由RealServer自己完成
不支持端口映射
RS的OS须支持隧道功能

一般来说，隧道模式常会用来负载调度缓存服务器组，这些缓存服务器一般放置在不同的网络环境，可以就近
折返给客户端。在请求对象不在Cache服务器本地命中的情况下，Cache服务器要向源服务器发送请求，将结
果取回，最后将结果返回给用户。

（四）直接路由

1，DR模式的特点

Director（调度器）和各RS（真实服务器）都配置有VIP（虚拟ip）
确保前端路由器将目标IP为VIP的请求报文发往Director

在前端网关做静态绑定VIP和Director的MAC地址
在RS上使用arptables工具

arptables -A IN -d $VIP -j DROP
arptables -A OUT -s $VIP -j mangle --mangle-ip-s $RIP

2，在RS上修改内核参数以限制arp通告及应答级别

/proc/sys/net/ipv4/conf/all/arp_ignore
忽略 arp
/proc/sys/net/ipv4/conf/all/arp_announce
无故arp   不检测arp

3，注意事项

RS的RIP可以使用私网地址，也可以是公网地址；RIP与DIP在同一IP网络；RIP的网关不能指向DIP，以确保响应报文不会经由Director

RS和Director要在同一个物理网络
请求报文要经由Director，但响应报文不经由Director，而由RS直接发往Client
不支持端口映射（端口不能修改）
无需开启 ip_forward
RS可使用大多数OS系统

（五） LVS工作模式总结和比较

	NAT	TUN	DR
优点	端口转换	WAN	性能最好
缺点	性能瓶颈	服务器支持隧道模式	不支持跨网段
真实服务器要求	any	Tunneling	Non-arp device
支持网络	private（私网）	LAN/WAN（私网/公网）	LAN（私网）
真实服务器数量	low (10~20)	High (100)	High (100)
真实服务器网关	lvs内网地址	Own router（网工定义）	Own router（网工定义）

（六） LVS 调试算法

ipvs scheduler：根据其调度时是否考虑各RS当前的负载状态

分为两种：静态方法和动态方法

1，静态

不管后端真实服务器的状态，根据自身算法进行调度

1、RR：roundrobin，轮询,较常用

2、WRR：Weighted RR，加权轮询,较常用

3、SH：Source Hashing，实现session sticky，源IP地址hash；将来自于同一个IP地址的请求始终发往第一次挑中的RS，从而实现会话绑定

4、DH：Destination Hashing；目标地址哈希，第一次轮询调度至RS，后续将发往同一个目标地址的请求始终转发至第一次挑中的RS，典型使用场景是正向代理缓存场景中的负载均衡,如: Web缓存

为什么没有 url hash 他是4层看不懂

2，动态

主要根据每RS当前的负载状态及调度算法进行调度Overhead=value 较小的RS将被调度

overhead一个参考值来确定服务器是否忙值越小，代表服务器闲，就会优先调度

1、LC：least connections 适用于长连接应用（最小连接数）

Overhead=activeconns*256+inactiveconns

活跃数乘以 256 + 非活跃数

2、WLC：Weighted LC，默认调度方法,较常用

（加了权重的 LC）

Overhead=(activeconns*256+inactiveconns)/weight

3， SED：Shortest Expection Delay，初始连接高权重优先,只检查活动连接,而不考虑非活动连接

Overhead=(activeconns+1)*256/weight 为什么要加1 防止是0

4， NQ：Never Queue，第一轮均匀分配，后续SED

5，LBLC：Locality-Based LC，动态的DH算法，使用场景：根据负载状态实现正向代理,实现Web Cache等

6，LBLCR：LBLC with Replication，带复制功能的LBLC，解决LBLC负载不均衡问题，从负载重的复制到负载轻的RS,,实现Web Cache等

四 ipvsadm 工具

实现内核功能的工具

（一）选项

-A: 添加虚拟服务器
-D: 删除整个虚拟服务器
-s: 指定负载调度算法(轮询: rr、加权轮询: wrr、最少连接: lc、加权最少连接: wlc)
-a: 添加真实服务器（节点服务器）
-d: 删除某一个节点
-t: 指定VIP地址及TCP端口
-r: 指定RIP地址及TCP端口
-m: 表示使用NAT群集模式
-g: 表示使用DR模式
-i: 表示使用TUN模式
一w: 设置权重(权重为0时表示暂停节点)
-p 60: 表示保持长连接60秒
-l: 列表查看 LVS虚拟服务器(默认为查看所有)
-n: 以数字形式显示地址、端口等信息，常与"-l“选项组合使用。ipvsadm -ln

（二）管理集群服务

ipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]] [-M netmask] [--pe persistence_engine] [-b sched-flags]
ipvsadm -D -t|u|f service-address #删除
ipvsadm –C #清空
ipvsadm –R #重载,相当于ipvsadm-restore
ipvsadm -S [-n] #保存,相当于ipvsadm-save
#管理集群中的RS
ipvsadm -a|e -t|u|f service-address -r server-address [-g|i|m] [-w weight]  
ipvsadm -d -t|u|f service-address -r server-address
ipvsadm -L|l [options]
ipvsadm -Z [-t|u|f service-address]

（三） lvs类型

-g: gateway, dr类型，默认
-i: ipip, tun类型
-m: masquerade（伪装）, nat类型
-w weight：权重

例子：
ipvsadm -A -t 12.0.0.1:80 -s rr
ipvsadm -a -t 12.0.0.1:80 -r 192.168.80.11:80 -m

（四）yum 安装常见文件位置

主程序：/usr/sbin/ipvsadm
规则保存工具：/usr/sbin/ipvsadm-save
规则重载工具：/usr/sbin/ipvsadm-restore
配置文件：/etc/sysconfig/ipvsadm-config
ipvs调度规则文件：/etc/sysconfig/ipvsadm