1. Sentinel熔断降级概述
1.1. 熔断降级要解决的问题
除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第三方 API 等。例如,支付的时候,可能需要远程调用银联提供的 API;查询某个商品的价格,可能需要进行数据库查询。然而,这个被依赖服务的稳定性是不能保证的。如果依赖的服务出现了不稳定的情况,请求的响应时间变长,那么调用服务的方法的响应时间也会变长,线程会产生堆积,最终可能耗尽业务自身的线程池,服务本身也变得不可用。
现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。
注意: 本文档针对 Sentinel 1.8.0 及以上版本。1.8.0 版本对熔断降级特性进行了全新的改进升级,请使用最新版本以更好地利用熔断降级的能力。官方文档: https://github.com/alibaba/Sentinel/wiki/熔断降级
1.2. sentinel提供的熔断策略
Sentinel 提供以下几种熔断策略:
-
慢调用比例 (SLOW_REQUEST_RATIO):选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
-
异常比例 (ERROR_RATIO):当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
-
异常数 (ERROR_COUNT):当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
注意异常降级仅针对业务异常,对 Sentinel 限流降级本身的异常(BlockException)不生效。为了统计异常比例或异常数,需要通过 Tracer.trace(ex) 记录业务异常。
2. 对几种熔断策略的测试
2.1. 熔断降级规则说明
Field | 说明 | 默认值 |
---|---|---|
resource | 资源名,即规则的作用对象 | |
grade | 熔断策略,支持慢调用比例/异常比例/异常数策略 | 慢调用比例 |
count | 慢调用比例模式下为慢调用临界 RT(超出该值计为慢调用);异常比例/异常数模式下为对应的阈值 | |
timeWindow | 熔断时长,单位为s | |
minRequestAmount | 熔断触发的最小请求数,请求数小于该值,即使异常比例超出阈值也不会触发熔断 | 5 |
statIntervalMs | 统计时长(单位为ms),例如60x1000代表分钟级 | 1000ms |
slowRatioThreshold | 慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入) |
2.2. 慢调用比例
以上配置表示:在1秒内,有超过5次请求调用了/testD,而且这5+次请求的响应时长全部大于200毫秒了,此时系统进入熔断状态,熔断时长持续2秒,2秒后进入半开状态,尝试释放一个请求,如果请求成功则解除熔断,否则继续断开。
- 1秒内: 统计时长规定
- 超过5次请求: 最小请求数规定
- 全部: 比例阈值规定。比例阈值的接收值为(0.01.0),也就是百分比0%100%
- 200毫秒: 最大RT规定
- 熔断时长持续2秒: 熔断时长规定
使用jmeter进行压测:
1. 创建测试方法,为了测试响应时间让方法主动睡眠1秒。
@GetMapping("/testD")
public String testD() {
try {
TimeUnit.SECONDS.sleep(1);
} catch (InterruptedException e) {
e.printStackTrace();
}
log.info("testD 测试RT");
return "------testD";
}
2. 创建jmeter压测策略
3. 启动jmeter,并在浏览器访问testD,发现访问失败,过一会访问恢复。
2.3. 异常比例
以上配置表示:在1秒内,最少有5个请求调用testD,并且有20%的请求出现的异常错误,此时系统会进入熔断状态,3秒后进入半开状态,尝试释放一个请求,如果请求成功则解除熔断,否则继续断开。
使用jmeter进行压测
1. 创建测试方法,为了测试异常报错,我们进行除0操作。
@GetMapping("/testD")
public String testD() {
log.info("testD 异常比例");
int age = 10/0;
return "------testD";
}
2. 创建jmeter压测策略
3. 启动jmeter,并在浏览器访问testD,发现访问失败,停止jmeter,过一会访问直接进入异常报错界面。
这是因为jmeter停止后,我们的单次访问无法达到触发熔断的条件。
2.4. 异常数
以上配置表示:在10秒内,总请求次数大于5,且异常访问次数大于3次,服务熔断。
1. 创建测试方法,为了测试异常报错,我们进行除0操作。
@RestController
@Slf4j
public class FlowLimitController{
@GetMapping("/testE")
public String testE()
{
log.info("testE 测试异常数");
int age = 10/0;
return "------testE 测试异常数";
}
}
2. 我们直接在浏览器中访问testE,短时间内多次访问,进入sentinel的降级页面。