目录
一、高并发带来的问题
服务雪崩效应
二、常见容错方案
(一)隔离
(二)超时
(三)限流
(四)熔断
(五)降级
三、常见的容错组件
四、Sentinel概述
(一)Sentinel 特征:
(二)两个重要概念
五、安装Sentinel控制台
1、下载jar包,上传到服务器
2、编写启动脚本(根据官网启动命令)
六、Sentinel规则
(一)流量控制规则
1、QPS流控
2、并发线程数
(二)隔离与降级
1、Feign整合Sentinel
2、线程隔离
(三)熔断降级规则
1.慢调用比例 (SLOW_REQUEST_RATIO):
2.异常比例 (ERROR_RATIO):
3.异常数 (ERROR_COUNT):
(四)热点规则
七、Sentinel规则持久化
一、概念
二、如何持久化?
1.添加 pom 依赖
2.修改 yml 配置文件,添加 Nacos 数据源配置
3.Nacos 配置管理
三、yml 配置详解(与 Ncaos 整合)
四、json 参数详解
1、流控规则
2、降级规则
3、热点规则
4、系统规则
5、授权规则
五、持久化过程中碰到的错误
一、高并发带来的问题
在微服务架构中,我们将业务拆分成一个个的服务,服务与服务之间可以相互调用,但是由于网络原因或者自身的原因,服务并不能保证服务的100%可用,如果单个服务出现问题,调用这个服务就会出现网络延迟,此时若有大量的网络涌入,会形成任务堆积,最终导致服务瘫痪。
服务雪崩效应
在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。如果一个服务出现了问题,调用这个服务就会出现线程阻塞的情况,此时若有大量的请求涌入,就会出现多条线程阻塞等待,进而导致服务瘫痪。 由于服务与服务之间的依赖性,故障会传播,会对整个微服务系统造成灾难性的严重后果,这就是服务故障的 “雪崩效应” 。
二、常见容错方案
要防止雪崩的扩散,我们就要做好服务的容错,容错说白了就是保护自己不被猪队友拖垮的一些措 施, 下面介绍常见的服务容错思路和组件。 常见的容错思路: 常见的容错思路有隔离、超时、限流、熔断、降级这几种,下面分别介绍一下。
(一)隔离
它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故 障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的 系统服务。常见的隔离方式有:线程池隔离和信号量隔离.
(二)超时
在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应, 就断开请求,释放掉线程。
(三)限流
限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到 的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。
(四)熔断
在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整 体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。
服务熔断一般有三种状态:
熔断关闭状态(Closed): 服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制
熔断开启状态(Open):后续对该服务接口的调用不再经过网络,直接执行本地的fallback方法
半熔断状态(Half-Open):尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断关闭状 态。
(五)降级
降级其实就是为服务提供一个托底方案,一旦服务无法正常调用,就使用托底方案。
三、常见的容错组件
Hystrix
Hystrix是由Netflix开源的一个延迟和容错库,用于隔离访问远程系统、服务或者第三方库,防止 级联失败,从而提升系统的可用性与容错性。
Resilience4J
Resilicence4J一款非常轻量、简单,并且文档非常清晰、丰富的熔断工具,这也是Hystrix官方推 荐的替代产品。不仅如此,Resilicence4j还原生支持Spring Boot 1.x/2.x,而且监控也支持和 prometheus等多款主流产品进行整合。
Sentinel
Sentinel 是阿里巴巴开源的一款断路器实现,本身在阿里内部已经被大规模采用,非常稳定。
四、Sentinel概述
Sentinel (分布式系统的流量防卫兵) 是阿里开源的一套用于服务容错的综合性解决方案。它以流量 为切入点, 从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性。
Sentinel 分为两个部分:
核心库(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo / Spring Cloud 等框架也有较好的支持。
控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等 应用容器
(一)Sentinel 特征:
丰富的应用场景、完备的实时监控、广泛的开源生态、完善的 SPI 扩展点
(二)两个重要概念
1、资源 资源就是Sentinel要保护的东西;资源是 Sentinel 的关键概念。它可以是 Java 应用程序中的任何内容,可以是一个服务,也可以是一个方法,甚至可以是一段代码。
2、规则 规则就是用来定义如何进行保护资源的 作用在资源之上, 定义以什么样的方式保护资源,主要包括流量控制规则、熔断降级规则以及系统 保护规则。
五、安装Sentinel控制台
1、下载jar包,上传到服务器
您可以从 release 页面 下载您需要的班版本的控制台 jar 包。
2、编写启动脚本(根据官网启动命令)
将jar包上传至服务器,并在同一目录下创建启动脚本start.sh,内容如下:
-
创建start.sh
[root@localhost sentinel]# touch start.sh
-
编辑start.sh文件(使用命令或者使用Xtfp软件进行编辑)
[root@localhost sentinel]# vim start.sh
将下面内容复制到文件中,如若8081端口冲突,可使用 -Dserver.port=新端口 进行设置。
rm -rf /sentinel/sentinel.log nohup java -Dserver.port=8081 -Dcsp.sentinel.dashboard.server=localhost:8081 -Dproject.name=sentinel-dashboard -jar sentinel-dashboard-1.8.6.jar > /sentinel/sentinel.log 2>&1 &
-
给予权限
[root@localhost sentinel]# chmod 777 start.sh
-
启动sentinel控制台
[root@localhost sentinel]# ./start.sh
-
访问控制台:192.168.XXX.XXX:8081 (Linux系统IP地址,可使用 ip a 命令查看) 进行访问
username:sentinel password:sentinel
六、Sentinel规则
(一)流量控制规则
流量控制,其原理是监控应用流量的QPS(每秒查询率) 或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,从而保障应用的高可用性。
项目中引入jar包
<dependency> <groupId>com.alibaba.cloud</groupId> <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId> </dependency>
1、QPS流控
(1)yml文件配置
spring: cloud: sentinel: # 服务容错 transport: dashboard: 192.168.177.129:8081 port: 8719
(2)定义资源
@RestController @RefreshScope // 在需要动态读取配置的类上添加此注解就可以(动态配置刷新) @RequestMapping("/user") public class UserController { @RequestMapping("/get1") @SentinelResource(value = "/resource/user/get1", blockHandler = "blockHandlerForGet1") public Integer get1(){ return 111111; } public Integer blockHandlerForGet1(BlockException ex) { return 999999; } }
(3)启动项目,发送请求(http://localhost:端口号/user/get1)
(4)定义限流规则 点击簇点链路,我们就可以看到访问过的接口地址,然后点击对应的(@SentinelResource注解的value的值)流控按钮,进入流控规则配置页面。新增流控规则界面如下:
-
资源名: 唯一名称,默认是请求路径,可自定义
-
针对来源: 指定对哪个微服务进行限流,默认指default,意思是不区分来源,全部限制 阈值类型/单机阈值:
QPS(每秒请求数量): 当调用该接口的QPS达到阈值的时候,进行限流。 线程数:当调用该接口的线程数达到阈值的时候,进行限流。
-
是否集群:暂不需要集群
(5)效果
再快速通过网页发送多次请求,会发现每秒只有两次是get1结果,其余超出的都是blockHandlerForGet1的结果。
2、并发线程数
Sentinel并发控制是指使用Sentinel来限制接口的最大并发访问量。Sentinel并发控制不负责创建和管理线程池,而是简单统计当前请求上下文的线程数且(正在执行的调用数目),如果超出阈值,新的请求会被立即拒绝,效果类似于信号量隔离。并发数控制通常在调用端进行配置。
(1)定义资源
@RequestMapping("/get1") @SentinelResource(value = "/resource/user/get1", blockHandler = "blockHandlerForGet1") public Integer get1(){ try { Thread.sleep(5000); } catch (Exception e) { throw new RuntimeException(e); } return 666666; } // blockHandler 函数会在原方法被限流/降级/系统保护的时候调用 public Integer blockHandlerForGet1(BlockException ex){ return 999999; }
(2)定义限流规则
(3)测试
使用Postman进行测试,建立多个请求,都发送请求进行测试。
3、流控模式
sentinel共有三种流控模式,分别是:
-
直接(默认):接口达到限流条件时,开启限流
-
关联:当关联的资源达到限流条件时,开启限流 [适合做应用让步]
-
链路:当从某个接口过来的资源达到限流条件时,开启限流
4、流控效果
在Sentinel中,当流控规则生效时,会对超出阈值的请求进行限流处理。常见的限流策略有:
-
直接拒绝:直接拒绝超出阈值的请求,返回限流提示。
-
慢启动(Warm Up):它从开始阈值到最大QPS阈值会有一个缓冲阶段,一开始的阈值是最大QPS阈值的1/3,然后慢慢增长,直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景。
举个例子,阀值为10,预热时长设置5秒。 系统初始化的阀值为10 / 3约等于3,即阀值刚开始为3,然后过了 5秒后阀值才慢慢升高恢复到10。
-
排队等待:超出阈值的请求会加入等待队列,当阈值允许时依次放行,如果等待超时则拒绝。
(二)隔离与降级
现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。
1、Feign整合Sentinel
-
修改application.yml开启Feign的Sentinel功能
feign: sentinel: enabled: true
-
创建feign远程调用接口
@FeignClient(value = "order-server",path = "/order") public interface OrderFeign { @GetMapping("/get1") Integer get1(); }
-
给feignClient编写失败后的降级逻辑 方式一:FallbackClass 无法对远程调用的异常做处理 方式二:FallbackFactory 可以对远程调用的异常做处理
public class UserClientFallbackFactory implements FallbackFactory<OrderFeign> { @Override public OrderFeign create(Throwable cause) { return new OrderFeign() { @Override public Integer get1() { return 123456; } }; } }
-
将降级工程注册为一个Bean
@Configuration public class SentinelConfig { @Bean public UserClientFallbackFactory userClientFallbackFactory(){ return new UserClientFallbackFactory(); } }
-
给feign远程调用接口指定降级工厂
@FeignClient(value = "order-server",path = "/order",fallbackFactory = UserClientFallbackFactory.class) public interface OrderFeign { @GetMapping("/get1") Integer get1(); }
2、线程隔离
线程隔离有两种实现方式:
-
线程池隔离
-
信号量隔离(Sentinel默认采用)
(三)熔断降级规则
现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。
熔断策略:
1.慢调用比例 (SLOW_REQUEST_RATIO):
选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
解读:如果在统计时长10秒内,发送的请求超过10个,并且其中百分之50(比例阈值)的请求时间超过了500ms(最大RT),则触发熔断,熔断时长为5s,在5s时间之内所有请求都将无法访问,等进入half-open状态,放行一次请求进行测试。
2.异常比例 (ERROR_RATIO):
当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
3.异常数 (ERROR_COUNT):
当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。注意由于统计时间窗口是分钟级别的,若时间窗口小于 60s,则结束熔断状态后仍可能再进入熔断状态。
(四)热点规则
// 测试热点规则
@RequestMapping("/get2")
@SentinelResource(value = "/resource/user/get2", blockHandler = "blockHandlerForTest")
public Integer get2(@RequestParam("id") Integer id){
return 666666;
}
public Integer blockHandlerForTest(Integer id, BlockException ex) {
return 999999;
}
七、Sentinel规则持久化
push模式:控制台将配置规则推送到远程配置中心,例如Nacos。Sentinel客户端监听Nacos,获取配置变更的推送消息,完成本地配置更新。
一、概念
当应用重启
后,Sentinel 规则就消失
了,生产环境需要将配置的规则进行持久化
。
二、如何持久化?
将限流、熔断配置规则持久化进 Nacos 保存,只要刷新被监控的应用,Sentinel 控制台的流控规则就能看到,持久化后无需重新配置才能看到。只要 Nacos 里面的配置不删除,针对该应用的Sentinel上的流控规则持续有效。
1.添加 pom 依赖
<dependency> <groupId>com.alibaba.csp</groupId> <artifactId>sentinel-datasource-nacos</artifactId> </dependency>
2.修改 yml 配置文件,添加 Nacos 数据源配置
spring: cloud: sentinel: # Sentinel 规则持久化 datasource: # 自定义命名 flow-rule: # 支持多种持久化数据源:file、nacos、zk、apollo、redis、consul nacos: username: nacos password: nacos # nacos服务地址 server-addr: 192.168.177.129:8848 # 命名空间,根据环境配置 # namespace: public # 这里我做了一下细分,不同规则设置不同groupId group-id: USER_SENTINEL_FLOW_GROUP # 仅支持JSON和XML类型 data-id: ${spring.application.name}.yaml # 规则类型:flow(流)、degrade(降级)、param-flow(参数流)、system(系统)、authority(权限) rule-type: flow data-type: json
3.Nacos 配置管理
流控规则持久化配置参数说明:
resource:资源名。 limitApp:来源应用。 grade:阈值类型。0 表示线程数,1 表示是QPS。 count:单机阈值。 strategy:流控模式。0 表示直接,1 表示关联,2 表示链路。 controlBehavior:流控效果。0 表示快速失败,1 表示Warm up,2 表示排队等待。 clusterMode:是否集群。false 表示否,true 表示是。
测试结果:当应用重启后,Sentinel 控制台依旧存在之前配置的规则,规则任然有效。
三、yml 配置详解(与 Ncaos 整合)
spring: cloud: sentinel: datasource: # 名称随意 flow: nacos: server-addr: localhost:8848 dataId: ${spring.application.name}-flow-rules groupId: SENTINEL_GROUP # 规则类型:flow(流)、degrade(降级)、param-flow(参数流)、system(系统)、authority(权限) # org.springframework.cloud.alibaba.sentinel.datasource.RuleType rule-type: flow degrade: nacos: server-addr: localhost:8848 dataId: ${spring.application.name}-degrade-rules groupId: SENTINEL_GROUP rule-type: degrade system: nacos: server-addr: localhost:8848 dataId: ${spring.application.name}-system-rules groupId: SENTINEL_GROUP rule-type: system authority: nacos: server-addr: localhost:8848 dataId: ${spring.application.name}-authority-rules groupId: SENTINEL_GROUP rule-type: authority param-flow: nacos: server-addr: localhost:8848 dataId: ${spring.application.name}-param-flow-rules groupId: SENTINEL_GROUP rule-type: param-flow
四、json 参数详解
1、流控规则
[ { // 资源名 "resource": "/test", // 针对来源,若为 default 则不区分调用来源 "limitApp": "default", // 限流阈值类型(1:QPS;0:并发线程数) "grade": 1, // 阈值 "count": 1, // 是否是集群模式 "clusterMode": false, // 流控效果(0:快速失败;1:Warm Up(预热模式);2:排队等待) "controlBehavior": 0, // 流控模式(0:直接;1:关联;2:链路) "strategy": 0, // 预热时间(秒,预热模式需要此参数) "warmUpPeriodSec": 10, // 超时时间(排队等待模式需要此参数) "maxQueueingTimeMs": 500, // 关联资源、入口资源(关联、链路模式) "refResource": "rrr" } ]
2、降级规则
[ { // 资源名 "resource": "/test1", "limitApp": "default", // 熔断策略(0:慢调用比例,1:异常比率,2:异常计数) "grade": 0, // 最大RT、比例阈值、异常数 "count": 200, // 慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入) "slowRatioThreshold": 0.2, // 最小请求数 "minRequestAmount": 5, // 当单位统计时长(类中默认1000) "statIntervalMs": 1000, // 熔断时长 "timeWindow": 10 } ]
3、热点规则
[ { // 资源名 "resource": "/test1", // 限流模式(QPS 模式,不可更改) "grade": 1, // 参数索引 "paramIdx": 0, // 单机阈值 "count": 13, // 统计窗口时长 "durationInSec": 6, // 是否集群 默认false "clusterMode": 默认false, // 突发事件计数 "burstCount": 0, // 集群模式配置 "clusterConfig": { // 失败时回退到本地 "fallbackToLocalWhenFail": true, // 流程ID "flowId": 2, // 示例计数 "sampleCount": 10, // 阈值类型 "thresholdType": 0, // 窗口间隔时间 "windowIntervalMs": 1000 }, // 流控效果(支持快速失败和匀速排队模式) "controlBehavior": 0, // 针对来源,若为 default 则不区分调用来源 "limitApp": "default", // 超时时间(排队等待模式需要此参数) "maxQueueingTimeMs": 0, // 高级选项 "paramFlowItemList": [ { // 参数类型 "classType": "int", // 限流阈值 "count": 222, // 参数值 "object": "2" } ] } ]
4、系统规则
[ { // RT "avgRt": 1, // CPU 使用率 "highestCpuUsage": -1, // LOAD "highestSystemLoad": -1, // 线程数 "maxThread": -1, // 入口 QPS "qps": -1 } ]
5、授权规则
[ { // 资源名 "resource": "sentinel_spring_web_context", // 流控应用 "limitApp": "/test", // 授权类型(0代表白名单;1代表黑名单。) "strategy": 0 } ]
五、持久化过程中碰到的错误
1、Nacos配置文件的属性名与值要和bootstrap.yml要对应上
2、Nacos配置文件中的json要注意格式正确
3、因为设置了Nacos登录,bootstrap.yml文件中但凡是涉及到Nacos下边都要设置username和password。