服务雪崩
在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。
如果一个服务出现了问题,调用这个服务就会出现线程阻塞的情况,
此时若有大量的请求涌入,就会出现多条 线程阻塞等待,进而导致服务瘫痪。
由于服务与服务之间的依赖性,故障会传播,会对整个微服务系统造成灾难性的严重后果,
这就是服务故障的 “雪崩效应”,只有做好足够的容错,保证一个服务发送问题,不会影响
其他服务的正常运行
常见的容错思路
隔离
它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的系统服务。常见的隔离方式有:线程池隔离和信号量隔离
超时
在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应,就断开请求,释放掉线程。
限流
限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。
熔断
在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。
- 服务熔断一般有三个状态
- 熔断关闭状态(Closed)
服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制 - 熔断开启状态(Open)
后续对该服务接口的调用不再经过网络,直接执行本地的fallback方法 - 半熔断状态(Half-Open)
尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断关闭状态
- 熔断关闭状态(Closed)
降级
降级其实就是为服务提供一个托底方案,一旦服务无法正常调用,就使用托底方案
什么是Sentinel
Sentinel (分布式系统的流量防卫兵) 是阿里开源的一套用于服务容错的综合性解决方 案。它以流量
为切入点, 从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性
Sentinel分为两部分
- 核心库(java客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo /Spring Cloud 等框架也有较好的支持。
- 控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等应用容器。
集成Sentinel
- 引入依赖
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>
- 安装Sentinel控制台
Sentinel 提供一个轻量级的控制台, 它提供机器发现、单机资源实时监控以及规则管理等功能。
下载jar包,解压到文件夹
https://github.com/alibaba/Sentinel/releases
控制台本身就是一个springBoot项目 直接java -jar 启动就可以
- 项目中添加配置
# Spring
spring:
application:
# 应用名称
name: com-xzx-shop
profiles:
# 环境配置
active: dev
cloud:
sentinel:
transport:
port: 9999 #跟控制台交流的端口,随意指定一个未使用的端口
dashboard: 127.0.0.1:8080 #指定控制台服务地址
# nacos规则持久化
datasource:
ds1:
nacos:
server-addr: 127.0.0.1:8848
dataId: sentinel-xzx-gateway
groupId: DEFAULT_GROUP
data-type: json
rule-type: gw-flow
eager: true
Sentinel规则
流控规则
流量控制,其原理是监控应用流量的QPS(每秒查询率) 或并发线程数等指标,
当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,
从而保障应用的高可用性
-
资源名:唯一名称,默认是请求路径,可自定义
-
针对来源:指定对哪个微服务进行限流,默认指default,意思是不区分来源,全部限制
-
阈值类型/单机阈值:
-
QPS(每秒请求数量): 当调用该接口的QPS达到阈值的时候,进行限流
-
线程数:当调用该接口的线程数达到阈值的时候,进行限流
-
-
是否集群:暂不需要集群
-
sentinel共有三种流控模式,分别是:
- 直接(默认):接口达到限流条件时,开启限流
- 关联:当关联的资源达到限流条件时,开启限流 [适合做应用让步]
- 链路:当从某个接口过来的资源达到限流条件时,开启限流
-
快速失败(默认): 直接失败,抛出异常,不做任何额外的处理,是最简单的效果
-
Warm Up:它从开始阈值到最大QPS阈值会有一个缓冲阶段,一开始的阈值是最大QPS阈值的1/3,然后慢慢增长,直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景。
-
排队等待:让请求以均匀的速度通过,单机阈值为每秒通过数量,其余的排队等待; 它还会让设置一个超时时间,当请求超过超时间时间还未处理,则会被丢弃
热点规则
热点参数流控规则是一种更细粒度的流控规则, 它允许将规则具体到参数上。
- @SentinelResource(“标识”)添加注解到要限制的接口就可以配置热点规则进行接口参数的限制
授权规则
很多时候,我们需要根据调用来源来判断该次请求是否允许放行,这时候可以使用 Sentinel 的来源
访问控制的功能。来源访问控制根据资源的请求来源(origin)限制资源是否通过:
若配置白名单,则只有请求来源位于白名单内时才可通过;
若配置黑名单,则请求来源位于黑名单时不通过,其余的请求通过。
实现 RequestOriginParser 接口 public String parseOrigin(HttpServletRequest request) 自定义来源处理规则
系统规则
系统保护规则是从应用级别的入口流量进行控制,从单台机器的总体 Load、RT、入口 QPS 、CPU
使用率和线程数五个维度监控应用数据,让系统尽可能跑在最大吞吐量的同时保证系统 整体的稳定性。
系统保护规则是应用整体维度的,而不是资源维度的,并且仅对入口流量 (进入应用的流量) 生效。
- Load(仅对 Linux/Unix-like 机器生效):当系统 load1 超过阈值,且系统当前的并发线程数超过
系统容量时才会触发系统保护。系统容量由系统的 maxQps * minRt 计算得出。设定参考值一般
是 CPU cores * 2.5。 - RT:当单台机器上所有入口流量的平均 RT 达到阈值即触发系统保护,单位是毫秒。
- 线程数:当单台机器上所有入口流量的并发线程数达到阈值即触发系统保护。
- 入口 QPS:当单台机器上所有入口流量的 QPS 达到阈值即触发系统保护。
- CPU使用率:当单台机器上所有入口流量的 CPU使用率达到阈值即触发系统保护
sentinel异常处理
//异常处理页面
@Component
public class ExceptionHandlerPage implements UrlBlockHandler {
//BlockException 异常接口,包含Sentinel的五个异常
// FlowException 限流异常
// DegradeException 降级异常
// ParamFlowException 参数限流异常
// AuthorityException 授权异常
// SystemBlockException 系统负载异常
@Override
public void blocked(HttpServletRequestrequest,HttpServletResponseresponse,BlockException e) throws IOException {
response.setContentType("application/json;charset=utf-8");
ResponseData data = null;
if (e instanceof FlowException) {
data = new ResponseData(-1, "接口被限流了...");
} else if (e instanceof DegradeException) {
data = new ResponseData(-2, "接口被降级了...");
}
response.getWriter().write(JSON.toJSONString(data));
}
}
@Data
@AllArgsConstructor//全参构造
@NoArgsConstructor//无参构造
class ResponseData {
private int code;
private String message;
}
@SentinelResource的使用
@SentinelResource 用于定义资源,并提供可选的异常处理和 fallback 配置项。
@Slf4j
public class SentinelHandler {
//指定发生BlockException时进入的方法,必须是 static
public static String blockHandler(BlockException ex){
log.error("{}",ex);
return "接口被限流或者降级了";
}
//指定发生Throwable时进入的方法,必须是 static
public static String fallback(Throwable throwable){
log.error("{}", throwable);
return "接口发生异常了";
}
}
@SentinelResource(
value = "user",
blockHandlerClass = SentinelHandler.class,
blockHandler = "blockHandler",
fallbackClass = SentinelHandler.class,
fallback = "fallback"
)
// defaultFallback: 用于通用的 fallback 逻辑默认fallback函数可以针对所有类型的异常进行处理。若同时配置了 fallback 和 defaultFallback,以fallback为准
//exceptionsToIgnore:指定排除掉哪些异常。排除的异常不会计入异常统计,也不会进入fallback逻辑,而是原样抛出。
//exceptionsToTrace:需要trace的异常
Sentinel规则nacos持久化
<dependency>
<groupId>com.alibaba.csp</groupId>
<artifactId>sentinel-datasource-nacos</artifactId>
</dependency>
# Spring
spring:
application:
# 应用名称
name: com-xzx-shop
profiles:
# 环境配置
active: dev
cloud:
sentinel:
transport:
port: 9999 #跟控制台交流的端口,随意指定一个未使用的端口
dashboard: 127.0.0.1:8080 #指定控制台服务地址
datasource: #nacos持久化配置
ds1:
nacos:
server-addr: 127.0.0.1:8848
dataId: sentinel-xzx-gateway
groupId: DEFAULT_GROUP
data-type: json
rule-type: gw-flow
- “flow”、“degrade”、“system”、“authority” “param-flow” “gw-flow”是什么配 置项?
-
这些配置项分别对应 Sentinel 的不同类型规则:
-
“flow” 用于指定流量控制规则。
-
“degrade” 用于指定熔断降级规则。
-
“system” 用于指定系统保护规则。
-
“authority” 用于指定授权规则。
-
“param-flow” 用于指定热点参数流控规则。
-
“gw-flow” 用于指定网关流量控制规则,它是针对 API 网关使用的流量控制规则类型。
-
[
{
"resource": "/user",
"limitApp": "default",
"grade": 1,
"count": 1,
"strategy": 0,
"controlBehavior": 0,
"clusterMode": false
}
]
resource:资源名称
limitApp:来源应用
grade:阈值类型,0代表线程数,1代表QPS
count:单击阈值
strategy:流控模式,0代表直接,1代表关联,2代表链路
controlBehavior:流控效果,0代表快速失败,1代表Warm Up,2代表排队等待
clusterMode:是否集群