1.熔断/降级/限流
1.1.简介
1.1.1.熔断
A服务调用B服务某个功能,由于网络不稳定问题,或者B服务卡机,导致功能时间超长。如果这样的次数太多,我们就可以直接将B服务断路(A不再请求B接口),凡是调用B服务就直接返回降级数据,不必等待B服务的超长执行,这样B服务的故障问题,就不会级联影响到A。
1.1.2.降级
整个网站处于流量高峰期,服务器压力剧增,根据当前业务情况及流量,对一些服务和页面进行有策略的降级(停止服务,所有调用直接返回降级数据),以此缓解服务器资源的压力,以保证核心业务的正常运行,同时也保持了客户和大部分客户得到正确的响应。
1.1.3.熔断和降级的异同
相同点:
- 为了保证集群大部分服务的可用性和可靠性,防止崩溃,牺牲小我
- 用户最终都是体验到某个功能不可用
不同点:
- 熔断是被调用方故障,触发的系统主动规则
- 降级是基于全局考虑,人工停止一些正常服务,释放资源
1.1.3.限流
对打入服务的请求流量进行控制,使服务能够承担不超过自己能力的流量压力
1.2.Spring Cloud Alibaba - Sentinel
1.2.1.简介
项目地址:https://github.com/alibaba/Sentinel
官方文档:https://github.com/alibaba/Sentinel/wiki/%E4%B8%BB%E9%A1%B5
随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 是面向分布式服务架构的流量控制组件,主要以流量为切入点,从限流、流量整形、熔断降级、系统负载保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。
1.2.2.Sentinel与Hystrix对比
Sentinel 以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度保护服务的稳定性;可以在控制台中看到接入应用的单台机器秒级数据,甚至 500 台以下规模的集群的汇总运行情况;Sentinel提供开箱即用的与其它开源框架/库的整合模块,例如与 Spring Cloud、Dubbo、gRPC 的整合;Sentinel 提供简单易用、完善的 SPI 扩展接口,可以通过扩展接口来定制业务逻辑。
Hystrix是一个延迟和容错库,旨在隔离远程系统、服务和第三方库的访问点,停止级联故障,并在故障不可避免的复杂分布式系统中实现恢复能力;
Resilience4j是一个为Java8和函数式编程设计的容错库。提供高阶函数(decorators)来增强任何功能接口、lambda表达式或方法引用,包括断路器、速率限制器、重试或隔板。可以在任何函数接口、lambda表达式或方法引用上堆叠多个装饰器。优点是您可以选择所需的装饰器,而无需其他任何东西。
1.2.3.Sentinel使用步骤
官方文档:https://github.com/alibaba/Sentinel/wiki/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8
- 定义资源
- 主流框架的默认适配
- 抛出异常的方式定义资源
- 返回布尔值方式定义资源
- 注解方式定义资源
- 异步调用支持
- 定义规则
- 流量控制规则、熔断降级规则、系统保护规则、来源访问控制规则 和 热点参数规则。
- 检验规则是否生效
1.2.4.Sentinel控制台
下载地址:https://github.com/alibaba/Sentinel/releases/download/v1.8.0/sentinel-dashboard-1.8.0.jar
注意:Sentinel控制台版本需要与引入的Sentinel依赖版本保持一致
启动:
java -jar sentinel-dashboard-1.8.0.jar --server.port=8111
访问:
http://192.168.139.10:8111
用户名/密码:sentinel/sentinel
1.2.5.Spring Boot整合Sentinel
1)导入依赖
gmall-common
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>
gmall-seckill
<!--Endpoint 支持,显示图表->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
2)配置Sentinel控制台地址信息
spring:
cloud:
sentinel:
transport:
port: 8719
dashboard: 192.168.139.10:8111
# Endpoint 支持,暴露的 endpoint 路径
management:
endpoints:
web:
exposure:
include: '*'
3)在Sentinel控制台调整参数,(默认所有的流控设置保存在内存中,重启失效)
流控设置:资源名(/请求路径)
- 簇点链路 -> 流控
- 流控规则 -> 新增流控规则
1.2.6.自定义Sentinel全局异常
package com.atguigu.gmall.seckill.config;
import com.alibaba.csp.sentinel.adapter.spring.webflux.callback.BlockRequestHandler;
import com.alibaba.csp.sentinel.adapter.spring.webflux.callback.WebFluxCallbackManager;
import com.atguigu.common.exception.BizCode;
import com.atguigu.common.utils.R;
import org.springframework.context.annotation.Configuration;
import org.springframework.http.HttpStatus;
import org.springframework.http.MediaType;
import org.springframework.web.reactive.function.BodyInserters;
import org.springframework.web.reactive.function.server.ServerResponse;
import org.springframework.web.server.ServerWebExchange;
import reactor.core.publisher.Mono;
import javax.annotation.PostConstruct;
/**
* Sentinel 配置 {@link SentinelConfig}
*
* @author zhangwen
* @email: 1466787185@qq.com
*/
@Configuration
public class SentinelConfig {
/**
* 自定义Sentinel异常
*/
@PostConstruct
private void initBlockHandler(){
BlockRequestHandler blockRequestHandler = new BlockRequestHandler() {
@Override
public Mono<ServerResponse> handleRequest(ServerWebExchange serverWebExchange, Throwable throwable) {
R error = R.error(BizCode.TOO_MANY_REQUESTS.getCode(), BizCode.TOO_MANY_REQUESTS.getMessage());
return ServerResponse.status(HttpStatus.OK)
.contentType(MediaType.APPLICATION_JSON)
.body(BodyInserters.fromValue(error));
}
};
WebFluxCallbackManager.setBlockHandler(blockRequestHandler);
}
}
1.2.7.全服务引入Sentinel
1)导入依赖
<!--Endpoint 支持,显示图表->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
2)配置Sentinel控制台地址信息
spring:
cloud:
sentinel:
transport:
port: 8719
dashboard: 192.168.139.10:8111
# Endpoint 支持,暴露的 endpoint 路径
management:
endpoints:
web:
exposure:
include: '*'
3)商城核心链路完整走一遍,查看Sentinel控制台
- 首页 -> 登录 -> 商品检索 -> 商品详情 -> 加入购物车 -> 结算确认订单 -> 提交订单 -> 支付 -> 订单列表
- 首页 -> 秒杀 -> 商品详情 -> 立即抢购 -> 抢购成功(创建订单)-> 支付 -> 订单列表
1.2.8.流控模式与效果
流控模式:
- 直接
- 关联
- 链路
流控效果:
- 快速失败
- Warm Up(预热启动/冷启动)
- 排队等待
1.2.9.Feign支持(熔断)
使用Sentinel来保护feign远程调用
1)调用方熔断保护
feign:
sentinel:
enabled: true
gmall-product
package com.atguigu.gmall.product.feign;
import com.atguigu.common.utils.R;
import com.atguigu.gmall.product.fallback.SeckillFeignServiceFallback;
import org.springframework.cloud.openfeign.FeignClient;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
/**
* 秒杀服务远程接口 {@link SeckillFeignService}
*
* @author zhangwen
* @email: 1466787185@qq.com
*/
@FeignClient(value = "gmall-seckill", fallback = SeckillFeignServiceFallback.class)
public interface SeckillFeignService {
/**
* 获取商品秒杀信息
* @param skuId
* @return
*/
@GetMapping("/sku/seckill/{skuId}")
R getSkuSeckillInfo(@PathVariable("skuId") Long skuId);
}
package com.atguigu.gmall.product.fallback;
import com.atguigu.common.exception.BizCode;
import com.atguigu.common.utils.R;
import com.atguigu.gmall.product.feign.SeckillFeignService;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
/**
* 秒杀接口调用失败熔断处理 {@link SeckillFeignServiceFallback}
*
* @author zhangwen
* @email: 1466787185@qq.com
*/
@Slf4j
@Component
public class SeckillFeignServiceFallback implements SeckillFeignService {
@Override
public R getSkuSeckillInfo(Long skuId) {
log.info("熔断方法调用...getSkuSeckillInfo");
return R.error(BizCode.TOO_MANY_REQUESTS.getCode(), BizCode.TOO_MANY_REQUESTS.getMessage());
}
}
2)调用方手动指定远程服务的降级策略。远程服务被降级,就会触发熔断回调方法。
3)超大流量的时候,必须牺牲一些远程服务。在服务的提供方(远程服务)指定降级策略。提供方是在运行,但是不运行自己的业务逻辑,返回的是默认的熔断数据(限流的数据)。
1.2.10.自定义受保护资源
1)抛出异常的方式定义资源(基于代码)
public List<SeckillSkuRedisTO> getCurrentSeckillSkus() {
//seckillSkus 资源名
try(Entry entry = SphU.entry("seckillSkus")) {
//业务逻辑
} catch (BlockException e) {
log.error("资源被限流,{}", e.getMessage())
}
}
Sentinel控制台为资源 seckillSkus 添加流控,,降级规则
2)注解方式定义资源(基于注解)
/**
* blockHandler 函数会在原方法被限流/降级/系统保护的时候调用
* fallback 函数会针对所有类型的异常
*/
@SentinelResource(value = "getCurrentSeckillSkusResource",
blockHandler = "getCurrentSeckillSkusBlockHandler")
public List<SeckillSkuRedisTO> getCurrentSeckillSkus() {
//seckillSkus 资源名
try(Entry entry = SphU.entry("seckillSkus")) {
//业务逻辑
} catch (BlockException e) {
log.error("资源被限流,{}", e.getMessage())
}
}
private List<SeckillSkuRedisTO> getCurrentSeckillSkusBlockHandler(BlockException e) {
log.error("getCurrentSeckillSkusResource被限流了");
return null;
}
Sentinel控制台为资源 getCurrentSeckillSkusResource 添加流控,降级规则
1.3.网关流控
1.3.1.简介
官方文档:
https://github.com/alibaba/Sentinel/wiki/%E7%BD%91%E5%85%B3%E9%99%90%E6%B5%81
Sentinel 支持对 Spring Cloud Gateway、Zuul 等主流的 API Gateway 进行限流。
1.3.2.Spring Cloud Gateway
gmall-gataway 引入依赖
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-alibaba-sentinel-gateway</artifactId>
<version>2.2.3.RELEASE</version>
</dependency>
1.3.3.自定义Sentinel异常处理
1)配置方式
spring:
cloud:
sentinel:
scg:
fallback:
mode: response
response-body: '{"code":403,"msg":"请求流量过大,系统限流"}'
2)GatewayCallbackManager注册回调进行定制
SentinelConfig
package com.atguigu.gmall.gateway.config;
import com.alibaba.csp.sentinel.adapter.gateway.sc.callback.BlockRequestHandler;
import com.alibaba.csp.sentinel.adapter.gateway.sc.callback.GatewayCallbackManager;
import com.atguigu.common.exception.BizCode;
import com.atguigu.common.utils.R;
import org.springframework.context.annotation.Configuration;
import org.springframework.http.HttpStatus;
import org.springframework.http.MediaType;
import org.springframework.web.reactive.function.BodyInserters;
import org.springframework.web.reactive.function.server.ServerResponse;
import org.springframework.web.server.ServerWebExchange;
import reactor.core.publisher.Mono;
import javax.annotation.PostConstruct;
/**
* Sentinel 配置 {@link SentinelConfig}
*
* @author zhangwen
* @email: 1466787185@qq.com
*/
@Configuration
public class SentinelConfig {
/**
* GatewayCallbackManager注册回调进行异常定制
*/
@PostConstruct
private void initBlockHandler(){
BlockRequestHandler blockRequestHandler = new BlockRequestHandler() {
@Override
public Mono<ServerResponse> handleRequest(ServerWebExchange serverWebExchange, Throwable throwable) {
R error = R.error(BizCode.TOO_MANY_REQUESTS.getCode(), BizCode.TOO_MANY_REQUESTS.getMessage());
return ServerResponse.ok()
.contentType(MediaType.APPLICATION_JSON)
.body(BodyInserters.fromValue(error));
}
};
// GatewayCallbackManager注册回调进行异常定制
GatewayCallbackManager.setBlockHandler(blockRequestHandler);
}
}
1.3.4.网关流控原理
当通过 GatewayRuleManager 加载网关流控规则( GatewayFlowRule )时,无论是否针对请求属性进行限流,Sentinel 底层都会将网关流控规则转化为热点参数规则( ParamFl owRule ),存储在GatewayRuleManager 中,与正常的热点参数规则相隔离。转换时 Sentinel 会根据请求属性配置,为网关流控规则设置参数索引( idx ),并同步到生成的热点参数规则中。
外部请求进入 API Gateway 时会经过 Sentinel 实现的 filter,其中会依次进行 路由/API 分组匹配、请求属性解析和参数组装。Sentinel 会根据配置的网关流控规则来解析请求属性,并依照参数索引顺序组装参数数组,最终传入 SphU.entry(res, args) 中。Sentinel API Gateway Adapter Common 模块向Slot Chain 中添加了一个 GatewayFlowSlot ,专门用来做网关规则的检查。 GatewayFlowSlot 会从 GatewayRuleManager 中提取生成的热点参数规则,根据传入的参数依次进行规则检查。若某条规则不针对请求属性,则会在参数最后一个位置置入预设的常量,达到普通流控的效果。
上图的整体流程如下:
- 外部请求进入API Gateway时会经过Sentinel实现的filter,其中会依次进行路由/API分组匹配、请求属性解析和参数组装。
- Sentinel 会根据配置的网关流控规则来解析请求属性,并依照参数索引顺序组装参数数组,最终传入SphU.entry(res, args) 中。
- Sentinel API Gateway Adapter Common模块向 Slot Chain 中添加了一个 GatewayFlowSlot,专门用来做网关规则的检查。
- GatewayFlowSlot会从GatewayRuleManager中提取生成的热点参数规则,根据传入的参数依次进行规则检查。若某条规则不针对请求属性,则会在参数最后一个位置置入预设的常量,达到普通流控的效果。
注意:当通过 GatewayRuleManager加载网关流控规则GatewayFlowRule时,无论是否针对请求属性进行限流,Sentinel底层都会将网关流控规则转化为热点参数规则ParamFlowRule,存储GatewayRuleManager中,与正常的热点参数规则相隔离。转换时Sentinel会根据请求属性配置,为网关流控规则设置参数索引idx,并同步到生成的热点参数规则中。
1.3.5.网关流控控制台
- 查看 API Gateway 实时的 route 和自定义 API 分组监控
- 管理网关规则和 API 分组配置
快速刷新链接
2.Sleuth+Zipkin服务链路追踪
2.1.为什么用?
微服务架构是一个分布式架构,它按业务划分服务单元,一个分布式系统往往有很多个服务单元。由于服务单元数量众多,业务的复杂性,如果出现了错误和异常,很难去定位。主要体现在,一个请求可能需要调用很多个服务,而内部实现分布式链路追踪,去跟进一个请求到底有哪些服务参与,参与的顺序又是怎样的,从而达到每个请求的步骤清晰可见,出了问题,很快定位。
对于一个大型的几十个、几百个微服务构成的微服务架构系统,通常会遇到下面一些问题,比如:
- 如何串联整个调用链路,快速定位问题?
- 如何理清各个微服务之间的依赖关系?
- 如何进行各个微服务接口的性能分折?
- 如何跟踪整个业务流程的调用处理顺序?
链路追踪组件有:
- Dapper(Google)
- Zipkin(Twitter)
- Eagleeye(Alibaba)
- SkyWalking(Apache)
Spring Cloud Sleuth为Spring Cloud提供了分布式跟踪的解决方案,它大量借用了Google Dapper、Twitter Zipkin和Apache HTrace的设计,帮我们解决像上面提到的问题。Spring Cloud Sleuth可以追踪10种类型的组件:async、Hystrix,messaging,WebSocket,rxjava,scheduling,Web(SpringMVC Controller,Servlet),WebClient(Spring RestTemplate)、Feign/OpenFegin、Zuul;
Spring Cloud Sleuth对于分布式链路的跟踪仅仅是生成一些数据,这些数据不便于人类阅读,所以我们一般把这种跟踪数据上传给Zipkin Server,由Zipkin通过UI页面统一进行数据的展示。
2.2.基本术语
官方文档:https://docs.spring.io/spring-cloud-sleuth/docs/3.0.1/reference/htmlsingle/
- Span(跨度):基本工作单元,发送一个远程调度任务就会产生一个Span,Span是一个64位ID唯一标识,Trace是用另一个64位ID唯一标识,Span还有其他数据信息,比如摘要,时间戳时间,Span的ID,及进度ID
- Trace(跟踪):一系列Span组成的一个树状结构。请求一个微服务系统的API接口,这个API接口,需要调用多个微服务,调用每个微服务都会产生一个新的Span,所有由这个请求产生的Span组成了这个Trace。
- Annotation(标注):用来及时记录一个事件,一些核心注解用来定义一个请求的开始和结束,这些注解包括以下:
- cs: Client Sent,客户端发送一个请求,这个注解描述了这个Span的开始
- sr:Server Received,服务器获得请求并准备开始处理,如果将其sr减去cs时间戳,便可得到网络传输时间
- ss:Server Sent,服务端发送响应,该注解表明请求处理的完成(当请求返回客户端),如果ss的时间戳减去sr时间戳,就可以得到服务器请求的时间
- cr:Client Received,客户端接收响应,此时Span的结束,如果cr时间戳减去cs时间戳,就可以得到整个请求所消耗的时间
2.3.Zipkin架构
2.3.1.架构概述
追踪器驻留在你的应用程序里,并且记录发生操作的时间和元数据。他们经常装配在库上,所以对用户来说是透明的。举个例子,一个装配过的 Web 服务器,会在接收请求和发送响应进行记录。收集的追踪数据叫做 Span(跨度)。
生产环境中的装配器应该是安全并且低负载的。为此,带内(in-band)只传输 ID,并且告诉接收器仍有一个追踪在处理。完成的跨度在带外(out-of-band)汇报给 Zipkin,类似于应用程序异步汇报指标一样。
举个例子,当追踪一个操作的时候,该操作对外发送了一个 HTTP 请求,那么,为了传输 ID 就会添加一些额外的头部信息。头部信息并不是用于发送像是操作明这样的详细信息的。
装配应用中用于向 Zipkin 发送数据的组件叫做 Reporter。Reporter 通过 Transport 发送追踪数据到Zipkin 的 Collector,Collector 持久化数据到 Storage 中。之后,API 从 Storage 中查询数据提供给 UI。
其中左边部分代表了客户端分别为:
- InstrumentedClient:使用了Zipkin客户端工具的服务调用方
- InstrumentedServer:使用了Zipkin客户端工具的服务提供方
- Non-InstrumentedServer:未使用Trace工具的服务提供方,当然还可能存在未使用工具的调用方
- 总结:一个调用链路是贯穿InstrumentedClient->InstrumentedServer的,每经过一个服务都会以Span的形式通过Transport把经过自身的请求上报的Zipkin服务端中
右边线框内代表了Zipkin的服务端,其中各组件的功能如下:
- UI:提供web页面,用来展示Zipkin中的调用链和系统依赖关系等
- Collector:对各个客户端暴露,负责接受调用数据,支持HTTP、MQ等
- Storage:负责与各个存储适配后存储数据,支持内存,MySQL,Cassandra,ES等
- API:为web界面提供查询存储中的数据的接口
2.3.2.流程分析
正如概述中所提到的,标识符是在带内发送的,细节以带外形式发送到Zipkin。在这两种情况下,跟踪工具都负责创建有效的痕迹并正确渲染它们。例如,跟踪器可确保它在带内(下游)和带外(向Zipkin异步)发送的数据之间进行平衡。
以下是用户代码调用资源 / foo 的 http 跟踪示例序列。这会导致一个跨度,在用户代码收到http响应后异步发送到Zipkin。
跟踪检测报告异步跨越,以防止与跟踪系统相关的延迟或故障延迟或破坏用户代码。
2.3.实现原理
服务调用依赖关系如下:
下图表示请求链路,一条链路通过Trace Id唯一标识,Span标识发起的请求信息,各个Span通过parent id 关联起来。
上图简化:
如 服务1的Span id=A parent id=null,
服务2的Span id=B parent id=A,
服务3的Span id=C parent id=B
如此形成一条或多条链路,由于Trace Id是唯一标识,所以可以清楚的知道每个服务请求的链路。
2.4.整合Sleuth+Zipkin
通过Sleuth产生的调用链监控信息,可以得知微服务之间的调用链路,但监控信息只输出到控制台不方便查看。我们需要一个图形化的工具Zipkin。Zipkin是Twitter开源的分布式跟踪系统,主要用来收集系统的时序数据,从而追踪系统的调用问题。
官网:https://zipkin.io/
2.4.1.docker安装Zipkin服务器
docker run -d -p 9411:9411 openzipkin/zipkin
2.4.2.导入依赖
gmall-common
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-zipkin</artifactId>
</dependency>
注意:引入zipkin后,就不需要在单独引入sleuth,默认依赖了sleuth
2.4.3.zipkin配置
所有微服务都需要配置
spring:
application:
name: gmall-seckill
zipkin:
# zipkin服务器地址
base-url: http://192.168.139.10:9411
# 关闭服务发现,否则Spring Cloud会把zipkin的url当做服务名称
discovery-client-enabled: false
sender:
# 设置使用http的方式传输数据
type: web
sleuth:
sampler:
# 设置抽样采集率为100%,默认为0.1,即10%
probability: 1
2.4.4.Zipkin控制台
访问核心链路:首页 -> 登录 -> 商品检索 -> 商品详情 -> 加入购物车 -> 结算确认订单 -> 提交订单 -> 支付 -> 订单列表
进入zipkin控制台:http://192.168.139.10:9411
默认是查询所有,点击 + 号,可以根据服务名、持续时间等进行筛选
2.5.Zipkin数据持久化
Zipkin默认是将监控数据存储在内存的,如果Zipkin挂掉或重启,那么监控数据就会丢失。所有如果想要搭建生成可用的Zipkin,就需要实现监控数据的持久化。而想要实现数据数据化,自然就是得将数据存储至数据库。Zipkin支持将数据存储至:
- In-Memory(默认)
- MySQL
- ElasticSearch
- Cassandra
Zipkin数据持久化官方文档:https://github.com/openzipkin/zipkin#storage-component
Zipkin支持的这几种存储方式中,内存显示是不适用于生产的,这一点开始也说了。而使用MySQL的话,当数据量大时,查询较为缓慢,也不建议使用。Twitter官方使用的是Cassandra作为Zipkin的存储数据库,但国内大规模用Cassandra的公司较少,而且Cassandra相关文档也不多。综上,故采用ElasticSearch是个比较好的选择。
2.5.1.elasticsearch-storage
https://github.com/openzipkin/zipkin/tree/master/zipkin-server#elasticsearch-storage
docker方式
docker run --env STORAGE_TYPE=elasticsearch --env ES_HOSTS=192.168.139.10:9200 openzipkin/zipkin-dependencies