前言
为什么要做限流?
服务需要保护自己,以免被太多的请求淹没(无论是恶意或无意的),从而保持可用性。
举个生活中的例子,某个景区,平时可能根本没什么人前往,但是一旦到了国庆假日就人满为患,这时景区管理人员就会实施一系列的限流举措,来限制进入的人流量。为什么要这么做呢?假设景区能容纳1万人,现在进去了3万人,势必摩肩接踵,搞不好还会有踩踏事故发生。这样的结果就是所有人的体验都不好,如果发生了事故,景区可能还要关闭,导致对外不可用。
互联网场景中,这样的例子也随处可见。比如秒杀抢购,通过限流来限制并发和请求量,从而保护自身或下游系统不被巨型流量冲垮。主要有以下三点应用场景。
1、防止资源枯竭
限流最常见的一个原因是,通过避免资源枯竭,来提高服务的可用性。常见的导致资源枯竭的原因有:
遭受恶意的攻击(如DDoS攻击、暴力密码猜测攻击等),这些攻击看起来像是来自真实用户,但通常是由僵尸程序或某种脚本机器人生成,往往会在短时间内发起大量的服务请求,导致合法用户无法使用该系统。
非恶意的(friendly-fire)资源消耗,这可能由于一些错误的配置,或者人为的误用导致。比如:上游调用方在应该发起批量请求的地方,发起了多次简单请求。
2、管理配额
许多公共资源(如开放API,服务容量等),可能由多个租户共享。如果没有限流,每个用户都随心所欲的发出请求,消耗资源,将导致嘈杂邻居效应(noisy neighbor),使其他用户的服务质量变差,甚至得不到服务。对每个用户使用限流,从而为每个用户提供公平的服务,而不影响其他用户。
3、费用控制
在按使用付费模式中,底层资源能够自动伸缩以满足需求,限流通过对资源扩展设置虚拟上限来帮助控制运营成本。如果没有限流,资源可能会不成比例地扩展(比如配置错误,或者实验失控),从而导致指数级的账单。
对一般的限流场景来说它具有两个维度的信息:
1、时间 限流基于某段时间范围或者某个时间点,也就是我们常说的“时间窗口”,比如对每分钟、每秒钟的时间窗口做限定
2、资源 基于可用资源的限制,比如设定最大访问次数,或最高可用连接数
上面两个维度结合起来看,限流就是在某个时间窗口对资源访问做限制,比如设定每秒最多100个访问请求。但在真正的场景里,我们不止设置一种限流规则,而是会设置多个限流规则共同作用,主要的几种限流规则如下:
1、QPS和连接数控制
2、传输速率
3、黑白名单
固定窗口限流
什么是固定窗口限流算法?
固定窗口限流算法(Fixed Window Rate Limiting Algorithm)是一种最简单的限流算法,其原理是在固定时间窗口(单位时间)内限制请求的数量。该算法将时间分成固定的窗口,并在每个窗口内限制请求的数量。具体来说,算法将请求按照时间顺序放入时间窗口中,并计算该时间窗口内的请求数量,如果请求数量超出了限制,则拒绝该请求。
假设单位时间(固定时间窗口)是1秒,限流阀值为3。在单位时间1秒内,每来一个请求,计数器就加1,如果计数器累加的次数超过限流阀值3,后续的请求全部拒绝。等到1s结束后,计数器清0,重新开始计数。如下图:
固定窗口算法的优缺点
优点:固定窗口算法非常简单,易于实现和理解。
缺点:存在明显的临界问题,比如: 假设限流阀值为5个请求,单位时间窗口是1s,如果我们在单位时间内的前0.8-1s和1-1.2s,分别并发5个请求。虽然都没有超过阀值,但是如果算0.8-1.2s,则并发数高达10,已经超过单位时间1s不超过5阀值的定义啦。
滑动窗口限流
什么是滑动窗口限流算法?
滑动窗口限流算法是一种常用的限流算法,用于控制系统对外提供服务的速率,防止系统被过多的请求压垮。它将单位时间周期分为n个小周期,分别记录每个小周期内接口的访问次数,并且根据时间滑动删除过期的小周期。它可以解决固定窗口临界值的问题。
用一张图解释滑动窗口算法,如下:
假设单位时间还是1s,滑动窗口算法把它划分为5个小周期,也就是滑动窗口(单位时间)被划分为5个小格子。每格表示0.2s。每过0.2s,时间窗口就会往右滑动一格。然后呢,每个小周期,都有自己独立的计数器,如果请求是0.83s到达的,0.8~1.0s对应的计数器就会加1。
我们来看下,滑动窗口,去解决固定窗口限流算法的临界问题,思想是怎样?
假设我们1s内的限流阀值还是5个请求,0.81.0s内(比如0.9s的时候)来了5个请求,落在黄色格子里。时间过了1.0s这个点之后,又来5个请求,落在紫色格子里。如果是固定窗口算法,是不会被限流的,但是滑动窗口的话,每过一个小周期,它会右移一个小格。过了1.0s这个点后,会右移一小格,当前的单位时间段是0.21.2s,这个区域的请求已经超过限定的5了,已触发限流啦,实际上,紫色格子的请求都被拒绝啦。
当滑动窗口的格子周期划分的越多,那么滑动窗口的滚动就越平滑,限流的统计就会越精确。
滑动窗口算法的优缺点
优点:
1、简单易懂
2、精度高(通过调整时间窗口的大小来实现不同的限流效果)
3、可扩展性强(可以非常容易地与其他限流算法结合使用)
**缺点:**突发流量无法处理(无法应对短时间内的大量请求,但是一旦到达限流后,请求都会直接暴力被拒绝。酱紫我们会损失一部分请求,这其实对于产品来说,并不太友好),需要合理调整时间窗口大小。
漏桶限流
什么是漏桶限流算法?
漏桶限流算法(Leaky Bucket Algorithm)是一种流量控制算法,用于控制流入网络的数据速率,以防止网络拥塞。它的思想是将数据包看作是水滴,漏桶看作是一个固定容量的水桶,数据包像水滴一样从桶的顶部流入桶中,并通过桶底的一个小孔以一定的速度流出,从而限制了数据包的流量。
漏桶限流算法的基本工作原理是:对于每个到来的数据包,都将其加入到漏桶中,并检查漏桶中当前的水量是否超过了漏桶的容量。如果超过了容量,就将多余的数据包丢弃。如果漏桶中还有水,就以一定的速率从桶底输出数据包,保证输出的速率不超过预设的速率,从而达到限流的目的。
1、流入的水滴,可以看作是访问系统的请求,这个流入速率是不确定的。
2、桶的容量一般表示系统所能处理的请求数。
3、如果桶的容量满了,就达到限流的阀值,就会丢弃水滴(拒绝请求)
4、流出的水滴,是恒定过滤的,对应服务按照固定的速率处理请求。
漏桶限流算法的优缺点
优点:
1、可以平滑限制请求的处理速度,避免瞬间请求过多导致系统崩溃或者雪崩。
2、可以控制请求的处理速度,使得系统可以适应不同的流量需求,避免过载或者过度闲置。
3、可以通过调整桶的大小和漏出速率来满足不同的限流需求,可以灵活地适应不同的场景。
缺点:
1、需要对请求进行缓存,会增加服务器的内存消耗。
2、对于流量波动比较大的场景,需要较为灵活的参数配置才能达到较好的效果。
3、但是面对突发流量的时候,漏桶算法还是循规蹈矩地处理请求,这不是我们想看到的啦。流量变突发时,我们肯定希望系统尽量快点处理请求,提升用户体验嘛。
令牌桶限流
什么是令牌桶算法?
令牌桶算法是一种常用的限流算法,可以用于限制单位时间内请求的数量。该算法维护一个固定容量的令牌桶,每秒钟会向令牌桶中放入一定数量的令牌。当有请求到来时,如果令牌桶中有足够的令牌,则请求被允许通过并从令牌桶中消耗一个令牌,否则请求被拒绝。
令牌桶算法的优缺点
优点:
1、稳定性高:令牌桶算法可以控制请求的处理速度,可以使系统的负载变得稳定。
2、精度高:令牌桶算法可以根据实际情况动态调整生成令牌的速率,可以实现较高精度的限流。
3、弹性好:令牌桶算法可以处理突发流量,可以在短时间内提供更多的处理能力,以处理突发流量。
缺点:
1、实现复杂:相对于固定窗口算法等其他限流算法,令牌桶算法的实现较为复杂。对短时请求难以处理:在短时间内有大量请求到来时,可能会导致令牌桶中的令牌被快速消耗完,从而限流。这种情况下,可以考虑使用漏桶算法。
2、时间精度要求高:令牌桶算法需要在固定的时间间隔内生成令牌,因此要求时间精度较高,如果系统时间不准确,可能会导致限流效果不理想。