介绍几种常见的运维发布策略

随着Devops的发展，为了提高运维发布的成功率，探索出了多种发布策略。本文简单介绍几种常见发布策略, 以及它们适用的场景和优缺点。

第一种，停机发布

这是最早的一种发布策略，停机发布会在发布以前关闭服务，停止用户访问，然后一次性的升级所有服务。这种发布策略的发布频率往往比较低，且需要在发布之前做好充足的测试。

停机发布的特点有：

所有需要升级的组件被整合到一次发布中
一个项目中的大部分应用都会被更新
发布之前的研发流程和测试流程往往需要花很长的时间
发布时如果出现问题, 修复和回滚的成本很高
完成一次停机发布, 需要花费很久的时间, 且需要很多团队在一起才能完成
往往需要客户端和服务器端同步升级

停机发布并不适合互联网公司，因为两次发布的间隔很久，从功能特性提出到进入市场的时间太长，对市场反应不敏感，会在充分竞争的市场里处于下风。每次发布因为要停机，也会带来经济损失。

优势：

简单, 不太需要考虑新旧版本共存时的兼容性问题

劣势：

发布过程中，服务不可用
只能在业务低峰期 (往往是夜间)发布，并且需要很多团队在一起工作
出现故障后很难回滚

适合场景：

开发测试环境
非关键应用，用户影响面小
兼容性比较难管控的场景

第二种，金丝雀发布

金丝雀发布这个术语源自 20 世纪初期，当时英国的煤矿工人在下井采矿之前，会把笼养的金丝雀携带到矿井中，如果矿井中一氧化碳等有毒气体的浓度过高，在影响矿工之前，金丝雀相比人类表现的更加敏感快速，金丝雀中毒之后，煤矿工人就知道该立刻撤离。金丝雀发布是在将整个软件的新版本发布给所有用户之前，先发布给部分用户，用真实的客户流量来测试，以保证软件不会出现严重问题，降低发布风险。

在实践中，金丝雀发布一般会先发布到一个小比例的机器，比如 2% 的服务器做流量验证，然后从中快速获得反馈，根据反馈决定是扩大发布还是回滚。金丝雀发布通常会结合监控系统，通过监控指标，观察金丝雀机器的健康状况。如果金丝雀测试通过，则把剩余的机器全部升级成新版本，否者回滚代码。

优势：

对用户体验影响较小，在金丝雀发布过程中，只有少量用户会受影响
发布安全能够得到保障

劣势：

金丝雀的机器数量比较少, 有一些问题并不能够暴露出来

适用场景：

监控比较完备且与发布系统集成

第三种，灰度发布

灰度发布也叫滚动发布，在我们公司用的比较多。它是金丝雀发布的延伸，是将发布分成不同的阶段/批次，每个阶段/批次的用户数量逐级增加。如果新版本在当前阶段没有发现问题，就再增加用户数量进入下一个阶段，直至扩展到全部用户。

灰度发布可以减小发布风险, 是一种零宕机时间的发布策略。它通过切换线上并存版本之间的路由权重，逐步从一个版本切换为另一个版本。整个发布过程会持续比较长的时间, 在这段时间内, 新旧代码共存, 所以在开发过程中, 需要考虑版本之间的兼容性, 新旧代码共存不能影响功能可用性和用户体验。当新版本代码出现问题时, 灰度发布能够比较快的回滚到老版本的代码上。

结合特性开关等技术，灰度发布可以实现更复杂灵活的发布策略。

优势：

用户体验影响比较小, 不需要停机发布
能够控制发布风险

劣势：

发布时间会比较长
需要复杂的发布系统和负载均衡器
需要考虑新旧版本共存时的兼容性

适用场景：

适合可用性较高的生产环境发布

第四种，蓝绿发布

蓝绿部署是指有两个完全相同的、互相独立的生产环境，一个叫做“蓝环境”，一个叫做“绿环境”。其中，绿环境是用户正在使用的生产环境。当要部署一个新版本的时候，先把这个新版本部署到蓝环境中，然后在蓝环境中运行冒烟测试，以检查新版本是否正常工作。如果测试通过，发布系统更新路由配置，将用户流量从绿环境导向蓝环境，蓝环境就变成了生产环境。这种切换通常在一秒钟之内就能搞定。如果出了问题，把路由切回到绿环境上，再在蓝环境中调试，找到问题的原因。因此，蓝绿部署可以做到仅仅一次切换，立刻就向所有用户推出新版本，新功能对所有用户立刻生效可见。

优势：

升级切换和回退速度非常快
零停机时间

不足：

一次性的全量切换, 如果发布出现问题, 会对用户产生比较大的影响
需要两倍的机器资源
需要中间件和应用自身支持热备集群的流量切换

适用场景：

机器资源比较富余或者按需分配 (背靠云厂商)

第五种，A/B 测试

A/B 测试和灰度发布非常像，可以从发布的目的上进行区分。AB 测试侧重的是根据 A 版本和 B 版本的差异进行决策，最终选择一个版本进行部署。和灰度发布相比，AB 测试更倾向于去决策，和金丝雀发布相比，AB 测试在权重和流量的切换上更灵活。

举个例子，某功能有两个实现版本 A 和 B，通过细粒度的流量控制，把 50% 的用户总是引导到 A 实现上，把剩下的 50% 用户总是引导到 B 实现上，通过比较 A 实现和 B 实现的转化率，最终选择转化率较高的 A 实现作为功能的最终版本。

优势：

快速实验能力
用户体验影响小
可以使用生产环境流量做测试
可以针对某些特定用户做测试

不足：

需要较为复杂的业务流量识别和控制能力
需要考虑较为复杂的新旧版本兼容性问题

适用场景：

用来做业务探索和创新测试
需要对多个方案进行决策

第六种，流量隔离环境发布

在上述的发布策略中, 发布的单位都是应用, 但是一个功能模块往往是由多个应用组合在一起提供的服务,即使当前发布的应用出现了异常, 这个异常也未必体现在当前应用中, 在复杂的情况下, 异常会延迟到它的下游应用才体现出来, 如何发现此类问题并且不影响用户体验是非常重要的。此外, 我们有时候还希望新版本的代码上线以后, 只影响到一小部分用户。而传统的灰度发布, 因为无法识别业务流量, 所以即使某个应用只有一台机器出现了问题, 也可能会影响到所有的用户。

如下图左侧的灰度发布，App1 的所有机器都有一定概率会路由到出现问题的红色 App2 机器上。而右侧的隔离环境发布中，新版本的代码会先发布在全链路隔离环境中，即使发布中出现问题，也只会影响少量用户。

优势：

能够发现一些复杂的, 涉及到多应用的问题
出现故障时, 只会影响很小一部分用户

不足：

需要对流量隔离环境进行独立监控
系统设计复杂, 需要中间件和链路上的所有应用能够识别业务流量

适用场景：

较为核心的生产业务场景

不同环境使用不同的发布策略

前面介绍的几种发布策略都有各自的优缺点，要根据自己的场景特点和需求选择合适的发布策略。

一般来说，测试环境是用来做初步功能测试，所以会频繁的更新代码和发布，如果采用灰度发布的方式且发布的批次设置的比较大，则开发效率会大打折扣。这个时候单机或多机的单批次停机发布其实是一个不做的选择。

对于预发环境，不仅要考虑自己测试的需要，还要考虑上下游其他开发者的测试需求，所以单批次停机发布就不再合适，可以设置两批发布。

对于线上环境，可以先发布隔离流量环境，再多批次发布线上环境。

发布中关注监控报警

仅靠发布策略是无法避免故障的发生的，在发布中和发布后仔细的观察应用的监控数据非常重要。应用的核心指标监控数据，比如 QPS、RT、成功率和报错数，能够帮助用户尽可能早的发现故障。此外，在生产环境中，如果批次数量设置的比较小，每批发布机器数量比较少，那么即使某些监控指标出现了问题，因为数据量比较小，可能会被淹没在整体的监控数据中，所以配置已发布机器的独立监控也是非常重要的。