「又一年云栖,SOFAStack 走向云原生深处。」
SOFAStack 5.0 与蚂蚁集团代码大模型 CodeFuse 全面融合,涵盖设计、研发、测试、运维等领域,提供从领域建模到智能运维的端到端 Copilot 产品解决方案,为企业打造新一代 AI 云原生 PaaS 平台。
*以下摘自蚂蚁集团数字科技事业群云原生科技产品总监马振雄在2023云栖大会的分享:
首先,自我介绍 SOFAStack 是什么 ?
大家都知道蚂蚁数字化三件套:mPaaS、SOFAStack 和 OceanBase。
以饭店为例,如果把业务比作一盘菜,云计算是水电煤这样的基础资源,数据是食材和调料,OceanBase 是一个能把食材数据做管理存储和查询计算的仓库,那么 SOFAStack 则像一个厨房,把食材和调料做高效的烹饪、切割以及装盘,将食材变成食物。mPaaS 更多像是饭店的前厅,帮助客户更好地获客、点餐、用餐以及结账,完成客户对客界面的完整体验。这就是蚂蚁数字三件套彼此之间的关系。
经过一系列实践,我们也观察到目前企业应用上云出现了三大趋势——更异构、更智能、更经济。今天的主题主要围绕这三大趋势展开,与大家分享蚂蚁云原生 PaaS 在核心系统上云的实践。
企业上云三大趋势:更异构
从互联网云原生企业,到越来越多传统行业,都在尝试核心系统上云,甚至已经不满足于集中式中心化的云,而是需要更轻量的小型云,或者边缘节点的云。在面对云的形态更加异构复杂的情况下,企业会更关注云背后统一平滑迁移的能力。
这是云原生第一个趋势——更异构,包含了资源异构、应用异构以及云形态异构。
- 资源异构
目前有 70% 到 80% 的存量应用仍跑在云外虚拟化的资源上,还有一些自研云和外采云等多云资源,这背后需要将不同资源进行统一纳管。
传统做法是先用容器屏蔽异构资源,在传统的虚拟化之上叠加一层容器。因此资源没有办法充分做到统一精细化调度,整个资源利用率无法做到极致,并且运维复杂度直线提升,这也直接导致虚拟和容器在网络和存储方面,难以实现统一标准化管理。
所以我们在实践过程中,定义出下一代更符合云原生高效率的计算架构,通过把容器和虚拟化做统一拉平,统一调度。
同时,对于 AI 时代的到来,算力和 GPU 资源的消耗和需求是空前绝后,但是绝大部分企业在储备 GPU 算力过程当中,资源利用率基本上平均水位在 10% 到 30% 左右。这也意味着,企业需要对 GPU 精细化管理做统一的虚拟化和池化。
以往,传统 GPU 虚拟化只能做到物理卡的显存切分,比较粗粒度 GPU 的调度。SOFA 能够进一步将显存和算力两个维度做精细化切分,切分到最低颗粒度的调度,满足不同业务对于算力和显存的要求,同时对于不同业务需要,可以做到统一的精细化并行调度。
另外,传统的应用可能跑在虚拟机,新型的应用跑在容器,我们也支持 GPU 的算力和显存能绑定虚机和容器两种不同的形态,支持应用可以更平滑的迁移。
- 应用异构
随着越来越多传统行业把核心系统进行上云,未来将面临着更多云下存量异构的应用上云,这些应用的特征在于开发框架不一致,通信协议不一致,编程语言以及所需部署资源的形态也都不一致,这些存量的系统称之为「历史包袱」,如果直接将「历史包袱」统一作为应用上云,将面对很多挑战。
首先新老系统之间无法在统一的管控界面上进行管控治理,意味着需要两套平台来管控新老应用。
其次,如果让应用改造成云原生的方式去上云,意味着需要相当大的改造成本,把单体式的应用,改造成云原生或微服务架构。因此我们需要一个更平滑、更轻量的方式,帮助企业的「历史包袱」顺利上云。
最后,即使改造成微服务之后,仍然面临着是不是要进一步将整个应用架构和框架能力做进一步解耦。
以蚂蚁集团为例,有成千上万个应用,这些应用都改造成了微服务的架构,但是蚂蚁横向基础设施团队,负责整个云原生的基础设施,他们需要将业务部门背后的几千个应用统一打包发布部署,配合底盘能力的升级,完成应用的变更,这对所有业务部门造成打扰,并且带来的变更故障风险。
基于蚂蚁的实践,通过将所有微服务的应用进一步升级成 Mesh 化的服务网格应用,通过植入 Mesh 编程的形式,我们将微服务耦合在应用里的 SDK 逻辑,下沉到服务网格里的编程,实现了应用和底层框架能力的解耦。
通过这种方式,能够在业务部门无感的同时,横向基础设施团队能够高效进行框架能力升级。以往,我们一年只能做一到两次升级,随着全面 Mesh 化后,演变为一个月能够做十几次甚至几十次底盘能力和框架能力的升级,极大提升了企业的组织效率。
Mesh 在帮助我们进行应用改造的同时,也能够进一步支持平滑的迁移。应用在接入Mesh 过程当中,没有接入 Mesh 和接入 Mesh 的应用可以平滑通信,在同一个平台上进行管控和服务的治理。
- 云形态的异构
刚才提到的越来越多传统行业不满足于建一些中心化的大型云,需要在周围边缘的节点建立一些小型的云,这些云需要轻量化的方式,但是需要跟中心云统一通信协同和统一纳管。
当我们尝试去大力发展边缘业务的同时,随着边缘设备增多,边缘业务逐渐复杂,意味着传统中心化的云计算计算存储网络模型,已经不太适合于边缘业务节点对于时效、对于容量和算力的要求。
其次,对于边缘形态业务的丰富,包括边缘的智能,边缘的实时计算,边缘的分析等等这些新兴业务的诞生,意味着边缘云背后异构业务统一运维复杂度也在上升。对于中心云、边缘云、端,这三个节点如何进行统一的资源管控和应用管控,带来极大挑战。
对此,蚂蚁的实践是提出了统一的云边协同架构。核心准则是:云端统一管控,边缘端在弱网和断网的情况下自治,保证稳定性和业务的延续。
企业上云三大趋势:更智能
大模型和 AIGC 都在寻找应用场景,如果大模型是非常强劲的发动机,客户需要的是装有这台强劲发动机背后的一辆宝马,也就是真正能让发挥作用的场景。
蚂蚁认为在研发效能领域,有着非常好的大模型落地场景,因为大模型和 AIGC 技术可以为架构师、开发人员、测试人员带来结构性和颠覆性的研发模式和测试模式的重构,带来研发和测试效率的提升。
蚂蚁自研 340 亿参数级别 CodeFuse 代码大模型,支持 JavaScript、Python、Go、C++ 等 40 多种编程语言。在 HumanEval 评测中,CodeFuse 得分 74.4%,超过 GPT-4(67%)的成绩。
本次 SOFAStack5.0 升级,CodeFuse 已经与 SOFA 产品线全面融合,通过人机交互助手提升日常代码研发、测试、运维过程中的效率和质量。对企业而言,可以显著提升研发效能,降低总体成本。
在运维方面,核心系统上云背后,稳定性要求非常高,最重要也是最核心是两大风险敞口:
- 变更,行业普遍认为,75% 甚至 80% 的故障都是由变更引起,变更永远是最大的罪魁祸首。如何通过智能化的能力,进一步降低变更所带来的故障风险?这是我们需要思考的首要原则。
- 硬件,从以前核心系统承载主机系统的稳定,到开始尝试往去 IOA 的方式落到云,落到分布式 X86 集群,这意味着硬件稳定性的下降,同时也代表着故障不可避免,在故障不可避免的前提下,如何提高发现问题、定位问题以及解决问题的效率,这是我们思考的第二个核心原则。
对于变更而言,蚂蚁有完整的变更三板斧:可监控,可灰度,可回滚。这九个字,包含着更复杂变更前置和后置的校验。这背后运用到大量的智能化和自动化能力,帮助运维人员进一步提效,完成变更风险的防控。
另外,对于硬件风险既然不可避免,如何去提高故障应急效率,为此蚂蚁沉淀的体系是 1-5-10 的体系,即 1 分钟发现故障,5 分钟定位故障的原因,再到 10 分钟恢复故障,完成故障的止血和恢复。
为此,我们升级了蚂蚁 SRE 技术风险体系与故障应急体系,通过智能化能力升级,完成智能的监控、智能的降噪,智能的运维,智能异常检测,智能的根因定位,再到智能的自愈等等。
企业上云三大趋势:更经济
任何时候,降本仍然是每个行业极致追求的目标。同时对于 2030「碳达峰」以及 2060「碳中和」来说,更需要思考在云原生发展到未来的阶段,如何进一步进行绿色减排?整个云计算爆发期给整个社会和企业带来不可避免的能耗问题,应该在哪个环节尝试去做一些减排和降本的工作?
我们认为,云计算和云原生未来的趋势重点应该放在算力的应用阶段。
为此,蚂蚁定义了根技术之一的绿色计算,通过绿色计算背后的三个核心技术——在离线混部、云原生分时调度,以及 AI 智能弹性容量,能够帮助更多企业进一步降本减排。
通过绿色计算的实践,我们在过去几年从以前的机房资源利用率 9% 提升了 4 倍,到接近 40%,同时每年节省约 600 万度的电,包括前几年已经完成超过 1600 吨碳排放,无论是从资源利用率提升,还是到节能减排,都做出了不错的成效。
对于在离线混部而言,面对的挑战是资源利用率低效,以前离线的业务和在线的业务是分开部署。我们通过在离线的混部,白天密集型计算型消耗的在线业务,再到晚上离线数据跑批的业务进行统一的混合部署,提升部署密度的同时,加强在不同级别,包括 OS 内核隔离,保证资源稳定性的同时,通过错峰混部方式提升资源利用率。
此外,我们还进一步实践了云原生分时调度,分时调度背后核心原理是把整个应用分成运行态和保活态。运行态是完整热的状态,全功耗运行,保活态是以更低功耗、更低资源部署的要求稳定运行,但它可以非常快速地转化成运行形态,我们称之为温的状态。这意味着温可以快速实时地一键转换成运行态,同时资源部署要求非常低,意味着可以用更低的资源消耗,同时去管理更多错峰的在线业务。
最后对于容量风险,很多时候会发现,除了变更带来的故障风险,其实容量不可预测也会带来很多的故障或者风险。
通过智能 AI 模型,在事前通过持续等不同基线数据分析,能够更快、更早地识别容量风险;同时,通过智能 AI 模型去实现更智能的弹性伸缩算法,从被动式响应式的扩缩容,变成预测式前置性的扩缩容。
基于更异构、更智能、更经济三个趋势背后一些洞察、思考和实践,我们升级了蚂蚁云原生 SOFAStack 整个的 PaaS,SOFAStack5.0 升级包含四个内涵——智能、可信、绿色以及多云。
通过绿色计算能力,让 SOFAStack 能够减排降本,变得更绿色;通过大模型 AIGC技术,从研发到测试再到运维,全面升级智能化,让 SOFAStack 变得更智能;通过对 GPU 和 CPU 的混合调度,以及定义下一代云原生计算架构,让 SOFAStack 变得更多云;通过对计算环境、软件供应链以及全方面的安全能力内置的增强,让 SOFAStack 变得更可信。
SOFAStack 源于支付宝,从服务金融行业中成长,正进一步走向全行业,服务更多的企业和客户,助力完成云原生化的升级,力争做 AI 时代最好的云原生应用的操作系统及底座。