AI 为先的时代,企业如何深度用云?

news2024/11/28 2:20:17

「又一年云栖,SOFAStack 走向云原生深处。」

SOFAStack 5.0 与蚂蚁集团代码大模型 CodeFuse 全面融合,涵盖设计、研发、测试、运维等领域,提供从领域建模到智能运维的端到端 Copilot 产品解决方案,为企业打造新一代 AI 云原生 PaaS 平台。

*以下摘自蚂蚁集团数字科技事业群云原生科技产品总监马振雄在2023云栖大会的分享:

首先,自我介绍 SOFAStack 是什么 ?

大家都知道蚂蚁数字化三件套:mPaaS、SOFAStack 和 OceanBase。

以饭店为例,如果把业务比作一盘菜,云计算是水电煤这样的基础资源,数据是食材和调料,OceanBase 是一个能把食材数据做管理存储和查询计算的仓库,那么 SOFAStack 则像一个厨房,把食材和调料做高效的烹饪、切割以及装盘,将食材变成食物。mPaaS 更多像是饭店的前厅,帮助客户更好地获客、点餐、用餐以及结账,完成客户对客界面的完整体验。这就是蚂蚁数字三件套彼此之间的关系。

经过一系列实践,我们也观察到目前企业应用上云出现了三大趋势——更异构、更智能、更经济。今天的主题主要围绕这三大趋势展开,与大家分享蚂蚁云原生 PaaS 在核心系统上云的实践。

企业上云三大趋势:更异构

从互联网云原生企业,到越来越多传统行业,都在尝试核心系统上云,甚至已经不满足于集中式中心化的云,而是需要更轻量的小型云,或者边缘节点的云。在面对云的形态更加异构复杂的情况下,企业会更关注云背后统一平滑迁移的能力。

这是云原生第一个趋势——更异构,包含了资源异构、应用异构以及云形态异构。

  • 资源异构

目前有 70% 到 80% 的存量应用仍跑在云外虚拟化的资源上,还有一些自研云和外采云等多云资源,这背后需要将不同资源进行统一纳管。

传统做法是先用容器屏蔽异构资源,在传统的虚拟化之上叠加一层容器。因此资源没有办法充分做到统一精细化调度,整个资源利用率无法做到极致,并且运维复杂度直线提升,这也直接导致虚拟和容器在网络和存储方面,难以实现统一标准化管理。

所以我们在实践过程中,定义出下一代更符合云原生高效率的计算架构,通过把容器和虚拟化做统一拉平,统一调度。

同时,对于 AI 时代的到来,算力和 GPU 资源的消耗和需求是空前绝后,但是绝大部分企业在储备 GPU 算力过程当中,资源利用率基本上平均水位在 10% 到 30% 左右。这也意味着,企业需要对 GPU 精细化管理做统一的虚拟化和池化。

以往,传统 GPU 虚拟化只能做到物理卡的显存切分,比较粗粒度 GPU 的调度。SOFA 能够进一步将显存和算力两个维度做精细化切分,切分到最低颗粒度的调度,满足不同业务对于算力和显存的要求,同时对于不同业务需要,可以做到统一的精细化并行调度。

另外,传统的应用可能跑在虚拟机,新型的应用跑在容器,我们也支持 GPU 的算力和显存能绑定虚机和容器两种不同的形态,支持应用可以更平滑的迁移。

  • 应用异构

随着越来越多传统行业把核心系统进行上云,未来将面临着更多云下存量异构的应用上云,这些应用的特征在于开发框架不一致,通信协议不一致,编程语言以及所需部署资源的形态也都不一致,这些存量的系统称之为「历史包袱」,如果直接将「历史包袱」统一作为应用上云,将面对很多挑战。

首先新老系统之间无法在统一的管控界面上进行管控治理,意味着需要两套平台来管控新老应用。

其次,如果让应用改造成云原生的方式去上云,意味着需要相当大的改造成本,把单体式的应用,改造成云原生或微服务架构。因此我们需要一个更平滑、更轻量的方式,帮助企业的「历史包袱」顺利上云。

最后,即使改造成微服务之后,仍然面临着是不是要进一步将整个应用架构和框架能力做进一步解耦。

以蚂蚁集团为例,有成千上万个应用,这些应用都改造成了微服务的架构,但是蚂蚁横向基础设施团队,负责整个云原生的基础设施,他们需要将业务部门背后的几千个应用统一打包发布部署,配合底盘能力的升级,完成应用的变更,这对所有业务部门造成打扰,并且带来的变更故障风险。

基于蚂蚁的实践,通过将所有微服务的应用进一步升级成 Mesh 化的服务网格应用,通过植入 Mesh 编程的形式,我们将微服务耦合在应用里的 SDK 逻辑,下沉到服务网格里的编程,实现了应用和底层框架能力的解耦。

通过这种方式,能够在业务部门无感的同时,横向基础设施团队能够高效进行框架能力升级。以往,我们一年只能做一到两次升级,随着全面 Mesh 化后,演变为一个月能够做十几次甚至几十次底盘能力和框架能力的升级,极大提升了企业的组织效率。

Mesh 在帮助我们进行应用改造的同时,也能够进一步支持平滑的迁移。应用在接入Mesh 过程当中,没有接入 Mesh 和接入 Mesh 的应用可以平滑通信,在同一个平台上进行管控和服务的治理。

  • 云形态的异构

刚才提到的越来越多传统行业不满足于建一些中心化的大型云,需要在周围边缘的节点建立一些小型的云,这些云需要轻量化的方式,但是需要跟中心云统一通信协同和统一纳管。

当我们尝试去大力发展边缘业务的同时,随着边缘设备增多,边缘业务逐渐复杂,意味着传统中心化的云计算计算存储网络模型,已经不太适合于边缘业务节点对于时效、对于容量和算力的要求。

其次,对于边缘形态业务的丰富,包括边缘的智能,边缘的实时计算,边缘的分析等等这些新兴业务的诞生,意味着边缘云背后异构业务统一运维复杂度也在上升。对于中心云、边缘云、端,这三个节点如何进行统一的资源管控和应用管控,带来极大挑战。

对此,蚂蚁的实践是提出了统一的云边协同架构。核心准则是:云端统一管控,边缘端在弱网和断网的情况下自治,保证稳定性和业务的延续。

企业上云三大趋势:更智能

大模型和 AIGC 都在寻找应用场景,如果大模型是非常强劲的发动机,客户需要的是装有这台强劲发动机背后的一辆宝马,也就是真正能让发挥作用的场景。

蚂蚁认为在研发效能领域,有着非常好的大模型落地场景,因为大模型和 AIGC 技术可以为架构师、开发人员、测试人员带来结构性和颠覆性的研发模式和测试模式的重构,带来研发和测试效率的提升。

蚂蚁自研 340 亿参数级别 CodeFuse 代码大模型,支持 JavaScript、Python、Go、C++ 等 40 多种编程语言。在 HumanEval 评测中,CodeFuse 得分 74.4%,超过 GPT-4(67%)的成绩。

本次 SOFAStack5.0 升级,CodeFuse 已经与 SOFA 产品线全面融合,通过人机交互助手提升日常代码研发、测试、运维过程中的效率和质量。对企业而言,可以显著提升研发效能,降低总体成本。

在运维方面,核心系统上云背后,稳定性要求非常高,最重要也是最核心是两大风险敞口:

  • 变更,行业普遍认为,75% 甚至 80% 的故障都是由变更引起,变更永远是最大的罪魁祸首。如何通过智能化的能力,进一步降低变更所带来的故障风险?这是我们需要思考的首要原则。
  • 硬件,从以前核心系统承载主机系统的稳定,到开始尝试往去 IOA 的方式落到云,落到分布式 X86 集群,这意味着硬件稳定性的下降,同时也代表着故障不可避免,在故障不可避免的前提下,如何提高发现问题、定位问题以及解决问题的效率,这是我们思考的第二个核心原则。

对于变更而言,蚂蚁有完整的变更三板斧:可监控,可灰度,可回滚。这九个字,包含着更复杂变更前置和后置的校验。这背后运用到大量的智能化和自动化能力,帮助运维人员进一步提效,完成变更风险的防控。

另外,对于硬件风险既然不可避免,如何去提高故障应急效率,为此蚂蚁沉淀的体系是 1-5-10 的体系,即 1 分钟发现故障,5 分钟定位故障的原因,再到 10 分钟恢复故障,完成故障的止血和恢复。

为此,我们升级了蚂蚁 SRE 技术风险体系与故障应急体系,通过智能化能力升级,完成智能的监控、智能的降噪,智能的运维,智能异常检测,智能的根因定位,再到智能的自愈等等。

企业上云三大趋势:更经济

任何时候,降本仍然是每个行业极致追求的目标。同时对于 2030「碳达峰」以及 2060「碳中和」来说,更需要思考在云原生发展到未来的阶段,如何进一步进行绿色减排?整个云计算爆发期给整个社会和企业带来不可避免的能耗问题,应该在哪个环节尝试去做一些减排和降本的工作?

我们认为,云计算和云原生未来的趋势重点应该放在算力的应用阶段。

为此,蚂蚁定义了根技术之一的绿色计算,通过绿色计算背后的三个核心技术——在离线混部、云原生分时调度,以及 AI 智能弹性容量,能够帮助更多企业进一步降本减排。

通过绿色计算的实践,我们在过去几年从以前的机房资源利用率 9% 提升了 4 倍,到接近 40%,同时每年节省约 600 万度的电,包括前几年已经完成超过 1600 吨碳排放,无论是从资源利用率提升,还是到节能减排,都做出了不错的成效。

对于在离线混部而言,面对的挑战是资源利用率低效,以前离线的业务和在线的业务是分开部署。我们通过在离线的混部,白天密集型计算型消耗的在线业务,再到晚上离线数据跑批的业务进行统一的混合部署,提升部署密度的同时,加强在不同级别,包括 OS 内核隔离,保证资源稳定性的同时,通过错峰混部方式提升资源利用率。

此外,我们还进一步实践了云原生分时调度,分时调度背后核心原理是把整个应用分成运行态和保活态。运行态是完整热的状态,全功耗运行,保活态是以更低功耗、更低资源部署的要求稳定运行,但它可以非常快速地转化成运行形态,我们称之为温的状态。这意味着温可以快速实时地一键转换成运行态,同时资源部署要求非常低,意味着可以用更低的资源消耗,同时去管理更多错峰的在线业务。

最后对于容量风险,很多时候会发现,除了变更带来的故障风险,其实容量不可预测也会带来很多的故障或者风险。

通过智能 AI 模型,在事前通过持续等不同基线数据分析,能够更快、更早地识别容量风险;同时,通过智能 AI 模型去实现更智能的弹性伸缩算法,从被动式响应式的扩缩容,变成预测式前置性的扩缩容。

基于更异构、更智能、更经济三个趋势背后一些洞察、思考和实践,我们升级了蚂蚁云原生 SOFAStack 整个的 PaaS,SOFAStack5.0 升级包含四个内涵——智能、可信、绿色以及多云。

通过绿色计算能力,让 SOFAStack 能够减排降本,变得更绿色;通过大模型 AIGC技术,从研发到测试再到运维,全面升级智能化,让 SOFAStack 变得更智能;通过对 GPU 和 CPU 的混合调度,以及定义下一代云原生计算架构,让 SOFAStack 变得更多云;通过对计算环境、软件供应链以及全方面的安全能力内置的增强,让 SOFAStack 变得更可信。

SOFAStack 源于支付宝,从服务金融行业中成长,正进一步走向全行业,服务更多的企业和客户,助力完成云原生化的升级,力争做 AI 时代最好的云原生应用的操作系统及底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1192289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络层+数据链路层+物理层

一)网络层协议: 一)IP协议报头介绍: 咱们的IP协议能够在两点之间规划处一条合适的路径,什么叫做合适?那就得看咱们的TOS是怎么进行选的,比如说选择最大吞吐量,咱们就需要进行选择一个最大的带宽路径; 16位总长度:IP数据…

grpc 重试机制

1.通过配置retryPolicy的方式 这也是grpc官方库里的示例代码,其他讲retry重试的基本也都是参照这种方法。但是本地配置之后没生效。换用下边第二种方式之后问题解决 https://github.com/grpc/grpc-go/blob/be1d1c10a930/examples/features/retry/client/main.go …

景联文科技加入中国人工智能产业发展联盟(AIIA),与行业各方共促AI产业发展

近日,景联文科技加入中国人工智能产业发展联盟(AIIA),与行业各方共同挖掘人工智能数据的更多价值,破解中国人工智能AI数据短缺难题。 中国人工智能产业发展联盟(简称AIIA)是在国家发改委、科技部…

this.$message提示内容添加换行

0 效果 1 代码 let msgArr [只允许上传doc/docx/xls/xlsx/pdf/png/jpg/bmp/ppt/pptx/rar/zip格式文件,且单个文件大小不能超过20MB,已过滤无效的文件] let msg msgArr.join(<br/>) this.$message({dangerouslyUseHTMLString: true,message: msg,type: warning })

django 批量 serializers listserializers

Django drf 序列化器 序列化器 扩展serializers的有用性是我们想要解决的问题。但是&#xff0c;这不是一个微不足道的问题&#xff0c;而是需要一些严肃的设计工作。— Russell Keith-Magee, Django用户组 序列化器允许把像查询集和模型实例这样的复杂数据转换为可以轻松渲染…

电力输送、材料和互连领域即将发生巨大变化

在设备互连方面&#xff0c;铜无可匹敌。其低电阻率和高可靠性为业界提供了出色的片上互连和芯片间连线服务。但在逻辑芯片中&#xff0c;随着互连堆栈上升到14级范围&#xff0c;并且阻容(RC)延迟在总延迟中所占的比例越来越大&#xff0c;晶圆厂正在寻求替代金属来维持性能。…

LeetCode_多源 BFS_中等_2258.逃离火灾

目录 1.题目2.思路3.代码实现&#xff08;Java&#xff09; 1.题目 给你一个下标从 0 开始大小为 m x n 的二维整数数组 grid &#xff0c;它表示一个网格图。每个格子为下面 3 个值之一&#xff1a; 0 表示草地。1 表示着火的格子。2 表示一座墙&#xff0c;你跟火都不能通过…

使用ffmpeg 压缩视频

我有一批1080p的视频,在网上播放占用空间太大,需要进行压缩以后再上传,下面是记录一下ffmpeg命令的使用情况 原视频大小:288mb --压缩加修改分辨率 640p ffmpeg -y -i C4995.mp4 -vcodec libx264 -crf 18 -s vga C4995\C4995_2.MP4 -y: 强制覆盖 -i :输入文件 -vcodec lib…

基于Springboot的智慧食堂设计与实现(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的智慧食堂设计与实现&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 项…

国内外PLC的差异化对比

在聊PLC的市场格局和国产发展现状之前&#xff0c;我们先来简单了解一下PLC的作用。所谓PLC&#xff0c;你可以把它当成是一台小型电脑&#xff0c;只不过这台电脑是专用于工业领域&#xff0c;用来控制各种机械或生产的过程。比如说我们身上穿的衣服&#xff0c;都是由机器缝制…

SpringCloud——负载均衡——Ribbon

负载均衡分为集中式LB(Nginx实现)和进程内LB(Ribbon)。 Ribbon简单来说就是负载均衡RestTemplate调用。 1.Ribbon在工作中分成两步 1.先选择EurekaServer&#xff0c;它优先选择在同一个区域内负载较少的EurekaServer。 2.在根据用户指定的策略&#xff0c;从服务注册的列表…

打印图形

题目描述 由键盘输入一个大写字母 ( 到 中的任意一个 ) &#xff0c;输出如下图所示由相关大写字母组成的图形。 所输入的字母一定为输出文件的第一个字符( 位于图形的左上角 ) &#xff0c;其余部分的字母构成规律和分布由样例给出。 输入格式 一行&#xff0c;仅为一个大写…

Unity Mirror学习(三)ClientRpc特性使用

ClientRpc特性 1&#xff0c;从服务端任意一网络对象发送到客户端 2&#xff0c;修饰方法的&#xff0c;在服务器上调用此方法&#xff0c;它将在所有客户端执行&#xff08;我的理解:服务端广播消息&#xff0c;消息方法&#xff09; 3&#xff0c;此方法不会在本地执行 它和…

Android RxJava3 原理浅析

使用 val retrofit Retrofit.Builder().baseUrl("https://api.github.com/").addConverterFactory(GsonConverterFactory.create()).addCallAdapterFactory(RxJava3CallAdapterFactory.create()).build()val api retrofit.create(API::class.java)api.getRepo("…

能源监测管理系统有哪些作用与效果?

随着全球能源的不断增加&#xff0c;能源的有限性与环境问题日益严重&#xff0c;用能管理企业需要一种高效的方法来管理能源与利用能源&#xff0c;因此能源监测管理系统成为了一种不可或缺的工具。 能源监测管理系统的重要性 1、实现节能减排的目标 通过系统&#xff0c;可…

优思学院|CTP和CTQ是什么?有什么区别?

CTQ 关键质量特性 CTQ是在六西格玛管理中常用的重要词汇&#xff0c;所以很多不同界别的人仕都可能听过&#xff0c;CTQ的意思是关键质量特性&#xff0c;Critical To Quality 的缩写。 六西格玛管理提倡的方法是通过客户的声音 (Voice of customer-VOC) &#xff0c;然后把它…

【C语言】嵌套结构体初始化 - 一个有趣的结论

0. 前言 A. 嵌套结构体&#xff08;比如双链表&#xff09;的初始化一般是什么流程&#xff1f; B. 嵌套结构体的内存是如何分布的&#xff1f; C. 结构体中的结构体指针是否需要再次分配内存&#xff1f;不分配会怎么样&#xff1f; 关于嵌套结构体的初始化问题&#xff0c;我…

Element-Plus表单label实现两端对齐(左右对齐)

项目场景&#xff1a; 提示&#xff1a;这里简述项目相关背景&#xff1a; 在使用Element-Plus的form的时候,label只有左右,居中对齐&#xff0c;缺少两端对齐的选项 故研究一下如何实现&#xff0c;其他方法也试过&#xff0c;都没效果&#xff0c;我在别人的基础上又研究了一…

【深度学习】深度学习下的语音识别

语音识别正在侵入我们的生活。它内置于我们的手机、游戏机和智能手表中。它甚至使我们的房屋自动化。你只需 50 美元&#xff0c;你就可以获得一个 Amazon Echo Dot——一个神奇盒子&#xff0c;你只需大声说出你的需求就可以帮你订购披萨、获取天气预报甚至购买垃圾袋。 但是…

【机器学习】给大家推荐几个资源

我写博客的目的就是让大家了解人工智能背后的数学原理&#xff0c;但人工智能这个话题太大了&#xff0c;背后涉及到的知识非常庞大&#xff0c;仅靠写几篇文章传播力度有限&#xff0c;况且知识传播过程中也容易引入误解&#xff0c;所以授之以鱼不如授之以渔&#xff0c;这里…