一云多芯,智能化转型的下一个工程化挑战

news2025/1/4 19:15:46

进入2023年,产业数字化和智能化转型升级进入了大规模工程化落地阶段。根据中国信通院《中国数字经济发展研究报告(2023)》,数字经济已经占我国GDP比重达到41.5%,相当于第二产业占国民经济的比重。随着产业数字化和智能化程度的提升,算力服务越来越成为数字经济的底座。中国信通院测算,算力每投入1元,将带动3至4元的GDP经济增长。

所谓算力服务,即以多样性算力为基础,以算力网络为连接,以供应有效算力为目标的算力产业。中国信通院指出,目前算力服务供应形态主要以云服务为主,同时超算、智算和社会闲散算力等多样算力的任务式供给形态,也在积极探索与试验过程中。而云计算作为数字世界操作系统,云服务正在统筹超算、智算和普算而成为算力输出的主要界面。

芯片是算力的基础。为了解决当前在算力建设过程中出现的多芯局面,“一云多芯”理念逐渐获得了广泛的关注。作为国内领先的私有云厂商之一,浪潮云海首席科学家张东在2023中国算力大会上强调,“一云多芯”将成为云计算平台的核心能力之一,不仅是芯与云的融合,更是平台+生态的协同。“一云多芯”将有效解决智能化转型过程中的工程化挑战,以多样化算力帮助政企用户实现可持续的智能化。

算力成为智能化新基建

2023年大模型的爆火将算力基础设施推向新基建的风口浪尖。根据OpenAI发布的《AI and Compute》分析报告,自2012年以来,AI训练应用的算力需求每3.4个月就会翻倍,从 2012年至今,AI算力增长超过了30万倍。根据OpenAI,ChatGPT的总算力消耗约为3640PF-days,相当于当前一座超大城市总算力的3倍。

根据IDC与浪潮信息联合发布《2022-2023 中国人工智能计算力发展评估报告》,IDC预测,中国智能算力规模将持续高速增长,预计到2026年中国智能算力规模将达到1271.4EFLOPS,未来五年复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%。在算力投资中,城市智能算力的投入已经成为推动区域数字经济发展的重要支撑,而2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造,行业AI渗透度明显提升。

(浪潮云海首席科学家张东)

浪潮云海首席科学家张东强调,未来是智能化竞争,必须从信息化走向智能化,否则将完全落后于时代的发展,而智算中心就是未来的新基建。新基建的意义不仅在于可提供商业化服务,更是面向城市的公益性社会基础设施服务,在满足像大模型训练这样任务性的智算需求外,也可将算力资源开放给社会使用,从而广泛培养智能化人才和生态。

在2023中国算力大会现场,浪潮信息展示了目前业界领先的智算中心。该智算中心是一个预制化的、模块化的智算中心,集计算、存储、网络和算力调度于一体,覆盖不同的计算节点兼容国内外主流的CPU和异构加速芯片,可以支撑自动驾驶、生物制药、AIGC、智能制造等多样的应用,这样的一套数据中心可以实现两周内的交付,目前已经落地济南、南京、宿州等多个地区,为区域智能化新基建提供了建设新思路、新路径。

算力之上:标准化云操作系统

正如同当年的PC,之所以能够实现“全世界每一张桌子上都有一台PC”, 关键在于对于各国不同软件和硬件生态的兼容。目前,不同算力的主要对外输出界面就是云服务,那么提高云操作系统的兼容性就是实现算力服务普惠化、泛在化和标准化的关键。随着AI的发展,我们正从以CPU为中心,向GPU、DPU、XPU等多种加速计算芯片共存的算力体系发展,如何让云操作系统兼容多种芯片和指令集以及适配各种上层软件,就成为下一个挑战。

浪潮云海首席科学家张东强调,“一云多芯”要解决不同类型芯片共存所带来的多云管理问题,真正形成一朵云。“一云多芯”将成为IT产业链承上启下的关键环节,对下纳管底层各种芯片、操作系统,对中兼容各种类型的虚拟机、容器、数据库、中间件,对上适配各类云原生应用和软件,从而成为未来云计算平台的核心能力之一。

众所周知,业务应用软件或SaaS服务,需要面对芯片、操作系统、数据库等多种软硬件组合环境,在不同环境中开发、测试并在实际业务中验证和迭代。而在今天的多芯时代,随着各国和各厂商不断发展各自的芯片,可选处理器的范围越来越大,对于云操作系统的适配要求越来越高。但各芯片厂商都有着各自的标准,都希望拉动自有生态,导致云数据中心中各服务器芯片表现参差不一、用户体验难以一致、应用效果大相径庭,进而形成算力孤岛。

因此,“一云多芯”的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切换。换言之,就需要实现应用与芯片架构的彻底解耦,支持应用在不同架构处理器间的等价切换。当然,这首先就需要对于不同芯片算力的统一测算,例如某厂商一个GPU的算力能够对等替换另一厂商多少个GPU的算力,需要达成业界共识;其次,还需要硬件、云和应用等产业链上下游的协同,实现应用层面的跨架构无感知切换;第三,对于开发工具来说,还无法做到完全架构无关,无论是Python或Java所编写出的应用,或多或少都与架构相关,因此需要推动应用开发与架构无关,将相关调用剥离到云操作系统层面处理;第四,数据与应用的分离,将数据层完全隔离,实现架构无关。

整体来看,“一云多芯”看似简单却是一个工程量极大的挑战,用好“一云多芯”就可以最大程度地降低技术路线选择风险,极大提升业务稳定性以及业务改造的灵活性,但要真正实现“一云多芯”却需要整个产业和生态具有共同的信念和决心,将“一云多芯”从标准、架构、测评、测试、开发等多个环节落实下去,真正打破不同架构的算力孤岛、实现不同架构之间的互连互通,而不是纳管不同芯片架构资源池的简单模式。

算力融合:“一云多芯”三步走

云操作系统对于不同芯片、芯片架构和应用软件的兼容,这是一个庞大的全生态的工程。在企业IT技术历史上,无论是VMware的虚拟化软件或是Oracle的数据库,企业IT软件的隐藏核心竞争力其实都是广泛的兼容性。但就像VMware与Oracle等兼容性工程都是由一家厂商主导并耗费多年的时间和投入才逐步实现的,更为重要的是当VMware和Oracle等软件的市场领导地位获得认可后,整个生态都会向VMware和Oracle等软件主动进行兼容。

对于发展历史尚短的云操作系统来说,无法在短时间内真正实现广泛的兼容性。浪潮信息是“一云多芯”的积极倡导者之一,作为独立于芯片、云和生态的第三方厂商,提出了“以应用导向、以系统为中心”、“分层解耦、开放标准”、“迭代创新、持续演进”的一云多芯发展理念,特别是务实地提出了三阶段推进策略,从而实现“一云多芯”的最终目标。

所谓“三阶段”推进策略,即:在第一阶段,实现异构节点统一池化管理,通过离线迁移、手动切换等方式实现应用跨架构,这就是“混合部署、统一管理、统一视图”,解决一云多芯“有”的问题;在第二阶段,在资源层、平台层和应用层实现分层解耦,厂商共同配合实现应用平滑切换及弹性伸缩,这就是“业务迁移、分层解耦、架构升级”,解决一云多芯“好”用的问题;在第三阶段,实现产业链上下游协同配合,打造标准、共同生态,打造垂直一体化方案,这就是“软件定义、算力标准、全栈多芯”,解决化一云多芯“优”化的问题。

张东表示,当前还处于“一云多芯”的第一个阶段,不少厂商或多或少都已经实现了不同程度的第一阶段“一云多芯”,接下来就是要攻坚第二阶段,即在资源层、平台层和应用层实现分层解耦。为此,浪潮信息在前不久推出了融合架构3.0原型机,也就是在服务器整机层面实现彻底的硬件资源解耦。融合架构3.0突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。

融合架构3.0原型机打破了以往“以CPU为中心”的设计理念,从整体出发、以系统为中心,通过硬件解耦将异构计算、内存、存储等资源转变为可独立扩展的资源池,用户可以根据应用需求实现资源的自由扩展。例如,大模型的训练需要更多的显存,但GPU卡带有的显存容量有限,在融合架构3.0的设计下,就可以将系统中的所有内存、显存都打通,极大扩展大模型训练可用的内存,同时也降低了对于GPU的需求。

云海Incloud OS面向“一云多芯”在进行第二阶段改进,特别是在平台层和应用层推进解耦工作。作为Incloud OS的核心技术,根据Gartner的报告,云海服务器虚拟化系统Incloud Sphere连续两年获得国内品牌中国市场份额第一,目前居全球市场份额前四。InCloud Sphere可实现对x86、ARM等多元异构芯片的计算资源池化,最新版本可同时提供针对四种不同架构处理器的统管能力,进一步降低了用户对不同架构基础设施的维护难度。

为了创建了以“一云多芯”为核心的云平台参考基准,前不久云海OS完成了目前业界首个面向“一云多芯”场景的SPEC Cloud基准测试,并在三种处理器节点混合部署集群测试中,相对可扩展性、平均实例配置时间等指标均达到全球领先水平,验证了云海OS在业务应用跨处理器架构场景下的高效率、高性能和高扩展能力。同时,浪潮信息积极参加了由中国信通院牵头制定的《一云多芯技术能力标准体系》,并且云海OS以优异成绩通过一云多芯IaaS平台能力评估,获得“先进级”最高等级认证。

浪潮信息对于“一云多芯”的执着追求来自实际的客户需求。云海OS是业内最早支持“一云多芯”,拥有丰富的行业应用落地经验的。从2018年开始,浪潮信息依托云海OS帮助政府、金融、能源、交通等行业的数百家客户打造了“一云多芯”行业云,例如云海OS助力某省构建了国内规模最大、芯片种类最多的省级政务云平台,覆盖近2000台、三种架构处理器的服务器,并全面集成了基础软硬件、云平台、安全系统、运维管理系统、应用系统等。

整体而言:“一云多芯”是算力服务和云操作系统在全球芯片格局动荡和供应链不确定时期的应对之道,也是基于开源技术的云操作系统在发展到一定成熟阶段后的必由之路。相对于传统的服务器虚拟化软件,云操作系统遇到了更为复杂的多芯环境,需要同时面对多种成熟和发展中的芯片技术路线,这对于云操作系统的产品成熟度提出了更高的要求,也倒逼云操作系统厂商进行原始创新,走出独立创新之路。“一云多芯”也将从长期保障中国智能化的可持续发展,在全球智能化竞争中建立核心竞争力。(文/宁川)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/918416.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java Collection/Map选型

1.Collection接口 Collection接口实现了Iterator接口,所以Collection接口的实现类都可以用迭代器进行迭代。 Collection接口主要有两大重要的子接口List(列表)、Set(集合)。 List的主要特点是:有序、值可重复、支持索引访问。 Set的主要特点是&#xf…

【学习FreeRTOS】第16章——FreeRTOS事件标志组

1.事件标志组简介 事件标志位:用一个位,来表示事件是否发生 事件标志组是一组事件标志位的集合, 可以简单的理解事件标志组,就是一个整数。 事件标志组的特点: 它的每一个位表示一个事件(高8位不算&…

spring练习32-删除用户操作

18-Spring练习-删除用户操作_哔哩哔哩_bilibili 106 1、删除操作怎么做,点击删除的时候,我要发请求,就是controller某个方法当中,要不要携带参数那,因为你点这个,那个,都不一眼 2、你点这个你…

低压风机单片机方案

低压风机通常由电机、转子、机壳、进气管、出气管、齿轮和减速机等组成。电机带动转子旋转,旋转的转子带动齿轮和减速机转动,进而形成空气被吸入转子内部,通过旋转而产生的离心力把气体压缩,并将气体排出。 低压风机方案的主控型…

【C++入门到精通】C++入门 —— 模版(template)

阅读导航 前言一、模版的概念二、函数模版1. 函数模板概念2. 函数模板定义格式3. 函数模板的原理4. 函数模版的实例化🚩隐式实例化🚩显式实例化 5. 函数模板的匹配原则 三、类模板1. 类模板的定义格式2. 类模板的实例化 四、非类型模板参数1. 概念2. 定义…

GPT4模型架构的泄漏与分析

迄今为止,GPT4 模型是突破性的模型,可以免费或通过其商业门户(供公开测试版使用)向公众提供。它为许多企业家激发了新的项目想法和用例,但对参数数量和模型的保密却扼杀了所有押注于第一个 1 万亿参数模型到 100 万亿参…

Docker是什么?详谈它的框架、使用场景、优势

作者:Insist-- 个人主页:insist--个人主页 作者会持续更新网络知识和python基础知识,期待你的关注 目录 一、什么是 Docker? 二、Docker 的架构 1、Docker客户端 2、Docker守护进程 3、Docker镜像 4、Docker容器 5、Docker…

锚定医学营养 健启星深耕不辍

在生命医学中,营养被称为维持患者生命的物质基础。医学营养,是结合了医学临床营养、营养素与疾病预防等方面,并根据患者的医疗记录、身体检查及心理情况,由医生及专业营养师给出配比完善的营养素,以此来增加患者身体的…

SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录(第三天)动态SQL

动态SQL—SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录(第三天)Mybatis的动态SQL操作 昨天我们深入学习了Mybatis的核心对象SqlSessionFactoryBuilder,掌握MyBatis核心配置文件以及元素的使用,也掌握My…

《Zookeeper》源码分析(十九)之 LearnerHandler

目录 LearnerCnxAcceptorrun() LearnerCnxAcceptorHandlerrun() LearnerHandlerrun()syncFollower()SNAP全量同步startSendingPackets() LearnerCnxAcceptor 在Leader.lead()方法中创建并启动LearnerCnxAcceptor线程,该线程主要是建立LearnerCnxAcceptorHandler并将…

介绍两个js补环境项目

1. v-jstools 这个项目是一个浏览器插件,用来补环境的话,是非常好的一个插件。项目地址是:GitHub - cilame/v_jstools: https://github.com/cilame/v_jstools 这里是我的配置 这个是使用后的效果 可以看到,里面调用的环境都被检…

【ARM AMBA AXI 入门 10 - AXI 总线 DATA信号与 STRB 信号之间的关系 】

文章目录 AXI STRB 信号 AXI STRB 信号 AXI总线是ARM公司设计的高性能处理器接口,其中STRB和DATA信号在AXI协议中有特殊的含义和关系。 DATA信号:在AXI中,DATA信号用于在读写操作中传输实际的数据。数据的大小可以根据AXI接口的位宽来变化&…

Redis(缓存预热,缓存雪崩,缓存击穿,缓存穿透)

目录 一、缓存预热 二、缓存雪崩 三、缓存击穿 四、缓存穿透 一、缓存预热 开过车的都知道,冬天的时候启动我们的小汽车之后不要直接驾驶,先让车子发动机预热一段时间再启动。缓存预热是一样的道理。 缓存预热就是系统启动前,提前将相关的…

I2C读写eeprom的问题

接线 在配置I2C的时候要把IO的口设置为开漏模式,为什么要设置开漏模式呢? 答:I2C协议支持多个主设备与多个从设备在一条总线上,如果不用开漏输出,而用推挽输出,会出现主设备之间短路的情况所以总线一般会…

基于闪电搜索算法优化的BP神经网络(预测应用) - 附代码

基于闪电搜索算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于闪电搜索算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.闪电搜索优化BP神经网络2.1 BP神经网络参数设置2.2 闪电搜索算法应用 4.测试结果:5…

使用Linux本地快速搭建web网站,并内网穿透发布上线「内网穿透」

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 前言 在web项目中,部署的web站点需要被外部访问,则…

最小二乘法,残差,线性模型-线性回归

目录 什么是最小二乘法 残差是什么意思 线性模型 线性回归 方法一:解析解法 代码实战: 方法二:数值解法 代码实战: 解析法(最小二乘)还是数值法(梯度下降),如何…

笔记:自注意力机制

1、和其他网络的比较 自注意力机制适合处理长文本,并行度好,在GPU上,CNN和Self-attention性能差不多,在TPU(Tensor Processing Uni)效果更好。 2、输入特点 原生的Transformer中nn.embeding输入需要非负整…

住宅IP代理与数据中心IP代理的区别,最详解

跨境业务中常见到浏览器指纹防关联,但说到底,最重要的指纹是您的IP地址。在多个账号使用相同的IP地址简直触犯了大忌,这样做往往会导致账号惨遭暂停。 现在越来越多的跨境业务场景需要用到IP代理,那么我们常见的数据中心代理与住…

Instagram最新防封教程,看这一篇就够了

Instagram一直以来都是海外社媒巨头,也是跨境外贸引流推广的必争之地。在庞大的用户量中,真正了解平台规则的却并不多。它有一系列的社区准则和使用条款,稍有不慎违反规定就会造成限流,甚至导致账号被封禁,进而造成客户…