数字经济时代,算力已成为国民经济发展的重要基础设施。随着数字化转型的不断深入和人工智能技术的广泛应用,构建以新型智算中心为核心的智能算力生态体系正驱动着数字经济快速发展,成为人工智能赋能千行百业的重中之重。
2022年2月,国家正式启动“东数西算”工程,作为数字信息基础设施建设的国家队和主力军,三大运营商纷纷加快布局新型智算中心建设;与此同时,作为基础设施供应商,如何将智能算力资源转化为“一点接入、即取即用”的社会级服务成为运营商在算力建设过程中关注的重点。
智算中心建设需求及挑战
1. 提升集约化建设水平,降低算力建设成本
当前智能算力芯片成本已占到数据中心服务器总体成本80%,然而智能算力芯片作为新型硬件形态,其虚拟化能力存在局限性,算力资源只能以独占方式进行分配,导致底层资源无法被充分利用——据统计,智算中心异构算力硬件总体利用率普遍低于30%,导致算力建设总体成本居高不下。
2. 提升算力使用效率,降低算力服务成本
智算中心作为面向社会的服务基础设施,一方面要及时响应上层应用对底层异构算力资源的需求,另一方面也要面对不同业务场景及不同时段下、应用对资源波峰波谷的需求特征。因此,智算中心内应用在部署时不应受到底层服务器硬件配置的局限,同时底层资源应可根据上层业务需求弹性伸缩,高效流转。
3. 加强云边协同能力,实现泛在算力统一编排
人工智能、大数据、AR/VR等新兴应用的涌现推动了异构计算的迅猛发展,需求的多样化使得异构多样算力资源呈现分布广泛、种类繁多的特征。如何实现遍布在云、边、端的异构算力资源有效协同、统一调度是运营商需要面临的挑战。
4. 构建多元生态,保障算力供应安全
当前芯片生态已呈现一超多雄的产业格局,随着国际形势的变化,智算中心对异构算力芯片的供应应考虑尽可能拓宽和加固多元化渠道,以避免“单点故障”的发生。为避免算力硬件供应多元化带来的底层资源建设烟囱化问题,运营商应具备不同算力硬件统一纳管、统一运维能力,避免因资源多元化造成运维成本的增加。
智算中心建设实践
趋动科技OrionX猎户座AI算力资源池化解决方案为运营商客户带来创新的异构算力资源管理和分配方案,引入软件定义算力的概念,将OrionX软件部署在多台不同类型的异构算力服务器上,通过网络互联,构建了一个统一的异构算力资源池化层,实现了异构算力资源的统一调度、灵活分配、弹性伸缩等云化能力,为上层应用提供异构算力资源。
OrionX通过软件定义AI算力,颠覆了原有的AI应用直接调用物理异构加速硬件的架构,将AI应用与物理异构加速卡解耦。AI应用调用OrionX vDevice,由OrionX将OrionX vDevice匹配到异构算力资源池中的物理硬件,这样,能够达到AI应用透明的共享异构算力资源池内的所有硬件资源的目的。OrionX将一块物理硬件细粒度切分成多个vDevice,然后分配给多个虚拟机或者容器。每一块vDevice的显存和算力都能被独立设置和限制。通过这个功能,运行在全栈云上的AI推理应用可以高效地共享异构算力资源,提高物理硬件利用率,降低成本,实现了“有卡可用、按需分配、高效管理”。
OrionX在中移咪咕成功应用
算力网络对数据中心的发展产生深远影响。2022年12月,面临标准统一、技术突破、生态聚合三大迫切需求,中国移动依托算力网络子链,联合趋动科技在内的十家合作伙伴共建新型智算开放实验室,打造“芯合”算力原生平台,攻关算力原生技术,融通AI生态,实现应用一次开发、跨架构部署和迁移。
为引入业界优秀AI关键技术、AI基础软硬件、AI集成能力,中国移动专门在人工智能领域设立了产业合作计划——“九天揽月” 计划,旨在联合产学研用各界,共同构建加速人工智能产业规模化创新发展的合作新生态。在中国移动集团高同庆副总经理和中国移动研究院黄宇红院长的共同见证下,包括趋动科技在内的九家企业正式成为“九天揽月”计划的新成员。
智能算力作为全社会数智化转型的基石,有力支撑着数字经济高质量发展。趋动科技正以领先的算力池化能力,与运营商携手面对智算生态竖井问题,共同推进相关领域的人工智能技术和服务应用水平,加速自主可控的国产化AI技术落地,为行业的数智化转型添砖加瓦!
· 相关阅读
- 趋动科技在中国移动全球合作伙伴大会上连获两合作
- 中国移动研究院与趋动科技等合作伙伴联合发布《面向智算的算力原生白皮书》