随着AI的发展,作为AI三要素算法、数据、算力中的基础设施——算力首先迎来了高速的发展。智算中心作为AI时代承载算力的关键基础设施,在政策、市场的双重驱动下进入了高速建设周期,其在推动数字经济发展和技术进步方面发挥着重要作用,但同时在建设使用中也面临一系列的挑战:
1. 算力融合问题:现在的智算中心需要提供通用算力和智能算力,通用算力主要由基于CPU的服务器提供,适用于广泛的计算任务,如云计算。智能算力主要由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供专注于人工智能的训练和推理。但是一个AI的应用通常会同时用到CPU和GPU,那么怎么解决CPU运算时GPU空闲,GPU运算时CPU空闲的配比难题,最终将不同算力高效融合是目前智算中心面临的一个挑战。
2. 算力孤岛问题:智算中心往往存在不同厂家的GPU类型,这些GPU类型之间往往不能相互兼容,并且相互之间有着较高的技术壁垒和各自的生态系统,造成不同厂家的GPU构建自己的部署区域,使用不同的管理和维护体系,这就形成了算力的孤岛问题。如何跨越各厂商间的技术差异,实现无缝衔接与操作,打破技术孤岛是智算中心急需解决的问题。
3. 算力低效问题: AI算力的利用率是智算中心优化其性能和效率的关键因素之一,目前大部分的智算中心都是以裸机服务器的方式直接供给客户使用算力,这种方式是一种独占的方式,一旦一台服务器被分配给一个客户,意味着即使这些算力并没有被使用,其他客户也是无法使用这些算力的。这就造成虽然算力中心整体算力利用率不高,但是新客户却无法购买到算力的困境。
4. 算力收益问题: 算力超卖在传统云计算和数据中心运营中是一种常见做法,它可以提供超出物理CPU资源限制的计算能力,以实现更高的资源利用率和成本效益。业界也在探索符合智算中心的算力超卖技术,来提高算力收益。
5. 算力SLA问题:在超大规模算力中心,算力硬件包括磁盘、内存、CPU、GPU卡等发生故障的几率较大。如果要对这些硬件进行维护,就需要停止正在上面运行的AI应用,待重新分配到新的硬件后才能重新启动AI应用,由此造成的AI应用长时间停服,将降低算力SLA。
面对这些挑战,趋动科技提出了软件定义AI算力的解决方案OrionX,其对算力的使用调度进行了多项创新,有助于解决智算中心面临的诸多挑战,可提高智算中心的运营效率和灵活度:
1. 解耦通用算力和智能算力
OrionX采用开创性的远程调用AI算力的使用方式,这使得AI应用可以跑在CPU通用算力服务器上;而当需要智能算力时,可以轻松通过网络远程调用有GPU的服务器进行计算。这既可以保护传统云计算通用算力的投资,又可以将业务扩展到新型的智能计算,从而完美实现不同算力的融合。
图1 远程调用AI算力
2. 创新性AI算力池化
OrionX采用软件定义的方式抽象了算力硬件,底层适配跨厂商多型号的AI算力卡包括英伟达、华为、寒武纪,海光等,并将其池化后向上层提供统一类型的算力实例。对于AI算力的使用者而言,只需采用声明式的方式定义AI所需的算力资源,例如,需要多少OrionX vGPU,每个OrionX vGPU提供多少算力(算力占比Ratio,显存使用量GMEM),即可动态申请OrionX vGPU算力资源,而无需关心后端真正提供算力的节点、GPU设备,这可以很好地解决不同算力资源技术孤岛的问题。管理人员可以通过统一的界面管理和运维不同的算力资源。
3. 按需分配AI算力
OrionX可以实现以算力1%、显存1MB为细粒度的算力供给,为不同应用按需提供算力资源,大幅度提高资源利用率。如下图所示,不同的AI业务需要不同的算力规格,OrionX可以做到"量身裁衣"匹配合适的算力,提高卡利用率承载更多业务。
图2 细粒度切分算力示例
4. AI算力分时复用:
OrionX非独占的资源分配方式,使其可以在相同的算力设备上承载更多的用户,实现AI算力资源的超卖,显著提高资源利用率及运营效益。
图3 资源复用提升利用率
5. AI应用热迁移能力:
OrionX可以为AI业务提供无中断的业务迁移能力,不影响AI业务对GPU资源的远程调用。如图5所示,当底层硬件需要计划性维护时,维护人员可以将AI任务不中断迁移到其他GPU服务器,而上层的应用没有感知,提高智算中心的SLA。
图4 热迁移示例
OrionX在AI算力的使用和调度上开发了一系列创新性功能,可以解决智算中心面临的众多问题,提高智算中心的效率和灵活度。根据已实施的项目数据,用户可将实现显著的算力效率提升,以及能源消耗的大量下降。
图5 算力池化收益
OrionX助力智算中心更高效、更灵活,要建智算,必选OrionX!