8月30日,中国移动建成运营商最大单集群智算中心——中国移动智算中心(哈尔滨),并正式投产使用,将为全国的科技创新与产业升级带来强大助力。
该智算中心部署超1.8万张AI加速卡,AI芯片国产化率达100%,可提供6.9EFLOPS(每秒690亿亿次浮点运算)智能算力。首次探索通过国产网络设备将所有AI加速卡打造成1个集群,实现超大规模算力资源聚合,支持全部1.8万张卡并行训练、自动续训,可为万亿级模型训练提供高效、稳定的算力底座。
技术架构上,中国移动智算中心(哈尔滨)采用参数面与数据面独立RDMA组网,参数面带宽可达1.6Tbps,数据面吞吐可达15TB/s,能够为大规模并行计算和复杂模型训练提供坚实保障。此外,中心还实现了1.8万卡超大规模云化纳管、万卡并行训练以及分钟级断点自动续训,极大提高了大模型训练的效率与稳定性。
值得一提的是,为保障大模型训练高效与稳定,智算中心上线了由移动云自研的智算管控平台。该平台实现了对主流AI卡多样化异构算力的统一纳管,支持大规模集群算、存、网等全量软硬件的一站式健康检查,实现AI任务全生命周期的精准管控。在集群出现故障时,该平台能够迅速定位并恢复,为智算中心的稳定运行提供了坚实的技术支撑。
中国移动智算中心(哈尔滨)的投产显著增强了移动云国产化算力集群的交付与调优实力。移动云可提供公、私、边多场景资源池建设服务,覆盖硬件集成、软件部署、性能调优及验收测试等关键环节。同时,移动云已完成了包括LLaMA、GPT、GLM在内的数十款主流模型的云端迁移,具备大模型预训练-迁移-精调微调-推理全流程调优能力,可以为国内企业提供强有力的技术支撑与定制化解决方案,助力AI技术快速应用与产业升级。
未来,移动云将继续勇担数字中国建设主力军,推动数字化基础设施建设,在数字经济的浪潮中乘风破浪、勇立潮头。