著名科学哲学家库恩在《科学革命的结构》中认为,范式是科研的一种理论体系,范式的突破会带来一系列科学革命。
如今在科研领域, 人工智能不断打破科研边界,AI for Science被视为下一个科研新范式,不仅为科学研究带来了质的飞跃,也对科研创新支撑平台提出了全新的挑战。
作为世界一流的以前沿科学和高新技术为主的研究型大学,中国科学技术大学(以下简称:中国科大)拥有多个世界一流的学科和科研基地,是科研探索的前沿高地。
近年来,中国科大网络信息中心校计算中心深入分析AI技术应用下,科研数据对计算与存储资源的需求变化,推进重大科研创新平台建设,升级建设最新一代中国科大“融合计算平台”,利用业界领先的数据存储平台为智慧科研构筑起坚实的数据底座,为各项科研活动注入源源不断的数字动力。
海量、多模态科研数据驱动智慧科研进阶
近年来,科技创新与时俱进,数据成为新型生产要素,数据要素与人工智能技术共同带来科研范式的重构和新一轮科技革命,对数据存储等科研基础设施也提出了全新需求。
在日常的科研活动与实践探索中,中国科大校级计算中心明显感受到科研范式革新对于数据基础设施的需求变化:即由数据驱动的人工智能技术加速运用,科学数据的核心要素作用愈发突出;随着越来越多科研程序在GPU上进行运算,科研计算复杂度指数级增长,快速、海量、多模态的科研数据呈现出千万级IOPS、百GB带宽、EB级容量等需求特征,给数据存储平台带来全新的挑战。
加上中国科大拥有31个学院和众多科研项目,不同科研项目的分散化、多样化对于数据存储管理的需求也在发生根本性变化,分层分类的数据资产管理、平台化的多租户使用方式、业务不中断的使用体验成为众多科研人员在科研中的刚性需求。
毫无疑问,迭代升级数据存储科研基础设施,解决海量、多模态科研数据的存储、分析和流动共享等问题,已经是科研机构加速科研范式转变中必须面对的一道必答题。为此,中国科大近年来不断升级“融合计算平台”,构建起全新的数据存储平台,为科研创新打造坚实的基础设施,助力各项科研活动在智慧时代高效开展。
融合计算平台,树立智慧时代科研数据基础设施标杆
科研在AI驱动和数据要素深度融合的过程就像是一个系统性的工程,需要基础设施进行全方位的支撑。
在智慧科研基础设施建设方面,中国科大对于融合计算平台的建设无疑在科研领域树立了标杆。作为国内高校建设最早的校级计算中心之一,中国科大过去的计算中心对于支撑各种科研项目的开展发挥着关键的作用。随着AI应用的加深以及数据量的激增,中国科大计算中心的计算、存储在性能与规模方面已经无法满足智慧科研的需求,不仅资源供应紧张、项目排队时间长,而且越来越难以满足大规模、多模态数据在GPU上进行高效并行计算的需求。
为此,中国科大深入分析科研新范式给基础设施带来的挑战,通过整体筹划,借助浪潮信息分层解耦的整体方案对计算中心进行升级,于2022年正式发布融合计算平台,以高异构计算+融合存储为核心,助力各大科研项目加速向AI驱动的智慧科研转变。
中国科大融合计算平台利用领先的数据存储解决方案为科研创新构建起强大的数据底座,实现海量、多模态科研数据的高效存储、分析、管理与应用:
- 化繁为简,实现多模态多尺度科研数据的融合存储:面向科研海量多元的数据场景,中国科大融合计算平台利用先进数据存储平台,实现一套集群支持块、文件、对象、大数据等协议数据融合互通,为日常科研活动提供更高效、更便捷的数据存储服务。
- 极致性能,高效数据处理加速科研进程:针对科研项目对于海量科研数据处理性能和容量的需求,中国科大分层搭建高速存储及大容量存储资源池,自动根据读写频率实现数据智能迁移,并以聚合小文件优化技术提升读写性能。容量部署达11PB,聚合读带宽160GB/s以上,写带宽100GB/s以上,随机读IOPS达205万。
- 全生命周期管理,高效满足多学科多样化需求:针对多个科研项目对于数据资产管理需求,中国科大利用热、温、冷、冰四级分层数据生命周期管理策略,实现存储性能、容量和成本的极致平衡,高效满足多学科负载需求的同时,确保高投入产出比。
- 稳定安全,珍贵科研数据不丢失:存储系统具有高冗余模式,某节点故障时自动切换备用节点,满足科研数据的长时间稳定写入,确保数据安全不丢失。
中国科学技术大学网络信息中心副主任李会民表示,系统采用分布式存储有效解决了当前学校科研创新海量多模态数据的统一存储、高效的数据处理、全生命周期管理和稳定安全四个核心需求。
如今,在融合计算平台助力下,中国科大在天文学、大气科学、生物工程等领域涌现出一系列世界领先的科研成果。中国科学技术大学特任教授、中国生物物理学会冷冻电子显微学分会委员张凯铭博士表示,计算中心平台的升级让实验效率取得了大幅度提升,借助冷冻电镜技术取得了一系列科研成果。
本质上,中国科大融合计算平台的建设是在科研范式转变的趋势下,基础设施从过去“重算力、轻数据”向“算力与数据”双轮驱动的转变。过去,科研平台中数据通常跟着算力跑,在复杂科学和工程问题实现快速数值求解;现在,AI驱动下算力紧跟数据成为新趋势,一个支撑多元异构算力、满足海量多模态科研数据各方面需求的数据存储平台是中国科大融合计算平台等先进基础设施取得成功的关键所在。
数据存储平台,让科研新范式更有数
近年来,像中国科大融合计算平台这种支撑科学研究等工作的先进基础设施已经成为新基建未来的战略建设重点。
如何让科研基础设施迈向先进,从而科研新范式更有数?浪潮信息以“存储即平台”的产品理念和“场景共同体”合作理念,聚焦科研场景的数据存储需求,推出新一代分布式融合存储AS13000等重量级新品,从场景实践、产品技术创新等多个层面来助力科研创新。
在场景实践层面,浪潮信息近年深度参与清华大学RUSH脑成像研究、复旦大学脑科学研究、华中科大苏州脑科学研究院、中国科学技术大学融合计算平台的基础设施建设,与广大科研机构共同探索科研场景在数据存储层面的新需求与新变化,从而有针对性地进行产品、方案创新。
在产品创新层面,浪潮信息基于“存储即平台”理念,聚焦全闪存、分布式存储等产品创新,推出了AS13000等多款重量级产品,致力于打造产品的极致性能、极致融合等七大极致能力,助力科研成果产出。
以浪潮信息AS13000为例,其凭借在协议融合、介质融合、管理融合以及性能等方面优势,在中国科大融合计算平台等众多科研基础设施中完美支撑起各项科研项目的高效进行。
如今,AI for Science 不仅是解决具体科研问题的有力工具,更带来了重新定义科学问题的系统性思路。以中国科大融合计算平台为代表的智慧科研基础设施,为科研范式转变探索树立了一个新标杆。面向未来,随着越来越多科研机构拥抱AI for Science和智慧科研基础设施,中国科研有望荆斩棘、开疆拓土,为人类文明贡献出更多中国智慧。