本文根据 XSKY星辰天合产品总监赵琳在 2023 闪存峰会上的演讲。该峰会主题为“芯存储 AI 未来”,由 DOIT 传媒主办、杭州华澜微电子股份有限公司协办,于 8 月 29-30 日在杭州召开。
星辰天合产品总监赵琳在 2023 闪存峰会上发表演讲
人工智能已经从经典 AI 发展到大模型阶段,并且还在急速演进中。根据相关数据统计,在此前 18 个月内大模型的参数的增量达到了 35 倍以上,其参数在指数性地上升,其所分析的相关数据以及过程数据也会呈现较大的增长量。
人工智能处理所需的数据量急剧增长
而就在这两天,OpenAI 也最新推出了针对企业级用户的企业版 ChatGPT,可以允许客户上传自己公司数据,训练和定制化企业内部使用的专属 GPT,这必将导致相关数据量的再次大规模增长。
在 GPT-4 引入图片分析之后,数据量已经达到了 PB 级别。在这样的情况下,必然会对人工智能系统后端的存储,包括其稳定性、整体的兼容性,乃至性能,都提出了诸多要求。
AI 各环节
对数据存储的需求
针对 AI 整个模型分析的环节,可以做一个细粒度的拆分,并据此规划整个存储系统的要求和需求。
AI 各环节对存储系统的需求
在采集和处理阶段,因为要将数据进行采集和导入到系统中,并且进行数据清洗、转换、标注等操作,所以它就会对存储系统能够支持多种协议以及扩展性有比较大的要求。
因为数据来源多元,不可能只通过一种协议接口来实现数据的导入,很可能是多种渠道,通过包括 FTP、NFS 等在内的多种方式实现数据的汇聚。因此,存储系统在支持多种协议之外,还需要数据能够在不同协议之间进行相应的转换和流动。
在模型开发阶段,由于人工智能运算的很大一部分操作是对于源数据的查询,因此需要存储系统能够具备强大的数据检索能力,并确保权限管控得当等。
在模型训练阶段,就需要系统能够快速地实现数据集的读取,加速整个 AI 模型训练的完成,这也是目前而言存储系统需要体现的最核心的价值点,需要有足够优良的读取、写入性能,以及近计算缓存性能。
在模型推理阶段,人工智能系统需要解决数据分发以及传输的问题,需要存储系统具备高性能传输,以及具备高扩展性。
整体而言,大模型阶段人工智能对存储系统的需求就是:扩展性和稳定性、高性能、数据管理以及成本优化。
基于 SDS
构筑一站式AI存储方案
星辰天合针对现阶段人工智能对存储系统的需求,基于在软件定义存储领域长期的研发优势和产品能力,构筑了一站式的存储方案。
星辰天合的 AI 一体化存储解决方案
首先,星辰天合的对象存储 XEOS,它可以为数据的汇聚、处理、消费等提供支撑;
在 AI 系统进行分析时,星辰天合的高性能文件存储 XGFS 作为其存储支撑;当数据分析完成,无论是过程数据还是结果数据,均可以再次由对象存储服务平台来存储数据;
XOCP 数据管理平台则可以帮助 AI 系统实现数据的管理与调度,满足数据在不同的协议和存储系统之间的流动需求。
举例而言就是,在初始阶段,数据都汇存于底层的对象存储中,在 AI 系统要进行模型分析时,由 XOCP 来完成相应的数据查询及抽取操作,并且将抽取出来的数据导入高性能文件存储中,进行相关的数据分析操作;在数据分析完成之后,依然是由 XOCP 将相关的数据存到底层的对象存储构筑的数据湖之中。
基于该架构,可以最大化的利用所有存储资源,发挥各种存储系统的优势,实现最优的性价比。而星辰天合也即将发布全闪存储,整合到存储方案中之后,将能够以更优异的性能保证 AI 业务的发展,满足 AI 对存储系统日益上涨的性能需求。