有人曾言,数据决定人工智能发展的天花板。深以为然。
随着ChatGPT等AIGC应用所展现出的强大能力,人们意识到通用人工智能的奇点正在来临,越来越多的企业开始涌入这条赛道。在AIGC浪潮席卷全球之际,数据的重要性也愈发被业界所认同。
之所以会如此,有两个关键原因:其一,高质量数据是AIGC 应用的核心,决定着算法的性能、泛化能力和应用效果;其二,与数据相关的“存、管、用、传”逐渐成为AIGC发展的瓶颈,亟待高水平的基础设施来协助突破。
可以说,深度学习在过去十年的高速发展,让异构算力的作用与价值得到高度认可;未来十年,数据存储的变革将决定着高质量数据发展的深度。
AIGC市场发展趋势是什么
大模型所展现出的强大能力和较强的泛用性,已经让AIGC应用在办公、会议、对话、搜索、广告等内容生成领域初露锋芒。当前,AIGC和大模型的赛道热闹非凡,仅仅中国市场就有上百个大模型涌现,“百模大战”的盛况让市场热度持续升温。那么,未来的大模型和AIGC市场的发展趋势是什么?
毫无疑问,接下来,出于对交互体验升级和降本增效的巨大需求,AIGC和大模型广泛进入垂直行业已是不可阻挡的趋势。Gartner预测,到2032年,生成式人工智能市场规模将达到2000亿美元,在金融、教育、医疗、工业等领域有着广阔的应用前景。
中金公司研究部判断,未来的大模型市场类似云计算市场,就像一个冰激凌蛋筒,上面的冰激凌球代表金融、医疗、教育等多个关键行业的垂直大模型,与私有云的现状与曲同工;下面的筒身则代表着通用大模型,覆盖广泛的长尾市场,类似公有云市场那样的覆盖。
显然,越来越多行业用户看到了垂直行业大模型的巨大潜力。这些重点行业场景足够丰富、业务数据量巨大、降本增效需求强烈,加上这些行业的用户本身即是私有云的重度用户,看重数据的安全性和本地化部署,对于垂直大模型的需求极为强烈。
“当前,大模型和AIGC市场依然处于早期。但AIGC对于整个行业应用是变革性的,所有行业都必须去适应AIGC带来的变化。这无疑在未来五到十年将产生持续且巨大的数据存储需求。”浪潮信息首席架构师叶毓睿判断道。
AIGC数据存储挑战到底有哪些
今年4月,OpenAI CEO Sam Altman认为,增加大模型的参数数量不再是提升大模型能力的最有效手段,大规模、高质量数据和数据高效处理工程化才是关键。事实上,从OpenAI GPT-5开始,多模态被视为是大模型下一阶段的重要演进方向。
多模态大模型意味着除了文本数据之外,音视频数据也将加入其中,这会让AIGC的数据特征呈现出数据海量化、多元数据类型复杂、服务协议多样、性能要求苛刻和要求服务持续在线,进而带来一系列极为复杂的数据存储挑战。
浪潮分布式存储总经理姜乐果认为,当下AIGC应用背后需要对行业上下游对数据进行采集、标注、训练、推理、归档,带来了异构数据的融合、持续的低延迟与高带宽和EB级大容量存储需求等三大重要挑战。
首先是异构数据的融合。大模型训练数据呈现来源多、格式多的多源异构现状,对于面向单一数据类型设计的传统存储是极大挑战。这种传统模式的缺陷就是很难在一个数据平台上满足不同数据类型对于性能的不同需求,在大模型从采集、标注到训练、推理整个数据存储管道中,需要来回进行数据拷贝,数据处理效率低且无法满足AIGC应用的处理需求。
“传统存储需要以搬移数据的方式实现多协议访问,这是AIGC应用平台一大关键瓶颈。支持异构数据的多协议融合将是解决挑战的关键。”姜乐果直言道。
第二是持续的低延迟与高带宽。在大模型的训练过程中,需要频繁从数据集取Token。但是每个Token通常只有4个字节,这就造成了实时高并发的海量小IO,需要极低的延迟来保障性能;此外,大模型在存储模型Checkpoint时,需要高带宽来支撑数据的快速写入。
“大模型训练时候通常要调用上千块GPU块,某一块卡出现故障或者问题的情况比较正常。如果出现故障,模型需要重新拉起,利用备用节点来替代,备用节点CheckPoint需要存储的高带宽来实现数据快速写入,否则就很容易造成GPU算力资源的浪费。”浪潮信息AI架构师杨鑫介绍道。
第三是EB级大容量存储需求。大模型的越多数据投喂结果越精准的工作原理,决定着大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。
“比如,浪潮信息自身的源1.0大模型,加入音视频数据之后,经过不断训练已经达到上百PB的数据规模。”姜乐果介绍道,“随着训练的不断深入,对于数据存储容量、性能的需求也会持续增长,需要存储具备极致容量和极致性能的能力。”
叶毓睿则表示,AIGC涉及包括采集、标注、训练、推理、归档等数据处理的过程较长,且不同阶段对于性能、延时、数据安全等要求不同。从产业变革的角度看,AIGC正在推动数据存储产业进行全方位的技术升级,未来专业的AIGC存储产品与解决方案需求将大幅增加。
浪潮存储,让AIGC有数
如果说数据存储是AIGC应用的地基,那么这个地基的深度与优劣将决定着AIGC应用的通用性和效率。一旦AIGC应用的效率持续提升和拓展,也意味着垂直行业的生产力有望迎来质的变化。
当前,市场中专门针对AIGC的存储解决方案并不多,尤其是经过验证过的存储解决方案很少。浪潮信息是市场中率先推出相应解决方案的厂商,利用一套AS13000融合存储支撑生成式AI的全阶段应用,一套存储提供端到端的数据流支持流程,满足面向文本、音频、图像、视频、代码以及多模态和全模态的大模型需求。
据悉,浪潮信息AS13000提供全闪、混闪、带库、光盘四种介质,支持文件、对象、大数据、视频、块协议,可满足大容量、多协议共享,百万以上IOPS,100GB以上带宽,冷数据的长期保存和归档。“浪潮信息的AIGC存储解决方案已经支撑过浪潮信息源1.0大模型以及其他AI公司的大模型训练。”姜乐果如是说。
从浪潮信息透露的信息来看,AS13000有效避免了传统存储方案台设备并存带来的各种复杂性、数据处理低效率以及数据孤岛,对于AIGC突破海量数据瓶颈和加速释放数据价值有着极大帮助。
姜乐果介绍,浪潮信息生成式AI存储解决方案拥有极致融合、极致性能、极致节能,和热温冷冰四级全生命周期存储管理四大特点。
第一是极致融合。一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式并行访问。完美契合了多模态大模型场景的数据存储需求,并且实现应用间数据实时共享以及存储空间的最优化。
第二则是极致性能。AIGC带来的是性能指数级的增长,大带宽、高IOPS在未来会成为业务需求的标配。对此,浪潮信息的解决思路是通过架构、硬件、关键技术、IO路径优化等多种手段实现存储性能的充分释放。
“比如,数控分离架构可以减少东西向数据量的转发;GDS、RMDA技术则可以缩短I/O路径,SPDK、缓存零拷贝技术则可以有效减少I/O路径上的数据拷贝;基于自研NVMe SSD开发的盘控协同技术,则减少I/O访问SSD盘的次数,进一步提升性能。”姜乐果补充道,“像全闪单节点带宽超过50GB/s,IOPS超过50万,双控全闪节点,带宽超过100GB/s,IOPS超过100万。”
以源1.0大模型为例,在AS13000并行存储支撑下,2128个GPU集群上跑了16天完成训练,算力效率达到45%,远超MT-NLG与GPT-3等国际知名模型。
第三则是极致节能。相关数据预测,到2025年,我国AI算力总量将超过1800EFlops,AI算力占总算力比重超过85%,这意味着与AI相关的数据存储也将大幅增加,随之而来不容忽视的挑战就是节能减排。为此,浪潮信息最新的G7硬件平台中,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式,并且浪潮信息具有风液式,全液式等完善的端到端解决方案。
最后则是端到端的全生命周期管理。浪潮信息生成式AI存储解决方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,且实现了资源的互通和数据全生命周期的管理。此外,四种介质、四类存储节点提供热温冷冰自动流转,满足各类应用的灵活配置需求,用户们可以根据性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。
“目前市场上能够构建起完整端到端支撑平台的用户还是少数。大部分用户希望是有一揽子解决方案,来支撑起他们迅速构建起平台。浪潮信息自身拥有大模型的经验,可以通过生成式AI存储解决方案将好的经验和实践快速输出到市场中,更好地推动AIGC产业发展。”姜乐果总结道。