AI大模型驶向产业之海，需要高质数据“河道”引航

“我们的AI大模型，在万卡集群上训练，三小时就出一次错。别笑，这已经是世界先进水平了。”某次行业峰会上，一位清华大学的院士科学家，讲出了AI大模型训练的“大实话”。

风靡全球的AI大模型，是今年毋庸置疑的风口，数量不断增长，达到了惊人的水平。“百舸争流”之下，大家却经常会忽略一个关键问题：AI大模型带来的数据激流，也比想象中更加汹涌。

“三小时出错一次”，听起来不可思议的故障率，却是大模型从业者要面对的常态，甚至是“优等生”。目前业界的普遍做法，是写容错检查点checkpoint。既然三小时就报错，那就2.5小时停一次，写好检查点，把数据存起来，再开始训练。一旦出现故障，可以从写好的检查点恢复，避免“从头开始”、全部白干。而检查点需要存储的数据多，会耗费大量的时间。该院士团队基于llama 2架构研发的大模型，数据存一次硬件，就需要十个小时，存储效率直接影响了开发进度。

如果说大规模的异构数据，是肆意奔涌的激流，存储系统就是承载着数据流量的河道，其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞，从而卡住AI大模型的生命线。可以说，整个大模型行业的生产力和效率，都被存储规定了“上限”。

这也是为什么，存储作为AI数据基础设施，受到越来越多关注。

11月29日，“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储发布了面向AI大模型的存储解决方案。

借此机会，我们一起了解一下，AI大模型浪潮来袭，给存储带来的承载挑战，以及曙光存储是如何为智能产业引航，助推AI大模型百舸扬帆。

AI大模型驶入产业深水区

传统存储的数据之殇

最近我去了一趟云南，发现不仅北上广等科技重地的大模型建设如火如荼，在昆明、大理等二三线城市，甚至边疆地区，都在积极地探索大模型行业应用。

各行各业走向智能化，几乎都点燃了对大模型的炽热兴趣。这时候，一个关键问题也显露了出来：AI大模型的产业化风潮，需要升级存储基础设施。

模型开发者的每一次训练，数据都在向存储系统发起多种挑战：

1. 数据洪潮的冲击。随着大模型的产业落地，许多行业都开始训练专属模型，大量行业数据、专有数据、新的标注数据被输送给大模型，澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到，行业大模型要用高质量的数据集、文档、客户私有数据进行训练，每个项目都是单独成立标注组，数据规模持续增大，存储诉求和成本也随之增加。

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长，采集、归类、搬迁等过程费时费力，一旦存储性能跟不上，海量文件吞吐慢、多读少写，检查点Checkpoint等待耗时久，会延缓开发进度，增加开发成本。

3.数据复杂的暗涌。此外，AI大模型要用到大量异构数据，文件格式复杂、数据集类型多样，数据数量激增，传统存储难以应对数据复杂性的挑战，容易产生消化不良的问题，造成数据访问效率低，从而造成模型运行效率下降，训练算力消耗增多，无法充分“压榨”昂贵的GPU算力资源。比如云南当地的太阳观测站，通过让AI科学计算模型学习海量图片，呈现太阳真实的样子，每天产生2TB的图片数据，当前存储的吞吐效率低，会导致训练集加载慢、数据处理周期长，拖慢研究进程。

4. 数据安全的隐忧。目前，AI大模型已经深度渗透各行业之中，在训练开发及应用落地过程中需要海量的数据支撑，其中包含行业或个人敏感信息的数据，如果没有合理的数据脱敏和数据托管机制，则可能造成数据泄露，给行业和个人造成损失。同时，模型安全风险也需重视，比如，插件可能被植入有害内容，成为不法分子欺诈和“投毒”的工具，危及社会和产业安全。

AI大模型驶向产业深水区，欣喜的是，这一技术创新正在高度融入千行万业，满足智能化需求，生命力旺盛。担忧的是，数据工程贯穿大模型的全生命周期，从收集、清理、训练、推理部署、反馈调优等各个阶段，都需要用到大量数据。存储成为瓶颈，意味着AI大模型的各个阶段都需要消耗在大量的数据淤塞、故障、低效之中，这会让大模型的开发周期与综合成本极高，是产业所无法承受的。

疏浚存储“河道”，避免数据淤塞，为大模型的产业扬帆提供支持和滋养，曙光存储带来的新解决方案，让我们发现了有价值的参考案例。