AI大模型驶向产业之海,需要高质数据“河道”引航

news2024/9/27 17:32:28

882abb652e032c5b17a063d0881e3498.jpeg

“我们的AI大模型,在万卡集群上训练,三小时就出一次错。别笑,这已经是世界先进水平了。”某次行业峰会上,一位清华大学的院士科学家,讲出了AI大模型训练的“大实话”。

风靡全球的AI大模型,是今年毋庸置疑的风口,数量不断增长,达到了惊人的水平。“百舸争流”之下,大家却经常会忽略一个关键问题:AI大模型带来的数据激流,也比想象中更加汹涌。

“三小时出错一次”,听起来不可思议的故障率,却是大模型从业者要面对的常态,甚至是“优等生”。目前业界的普遍做法,是写容错检查点checkpoint。既然三小时就报错,那就2.5小时停一次,写好检查点,把数据存起来,再开始训练。一旦出现故障,可以从写好的检查点恢复,避免“从头开始”、全部白干。而检查点需要存储的数据多,会耗费大量的时间。该院士团队基于llama 2架构研发的大模型,数据存一次硬件,就需要十个小时,存储效率直接影响了开发进度。

如果说大规模的异构数据,是肆意奔涌的激流,存储系统就是承载着数据流量的河道,其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞,从而卡住AI大模型的生命线。可以说,整个大模型行业的生产力和效率,都被存储规定了“上限”。

这也是为什么,存储作为AI数据基础设施,受到越来越多关注。

1e49c8c3b8eec2d21b303c21720a0573.png

11月29日,“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储发布了面向AI大模型的存储解决方案。

借此机会,我们一起了解一下,AI大模型浪潮来袭,给存储带来的承载挑战,以及曙光存储是如何为智能产业引航,助推AI大模型百舸扬帆。

AI大模型驶入产业深水区

传统存储的数据之殇

c64adcd6322f59f67ccaa0f2c7fd1253.png

最近我去了一趟云南,发现不仅北上广等科技重地的大模型建设如火如荼,在昆明、大理等二三线城市,甚至边疆地区,都在积极地探索大模型行业应用。

各行各业走向智能化,几乎都点燃了对大模型的炽热兴趣。这时候,一个关键问题也显露了出来:AI大模型的产业化风潮,需要升级存储基础设施。

模型开发者的每一次训练,数据都在向存储系统发起多种挑战:

1. 数据洪潮的冲击。随着大模型的产业落地,许多行业都开始训练专属模型,大量行业数据、专有数据、新的标注数据被输送给大模型,澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到,行业大模型要用高质量的数据集、文档、客户私有数据进行训练,每个项目都是单独成立标注组,数据规模持续增大,存储诉求和成本也随之增加。

72ee15b367d6d3a370f07602182ab0ad.png

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长,采集、归类、搬迁等过程费时费力,一旦存储性能跟不上,海量文件吞吐慢、多读少写,检查点Checkpoint等待耗时久,会延缓开发进度,增加开发成本。

3.数据复杂的暗涌。此外,AI大模型要用到大量异构数据,文件格式复杂、数据集类型多样,数据数量激增,传统存储难以应对数据复杂性的挑战,容易产生消化不良的问题,造成数据访问效率低,从而造成模型运行效率下降,训练算力消耗增多,无法充分“压榨”昂贵的GPU算力资源。比如云南当地的太阳观测站,通过让AI科学计算模型学习海量图片,呈现太阳真实的样子,每天产生2TB的图片数据,当前存储的吞吐效率低,会导致训练集加载慢、数据处理周期长,拖慢研究进程。

4. 数据安全的隐忧。目前,AI大模型已经深度渗透各行业之中,在训练开发及应用落地过程中需要海量的数据支撑,其中包含行业或个人敏感信息的数据,如果没有合理的数据脱敏和数据托管机制,则可能造成数据泄露,给行业和个人造成损失。同时,模型安全风险也需重视,比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。

d4698bb83e5df3e8f8ed6636636a5543.png

AI大模型驶向产业深水区,欣喜的是,这一技术创新正在高度融入千行万业,满足智能化需求,生命力旺盛。担忧的是,数据工程贯穿大模型的全生命周期,从收集、清理、训练、推理部署、反馈调优等各个阶段,都需要用到大量数据。存储成为瓶颈,意味着AI大模型的各个阶段都需要消耗在大量的数据淤塞、故障、低效之中,这会让大模型的开发周期与综合成本极高,是产业所无法承受的。

疏浚存储“河道”,避免数据淤塞,为大模型的产业扬帆提供支持和滋养,曙光存储带来的新解决方案,让我们发现了有价值的参考案例。

c573b160c1a35f03458bbbd1be3fec5a.png

高质数据“航道”

曙光存储给大模型行业一个答案

经过与AI大模型开发者的交流,我得出了一个清晰的结论:构建一个适配AI大模型的全新存储体系,已经不再是需要讨论的问题,关键是谁能率先完成方案升级、给出实用解法。

洞察行业的存力需求,曙光存储打造了以ParaStor大模型专用存储为底座的AI大模型存储解决方案,写下了自己的答案。

aac13e166be2d2ecf8b851e5b212dbe1.png

曙光存储AI大模型存储集群,拥有异构融合、极致性能与原生安全三大领先能力。

首先,可提供千亿级文件存储服务,接近无限扩展规模。针对数据访问协议多样性问题,同时支持文件、对象等多种存储协议,避免数据跨存储系统复制。

其次,针对AI大模型开发过程中对数据处理效率的高需求,曙光存储AI大模型存储集群可提供多级缓存加速、XDS数据加速及智能高速选路等多种数据IO性能优化能力。

最后,为保障全流程数据安全,曙光存储节点还提供芯片级安全能力,并支持国密指令集,通过多级可靠性,保障存储集群在训练开发全周期内稳定运行,符合政策和未来安全趋势。

有人可能会问了,市面上的存储方案这么多,有的也宣传为模型开发提供专业支持。曙光存储的方案有哪些差异化价值?

b4d1ce4cce33c66bf17e855bf3105368.png

如果对各家的技术名词和产品细节云里雾里,大家不妨用几个词,记住曙光存储AI大模型存储集群的差异化价值:

1.先进。异构融合,极致性能,芯片级原生安全,展现了曙光存储的技术先进性,也针对性地解决了大模型开发的数据量大、数据形态复杂多样、吞吐效率低、存算时间长等实实在在的痛点。

2.可靠。高性能AI数据基础设施基于曙光存储的自研创新,更加可靠安全,符合信创政策和未来安全趋势,可以帮助国内大模型服务商规避海外供应链风险,从供应链安全、数据安全、模型安全等多个角度,为大模型产业的发展护航。

3.全面。曙光存储打造了涵盖从网络、计算到平台的全维度AI解决方案,支持训练开发全周期内稳定运行,可以降低综合成本,让大模型开发者和行业客户无忧前行。

总结一下,在曙光存储构建的高质“航道”上,大规模数据高效吞吐,AI大模型加速开发,因此,行业和企业可以快人一步,将大模型与垂直场景和业务深度融合,率先获得通往智能时代的船票。

第五范式的新起点

看百舸争流、万业扬帆

f9c7bc906ffff2d78430db058ce67b14.png

图灵奖获得者吉姆·格雷(Jim Gray),曾提出第四范式,核心是数据驱动。而随着大语言模型“智能涌现”,“智能驱动”的第五范式,更侧重于数据和智能的有机结合,成为支撑科学革命、产业革命的新底层逻辑。

所有过往,皆是序章。AI如此,存储亦如此。

745036e529ec4dd9f128a0c7e3411f3a.png

此次大会上,凭借20年行业深耕,与在AI存储技术突破、液冷存储研发等领域的领先实践,曙光存储公司总裁惠润海获评“存储先锋”。在其领导下,多年来曙光分布式文件存储在市场中持续领跑,市场份额名列前茅。面向AI大模型的数据存储解决方案,让曙光存储又一次站到了时代前沿。

曙光存储的AI大模型存储集群,正是积极践行范式转换,对应数据新范式,用数据基础设施的飞跃,助推大模型产业化的涨潮。

接下来,在存储行业的新范式、新起点,在曙光存储的高质数据“河道”上,我们会看到,行业大模型百舸争流,AI应用千帆竞渡,加速驶向智能中国。

a0ad1f113cd000af6cc25ee5757f2ef0.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1284428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日一练【快乐数】

一、题目描述 202. 快乐数 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果这…

浮点数二分例题:数的三次方根-Java版

//浮点数二分,正常写就行,不用考虑死循环问题import java.util.Scanner;public class Main{public static void main(String[] args) {Scanner sc new Scanner(System.in);Double n sc.nextDouble();double l -100,r 100;//数据范围是100000,开了三次方后不会超过100//小知…

selenium自动化测试:xpath八种定位方式!

01、前言 如果可以的话,请先关注(专栏和账号),然后点赞和收藏,最后学习和进步。你的支持是我继续写下去的最大动力,个人定当倾囊而送,不负众望。谢谢!!! 1.…

市场缺口投资者应该怎么做? 昂首资本一招就能盈利

当在市场交易分析中,投资者发现市场缺口或者价格缺口的时候, 昂首资本问各位投资者应该怎么才能抓住机会盈利一波。 其实在技术分析中的这个术语指的是:前一根棒线的收盘价和下一根棒线的开盘价之间有差距的情况。例如,当做市商将…

LeetCode力扣每日一题(Java):9、回文数

一、题目 二、解题思路 1、我的思路 当x<0时&#xff0c;x一定不是回文数&#xff0c;直接返回false 当x>0且x<10时&#xff0c;x一定是回文数&#xff0c;直接返回true x>10时&#xff0c;先将x转为字符串。将数字转成字符串方法挺多的&#xff0c;以下是&…

​LeetCode解法汇总1038. 从二叉搜索树到更大和树

目录链接&#xff1a; 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目&#xff1a; https://github.com/September26/java-algorithms 原题链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 描述&#xff1a; 给定一个二…

分享66个菜单导航JS特效,总有一款适合您

分享66个菜单导航JS特效&#xff0c;总有一款适合您 66个菜单导航JS特效下载链接&#xff1a;https://pan.baidu.com/s/1dpGGbptx6hEKcBnTMNLIdA?pwd6666 提取码&#xff1a;6666 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;…

自定义starter案例——统计独立IP访问次数

自定义starter案例——统计独立IP访问次数 文章目录 自定义starter案例——统计独立IP访问次数ip计数业务功能开发定时任务报表开发使用属性配置功能设置功能参数配置调整 自定义拦截器开启yml提示功能 ip计数业务功能开发 public class IpCountService {private Map<String…

电气间隙和爬电距离的算法

电气间隙和爬电距离 一、定义 1、电气间隙&#xff1a;不同电位的两个导电部件间最短的空间直线距离。 2、爬电距离&#xff1a;不同电位的两个导电部件之间沿绝缘材料表面的最短距离。 3、隔离距离&#xff08;机械式开关电器一个极的&#xff09;&#xff1a;满足对隔离器…

sqlmap400报错问题解决

python sqlmap.py -r sql.txt --batch --techniqueB --tamperspace2comment --risk 3 --force-ssl–batch 选项全部默认 不用再手动输入 –techniqueB 使用布尔盲注&#xff0c;该参数是指出要求使用的注入方式 –tamperspace2comment使用特殊脚本&#xff0c;space2comment是把…

数据结构学习笔记——广义表

目录 一、广义表的定义二、广义表的表头和表尾三、广义表的深度和长度四、广义表与二叉树&#xff08;一&#xff09;广义表表示二叉树&#xff08;二&#xff09;广义表表示二叉树的代码实现 一、广义表的定义 广义表是线性表的进一步推广&#xff0c;是由n&#xff08;n≥0&…

你好!斐波那契查找【JAVA】

1.有幸遇见 斐波那契查找算法&#xff0c;也称黄金分割查找算法&#xff0c;是一种基于斐波那契数列的查找算法。与二分查找类似&#xff0c;斐波那契查找也是一种有序查找算法&#xff0c;但它的查找点不是中间位置&#xff0c;而是根据斐波那契数列来确定&#xff0c;因此又称…

关于开展人工智能专业人员“计算机视觉处理设计开发工程师”专项培训的通知

“人工智能技术与咨询”发布 工业与信息化部电子工业标准化研究院于2022年7月1日发布《人工智能从业技术人员要求》&#xff0c;现针对已发布标准于1月3日至7日在北京举办《自然语言与语音处理设计开发工程师》中级人才培养&#xff0c;下边是具体文件通知请大家查阅。行业人才…

MYSQL连接合集总结-上

再做了一次这部分的leetcode的题目&#xff0c;如下9题&#xff0c;这里先分析前三题。 1.使用唯一标识码替换员工ID 两个表&#xff0c;employees表&#xff08;id和名字一一对应&#xff09;&#xff0c;employeeUNI表&#xff08;id和唯一标识一一对应&#xff09;&#xf…

牛客剑指offer刷题模拟篇

文章目录 顺时针打印矩阵题目思路代码实现 扑克牌顺子题目思路代码实现 把字符串转换成整数题目思路代码实现 表示数值的字符串题目思路代码实现 顺时针打印矩阵 题目 描述 输入一个矩阵&#xff0c;按照从外向里以顺时针的顺序依次打印出每一个数字&#xff0c;例如&#xf…

网站防盗链是什么

随着互联网的快速发展&#xff0c;网站的安全问题越来越受到关注。其中&#xff0c;防盗链是许多网站面临的一个重要问题。本文将介绍网站防盗链的基本概念、原因以及如何采取措施进行保护。 一、什么是网站防盗链&#xff1f; 网站防盗链是指未经授权的网站通过技术手段获取…

95基于matlab的多目标优化算法NSGA3

基于matlab的多目标优化算法NSGA3&#xff0c;动态输出优化过程&#xff0c;得到最终的多目标优化结果。数据可更换自己的&#xff0c;程序已调通&#xff0c;可直接运行。 95matlab多目标优化 (xiaohongshu.com)

mybatis的数据库连接池

直接看原文 原文链接:【MyBatis】 连接池技术_mybatis自带连接池-CSDN博客 本文先不说springBoot整合mybatis后的 本文讲的是没有被springBoot整合前的mybatis自己的默认的连接池 --------------------------------------------------------------------------------------…

三季度付费用户持续增加,知乎的“吸引力法则”是什么?

在过去的12年里&#xff0c;知乎一直是一个问答社区&#xff0c;通过“一问多答”形成了可以进行专业讨论的社区氛围&#xff0c;并累计完成了上亿次这样的专业讨论&#xff0c;同时还借助平台一问多答的形式打造了网文社区&#xff0c;依托于平台专业职场人的资源池打造了职业…

手写VUE后台管理系统8 - 配置404NotFound路由

设置404页面 配置路由404页面 配置路由 这里配置了两个路由&#xff0c;一个是主页&#xff0c;另外一个则匹配任意路由显示为404页面。因为只配置了两个路由&#xff0c;如果路径没有匹配到主页&#xff0c;则会被自动导向到404页面&#xff0c;这样就可以实现整站统一的404页…