大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显

news2025/1/11 14:16:50

文 | 智能相对论

作者 | 叶远风

18.8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。

大模型浪潮下,业界对AI发展的三驾马车——算力、算法、数据任何一个维度的关注都到了全新的高度,避免“木桶效应”成为大模型发展首要考虑的问题。

而在这个过程中,业界对“数据”的关注,往往集中在“量”+“质”上,更庞大的数据量与更高的数据质量能推动大模型有更好的训练与应用效果,已经成为共识。

但是,随着大模型创新对数据需求越来越复杂,单单关注数据的“量”+“质”已经不够,能够承载数据、满足大模型需要的存储,同样值得大模型领域从业者关注。

在刚刚举办的华为全联接大会2023(HC 2023)上,华为方面系统介绍了其存储解决方案如何解决大模型训练与应用痛点、支撑大模型创新进程。

华为的动作,从数据维度全景展示了大模型发展的本质——“数据要素”大开发,以及存储创新如何为这种本质提供力量,帮助大模型从业者更好地掘金智能经济时代。

大模型时代即是数据要素时代,存储作为载体的价值彰显

毫无疑问,大模型对算力、算法、数据的需求都在急速提高。

市场研究统计,过去五年,大模型参数增加2000倍,所需计算能力增加5万倍,对数据存储需求增加10万倍,连带网络带宽需求增加8000倍。

大开大合大需求,需要大设施、大投入。

但是,如果从创新的视角来看,实际上无论是算法还是算力的提供,其难度都在下降或者说收敛。

在很多企业都头疼的算力上,虽然需要的量很大,但无非都来自于英伟达、昇腾等GPU硬件资源,是一件主要依赖成本投入的事。换句话说,只要有足够多的预算,算力资源就能供给上来。

在算法端,虽然各大厂商不断调优迭代,但总体上都在采用Transformer模型基础架构,基于Pytorch、TensorFlow、MindSpore等主流开发框架开发,是逐渐收敛的。

这时候,压力来到了数据这里。

随着大模型深入发展,在总量上,数据需求早已从TB级跃升到PB级,需要的“池子”越来越大;而同时,对数据类型的需求又极大丰富,单一文本的模态之外,图片、视频、语音等多模态数据爆发,数据需求越来越复杂,这些都考验着存储的承载力,以及如何在训练、应用过程中更好地与算力、算法协同工作。

这期间,诸多难题出现,等待存储攻克,主要包括:

小文件读取性能。大模型在数据需求上以图片文本等海量小文件为主,单台AI服务器每秒能够读取2万多张图片,这往往会导致数据加载效率低(类似于个人PC上的复制动作,同等空间下,内含大量小文件文件夹会比单一大文件要慢很多),影响大模型的训练效率。此时,海量小文件性能就成为瓶颈,万亿参数大模型的基础要求已经达到1000万IOPS。

CheckPoint断点续训。大模型训练过程中出于参数调优等各种需求,会在不特定时间点中断形成CheckPoint,后续再启动继续训练(需要时间,形成GPU资源利用的空档)。这是一种对长时间训练的模型非常友好的能力,但企业频繁参数调优往往会造成GPU利用率降低(目前业界通常平均每二天就会中断一次,GPU利用率只有40%),需要存储具备很强的大文件读写性能,才能减少GPU等待时间、提升昂贵资源利用效率。

“AI幻觉”问题。大模型输出结果“胡编乱造”,与事实明显冲突的现象是业界十分头疼的问题,这种大模型自以为是的现象称作“AI幻觉”。看起来这是算法上的问题,但实际上,业界在探索中逐渐发现,它的解决需要的是在数据层面不断“求证”(主要是参考上下文信息),本质上要求存储能够提供一个类似于“百科词典”的知识体系,来作为大模型的“海马体”提供准确的行业知识。

可以看到,在创新层面,解决大模型在存储上面临的挑战,可能要优先于算力和算法。

这一点,其实也让大模型进一步回归到本质上,即以参数量更大的AI模型进一步挖掘数据要素的价值,推动千行百业实现转型升级。

现在,数据要素已经作为数字经济和信息社会的核心资源,被认为是继土地、劳动力、资本、技术之后的又一重要生产要素,包括大模型在内的无数创新,都是在围绕数据要素进行价值深度开发。

大模型的发展过程,可以看作是数据要素不断从原始走向价值输出的过程。

这一过程中,算法在前方引导方向、走向通用或具体行业,澎湃的算力带来强劲的推动力,而存储则提供支撑与协同能力。当算力主要依赖成本投入、算法逐步收敛,存储作为数据要素载体的创新价值就越来越凸显。

让数据要素价值落地,华为存储多维度出击解决痛点问题

如何解决存储面临的挑战,华为高性能知识库存储OceanStor A800产品与对应解决方案在面向行业模型训推场景拥有全面领先的训推效率,总体而言有四大特点:

1、极高的整体性能,匹配大模型训练需要

华为存储首要解决的是在整体性能上满足大模型对训练数据的庞大需求,尤其是对小文件读取性能的需求。

OceanStor A800基于创新数控分离架构,单框IOPS能够达到2400万,训练集加载效率是业界的4倍,而且可以根据客户需求实现性能线性扩展。此外,OceanFS分布式文件系统实现全局均衡打散,消除了CPU瓶颈,能带来海量小文件性能的极致提升体验,满足大量小文件读取需求。

只要有性能需要,尽管“往上加”,华为存储都“扛得住”。

2、特殊能力优化,满足断点续训等特定需要

断点续训等特殊情况下如何更好地提供支撑,是华为存储在大模型训练阶段要同步应对的挑战。

通过盘控协同、NFS+并行文件系统,华为存储实现了单框500GB/s超高带宽,能够做到CheckPoint的超快恢复,断点续训恢复速度是业界3倍,TB级CheckPoint读写实现从小时级到分钟级的跨越(即万亿参数大模型平均恢复时间小时级提速到分钟级),减少昂贵的GPU等待。

只要是优化大模型需要的,客户都能够更加大胆地进行参数调优等操作。

除此之外,其管控面拥有资源分区+统一调度能力,还能够让存储适合不同的业务模型。

不管客户面向什么业务模型进行开发,不管客户在过程中选择在什么时候暂停,华为存储都能更好地应对。

3、响应能力强化,满足大模型应用的实时需求

训练阶段完成后,华为存储要做的,是在应用阶段满足严苛的数据响应需要。

目前,在大模型应用阶段,得益于内置了向量知识库(以向量的形式储存行业知识),华为存储的QPS达到了25万+,已经能够实现毫秒级响应,一方面能够加速推理,使得应用过程中的GPU资源消耗大大减少,有效节约了落地成本——当前很多大模型在开放应用阶段的资源消耗十分巨大,有些企业已经不堪重负;另一方面“百科词典”使得大模型更具准确的行业知识,对减少AI幻觉产生起到重要的支撑作用,能大大提升推理的精度。

4、架构创新,保障整体系统的稳定可靠

对存储最后一个也是最基本的要求是,无论具备什么样的特性,都要保证稳定可靠的整体结构,不发生安全问题、不“掉链子”。

华为存储解决一系列大模型数据痛点需求的过程,某种程度上也增加了存储方案与体系的复杂性,但与此同时,华为并没有牺牲系统的可靠性,其创新的全互联AA架构,能够实现5层全方位保护与6个9的超高可靠。

由此,大模型的数据可靠性及训练稳定性实现了端到端的保障。

造轮者,先行久远路途

华为存储能够解决大模型数据痛点问题,根源在于其长期以来在存储上的创新探索。

OceanStor A800的数控分离架构,就利用了业界前沿的数据读写直通到盘的技术创新,让数据面直通到盘,与控制面分离,实现IO直通,从而减少数据读写时CPU的运算,大大提升存储性能。

实际上,华为长期以来在存储上进行技术耕耘,已经取得了颇多类似的前沿创新成果。

目前,华为OceanStor存储在全球拥有12个研发中心、4000+研发人员、3000+专利,产品涉足高性能NAS存储解决方案、存储防勒索解决方案、容器存储解决方案、数据中心虚拟化等多个领域,获得了广泛好评。

在全球150多个国家,华为存储已经服务了包括运营商、金融、政府、能源、医疗、制造、交通等行业在内的25000+客户。

可以说,为数据要素价值开发、为大模型创新需求量身定制的存储能力,是华为长期以来在存储赛道上深耕的必然结果——华为存储早已做好了为众多领域数据需求(不只有大模型)提供强大承载力与协同力的准备。

*本文图片均来源于网络

#智能相对论 Focusing on智能新产业新服务,这是智能的服务NO.240深度解读

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1049374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23 mysql index 查询

前言 这里主要是 探究一下 explain $sql 中各个 type 诸如 const, ref, range, index, all 的查询的影响, 以及一个初步的效率的判断 这里会调试源码来看一下 各个类型的查询 需要 lookUp 的记录 以及 相关的差异 此系列文章建议从 mysql const 查询 开始看 测试表结构…

ubuntu 20 安装 CUDA

1. 查看需要安装的cuda版本 nvidia-smi cuda的版本信息如下图所示 2. 去官网下载对应版本的CUDA 官网:CUDA Toolkit Archive | NVIDIA Developer 弹出以下界面,依次点击以下按钮 得到以下内容: 复制下载链接,下载cuda11到本…

适用于 ONLYOFFICE 的智谱 AI 插件现已发布

很高兴向您介绍智谱 AI 插件,现已在我们的插件市场上线!它是开源之夏 (OSPP) 计划的成果,由专注投入的参与者林剑波同学开发。智谱 AI 实质上与 ChatGPT 插件功能相同,但它是为与中国的 AI 无缝协作而量身打造。 关于智谱 AI 这款…

Linux系统编程(1)

父子进程通过两个管道进行通信。 伪代码 #include <unistd.h> void client(int, int), server(int, int);int main(int argc, char** argv) {int pipe1[2], pipe2[2];pid_t childpid;Pipe(pipe1);Pipe(pipe2);if ((childpid Fork()) 0) {// childClose(pipe1[1]);Close…

LeetCode 盛最多水的容器 双指针

原题链接&#xff1a; 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 题面&#xff1a; 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与…

uni-app:canvas-绘制图形2

效果 代码 <template><view><!-- 创建了一个宽度为300像素&#xff0c;高度为200像素的canvas元素。canvas-id属性被设置为"firstCanvas"&#xff0c;可以用来在JavaScript中获取该canvas元素的上下文对象。 --><canvas style"width:200px…

NPDP和PMP证书有啥区别?建议考哪个?

最近分享了很多项目经理和产品经理的问题&#xff0c;有宝子疑问关于这两个职位最热门的证书——PMP和NPDP究竟有什么区别&#xff1f;如何判断自己应该选择哪个&#xff1f;今天胖圆从证书性质&#xff0c;适合人群以及相关考试信息来给大家解读一下&#xff0c;两者有什么不同…

魔兽世界安装插件后进游戏闪退的一个原因。

最近体验了几个私服的WOW&#xff0c;在找插件的时候&#xff0c;总是会遇到wow群里老哥问一个经典的插件问题&#xff0c;进游戏后提示The user interface is using more than 48MB of memory.Set Script Memory to 0 in the character selection screen;然后有个倒计时&#…

(windows10)设置环境变量简化EVOSUITE的运行

对于可执行的jar evosuite-1.1.0.jar&#xff0c;可以在命令行使用jave -jar执行它 然而&#xff0c;每次进入到jar包所在的目录&#xff0c;有点繁琐&#xff0c;这个命令看上去也有点点长。 那么我们可以设置环境变量EVOSUITE来取代这个命令&#xff0c;也即 set EVOSUITEja…

飞致云开源社区月度动态报告(2023年9月)

自2023年6月起&#xff0c;中国领先的开源软件公司FIT2CLOUD飞致云以月度为单位发布《飞致云开源社区月度动态报告》&#xff0c;旨在向广大社区用户同步飞致云旗下系列开源软件的发展情况&#xff0c;以及当月主要的产品新版本发布、社区运营成果等相关信息。 飞致云开源大屏…

顺序读写函数的介绍:fread fwrite

目录 函数介绍&#xff1a; fwrite&#xff1a; 参数说明&#xff1a; 函数大意&#xff1a; 举例&#xff1a; 文件效果&#xff1a; fread&#xff1a; 函数大意&#xff1a; 举例&#xff1a; 结果展示&#xff1a; 函数介绍&#xff1a; fwrite&#xff1a; 参数说明…

基于SSM+Vue的开放式教学评价管理系统

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用Vue技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

美美游玩规划

2023年的国庆 游玩规划&#xff1a; 时间安排是9月29日到10月2日上午&#xff1b; 可以有三个整天加一个上午&#xff0c;上午可以去一个近一点的地方&#xff1b; 可能要去的景点&#xff1a; 天安门广场、颐和园、西单购物中心、故宫、天坛公园、 毛主席纪念堂&#xff08;2…

Python大数据之Python进阶(一)介绍

课程介绍 数据埋点本质上就是进行数据采集&#xff0c;数据埋点是对自身业务数据进行采集。要进行数据埋点就要了解我们的业务程序的开发流程&#xff0c;知道整个数据的传递过程&#xff0c;这样能让我们更加明确数据分析的业务需求&#xff0c;有利于数据埋点的准确性。 在…

小程序如何设置余额充值

在小程序中设置余额充值是一种非常有效的方式&#xff0c;可以帮助商家吸引更多的会员并提高用户的消费频率。下面将介绍如何在小程序中设置余额充值并使用。 第一步&#xff1a;创建充值方案 在小程序管理员后台->营销管理->余额充值页面&#xff0c;添加充值方案。可…

“就地拼柜”与“海外仓”:跨境电商的黄金组合

跨境电商行业一直在迅速发展&#xff0c;消费者可以轻松地在世界各地购买商品&#xff0c;而企业也可以触及全球市场。然而&#xff0c;随着全球市场的扩大&#xff0c;供应链和物流管理变得更加复杂。 在这个背景下&#xff0c;"就地拼柜"和"海外仓"等新…

leetcode(翻转二叉树)

个人主页:Lei宝啊 愿所有美好如期而遇 目录 题目&#xff1a; 思路&#xff1a; 代码&#xff1a; 图解&#xff1a; 题目&#xff1a; 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 思路&#xff1a; 二叉树翻转&#xff0c;无…

bigemap如何添加在线地图图源列表,持续更新中

mapbox: https://www.mapbox.com/contribute/ 包含&#xff1a;卫星影像、电子地图 Arcgis &#xff1a; https://livingatlas.arcgis.com/wayback 包含&#xff1a;卫星影像、历史影像 Arcgis Online&#xff1a;http://services.arcgisonline.com 包含&#x…

免费在线Logo生成器推荐,3款助你轻松获取Logo!

Logo 设计对企业品牌形象至关重要&#xff0c;一个高质量的 Logo 可以为企业带来无形的增值。作为设计师&#xff0c;使用优秀的在线 Logo 设计工具&#xff0c;能极大提高工作效率。本文为大家推荐了 6 款实用的 Logo 免费在线生成器&#xff0c;第一款尤为出色&#xff0c;深…

利用maskrcnn来实现目标检测与追踪

首先下载源代码仓库&#xff0c;链接地址如下&#xff1a; maskrcnn 能够实现的效果如图所示&#xff1a; 该存储库包括&#xff1a; 基于FPN和ResNet101构建的Mask R-CNN的源代码。MS COCO 的训练代码MS COCO 的预训练砝码Jupyter 笔记本&#xff0c;用于可视化每一步的检测…