数据决定AIGC的高度,什么又决定着数据的深度?

news2024/12/26 15:08:56

有人曾言,数据决定人工智能发展的天花板。深以为然。

随着ChatGPT等AIGC应用所展现出的强大能力,人们意识到通用人工智能的奇点正在来临,越来越多的企业开始涌入这条赛道。在AIGC浪潮席卷全球之际,数据的重要性也愈发被业界所认同。

之所以会如此,有两个关键原因:其一,高质量数据是AIGC 应用的核心,决定着算法的性能、泛化能力和应用效果;其二,与数据相关的“存、管、用、传”逐渐成为AIGC发展的瓶颈,亟待高水平的基础设施来协助突破。

可以说,深度学习在过去十年的高速发展,让异构算力的作用与价值得到高度认可;未来十年,数据存储的变革将决定着高质量数据发展的深度。

AIGC市场发展趋势是什么

大模型所展现出的强大能力和较强的泛用性,已经让AIGC应用在办公、会议、对话、搜索、广告等内容生成领域初露锋芒。当前,AIGC和大模型的赛道热闹非凡,仅仅中国市场就有上百个大模型涌现,“百模大战”的盛况让市场热度持续升温。那么,未来的大模型和AIGC市场的发展趋势是什么?

毫无疑问,接下来,出于对交互体验升级和降本增效的巨大需求,AIGC和大模型广泛进入垂直行业已是不可阻挡的趋势。Gartner预测,到2032年,生成式人工智能市场规模将达到2000亿美元,在金融、教育、医疗、工业等领域有着广阔的应用前景。

中金公司研究部判断,未来的大模型市场类似云计算市场,就像一个冰激凌蛋筒,上面的冰激凌球代表金融、医疗、教育等多个关键行业的垂直大模型,与私有云的现状与曲同工;下面的筒身则代表着通用大模型,覆盖广泛的长尾市场,类似公有云市场那样的覆盖。

显然,越来越多行业用户看到了垂直行业大模型的巨大潜力。这些重点行业场景足够丰富、业务数据量巨大、降本增效需求强烈,加上这些行业的用户本身即是私有云的重度用户,看重数据的安全性和本地化部署,对于垂直大模型的需求极为强烈。

“当前,大模型和AIGC市场依然处于早期。但AIGC对于整个行业应用是变革性的,所有行业都必须去适应AIGC带来的变化。这无疑在未来五到十年将产生持续且巨大的数据存储需求。”浪潮信息首席架构师叶毓睿判断道。

AIGC数据存储挑战到底有哪些

今年4月,OpenAI CEO Sam Altman认为,增加大模型的参数数量不再是提升大模型能力的最有效手段,大规模、高质量数据和数据高效处理工程化才是关键。事实上,从OpenAI GPT-5开始,多模态被视为是大模型下一阶段的重要演进方向。

多模态大模型意味着除了文本数据之外,音视频数据也将加入其中,这会让AIGC的数据特征呈现出数据海量化、多元数据类型复杂、服务协议多样、性能要求苛刻和要求服务持续在线,进而带来一系列极为复杂的数据存储挑战。

浪潮分布式存储总经理姜乐果认为,当下AIGC应用背后需要对行业上下游对数据进行采集、标注、训练、推理、归档,带来了异构数据的融合、持续的低延迟与高带宽和EB级大容量存储需求等三大重要挑战。

首先是异构数据的融合。大模型训练数据呈现来源多、格式多的多源异构现状,对于面向单一数据类型设计的传统存储是极大挑战。这种传统模式的缺陷就是很难在一个数据平台上满足不同数据类型对于性能的不同需求,在大模型从采集、标注到训练、推理整个数据存储管道中,需要来回进行数据拷贝,数据处理效率低且无法满足AIGC应用的处理需求。

“传统存储需要以搬移数据的方式实现多协议访问,这是AIGC应用平台一大关键瓶颈。支持异构数据的多协议融合将是解决挑战的关键。”姜乐果直言道。

第二是持续的低延迟与高带宽。在大模型的训练过程中,需要频繁从数据集取Token。但是每个Token通常只有4个字节,这就造成了实时高并发的海量小IO,需要极低的延迟来保障性能;此外,大模型在存储模型Checkpoint时,需要高带宽来支撑数据的快速写入。

“大模型训练时候通常要调用上千块GPU块,某一块卡出现故障或者问题的情况比较正常。如果出现故障,模型需要重新拉起,利用备用节点来替代,备用节点CheckPoint需要存储的高带宽来实现数据快速写入,否则就很容易造成GPU算力资源的浪费。”浪潮信息AI架构师杨鑫介绍道。

第三是EB级大容量存储需求。大模型的越多数据投喂结果越精准的工作原理,决定着大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。

“比如,浪潮信息自身的源1.0大模型,加入音视频数据之后,经过不断训练已经达到上百PB的数据规模。”姜乐果介绍道,“随着训练的不断深入,对于数据存储容量、性能的需求也会持续增长,需要存储具备极致容量和极致性能的能力。”

叶毓睿则表示,AIGC涉及包括采集、标注、训练、推理、归档等数据处理的过程较长,且不同阶段对于性能、延时、数据安全等要求不同。从产业变革的角度看,AIGC正在推动数据存储产业进行全方位的技术升级,未来专业的AIGC存储产品与解决方案需求将大幅增加。

浪潮存储,让AIGC有数

如果说数据存储是AIGC应用的地基,那么这个地基的深度与优劣将决定着AIGC应用的通用性和效率。一旦AIGC应用的效率持续提升和拓展,也意味着垂直行业的生产力有望迎来质的变化。

当前,市场中专门针对AIGC的存储解决方案并不多,尤其是经过验证过的存储解决方案很少。浪潮信息是市场中率先推出相应解决方案的厂商,利用一套AS13000融合存储支撑生成式AI的全阶段应用,一套存储提供端到端的数据流支持流程,满足面向文本、音频、图像、视频、代码以及多模态和全模态的大模型需求。

据悉,浪潮信息AS13000提供全闪、混闪、带库、光盘四种介质,支持文件、对象、大数据、视频、块协议,可满足大容量、多协议共享,百万以上IOPS,100GB以上带宽,冷数据的长期保存和归档。“浪潮信息的AIGC存储解决方案已经支撑过浪潮信息源1.0大模型以及其他AI公司的大模型训练。”姜乐果如是说。

从浪潮信息透露的信息来看,AS13000有效避免了传统存储方案台设备并存带来的各种复杂性、数据处理低效率以及数据孤岛,对于AIGC突破海量数据瓶颈和加速释放数据价值有着极大帮助。

姜乐果介绍,浪潮信息生成式AI存储解决方案拥有极致融合、极致性能、极致节能,和热温冷冰四级全生命周期存储管理四大特点。

第一是极致融合。一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式并行访问。完美契合了多模态大模型场景的数据存储需求,并且实现应用间数据实时共享以及存储空间的最优化。

第二则是极致性能。AIGC带来的是性能指数级的增长,大带宽、高IOPS在未来会成为业务需求的标配。对此,浪潮信息的解决思路是通过架构、硬件、关键技术、IO路径优化等多种手段实现存储性能的充分释放。

“比如,数控分离架构可以减少东西向数据量的转发;GDS、RMDA技术则可以缩短I/O路径,SPDK、缓存零拷贝技术则可以有效减少I/O路径上的数据拷贝;基于自研NVMe SSD开发的盘控协同技术,则减少I/O访问SSD盘的次数,进一步提升性能。”姜乐果补充道,“像全闪单节点带宽超过50GB/s,IOPS超过50万,双控全闪节点,带宽超过100GB/s,IOPS超过100万。”

以源1.0大模型为例,在AS13000并行存储支撑下,2128个GPU集群上跑了16天完成训练,算力效率达到45%,远超MT-NLG与GPT-3等国际知名模型。

第三则是极致节能。相关数据预测,到2025年,我国AI算力总量将超过1800EFlops,AI算力占总算力比重超过85%,这意味着与AI相关的数据存储也将大幅增加,随之而来不容忽视的挑战就是节能减排。为此,浪潮信息最新的G7硬件平台中,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式,并且浪潮信息具有风液式,全液式等完善的端到端解决方案。

最后则是端到端的全生命周期管理。浪潮信息生成式AI存储解决方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,且实现了资源的互通和数据全生命周期的管理。此外,四种介质、四类存储节点提供热温冷冰自动流转,满足各类应用的灵活配置需求,用户们可以根据性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。

“目前市场上能够构建起完整端到端支撑平台的用户还是少数。大部分用户希望是有一揽子解决方案,来支撑起他们迅速构建起平台。浪潮信息自身拥有大模型的经验,可以通过生成式AI存储解决方案将好的经验和实践快速输出到市场中,更好地推动AIGC产业发展。”姜乐果总结道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/797483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用ComPDFKit PDF SDK 构建iOS PDF阅读器

在当今以移动为先的世界中,为企业和开发人员创建一个iOS应用程序是必不可少的。随着对PDF文档处理需求的增加,使用ComPDFKit这个强大的PDF软件开发工具包(SDK)来构建iOS PDF阅读器和编辑器可以让最终用户轻松查看和编辑PDF文档。 …

嵌入式行业真的没前途吗?

就嵌入式而言,需要学的东西比较多。linux底层驱动的了解,单片机底层驱动开发、RTOS、bootloader、应用层开发(MBD)、各种标准、服务、协议等等,还要懂一些硬件,看得懂硬件原理图,最好自己能画板…

【业务功能篇53】Springboot 数据封装对象

Entity、VO、DTO解释 1)Entity:实体,与数据库的每一行数据打交道的,它的属性对应数据库每个字段 class User{ private Long idCard; private String name; private Date birthday; ...... } 对应数据库的id,name&…

VMware虚拟机安装VMware tools

一、挂载光驱 执行以下命令来创建 /mnt/cdrom 目录: mkdir -p /mnt/cdrom-p 参数会确保如果 /mnt/cdrom 的上级目录(例如 /mnt)不存在的话也会被创建。 然后,你可以再次尝试挂载光盘: mount /dev/sr0 /mnt/cdrom这次…

DragGAN:用崭新的方式进行图像处理

该项目的论文被SIGGRAPH 2023 收录,论文以 StyleGAN2 架构为基础,实现了 “Drag” 关键点就能轻松 P 图的效果。 https://github.com/XingangPan/DragGAN https://vcai.mpi-inf.mpg.de/projects/DragGAN/ 目录 原图1测试一测试二测试三 原图2测试一测试…

基于Java+SpringBoot+vue前后端分离师生健康信息管理系统设计实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

数据结构 | 基本数据结构——栈

目录 一、线性数据结构 二、栈 2.1 何谓栈 2.2 栈抽象数据类型 2.3 用Python实现栈 2.4 匹配括号 2.5 普通情况:匹配符号 2.6 将十进制数转换成二进制数 3.7 前序、中序和后序表达式 3.7.1 从中序到后序的通用转换法 3.7.2 计算后序表达式 一、线性数据结…

Docker 镜像操作

Docker镜像操作 我们已经介绍了容器操作,今天来了解下 Docker镜像 以及 镜像操作 。让我们一起开启镜像之旅吧。 Docker镜像 镜像是一种轻量级、可执行的独立软件包,用来打包软件运行环境和基于运行环境开发的软件,它包含运行某个软件所需的所有内容,包括代码、运行时、库…

QML 往图表添加文字显示

需求: 需要在图表的某几个点上,添加相应的文字显示。效果如下: 主要是,如何将坐标进行转化为图表的相对坐标,然后动态创建文本后,将转换坐标设置到Text中。 演示demo。需要点击Text按钮后,图表显示。 impo…

如何为WordPress博客网站配置自己购买的域名,并且公网可访问?

文章目录 如何为WordPress博客网站配置自己购买的域名,并且公网可访问?前置条件:具体操作步骤如下:步骤1: 后台预留自定义域名步骤2: 配置您的域名DNS解析步骤3: 测试域名解析步骤4: 在前台终端测试运行步骤4: 修改cpolar配置文件…

等保测评需要做几次?做一次以后还需要做吗?

虽然我国等保政策已经严格落地执行了,但不少企业对于等保测评相关政策还不是很了解,有人在问,等保测评需要做几次?做一次以后还需要做吗?今天我们就来简单回答一下吧! 等保测评需要做几次?做一…

【无公网IP】在公网环境下Windows远程桌面Ubuntu 18.04

文章目录 一、 同个局域网内远程桌面Ubuntu1. 更新软件仓库2. 安装支持包3. 安装XFCE4桌面环境4. 安装XRDP5. 环境设置5.1 XFCE桌面配置5.2 在配置文件中,加入XFCE会话 6 重启服务7. 查看IP地址8. 使用Windows远程桌面连接 二、公网环境系统远程桌面Ubuntu1. 注册cp…

如何恢复U盘数据 U盘数据恢复图文教程

u盘是我们日常生活中很常用到的存储设备,我们会经常用到u盘去保存重要的数据或文件,但是使用的频率多了,有时候也会因为一些原因,出现各种各种的异常问题,就比如说u盘数据丢失。那,当u盘数据丢失后还可以恢…

金山云与平凯星辰达成全面战略合作 技术创新模式助力企业数字化转型

在新型经济形态下,云计算成为数字化发展的必然方向,互联网、金融、医疗等行业的企业纷纷加速数字经济转型。2023 年,金山云与企业级开源分布式数据库厂商平凯星辰(PingCAP)达成战略合作,顺应技术创新与行业…

python 之 浮点数精度丢失例如:0.1 + 0.2,产生的原因、问题的推导、解决的方案

一、背景 计算机基本上使用二进制数字,即 0 或 1表示; 十进制: 1 / 3 0.3333333333… 无限循环的情况 浮点数的总数是无限且不可数的,浮点数在计算机占用的内存是有限的,如果表示计算机内存则占满 不可能用有限的内存…

Kafka 入门到起飞系列 - 到底什么是再平衡?谁来执行再平衡呢?什么是组协调器呢?

再平衡(Rebalance) 本质上是一种协议,规定了一个消费组中所有消费者如何达成一致来分配订阅主题的每个分区 其实就是建立分区和消费者映射关系的这么一个过程,最终主题下的一个分区只会分配给一个消费者 比如有10个分区&#xff…

个人博客系统 -- 登录页面添加图片验证码

目录 1. 功能展示 2. 前段代码 3. 后端代码 1. 功能展示 在登录页面添加验证码登录 1. 检测到没有输入验证码或者输入的验证码错误时,进行弹窗提示.并且刷新当前验证码图片 2. 点击验证码进行刷新 2. 前段代码 1. 添加验证码标签,在密码的下面,在login.html进行修改 主要…

多模态预训练 + 自监督学习 + 下游任务介绍

预训练 1)特征提取要解决的问题是怎么分别量化文字和图像,进而送到模型学习? 特征抽取: 文本:倾向于bert等大模型 图像:神经网络,VIT等 2)特征融合要解决的问题是怎么让文字和图像的表征交…

基于Java+SpringBoot+vue前后端分离社区医院信息平台设计实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

Hadoop_HDFS_常见的文件组织格式与压缩格式

参考资料 1. HDFS中的常用压缩算法及区别_大数据_王知无_InfoQ写作社区 2. 本文主要介绍下HDFS上的常见文件格式和压缩格式 总结 : HDFS 中常见的文件存储格式 textfile :行式存储格式sequencefile :行式存储格式orc :列式存储格式, 支…