AIGC 爆火,浪潮信息要做大模型的数据存储大底座

news2024/11/26 0:28:59

AIGC 在 2023 年爆火,各类大模型层出不穷,参数动辄达到千亿数量级。这些背后,数据的类型和形式也走向复杂多样。例如大模型会采用到我们真实物理世界中的文字、视觉、音频、3D、雷达、多谱等复杂多样的不同模态信号和数据,数据则又存在结构化、半结构化、非结构化等多种形式。

云计算之后,AIGC 让数据存储面临新的挑战

数据存储需要从规模、类型、协议、性能等等方面去满足大模型运行效率,也因此,数据存储在云计算之后,再次面临了新的技术挑战。例如:

一、异构数据的融合

生成式 AI 训练模型的数据呈现来源多、格式多的多源异构现状,传统存储面向单一数据类型设计,需要以搬移数据的方式实现多协议访问,存储成为应用平台的关键瓶颈;

二、持续的低延迟与高带宽

模型训练过程中,频繁地从数据集取 Token,每个 Token 一般 4 字节,实时高并发小 IO 性能需要极低的延迟;存储模型 Checkpoint 时,为 Checkpoint 数据可快速写入,需要高带宽;

三、EB 级大容量存储需求

越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。

浪潮信息发布 AIGC 存储方案——AS13000融合存储系统

提到存储,浪潮信息近年在数据存储技术领域一直深耕并取得了亮眼的成绩。据分析机构 Gartner 2022 年报告显示,浪潮信息以存储装机容量占比 11% 已经进入全球前三名,另据 IDC2022 年四季度报告显示,浪潮在分布式文件存储市场销量第一,每 5 台文件存储中 1 台来自浪潮信息。

在 AI 大模型的研发上,浪潮信息早在 2021 年就发布了中文语言大模型“源 1.0”,对于 AI 与数据存储的积累之上,近日浪潮信息正式发布面向生成式 AI 的存储解决方案。方案基于浪潮 AS13000 融合存储系统,可以支撑 AIGC 产业上中下游业务应用,并针对不同业务阶段的数据存储需求,提供热温冷冰四级存储,实现数据在各级存储间自动流转。用高性能节点形态来满足数据训练、数据推理两个阶段的高带宽、低延时、高并行读写性能存储需求,用大容量节点形态来满足数据采集、数据准备、数据归档三个阶段的海量多元数据存储需求,方案具备极致融合、极致性能、极致节能三大能力,以及热、温、冷、冰四级数据全生命周期存储管理能力,助力生成式 AI 突破海量数据存力瓶颈,加速释放数据的价值。

 

详细来说,针对 AI 与大模型对于数据的各类需求,浪潮 AS13000 融合存储系统从多模态数据融合、数据存储性能、绿色数据中心设计方案、数据全生命周期四个方面,进行了设计与研发。

一、极致融合应对 AIGC 海量多源异构数据存储

为了应对不同模态的多样性需求,浪潮信息提出“协议互通、数据融合”设计理念,一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景同时以文件、对象、大数据、视频四种存储协议进行并行访问。用一套存储实现支持多模态场景应用,免除了数据跨应用时的复制,实现真正意义上非结构化数据的协议互访互通,让数据融合。

二、极致性能,应对 AIGC 大模型训练。

AIGC 场景数据类型多样化,文件大小不一、数量多,且读写频繁,对存储系统的百 GB 级高带宽、百万级 IOPS 需求成了常态。浪潮信息在软件方面,通过数控分离架构减少东西向数据量的转发,通过 GDS、RMDA 技术缩短 I/O 路径,通过 SPDK、缓存零拷贝技术减少 I/O 路径上的数据拷贝,以及基于自研 NVMe SSD 开发的盘控协同技术,减少 I/O 访问 SSD 盘的次数,使存储性能得到进一步释放。在硬件方面,优化 IO 路径通道,均衡 IO 路径,最大化发挥硬件性能,全闪单节点带宽超过 50GB/s,IOPS 超过 50 万;此外,创新性地引入双控全闪节点,带宽超 100GB/s,IOPS 超 100 万,真正使系统具备千万级 IOPS、EB 级带宽,充分满足 AIGC 场景对存储系统的苛刻要求。

三、极致节能,打造绿色数据中心。

浪潮信息近期最新发布了 G7 硬件平台,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式。在系统方案层面,浪潮信息具有风液式、液液式等完善的端到端解决方案,能够为用户全方位打造液冷数据中心交钥匙工程,并且完成了业界首次液冷整机柜批量交付,实现 PUE<1.1。

四、端到端数据全生命周期管理,实现 AIGC 底层数据智能治理。

除了三大“极致”能力之外,得益于“资源互通、管理融合”的设计理念,浪潮信息生成式 AI 存储方案基于闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,通过资源互通实现数据全生命周期管理。基于数据的热度识别,自动释放在线存储空间,可以将海量数据自动归档到光盘库,降低长期存储成本;实现冷数据的分钟级快速回调,满足 0~4 级应用的存储需求。四种介质、四类存储节点,提供热温冷冰自动流转,满足各类应用的灵活配置需求,通过性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。

据介绍,浪潮信息生成式 AI 存储解决方案已经在中文语言大模型“源 1.0”中成功落地,面对千亿级参数量和数据量带来的挑战,浪潮信息通过 AS13000 高吞吐并行存储系统实现了多存储协议互通、数据融合,利用全闪的极致性能,助力“源 1.0”大模型实现了 16 天完成训练的超高效率。另外,国内 AI 独角兽公司采用浪潮信息提供的并行文件存储,承载 5000 亿参数量的 NLP 语言类大模型的数据集 Token 和 CheckPoint 文件,轻松应对大/小文件的读写挑战,配置 AS13000 全闪存储集群,支持高性能 RocE 组网和 GPU 直通存储功能,带宽超过 300GB、存储性能超过 350 万 IOPS,保证存储集群的高可用与敏捷扩容。

依据在大模型与 AI 存储解决方案的积累,可以看到,浪潮信息在打造针对 AIGC 的数据存储大底座,接下来浪潮信息还将联合合作伙伴,助力生成式 AI 在金融虚拟客服、图片编辑设计、智能驾驶、跨模态检索等场景和行业模型方案的落地工作,让 AI 大模型真正落地生花,进入千行百业的生产流程中,发挥 AIGC 的更多价值。CSDN 也将持续报道大模型与数据存储技术最新进展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/746637.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Android复习笔记】系统进程(一)

Android 系统进程有哪些 先来一个整体结构图从宏观上理解Android系统的进程结构布局: 这里我们简单总结一下: 系统的第一个进程其实是0号进程(又叫swapper进程/Idle进程) 0号进程fork出了1号进程(init进程)和2号进程(kthreadd进程) 1号进程是所有普通用户进程的祖先,2号进程…

利用Adobe Acrobat DC实现图片和PDF互相转换

一、图片转PDF 可以实现多张或者单张图片转PDF! 这个需要使用到Adobe Acrobat DC的文件合并功能&#xff0c;因为Adobe Acrobat DC的文件合并&#xff0c;不仅可以合并多个pdf文件&#xff0c;也支持合并图片文件。 如图&#xff0c;直接选中多张图片合成即可&#xff1a; 添…

微服务系列文章之 Redisson实现分布式锁(3)

一、概述 1、技术架构 项目总体技术选型 SpringBoot2.4.5 Maven3.5.4 Redisson3.5.4 lombok(插件)2、加锁方式 该项目支持 自定义注解加锁 和 常规加锁 两种模式 自定义注解加锁 DistributedLock(value"goods", leaseTime5)public String lockDecreaseStock(…

84. 求1+2+…+n

链接&#xff1a; 链接 题目&#xff1a; 求 12…n12…n&#xff0c;要求不能使用乘除法、forfor、whilewhile、ifif、elseelse、switchswitch、casecase 等关键字及条件判断语句 (A?B:C)(A?B:C)。 数据范围 1≤n≤500001≤n≤50000。 样例 输入&#xff1a;10输出&#xff1…

【MySQL】不允许你不会使用组合查询

&#x1f3ac; 博客主页&#xff1a;博主链接 &#x1f3a5; 本文由 M malloc 原创&#xff0c;首发于 CSDN&#x1f649; &#x1f384; 学习专栏推荐&#xff1a;LeetCode刷题集 &#x1f3c5; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff0…

ASEMI-1N4007是什么二极管,1N4007是什么类型的二极管

编辑-Z 1N4007是一种常见的二极管&#xff0c;属于快恢复二极管&#xff08;Fast Recovery Diode&#xff09;的一种。它是一种高压、高电流的整流二极管&#xff0c;常用于电源电路中的整流器。1N4007的最大反向电压为1000V&#xff0c;最大正向电流为1A&#xff0c;具有较低…

第十七章 原理篇:Deformable DETR

参考教程&#xff1a; 论文&#xff1a;https://arxiv.org/pdf/2010.04159.pdf 源码&#xff1a;https://github.com/fundamentalvision/Deformable-DETR 文章目录 Deformable ConvDeformable DETR计算量MethodDeformable Attention ModuleDeformAttn计算量Multi-scale Defor…

JVM学习笔记(二)

学习黑马视频&#xff1a;01_什么是jvm_哔哩哔哩_bilibili 一、JVM内存结构 程序计数器 虚拟机栈 本地方法栈 堆 方法区 程序计数器、栈、本地方法栈&#xff0c;都是线程私有的。堆、方法区是线程共享的区域。 1. 虚拟机栈&#xff08;JVM Stacks&#xff09; 1&#xff09…

avue 自定义按钮修改后触发表单自带的校验方法;avue表单提交

代码&#xff1a; <avue-form :option"option" v-model"publishForm" ref"publishForm" submit"handleSubmit"><template slot-scope"{size}" slot"menuForm"><el-button :size"size" …

LayUi之选项卡的详解(附源码讲解)

&#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 接下来看看由辉辉所写的关于LayUi的相关操作吧 目录 &#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 一.选项卡是什么 二.选项卡在什么时候使用…

最新软件工程毕业设计选题推荐100例

文章目录 0 简介1 如何选题2 最新软件工程毕设选题3 最后 0 简介 学长搜集分享最新的软件工程业专业毕设选题&#xff0c;难度适中&#xff0c;适合作为毕业设计&#xff0c;大家参考。 学长整理的题目标准&#xff1a; 相对容易工作量达标题目新颖 1 如何选题 最近非常多的…

IDEA debug 断点调试技巧

1、首先看下IDEA中Debug模式下的界面&#xff1a; ① 以Debug模式启动服务&#xff0c;左边的一个按钮则是以Run模式启动。在开发中&#xff0c;我一般会直接启动Debug模式&#xff0c;方便随时调试代码。 ② 断点&#xff1a;在左边行号栏单击左键&#xff0c;或者快捷键Ctrl…

Git教程-廖雪峰-个人归纳更新总结

文章目录 前言Git简介&#xff1a;Git的诞生&#xff1a;集中式和分布式 安装Git&#xff1a;创建版本库时光穿梭机(*)版本回退撤销修改删除文件 远程仓库&#xff1a;添加远程仓库&#xff1a;删除远程库与本地库的链接&#xff1a; 从远程库克隆(*) 使用GitHub 前言 日常需要…

微服务系列文章之 Redisson实现分布式锁

一、高效分布式锁 当我们在设计分布式锁的时候&#xff0c;我们应该考虑分布式锁至少要满足的一些条件&#xff0c;同时考虑如何高效的设计分布式锁&#xff0c;这里我认为以下几点是必须要考虑的。 1、互斥 在分布式高并发的条件下&#xff0c;我们最需要保证&#xff0c;同…

浅谈Python+requests+pytest接口自动化测试框架的搭建

框架的设计思路 首先要明确进行接口自动化需要的步骤&#xff0c;如下图所示&#xff1a; ​然后逐步拆解需要完成的工作&#xff1a; 1&#xff09;了解分析需求&#xff1a;了解接口要实现的功能 2&#xff09;数据准备&#xff1a;根据开发文档确定接口的基本情况&#x…

SuperMap iClient3D for Cesium最短路径分析

作者&#xff1a;Mei 目录 前言实现思路实现步骤1、构建二维网络数据集1.1拓扑检查1.2线拓扑数据集处理1.3构建二维网络数据集 2、发布网络分析服务3、实现代码 前言 在交通、消防业务场景中&#xff0c;如果某地发生火灾或者交通事故&#xff0c;需要快速规划出最短抢救路线&a…

河南元宇宙创造者大赛成果展示空间“元豫宙”斩获TopDigital创新营销奖金奖

6月29日&#xff0c;在上海举行的TopDigital营销盛典上&#xff0c;河南文旅元宇宙空间“元豫宙”&#xff0c;凭借其匠心独具的创新性场景设计、美轮美奂的超写实场景呈现、新潮炫酷的沉浸式虚拟体验&#xff0c;斩获TopDigital创新营销奖虚拟场景设计组金奖。元豫宙&#xff…

2023年31个最适合博主的WordPress主题

自从我最初开始写博客以来&#xff0c;在近十年的经验中&#xff0c;我已经出于各种目的在多个博客中测试和使用了数十种不同的 WordPress 主题。 以下是我挑选的绝对最佳WordPress主题&#xff0c;专门针对不想编写一行代码的博主。 无论您是想创建个人理财博客、撰写时尚、…

项目范围管理中8个常见错误,千万别大意!

管理项目范围就像驾驶汽车&#xff0c;如果不注视前方&#xff0c;汽车就会偏离道路。同样&#xff0c;如果不控制项目范围&#xff0c;项目就会偏离正轨。管理者在尝试管理项目范围时可能会遇到很多问题&#xff0c;下面来了解一下范围管理的常见错误&#xff0c;看看如何通过…

服务器数据库中了360后缀勒索病毒怎么办,如何预防勒索病毒攻击?

随着网络技术的不断发展&#xff0c;企业的计算机服务器也受到了网络安全威胁&#xff0c;近日&#xff0c;很多企业的服务器被360后缀勒索病毒攻击&#xff0c;导致企业的数据库中的许多重要数据被加密&#xff0c;无法正常读取打开。360后缀勒索病毒数据BeijingCrypt勒索病毒…