寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标

news2025/1/18 6:59:51

db63aab98ebcdc90b0927c01feef3319.jpeg

超算,是计算产业的明珠,是人类探索未知的航船。超算的发展与变化,不仅代表着各个国家与地区间的科技竞争力,更将作为趋势风向标,影响整个数字化体系的走向。

在目前阶段,超算与AI计算的融合是大势所趋。为了将AI模型与AI计算融入超算体系,一轮新的超算变革正在酝酿发生。与此同时,一个关键问题也显露了出来:我们是否需要配合AI大模型风潮,打造全新且独立的存储体系?

在超算领域拥有广泛声誉的橡树岭国家实验室(Oak Ridge National Laboratory),已经就这个问题给出了明确的答案:需要。

54f3f600f3ab5dbe05ac331b93a1a7cf.png

日前,我们在橡树岭实验室发布的面向2027年构建下一代数据中心相关计划中已经看到,其明确提出了应对十亿到百亿级大模型的引入,除了需要面向传统HPC场景的PFS(Parallel file system 并行文件系统),还需要单独设立AOS(AI-optimized storage AI 优化存储)存储系统,并给出了相关的详细品类定义与规格约束。

这个信息为何重要?其又将如何影响计算与存储产业的持续发展?

让我们共同来解读一下,这个智能时代的存力信标。

科学之巅的超算答案

e4de57f9c5f5693763b177e21d40b454.png

不久之前,诺兰导演的电影《奥本海默》在全球热映,其中对曼哈顿工程的描绘让人印象深刻。

事实上,曼哈顿工程的影响远不止于影片介绍的范围。成立于1934年,隶属于美国能源部的橡树岭国家实验室,原本就属于曼哈顿工程的一部分。作为美国乃至全球最具代表性的国家实验室,其存在目的是攻克当下最严峻的科学难题,开发具有跨时代意义的技术。

从上世纪40年代开发核反应堆,到率先在完成中子散射开展材料的相关研究,再到为半导体产业提供了一系列信息与相关技术。橡树岭国家实验室可谓在每个阶段都深度参与了信息时代的重大科学发现,被誉为人类科学之巅。

7fe732b7263e38b717bb519182bd3c5b.png

时间来到今天,橡树岭国家实验室最具盛名的能力就是超算。在的2022年全球超算Top500名单中,橡树岭国家实验室的Frontier超级计算机系统夺得第一。其凭借1.102 Exaflop/s的HPL分数,成为人类有史以来第一台“E级超算”计算机。也就是说,Frontier实现了断代式的惊人算力,其超算性能大于排在它身后的468个超算体系之和。同时,Frontier还是全球AI计算能力最强的计算体系之一,其AI计算能力已经投身到了智能交通、智能医疗等领域的探索中。

由此可见,橡树岭国家实验室在超算领域拥有极强的先进性,堪称广义超算领域的绝对权威。而在打造Frontier为代表的超算体系过程中,实验室也正以更加深邃的目光,望向AI计算与存储的前沿探索之路。

他们给出的AI存力答案,显然可以被更多超算体系,乃至数字化建设整体所参考。

d9246062969297a93fa43842d141463e.png

对AI存力底座的明确定义

长久以来,我们都知道AI专项算力的重要性。那么是否需要在存储领域构建AI专项存力呢?这一直是个业界激烈争论的问题。而橡树岭国家实验室的答案,或许可以起到一锤定音的效果。在其发布的面向2027构建下一代数据中心方案中,明确提出了面对大模型的引入,除了需要面向传统超算场景的存储体系之外,要单独设立AOS(AI-optimized storage)品类。这也就是说,要建设传统超算业务和面向AI业务负载的两套I/O存储系统——PFS和AOS,即构建更适应、更匹配AI负载的专项存储。

这是因为橡树岭国家实验室已经意识到,未来超算将面临着越来越多的AI处理任务。这不仅仅需要算力系统的提升,更需要单独针对存储系统进行升级。因此对AI工作负载定制全新的存储子系统至关重要。

两套I/O存储系统相比较的话,很容易找到区别。

传统的PFS,更多是针对单一POSIX文件命名空间,整体业务的I/O较大,并且更多针对大文件进行运算处理,更强调集群聚合带宽,对小文件的创建或读取性能要求并不高。

而相较于PFS,AI应用折射到AOS负载上的文件更加复杂,大小不一,并且数据密集型分析占据了更大比重,在全流程中会产生大量的数据或元数据随机读写情况。这就需要存储系统既具备高达千万级的IOPS与OPS、又拥有十TB/s级别的超高带宽来进行高速顺序读写。

简而言之,新的AI负载会带来巨大的存储性能需求,这是传统PFS系统所谓无法负担的。只有存储性能极大升级,才能让AI算力利用率提升,整个模型的训练效率升级。

其次,极为重要的一点在于AI场景下计算节点故障率高,平均要达到天级甚至小时级就出现故障,因此需要频繁的断点续训,并且还有可能需要很多阶段性的模型数据与窗体数据定期保存。因此与传统的超算任务相比,AI任务需要存储具有更大的容量以及更高的效率。

接下来,我们还要看到共享存储的必要性。橡树岭国家实验室要求计算任务在任何计算节点都可以随机访问任何一个文件,从而确保AI任务在任何节点访问时性能具有强一致性。

除此之外,AOS还具备在底层文件系统与AOS之间的高效并行数据传输能力,从而确保文件的跨层调度能力。

de3ee62362397287eb349a254f29de9e.png

为了保护珍贵的AI数据资产,AOS对存储可靠性的要求也提升了很多。由于各种AI训练大量采用分布式,需要在单点故障后依旧保持数据高可用、任务不中断。这需要满足跨节点的EC(Erasure Coding)能力,不像一些传统并行文件系统仅可做到节点内EC,当节点宕机后就会出现数据丢失、数据完整性受损,并且对于故障后的数据重构的性能速度,也规定了相关时长。

最后,AOS还需要具备本地数据的清洗与处理的能力,包含敏感信息去除、隐私信息过滤,甚至转码、去重等工作,从而简化数据预训练工作,提升AI任务的整体效率。

总结来说,橡树岭国家实验室已经明确提出,AI大模型浪潮不仅需要专项算力,还需要专项存力。传统的并行文件系统已经无法满足AI任务的需求,AI存储的门槛正在变得更高,定义正在更加清晰明确。

由橡树岭国家实验室的超算探索出发,AI存力的概念将影响到整个产业。

存储发展的时代信标

f74a877ebb35834f5de6b6a4be33ad44.png

橡树岭国家实验室的发现,可以说是一个时代信标,它将辐射到更广泛的区域,给存储产业的升级发展提出明确信号。

首先,业界可以由此凝结成一个共识:AI需要专业算力,也需要专业存储。AI存力概念将成为大模型时代主导存储产业的骨干。

其次,我们可以看到超算领域将首先得到启示。在全球各个国家与地区,超算都是国之利器,是科技竞赛的关键节点。而在超算与AI水乳交融的发展趋势下,超算场景必须积极引入AI存力升级,设置专业的外置存储,并且积极践行以存强算,通过存储升级来提升AI算力利用率。比如将AI大模型密集型计算之前,为了降低计算通信开销比,可以将一部分数据预处理下沉到存储层完成,以此节省AI算力。最终可以通过存储来提升超算体系的先进性与自主性。

接下来,我们还可以看到这一趋势将释放到超算场景之外。在AI大模型走入千行百业的进程中,各个领域都需要考虑存储是否能够适配AI模型与算力系统。适时进行存储升级,实现存、算、AI的相辅相成,是智能化发展过程中的关键。

这些启示,对于中国存储产业的发展,尤有至关重要的意义。

d19fd31dc9031debe834f24315ec2030.png

存力勃发,时代之选

在大模型发展中,存力是前提条件,也是产业支柱。尤其对应到中国在实现科技自立自强,推进数实融合的大势当中。AI浪潮恰好是一个绝佳契机,可以以最低成本,最高价值实现存储产业的全面升级更新。

从目前全球主流趋势来看,存储升级对AI发展的助力是多方位、全面性的。是一个高吞吐、可共享、大容量、高可靠的存储系统,是产业智能化、经济智能化发展的关键。

cf30dc4bc93356bd98ac8893d996135f.png

在这个趋势下,中国存力建设有以下几个机遇需要紧紧把握:

1.扩大存力规模,提升先进存储占比。

随着AI大模型的崛起,以及AI深入到超算、大型政企数字化等场景,会有更多企业倾向于进行本地化的AI训练与相关数据存储。这个过程中,既需要扩大存力整体规模,也需要提升以全闪存为代表的先进存储占比,以此来满足智能化发展所需。

2.提升存储技术创新,应对AI时代的数据复杂性。

AI带来了数据复杂性与应用流程多样性等一系列挑战,因此存储的先进性必须得到进一步提升。比如说,在建设数据湖的过程中,多数据中心、多业务系统的数据归集缓慢且复杂,跨业务的数据倒换的低效且繁琐,都给存储带来了考验。因此,存储需要提升协议互通能力、数据跨域调度、跨系统可视化数据管理等能力。以存储技术创新,应对AI时代的一系列技术挑战。

3.提升存储安全与运维能力,确保AI发展无忧。

AI大模型不仅带来了数据的复杂性,还带来了一系列全新的安全隐患,以及愈加复杂的存储运维管理压力。因此,存储需要积极践行主动安全、自动运维等能力,从而确保AI体系的健康发展。

在这些努力的坚持不懈下,AI存力将得到极大发展。就像我们知道AI算力即生产力,AI存力也将在未来成为生产力释放的关键,成为产业智能化的引擎。

总结起来,一项产业升级与技术发展,首先需要找到信标,读懂趋势。如果说此前我们对于AI专项存储的定义与发展还有争议,那么橡树岭国家实验室对未来数据中心的定义,就是为这一争论画下了句号。

257f298b7d46ca63f4611be5b069cc04.png

依靠其在超算领域,乃至全球科研界的地位,首先我们可以看到AI存储本身的绝对必要性。其次可以对AI存储的定义、门槛与发展规范提出详细的要求。由此一来,我们可以在越来越多的证据下,清楚地看到AI大模型时代存储升级的必然。

AI存力的价值,在顶级实验室的论证与探索中可以证明;在存储产业多年来走向自主化、先进化的发展脚步中可以证明;在每一次AI训练之后,模型开发者对存储价值的慨叹中可以证明。

抓住AI机遇,促使存力勃发,是时代之选,更是时代之幸。

f847e13791bfa58cb352926591b751ea.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1096033.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# GPEN-BFR 图像修复

效果 项目 代码 using Microsoft.ML.OnnxRuntime; using Microsoft.ML.OnnxRuntime.Tensors; using OpenCvSharp; using System; using System.Collections.Generic; using System.Drawing; using System.Drawing.Imaging; using System.Windows.Forms;namespace 图像修复 {pu…

【部署】Linux Shell脚本部署java程序 (jar包)

文章目录 前言 前言 #!/usr/bin/env bash #可变参数变量#部署磁盘路径 baseDirPath/data/apps/java/smj-exchange-upload #jar包名称 packageNamesmj-exchange-upload.jar #命令启动包名 xx.jar的xxpid #进程pid#检测pid getPid(){echo "检测状态-----------------------…

Python爬虫:某书平台的Authorization参数js逆向

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者:秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们点赞👍🏻、收藏⭐️、…

深势科技基于 Serverless 容器为科研人员打造高效的开发平台

作者:李样兵、刘杉、木环、玖宇、鼎岳 云端的科学研究,AI for Science 新范式 以往科学家们的科研工作需要经过大量实验的重复验证、复杂数学计算,以及长年累月的不断试错和苦苦探索。云计算基础服务的发展和人工智能技术 AI 的兴起&#x…

自动驾驶学习笔记(五)——绕行距离调试

#Apollo开发者# 学习课程的传送门如下,当您也准备学习自动驾驶时,可以和我一同前往: 《自动驾驶新人之旅》免费课程—> 传送门 《2023星火培训【感知专项营】》免费课程—>传送门 文章目录 前言 调试内容 打开在线编辑器 打开pl…

【Docker 内核详解】namespace 资源隔离(五):User namespaces

【Docker 内核详解 - namespace 资源隔离】系列包含: namespace 资源隔离(一):进行 namespace API 操作的 4 种方式namespace 资源隔离(二):UTS namespace & IPC namespacenamespace 资源隔…

narak靶机

信息搜集 主机发现 端口扫描 靶机开放了22/ssh , 80/http端口服务 UDP协议扫描端口 没有啥发现 综合扫描 web渗透 web页面 登陆80web页面,进行信息收集,在源代码和页面中似乎都没发现什么信息 web目录扫描 其中webdav很有意思,我们看看…

AutoSar CP学习概要

系列文章目录 C技能系列 Linux通信架构系列 C高性能优化编程系列 深入理解软件架构设计系列 高级C并发线程编程 设计模式系列 期待你的关注哦!!! 现在的一切都是为将来的梦想编织翅膀,让梦想在现实中展翅高飞。 Now everythi…

每个后端都应该了解的OpenResty入门以及网关安全实战

简介 在官网上对 OpenResty 是这样介绍的(http://openresty.org): “OpenResty 是一个基于 Nginx 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩…

CV计算机视觉每日开源代码Paper with code速览-2023.10.13

精华置顶 墙裂推荐!小白如何1个月系统学习CV核心知识:链接 点击CV计算机视觉,关注更多CV干货 论文已打包,点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【基础网络架构】CHIP: Contrastive Hierarchical Image …

计算机系统概述(机组第一章)

补充: 1.1.1 计算机软硬件概念&&计算机系统的层次结构 思维导图 除了思维导图中的三个层级以外还包括两个层级 在实际机器下还可以延伸一级微程序机器,即将实际机器执行的指令翻译成一组微指令构成一个微程序。为程序机器执行完一个微程序在进…

Android MediaCodec 框架 基于codec2

系列文章的目的是什么? 粗略: 解码需要哪些基础的服务?标准解码的调用流程?各个流程的作用是什么?解码框架的层次?各个层次的作用? 细化: 解码参数的配置?解码输入数…

【iOS】——用单例类封装网络请求

文章目录 一、JSONModel1.JSONModel的简单介绍2.JSONModel的使用 二、单例类和Block传值 一、JSONModel 1.JSONModel的简单介绍 JSONModel一个第三方库,这个库用来将网络请求到的JSON格式的数据转化成Foundation框架下的Model类的属性,这样我们就可以直…

冠军方案!2023第二届广州·琶洲算法大赛

Datawhale干货 作者:唐楚柳,算法工程师,冠军选手 1.简介 大家好我是‍Alex‍,31岁,现为一名图像算法工程师,主要研究方向是计算机视觉图像识别。工作之余的研究兴趣包括ocr,aigc,ll…

[自学记录06|*Animation]四元数、死锁与方位插值

一、前言 还记得在很久以前不知道什么时候,看到过一个TA的面经,里面提到了四元数和万向锁,当时自己也查了一些资料,但是看的也是云里雾里,恰巧这两天学校的动画原理课讲到了这,打算整理一下做个小结。 二、…

【Linux学习笔记】 - 项目自动化工具make/Makefile的使用

一、背景知识 会不会写makefile,从一个侧面说明了一个人是否具备完成大型工程的能力。一个工程中的源文件不计其数,其按类型、功能、模块分别放在若干个目录中。makefile定义了一系列的规则来指定,哪些文件需要先编译,哪些文件需…

芯片学习记录SN74AHC1G14DBV

SN74AHC1G14DBV 芯片介绍 SN74AHC1G14器件是单个逆变器门。该器件执行布尔函数Y /A.The器件作为独立的逆变器门发挥作用,但由于施密特作用,门可能对正(VT)和负(VT−)信号具有不同的输入阈值电平。 引脚信…

07测试Maven中依赖的范围,依赖的传递原则,依赖排除的配置

依赖的特性 scope标签在dependencies/dependency标签内,可选值有compile(默认值),test,provided,system,runtime,import compile:在项目实际运行时真正要用到的jar包都是以compile的范围进行依赖 ,比如第三方框架SSM所需的jar包test:测试过程中使用的j…

大数据基础技能入门指南

本文介绍了数据工作中数据基础和复杂数据查询两个基础技能。 背景 当下,不管是业务升级迭代项目,还是体验优化项目,对于数据的需求都越来越大。数据需求主要集中在以下几个方面: 项目数据看板搭建:特别是一些AB实验的看…

【算法练习Day20】修剪二叉搜索树将有序数组转换为二叉搜索树把二叉搜索树转换为累加树

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 修剪二叉搜索树将有序数组转…