一切计算皆AI,开放计算再破局

news2024/9/21 8:01:40

“OpenAI最差的决定就是没有开放它的大模型。”著名科技预言家凯文·凯利在2024年最新演讲中强调开源对于AI发展的重要性。

的确,开源大模型近年来迸发出巨大的产业活力,推动了AI的协作与创新:2023年全球新发布的基础模型中有三分之二为开源模型,80%以上的AI项目使用开源框架,开源大模型下载量超过3亿次、并衍生出3万个新模型……

华丽的数字背后,离不开计算产业的鼎力相助,尤其是开放计算功不可没。如今,“开源大模型+开放计算”的黄金组合,正深刻影响着AI和计算产业的发展方向。正如浪潮信息服务器产品线总经理赵帅所言:“AI时代,开放计算重要价值在于应对多元算力挑战,通过产业协作来促进AI的Scale和创新。”

AI重构计算产业

2020年,大模型训练Scaling Law黄金规则的提出,拉开了AI对于计算产业深远影响的序幕。

所谓Scaling Law黄金规则,即大模型增加参数量、数据集和计算量,就可以得到性能更优的模型效果,当模型规模达到一定阈值,就会出现智能涌现。例如,Meta最新发布的开源Llama 3.1大模型参数规模高达4030亿,能力取得长足进步,甚至在多个方面超越闭源大模型。

Scaling Law黄金规则意味着AI大模型的规模、复杂性、数据量将不断攀升,对于算力等基础设施提出极高挑战。浪潮信息服务器产品线总经理赵帅在2024开放计算中国峰会上表示,AI大模型给基础设施带来了全面Scale的全新挑战。

从产品技术维度来看,为应对AI大模型的规模性和复杂性,算力等基础设施需要在纵向扩展(Scale up:单系统性能提升)和横向扩展(Scale out:集群规模扩展)方面来解决挑战:纵向扩展通过更强大或更多AI加速卡、处理器以及更高速互联通信,来增加单个设备或节点的计算能力和计算效率;横向扩展则通过不断增加计算节点构建大规模集群来满足AI大模型的算力需求。

“以算力横向扩展为例,会带来集群网络带宽、基础设施快速部署、算力资源管理以及高效供电与制冷等一系列全新挑战。”赵帅如是说,“当前算力的纵向扩展与横向扩展正处于并存迭代、快速发展的过程。”

另一方面,AI大模型的市场应用迎来关键节点,持续带动更加丰富和细化的算力需求。IDC认为,中国大模型应用在2024年进入到落地期,垂直领域大模型的商业化应用正在加速,尤其是多模态大模型的涌现,应用场景将更加丰富,对于AI算力需求迫切且多样。

鉴于AI大模型对于算力基础设施带来的全方位需求,仅仅依靠传统产业模式和一两家领先厂商是远远不够的,产业生态的协作与创新成为必然。因此,开放计算则再次被委寄以重望,并在产业协作实践与创新中展现出巨大价值。OCP(开放计算社区)基金会理事 David Ramku直言,“人工智能的快速增长正在重构数据中心的生态系统,开放计算项目的全球化协作创新模式可以最大限度激发创新活力。”

据悉,过去三年里,OCP成员数量增长至360多家,增幅接近50%,社区项目和子项目数量超过40个。这其中,像OAM(开放加速规范项目)、开放液冷规范、OpenBMC等项目在带动AI算力产业高质量和推动AI创新等方面成果显著。在本次开放计算峰会上,开放算力模组规范(OCM)正式启动,首批成员包括中国电子标准院、浪潮信息、Intel、AMD、百度等产业伙伴宣布立项,旨在解决AI时代的多元算力等系列挑战。

OAM:硬件开放的完美价值体现

在大模型的带动下,AI应用创新速度“一日千里”,也让AI加速芯片成为市场中的香饽饽。

但一大批AI加速芯片企业、产品涌现,不仅让市场一定程度陷入混乱的局面,也在兼容性、适配性等方面增加用户使用AI算力产品的难度。如何实现各类AI加速卡兼容、接口标准化就成为破局的关键。因此,OAI(Open Accelerator Infrastructure)项目在2019年孕育而生,以解决单个服务器内多元AI加速卡形态和接口不统一、高速互连效率低、研发周期长等问题。

在OAI项目中,OAM设计规范发展最为迅速,获得包括英伟达、英特尔、AMD、微软、阿里巴巴、谷歌、浪潮信息等AI芯片企业、互联网企业、系统厂商的广泛支持,近年来完美展现出硬件开放的巨大产业价值。目前,OAM已成为全球最多高端AI加速芯片遵循的统一设计标准,全球20多家芯片企业支持OAM规范标准。

以AI系统研发为例,受制于AI芯片动辄两三年的迭代升级周期,AI系统的产品设计难度大、研发周期长,愈发难以满足快速变化的AI创新算力需求。OAM设计规范改变了一切,使得AI芯片可以节省研发时间6个月以上,并带动以浪潮信息为代表系统厂商的产品创新速度。相关数据统计,OAM设计在过去几年已为整体产业研发投入带来数十亿元的节省,AI算力产业创新的难度得以大幅降低,极大满足市场需求。

浪潮信息是业界最早拥抱且深度参与OAM规范的系统厂商,并定义业界第一个符合OAM规范的8卡互连硬件系统,其全球首款支持多家不同型号AI加速芯片的开放计算系统MX1可让不同的加速器共享统一的服务器,用户可根据需求更换不同的AI加速芯片,而无需更换整机系统,大幅降低AI使用门槛。去年,浪潮信息发布基于OAM v1.5规范的开放加速计算平台NF5698G7,支持多款基于OAM标准的开放加速芯片,推动完善着整个OAM产业生态。

“基于OAM的标准化平台,不仅大大加速AI芯片的适配兼容过程,还有利于AI芯片产品的迭代升级,更让算力部署和使用得以提速,从而快速支撑起大模型和AIGC应用的创新需求。”赵帅介绍道,“明年浪潮信息会基于UBB2.0推出交换拓扑,支撑正在开发的数十款OAM2.0产品的适配兼容。”

显然,OAM成为开放计算产业链开放、协作成功的典范。当AI浪潮来临之际,OAM真正以AI需求为牵引,通过硬件产品、设计规范和知识共享,实现产业链的高效协作、AI算力创新加速。例如,当前涌现出越来越多千卡、万卡AI集群,但也带来了AI大模型训练的稳定性挑战,意外中断的情况频发、有效训练时间不足。为此,浪潮信息、字节等10余家企业联合定义OAM监控管理规范,兼顾不同AI芯片功能特性,完善监控管理数据处理机制,构建分层故障诊断机制,定义标准数据传输协议格式,以降低AI芯片训练的故障。

据悉,OAM规范还在持续迭代,未来基于OAM2.0规范的AI加速卡将支持1024张加速卡的卡间互联,有望突破大模型互联瓶颈。

开放算力模组规范OCM正式启动

近年来,计算产业因为AI算力而受到广泛关注,而通用算力似乎“备受冷落”。事实上,随着AI大模型广泛进入各行各业,AI大模型一方面与PC、手机、边缘服务器等设备紧密结合,另一方面又与HPC、数据库、大数据、BI、备份软件等各类应用的深度融合,这一切使得算力范式再次变化,通用算力也需要迎接AI的浪潮,承担起AI融合的重任。

“未来不仅仅是AI芯片,一切计算皆AI,通用算力也需要具备AI计算的能力。”赵帅旗帜鲜明地表示。

另一方面,通用算力芯片依然是计算产业中的核心骨干,并呈现出百花齐放的发展态势,x86、ARM、RISC-V等不同架构的芯片高速发展,让多元化算力的趋势更加明显。另一方面,不同CPU协议标准不统一,随着系统功耗、总线速率、电流密度不断提升,导致硬件开发、固件适配、部件测试资源等时间激增,给算力系统设计带来巨大挑战。

赵帅表示:“应用场景的丰富化、复杂化和快速变化,使得算力平台的迭代速度需要提速。因此,需要一个统一的算力底座,来解决CPU计算的效率、兼容和迭代升级等问题。”

因此,本次开放计算峰会上启动的开放算力模组规范(OCM)受到业界广泛关注。OCM规范是将过去紧耦合的服务器架构进行“分散”,以CPU和内存作为最小的算力单元,通过标准化对外高速互连、管理协议、供电接口等来实现多CPU的“兼容并蓄”。

显然,OCM规范对于开放计算、计算产业的意义重大。有了OCM规范之后,算力系统厂商可以加快产品迭代速度,并提升产品研发效率;另外,届时,采用OCM规范的算力平台针对不同应用需求,只需更换CPU即可,实现算力快速抵达用户,让用户可根据需求变化快速地利用最先进、最适配的算力。

对于OCM标准化未来可能带来产品同质化的挑战。浪潮信息认为,标准化必然会带来同质化,但计算产品走向标准化和开放化是大势所趋,既能够让新技术实现快速迭代和落地,又能够让厂商与用户连接更加紧密,更能够促进新技术的产业化。

全方位进化,加速AI创新

AI改变世界的“进度条”才刚刚开始。对于算力基础设施而言,OAM、OCM等规范的出炉与实践,仅仅是算力范式的进化。面向未来,随着算力需求依然会持续大幅增加,算力还将继续Scale,必须在运维、管理、制冷散热等方面全方位进化,从而加速AI创新。

例如,异构多元算力的发展,必然会带来固件平台分支庞大、适配管理困难等挑战。为此,浪潮信息去年发布了基于OpenBMC的InBry开放管理平台,经过一年多的发展,实现多种管理规范的统一和多固件分支版本适配等挑战,并建立统一管理规范和在标准接口规范下的异步、自主定制迭代,为AI的发展进一步做提速。

又如,AI芯片功耗的飙升,随着万卡、十万卡规模的AI集群越来也多,整个数据中心能耗问题突出。产业链上下游亟需高效协作和推动液冷技术的产业化,让液冷技术走进每一个数据中心。为此,浪潮信息联合产业链合作伙伴制定了四个液冷相关标准,推动GPU、CPU等算力组件液冷化,以及模块化标准接口、液冷机柜等,解决未来AI集群规模化下的能耗挑战。

“开放计算对于计算产业未来发展的意义重大。作为产业链一份子,浪潮信息会坚定走开放的路线,并且更加开放、走的更快,拥抱新技术、推动技术产业化,实现与用户、产业链共赢。”赵帅表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2042524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

随笔二、OV5695摄像头测试

摘要:泰山派开发板SDK使用了GStreamer媒体框架作为音视频的编解码器,支持硬件编解码。开发板提供MIPI_CSI摄像头接口连接摄像头。 1. 摄像头信息 开发板MIPI-CPI接口是30pin、4lane;测试用的OV5696是2lane,像素500万,…

GPU云服务器有什么优点?

云服务器是一种通过互联网提供计算资源和服务的灵活、高性能的解决方案。而随着人工智能及数据密集型应用的迅猛发展,GPU(图形处理器)云服务器逐渐成为许多企业和个人的优选。下面将介绍GPU云服务器的几个优势。 1、GPU云服务器具备强大的计算…

线程的退出

线程退出方式总结&#xff1a; 1.pthread_exit; void pthread_exit(void *retval); 传的是退出状态值对应的地址 2.执行函数中return 3.pthread_cancel // int pthread_cancel(pthread_t thread); 4.在任何一个线程中调用了exit #include <stdio.h> #include <…

软件测试之Linux系统性能调优技巧

​ 大家好&#xff0c;我是程序员小羊&#xff01; 前言 Linux系统性能调优是一项复杂且系统性的任务&#xff0c;它涉及操作系统内核、硬件资源、应用程序、文件系统、网络设置等多个方面。通过合理的调优策略&#xff0c;可以有效提高Linux系统的性能&#xff0c;满足生产环境…

qt-10基本对话框(文件--颜色--字体)

基本对话框--输入对话框 DialogDialog.hDialog.cpp exdialog.hexdialog.hexdialog.cpp 运行图文件对话框颜色对话框字体对话框输入对话框-字符串输入对话框-选择 Item输入对话框-数字 Dialog Dialog.h #ifndef DIALOG_H #define DIALOG_H#include "exdialog.h"#inc…

数字文创产业园怎么凭借智慧园区建设出圈

在数字化浪潮席卷全球的当下&#xff0c;数字文创产业正以前所未有的速度崛起。而数字文创产业园若想在众多竞争对手中脱颖而出&#xff0c;凭借智慧园区建设出圈无疑是一条明智之路。 首先得明白什么是智慧园区建设&#xff1f; 智慧园区建设指的是通过现代信息技术和智能化手…

超时控制+第三方调用控制

文章目录 第三方调用控制背景介绍一致性抽象同步转异步自动替换第三方压测支持 超时控制目标确定超时时间根据用户体验根据响应时间压力测试根据代码计算 监控超时时间 第三方调用控制 背景介绍 我的系统对可用性要求非常高&#xff0c;为此我综合使用了熔断、限流、降级、超…

mac 链接数据库报错 - Public Key Retrieval is not allowed

使用 DBeaver 链接 MySQL 时&#xff0c;连接失败&#xff0c;提示 Public Key Retrieval is not allowed 发现是需要修改一个链接属性字段&#xff0c;方式如下&#xff1a; 1、选中服务器&#xff0c;点击 编辑连接 2、连接设置 – 驱动属性 – allowPublicKeyRetrieval 改为…

暨南大学2024年硕士研究生报考录取情况统计表

今天暨南大学2024年硕士研究生报考录取情况统计表出来了&#xff0c;在之前的笔记中&#xff0c;我对比过2022年与2023年的硕士研究生报考录取情况统计表中暨南大学智科院人工智能专硕报考情况 2024硕士研究生报考录取情况统计表中智科院的电子信息对应的是人工智能专硕(01方向…

科研项目验收管理系统

TOC springboot245科研项目验收管理系统 绪论 1.1 研究背景 现在大家正处于互联网加的时代&#xff0c;这个时代它就是一个信息内容无比丰富&#xff0c;信息处理与管理变得越加高效的网络化的时代&#xff0c;这个时代让大家的生活不仅变得更加地便利化&#xff0c;也让时…

面向对象编程-继承

目录 一、为什么需要继承 二、继承的基本介绍 1、继承的基本介绍 2、继承示意图 3、继承的基本语法 三、快速入门 四、继承的使用细节 五、练习 一、为什么需要继承 1、一个小问题&#xff0c;还是看程序&#xff0c;提出代码复用问题 1&#xff09;我们编写两个类&a…

【AI 绘画】Q版人物定制生成

AI 绘画-PulID手办定制 1. 效果展示 本次测试主要结果展示如下: 牛仔风 古风 2. 基本原理 PuLID是一种类似于 ip-adapter 的恢复面部特征的方法。它同时使用 insightface 嵌入和 CLIP 嵌入,类似于 ip-adapter faceid plus 模型所做的。但是,在将图像传递给 CLIP 之前,还…

8.看门狗(WDG)

理论 防止系统跑飞 喂狗&#xff1a;让值为0 分类&#xff1a;独立看门狗(IWDG,0到100喂狗)、窗口看门狗(60到100喂狗)&#xff0c;值(60)&#xff0c;顶值(100) 代码编写 按键喂狗 独立看门狗配置 超过10s&#xff0c;复位 注意时钟&#xff1a; 按键、LED灯配置参考&#x…

sql注入实战——thinkPHP

sql注入实战——thinkPHP sql注入实战——thinkPHPthinkPHP前期环境搭建创建数据库开始寻找漏洞点输入SQL注入语句漏洞分析 实验错误 sql注入实战——thinkPHP thinkPHP前期环境搭建 下载thinkPHP文件 解压&#xff0c;将framework关键文件放到think-5.0.15中&#xff0c;改…

Containerd详解

一.Containerd概述 1.什么是Containerd Containerd (container Daemon)是一个开源的容器运行时&#xff0c;它提供了一种标准化的方式来管理容器的生命周期。该项目最初是由Docker开发团队创建的&#xff0c;并在后来成为一个独立的项目&#xff0c;被纳入了Cloud Native Comp…

播放视频时黑屏无报错或报错“播放失败,请检查设备及客户端网络”

播放视频时黑屏无报错或报错“播放失败&#xff0c;请检查设备及客户端网络”或该如何解决&#xff1f; 请先使用排障工具排查&#xff0c;获得具体错误码&#xff0c;排障工具操作文档详见&#xff1a; 播放失败自助排障及常见错误码解决方案 - 播放问题 - 萤石社区 - Powered…

Linux下查看各进程的swap

cat /etc/re*se Red Hat Enterprise Linux Server release 6.8 (Santiago) 简单的可以通过top命令查看 top 后 按 f 进入选择列界面 按 p 就会输出swap信息&#xff08;变为P&#xff09; 回车返回看到SWAP信息了 再按 F 再按p 按swap排序 再回车后就是各进程按swap排序…

工厂数据采集设备的革新与应用-天拓四方

随着工业4.0和智能制造的快速发展&#xff0c;工厂数据采集设备已成为现代制造业不可或缺的重要组成部分。这些设备不仅提高了生产效率&#xff0c;还通过精准的数据分析为企业的决策提供了有力支持。本文将深入探讨工厂数据采集设备的革新、应用及其在实际操作中的重要性。 一…

论文利器 | 6款论文自动生成免费含摘要文献综述

在学术写作中&#xff0c;选择合适的工具和软件可以大大提高写作效率和质量。本文将重点介绍一款备受推荐的AI原创论文写作平台——千笔-AIPassPaPer&#xff0c;并详细分析其功能和优势。 千笔-AIPassPaPer简介 千笔-AIPassPaPer是一款功能全面且高效的AI原创论文写作平台&a…

注意力机制篇 | YOLOv8改进之引入NAMAttention注意力机制 | 基于标准化的注意力模块

前言:Hello大家好,我是小哥谈。本文提出一种基于归一化的注意力模块(NAM),可以降低不太显著的特征的权重,这种方式在注意力模块上应用了稀疏的权重惩罚,这使得这些权重在计算上更加高效,同时能够保持同样的性能。我们在ResNet和MobileNet上和其他的注意力方式进行了对比…