浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度

news2025/2/24 23:30:44

与狭义的人工智能相比,通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型,能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023年,随着 LLM 大规模语言模型技术的不断突破,大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期,在中国,大模型已经呈现出百花齐放的态势,各种大模型层出不穷。

要想在“百模争秀”的时代占得先机,AI开发团队需要着力化解算力、算法、数据层面的巨大挑战,而开发效率和训练速度是保障大模型市场竞争力的核心关键因素,也是未来的核心发力点近日,浪潮信息人工智能与高性能应用软件部 AI 架构师Owen ZHU参与首届由CSDN、《新程序员》联合主办的NPCon大会,发表重要技术演讲,分享面向新一轮AIGC产业革命,AI大模型的算力系统解决之道,并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。

以下为Owen ZHU在NPCon大会的演讲实录整理:

“百模争秀”时代的算力瓶颈

大模型研发的核心技术是由预训练与Alignment组成的,第一部分就是预训练,需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是Alignment,Alignment不完全等于强化学习,其通过使用多种方式/策略优化模型输出,让AI在和人的交流反馈中学会如何沟通表达,这两部分是提升大模型质量的核心要素。

目前来看,模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大,模型泛化能力越强。由于资源限制,在两者不可兼得的时候,应该如何进行取舍呢?OpenAI的研究结论认为,与增加数据量相比,先增大模型参数量受益则会更好,用一千亿的模型训练两千亿的Token和两千亿模型训练一千亿的Token,后者的模型性能会更高。

由此可见,参数量是衡量模型能力的一个重要指标,当模型参数量增长超过一定阈值时,模型能力表现出跃迁式的提升,表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升,这也就是我们所说的模型的涌现能力。

模型规模多大能产生涌现能力呢?现在来看,百亿参数是模型具备涌现能力的门槛,千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争,因为现有大模型并没有得到充分训练,如GPT-3的每个参数基本上只训练了1-2个Token,DeepMind的研究表明,如果把一个大模型训练充分,需要把每个参数量训练20个Token。所以,当前的很多千亿规模的大模型还需要用多10倍的数据进行训练,模型性能才能达到比较好的水平。

无论是提高模型参数量还是提升数据规模,算力依旧是大模型能力提升的核心驱动力:需要用“足够大”的算力,去支撑起“足够精准”模型泛化能力。当前大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。算力当量越大,交叉熵越小,模型能力越强。随着训练的token数、模型参数、计算量的增加,语言模型的loss在平滑下降,这就意味着大语言模型的精度可以随着计算量、参数规模、token数扩展进一步提升。

欲炼大模型,先利其器

大模型能力来源于大量工程实践经验,预训练的工程挑战巨大,这表现在如下几个方面:首先,AI大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求,万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题;其次,大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题;再次,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文AI巨量模型“源1.0”,参数规模高达2457亿。千亿参数规模的大模型创新实践,使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队,为业界提供AI算力系统参考设计。在算力效率层面,针对大模型训练中存在计算模式复杂,算力集群性能较低的情况,源1.0在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略,训练耗时约15天,共计训练了180 billion token,并将模型最后的loss值收敛至1.73,显著低于GPT-3等业界其他语言模型。首次提出面向效率和精度优化的大模型结构协同设计方法,围绕深度学习框架、训练集群IO、通信开展了深入优化,在仅采用2x200G互联的情况下,源1.0的算力效率达到45%,算力效率世界领先。在集群高速互联层面,基于原生RDMA实现整个集群的全线速组网,并对网络拓扑进行优化,可以有效消除混合计算的计算瓶颈,确保集群在大模型训练时始终处于最佳状态。

为大模型良好生态发展寻找最优解

当前,中国和业界先进水平大模型的算力差距依然较大,从算力当量来看,GPT-4的算力当量已经达到了248,842PD,而国内大多数主流的大模型算力大量仅为数千PD,差距高达近百倍。

同时,中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面,虽然开源为国内大模型发展带来了弯道超车的良机,但LLaMA等开源大模型相比GPT4等顶级水平自研模型的性能,开源模型的能力存在“天花板”。

在数据方面,中文数据集和英文数据集相比较,在规模、质量上均存在显著差距,相较于动辄数千亿单词量级的英文数据,中文大模型的数据量级仅为百亿左右,而且开源程度较低,封闭程度较高。

开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来,通过构建高效稳定的智算系统,加速模型开发效率提升。

日前,浪潮信息大模型智算软件栈OGAI(Open GenAI Infra)——“元脑生智“已正式发布。浪潮信息正通过“工具化、系统化、全链条”的全栈赋能能力,让炼大模型省时、省力,让大模型更快、更稳、更智能,助力百模真正实现“竞速AIGC”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/960826.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

打磨 8 个月、功能全面升级,Milvus 2.3.0 文字发布会现在开始!

Milvus 社区的各位伙伴: 大家晚上好!欢迎来到 Milvus 2.3.0 文字发布会! 作为整个团队的匠心之作,Milvus 2.3.0 历经 8 个月的设计与打磨,无论在新功能、应用场景还是可靠度方面都有不小的提升。 具体来看:…

电脑莫名其妙重启 为设备 ROOT\DISPLAY\0000 加载驱动程序 \Driver\WUDFRd 失败

卸载向日葵即可解决!!!!!下面是报错日志,估计是远程连接导致的问题

Flask项目请求图片资源返回403错误

问题 解决 在图片url前缀前加 "https://images.weserv.nl/?url" 参考 如何解决访问外部图片返回 403 Forbidden 错误 - 知乎 vue中请求接口会自动带上本地ip_vite打包后请求地址为什么带本地地址_夜月晓晓的博客-CSDN博客

3D点云处理:基于PCA计算点云位姿 平面位姿(附源码)

文章目录 1. 基本内容2. PCA求解步骤(非公式推导)3. 代码实现4. 参考文章目录:3D视觉个人学习目录微信:dhlddxB站: Non-Stop_1. 基本内容 基于PCA计算点云位姿通常是指在三维空间中使用PCA(主成分分析)来估计点云数据的姿态或定位,即确定点云数据在三维空间中的位置(平移…

2022年12月 C/C++(五级)真题解析#中国电子学会#全国青少年软件编程等级考试

第1题:漫漫回国路 2020年5月,国际航班机票难求。一位在美国华盛顿的中国留学生,因为一些原因必须在本周内回到北京。现在已知各个机场之间的航班情况,求问他回不回得来(不考虑转机次数和机票价格)。 时间限…

idea 链接mysql连不上

打开文件 C:\Program Files\JetBrains\IntelliJ IDEA 2023.2.1\jbr\conf\security\java.security修改内容 搜索:jdk.tls.disabledAlgorithms 修改 链接地址 在链接后面添加 ?useSSLfalse jdbc:mysql://127.0.0.1:3306/db_admin3?useSSLfalse

java+jsp+servlet+mysql蛋糕商城

项目介绍: 本系统为基于jspservletmysql的蛋糕商城,包含管理员和用户角色,用户功能如下: 用户:注册、登录系统;查看商品分类;查看热销、新品商品;查看商品详情;搜索商品…

XSS漏洞及复现

一、什么是XSS 跨站脚本( Cross-site Scripting )攻击,攻击者通过网站输入框输入payload(脚本代码 ),当用户访问网页时,恶意payload自动加载并执行,以达到攻击者目的( 窃取cookie、恶意传播、钓鱼欺骗等)为了避免与HTML语言中的C…

(数学) 剑指 Offer 62. 圆圈中最后剩下的数字 ——【Leetcode每日一题】

❓ 剑指 Offer 62. 圆圈中最后剩下的数字 难度:简单 0, 1, ,n-1 这 n 个数字排成一个圆圈,从数字 0 开始,每次从这个圆圈里删除第 m 个数字(删除后从下一个数字开始计数)。求出这个圆圈里剩下的最后一个数字。 例如…

最新文献怎么找|学术最新前沿文献哪里找

查找下载最新文献最好、最快、最省事的方法就是去收录该文献的官方数据库中下载。举例说明: 有位同学求助下载一篇2023年新文献,只有DOI号10.1038/s41586-023-06281-4,遇到这种情况可以在DOI号前加上http://doi.org/输入地址栏查询该文献的篇…

数据结构:排序解析

文章目录 前言一、常见排序算法的实现1.插入排序1.直接插入排序2.希尔排序 2.交换排序1.冒泡排序2.快速排序1.hoare版2.挖坑版3.前后指针版4.改进版5.非递归版 3.选择排序1.直接选择排序2.堆排序 4.归并排序1.归并排序递归实现2.归并排序非递归实现 5.计数排序 二、排序算法复杂…

DDR2 IP核调试记录1

一、IP核生成不成功可能原因 1、打开 Quartus II 软件时,请右键选择以管理员方式运行,切记,否则可能导致 IP 生成不成功。 2、创建工程时不要将工程创建在和 Quartus II 安装目录相同的盘符下,否则可能导致生产 IP 失败。 3、如果…

Revit SDK:AutoJoin 自动合并体量

前言 Revit 有一套完整的几何造型能力,每一个体量都是一个GenericForm,这些体量可以通过拉伸、扫掠等创建。这个例子介绍如何将他们合并成一个体量。 内容 合并体量的关键接口: // Autodesk.Revit.DB.Document public GeomCombination Com…

提升eBay、亚马逊搜索排名:测评自养号战略揭秘

想要在跨境市场上获得更多销售额,让客户可见非常重要。而自养号测评是个不错的选择,可以帮助您提高排名和产品知名度。许多因素共同作用,吸引更多客户关注您的产品。 网上购物也以同样的方式进行。人们在亚马逊上搜索特定产品并寻找一些选择…

【核心复现】基于改进灰狼算法的并网交流微电网经济优化调度(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Acwing 1233. 全球变暖 (每日一题)

如果你觉得这篇题解对你有用,可以点个赞或关注再走呗,谢谢你的关注~ 题目描述 你有一张某海域 NN 像素的照片,”.”表示海洋、”#”表示陆地,如下所示: … .##… .##… …##. …####. …###. … 其中”上下左右”…

基于法医调查算法优化的BP神经网络(预测应用) - 附代码

基于法医调查算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于法医调查算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.法医调查优化BP神经网络2.1 BP神经网络参数设置2.2 法医调查算法应用 4.测试结果:5…

八、性能测试

八、性能测试 8.1 性能测试代码 #include"ConcurrentAlloc.h"// ntimes 一轮申请和释放内存的次数 // rounds 轮次 void BenchmarkMalloc(size_t ntimes, size_t nworks, size_t rounds) {std::vector<std::thread> vthread(nworks);std::atomic<size_t&g…

活动预告 | 龙智、紫龙游戏与JFrog专家将出席龙智DevSecOps研讨会,探讨企业大规模开发创新

2023年9月8日&#xff08;周五&#xff09;下午13:30-19:45&#xff0c;龙智即将携手Atlassian与JFrog在上海共同举办主题为“大规模开发创新&#xff1a;如何提升企业级开发效率与质量”的线下研讨会。 在此次研讨会上&#xff0c;龙智高级咨询顾问、Atlassian认证专家叶燕秀…

七、高并发内存池--Page Cache

七、高并发内存池–Page Cache 7.1 PageCache的工作原理 PageCache是以span的大小(以页为单位)和下标一一对应为映射关系的哈希桶&#xff0c;下标是几就说明这个哈希桶下挂的span的大小就是几页的&#xff0c;是绝对映射的关系。因为PageCache也是全局只有唯一一个的&#x…