中国电信解锁万亿参数大模型:TeleAI的创新与突破

news2024/11/20 20:23:27

首个由万卡集群训练出来的万亿参数大模型,已被一家央企解锁。

具体而言,为了推动纯国产人工智能的探索,带来这条新路径的正是中国电信人工智能研究院(TeleAI)。

该研究院由中国电信集团的CTO、首席科学家兼院长李学龙教授带领的团队完成了这一壮举。根据了解,训练过程中使用的万卡集群由天翼云上海临港国产万卡算力池提供,基于天翼云自研的“息壤一体化智算服务平台”和电信人工智能公司自研的“星海AI平台”的支持,可以实现万亿参数的稳定训练,平均每周仅有1.5次训练中断,集群训练的稳定性达到了国际领先水平。

此外,TeleAI还开源了由国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。TeleChat是央企中首个开源的系列语义大模型,而TeleChat2-115B则在TeleChat的基础上,通过对训练数据量、数据质量、配比和模型架构等多个维度的优化,取得了更为显著的效果提升!在九月份的C-Eval评测Open Access模型综合榜单中,TeleChat2-115B以86.9分的成绩,一举夺得了榜单第一!

这已经不是TeleAI第一次在权威榜单中高居榜首了。早在今年5月份时,其TeleChat系列模型的逻辑推理能力便在OpenCompass测试榜单中取得了开源大模型的第一名。

具体到应用方面,星辰语义大模型在长文本写作方面采用了“大纲写作+正文写作”的模式,更加贴近用户的习惯。

据了解,它还采用逐段生成文本的方式,这有利于实现超长文章的写作。

即使面对超长会议,星辰语义大模型也能够轻松实现实时纪要生成,在准确性、完整性、幻觉问题、逻辑性以及规范性等多个方面都能呈现高质量的结果。

对于大型电子报表,星辰语义大模型支持报表生成、报表问数、报表摘要以及报表对应报告的风格化仿写等功能,能够轻松处理百万行数据!

那么,万卡万参是如何练成的呢?

需要明确的一点是,实现万卡万参并非易事,尤其是实现全国产化的难度显而易见。首先的难点便是提升万卡集群的性能和稳定性。为了提升训练性能,TeleAI采用了多维混合并行的技术,可以通过设置不同的并行模式,实现数据并行、模型并行和流水线并行的自动混合使用,支持万亿模型在万卡集群上的高效分布式训练。在此次训练中,还采用了以下关键技术以进一步提升训练性能:

  • 多副本并行:通过将输入模型的数据按照batch size维度进行切分,使得底层在通信时,另一副本进行计算操作,无需等待,从而显著提升模型性能。

  • 通信优化:通过通信融合和通信子图提取与复用等技术,减少通信耗时,提升训练性能。

  • DryRun仿真:无需真正执行计算,而是在小集群上分析计算图,识别性能瓶颈,如算子融合、显存使用和数据流的效率问题,提前为万卡集群的运行提供优化配置。

  • 灵活重计算配置:结合DryRun的显存使用分析,通过计算选重、通信选重、指定选重等多种配置,在满足单卡显存限制的情况下,找到显存和计算的最优平衡点,以实现性能的最大化。

最终,国产算力万卡集群的性能超过对应GPU的93%以上。此外,为了提升训练的稳定性,TeleAI通过上线训练集群断点续训、CCAE集群监控并快速隔离故障节点、多级存储优化等方法,达成了集群98%的稳定可用性,断点续训成功率超过90%,单次断点续训的时长约为15分钟。

其次的挑战在于训练万亿参数的大模型。在进行超大参数模型训练过程中,TeleAI通过大量小模型的训练,对Scaling Law(尺度定律)展开探索,分析每个模型的噪声空间,并构造正激励噪声来强化训练过程中的噪声管理。正激励噪声作为训练超大参数模型的核心技术,帮助研究人员确定最优模型结构,从而提高模型的整体能力与鲁棒性。

为此,TeleAI采用了“四步走”策略:

  1. 在模型构建方面,利用多项技术进行优化。首先,在位置编码方面,采用Rotary Embedding的编码方法,该方法具备出色的位置外推性,并能够与attention计算加速技术良好配合,从而大幅提升模型的训练速度。

  2. 其次,在激活函数层面,选用SwiGLU激活函数替代GELU激活函数。实验表明,SwiGLU相较于其他激活函数,拥有更好的模型拟合效果。

  3. 在层标准化环节,运用基于RMSNorm的Pre-Normalization。实验发现,该算法在训练进程中具有更佳的稳定性。

  4. 将词嵌入层(embedding)与输出lm head层参数解耦,实验表明,这样能够增强训练的稳定性和收敛性。

  5. 最后,在大参数模型(TeleChat2-115B)上应用GQA,有助于提高模型的训练和推理性能。GQA能大幅降低模型推理过程中的显存使用量,显著提升模型的外推长度和推理性能。

在基础训练数据构建方面,TeleAI在工程实践中借助多级先导模型展开细致的追随训练以及数据调整实验,对数据清洗及数据混合策略的有效性进行了充分评估和验证。

其一,在数据清洗方面,运用语种识别、数据去重、文本格式规范化、无关内容过滤、低质内容过滤等手段来提升预训练数据的质量。同时,建设多模态结构化文档解析工具,有效提取公式和表格内容。实验发现,经过数据清洗后,模型训练损失更低,学习速度更快,能够节约43%的训练时间。

其二,在数据混合方面,采用在线领域采样权重调整算法。在先导模型训练过程中,根据不同数据集的样本损失分布动态更新采样权重,进而获得效果最优的数据混合策略。在模型训练初期,还会根据评测指标变化情况持续调整配比方案。实验表明,增加中文数据比例、增大数学与题库数据比例,有助于提升模型的文本理解和考试能力。

其三,在数据合成方面,针对数学、代码等特定领域任务,梳理细粒度的知识点体系,并构建复杂指令,让大模型生成知识密度高的合成数据,例如试题解析过程、代码功能解释和代码调用关系等。

接下来是SFT(模型微调)专项优化

在低质量过滤方面,运用模型困惑度(PPL)、指令追随难度(IFD)以及可学习度(Learnability)等指标来衡量单条样本的回答难度,进而自动筛选并过滤掉文本格式规范性差、答案标注错误的样本。

对于高质量构建,将SFT划分为逻辑、认知、理解三个能力维度及二十多个子类。通过预先制定的标准评测集,定向筛选出对单项能力指标提升影响最大的高质量数据。

同时,提出基于黄金模板构建问答数据的两阶段标注方案,从规范性、新颖性、逻辑性、丰富性、完整性等维度总结每类问题的最佳模板,再依据模板标注符合要求的最佳答案。

在效果选择上,基于模型困惑度指标,能够快速评估不同版本的模型在小规模验证集上的拟合程度,从而挑选出表现较好的版本,以此降低计算成本。

然后是偏好对齐

为最大程度确保指令数据的全面性与均衡性,TeleAI分类并收集了涵盖总共300个类别的指令数据集。同时,为获取更高质量的指令数据,运用聚类和中心选择算法,从中挑选出具有代表性的指令。

随后,TeleAI将来自不同训练阶段、不同参数大小的TeleChat系列模型的回复,按照安全性、事实性、流畅性等多个维度,归为高质量、中质量、低质量三个不同标签,形成pair-wise数据用于奖励模型的训练。

DPO算法因工程实现简便、易于训练而被广泛应用,在TeleChat训练阶段也采用了这一策略。在数据构建阶段,TeleAI使用指令数据对当前Chat模型进行10至15次推理采样,并利用奖励模型对每个回复进行打分。

TeleAI采用West-of-N的方式构建pair数据,即将模型回答的最高分作为chosen response,最低分作为rejected response,以此确保pair数据具有较强的偏好差别。

在训练阶段,除了使用常规的DPO损失函数外,TeleAI还通过实验发现,引入对chosen response的NLL Loss(负对数似然损失),能够有效稳定DPO训练的效果,防止chosen response的概率降低。

最后,便是基于知识图谱降低语义大模型的事实类幻觉

具体而言,TeleAI是基于图谱结构化信息表示,将知识引入到问题提示中:根据与查询n-gram相似度检索候选实体,随后以此为基础进行随机游走,并计算游走路径与用户原始问题的相关性,选择top路径内容扩充至用户原始问题。以上便是TeleAI“炼”万卡万参的关键过程。

不过现在还有一个问题值得探讨:

为什么中国电信人工智能研究院能够做到这一点?

其实TeleAI在大模型上的布局并非一蹴而就,而是经过了长时间的打磨。

首先,在态度上给予了高度重视。

除了星辰AI大模型之外,在去年11月举行的数字科技生态大会上,TeleAI还发布了12个行业大模型,并推出了“星辰MaaS生态服务平台”,以实现定制化服务。

这一切,都是基于中国电信历经十年的AI能力建设。

其次,有人才的支撑才会有行业大牛的助力。

为了搭建星辰AI大模型,中国电信迅速组建了一支近800人的研发团队。团队成员来自国内外顶尖高校,诸如清华、北大、斯坦福和哥伦比亚等,平均年龄为31.79岁。

这批优秀人才帮助中国电信在对内对外业务中取代外部算法能力,实现核心算法能力的自主可控。

在广泛吸纳基础人才的同时,中国电信也拥有一批行业大牛。其中,去年年底全职加盟中国电信集团担任CTO和首席科学家的李学龙便是其中之一。

作为AI领域的Fellow大满贯选手,李学龙创新性地提出噪声分析是解决大模型等一系列人工智能问题的核心关键,他将这一思想引入到万卡万参项目中,也将带领中国电信人工智能研究院继续开展基础和前沿研究。

在TeleAI成立之际,便围绕“人”、“工”两大要素进行重点打造。

据了解,TeleAI现已引入多位海外TOP高校的教授、国内知名企业的CTO或科学家、科研机构的青年人才以及拥有高影响力开源成果的天才学生。

此外,不仅限于AI和大模型,中国电信在多个技术领域进行了投入,并取得了同行业中的优势,这也正是“工”为基所体现的方面。

例如在量子通信领域,中国电信不久前发布了具备“量子优越性”能力的“天衍”量子计算云平台,此前还开通了国内规模最大、用户最多、应用最全的量子保密通信城域网,并主导制定了中央企业首个牵头立项的7项量子通信行业标准(含团标)中的5项。

再例如在新一代信息通信技术上,中国电信实现了“手机直连卫星”的全面商用,并发布了全球首个支持消费级5G终端直连卫星双向语音和短信的运营级产品。

由此可见,中国电信早已不是大家眼中的传统运营商,在前沿技术上的投入,远比我们认知的要深得多。

这也就不难理解,为什么TeleAI能够率先实现万卡万参。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2183318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

坡印廷矢量(也叫功率流密度,对面积积分就是功率)

坡印廷矢量在静电场,静磁场,恒定电流的电场,和时变电磁场中的表达式不同。 我们看时变电磁场的坡印廷矢量 坡印廷矢量就等于这个,其中的电场和磁场是实数表示的 坡印廷矢量用复数形式的场求 这里的E和H是复数表示的场&#xff0…

电影票接口api对接有哪些优势?

一、业务功能拓展方面的优势 多平台整合可以整合多个影院票务系统,通过一个接口获取众多影院的信息,包括影院、影厅、座位、影片、场次、日期及票价等信息,方便在自己的应用程序中展示这些信息,从而实现电影票的在线预订、支付和…

人工智能价格战——如何降低成本让人工智能更易于普及

十年前,开发人工智能 (AI) 是只有大公司和资金充足的研究机构才能负担得起的事情。必要的硬件、软件和数据存储成本非常高。但从那时起,情况发生了很大变化。一切始于 2012 年的 AlexNet,这是一种深度学习模型,展示了神经网络的真…

微服务jvisualvm解析部署使用全流程

1、介绍 VisualVM 是Netbeans的profile 2、启动 进入正在使用的jdk下bin目录,运行jvisualvm.exe。 3、选中要监控的线程 4、安装gc插件 5、插件安装报错 VisualVM: Plugins Centers 访问这个地址,找到对应版本再配置 https://visualvm.github.io/uc/…

【CKA】六、四层负载-Service应用

6、四层负载-Service应用 1. 考题内容: 2. 答题思路: 1、编辑front-end的deploy服务,添加端口信息 2、暴露svc端口 3. 官网地址: https://kubernetes.io/zh-cn/docs/tutorials/services/connect-applications-service/#the-ku…

nominatim部署OSM离线地图

第一步:准备一个大内存的服务器,磁盘PG大小根据实际导入的数据确定,全量数据1T,osm.pdf属于压缩文件,如果能下载,但下载很慢,可以尝试用迅雷下载。 osm.pdf下载 osm.pdf另外一个下载路径 全量数…

学生党有福了!国内最好的4款AI论文润色机构

在当今学术研究和写作领域,AI技术的应用已经变得越来越普遍。AI论文润色工具不仅能够帮助研究人员快速生成论文草稿,还能进行内容优化、查重和排版等操作。这些工具极大地提高了写作效率和质量,尤其对于学生党来说,选择合适的AI论…

基于单片机多功能称重系统设计

** 文章目录 前言概要功能设计设计思路 软件设计效果图 程序文章目录 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对…

2024年3分钟手把手教你激活Guitar Pro 8破解版

Guitar Pro是一款专业的吉他制谱软件,现在已更新至Guitar Pro8,新增了支持添加音频轨道、支持嵌套连音符、直观的效果器视图、让指法一目了然的音阶示意图等实用新功能。下面我们来看Guitar Pro8 Windows如何安装激活。 GuitarPro8安装包和许可证密钥夸克…

Acwing 高斯消元

高斯消元能在 O ( n 3 ) O(n^3) O(n3)的时间复杂度内求解n个方程,n个未知数的多元线性方程组,即 a 11 x 1 a 12 x 2 a 13 x 3 ⋯ a 1 n x n b 1 a 21 x 1 a 22 x 2 a 23 x 3 ⋯ a 2 n x n b 2 … a n 1 x 1 a n 2 x 2 a n 3 x 3 ⋯ a n n…

STM32CubeMX工程printf问题

1、不能打印输出的问题 利用STM32CubeMX创建了一个带FreeRTOS系统的工程,使能多线程保护。 然后在任务函数中调用了printf函数。 可是电脑的串口上没有信息输出,程序进入了硬件错误中断。 原来是因为自动生成的串口初始化函数MX_LPUART1_UART_Init中&a…

话术挂断之后是否处理事件

文章目录 前言联系我们解决方案方案一方案二 前言 流程:自动外呼进入机器人话术。问题:在机器人放音时用户挂断后,话术还会继续匹配流程,如果匹配上的是放音节点,还会进行放音,那么在数据库表conversation…

利用vue-capper封装一个可以函数式调用图片裁剪组件

1. 效果 const cropData await wqCrop({prop:{img,autoCrop: true, // 是否开启截图框maxImgSize: 600,autoCropWidth: 30,canMove: true, // 图片是否可移动canMoveBox: true, // 截图框是否可移动fixedBox: false, // 截图框是否固定}});console.log(cropData);使用wqCrop会…

阿里大模型算法岗面试,上来就手撕代码啊

最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。 节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了…

Python | Leetcode Python题解之第440题字典序的第K小数字

题目&#xff1a; 题解&#xff1a; class Solution:def getSteps(self, cur: int, n: int) -> int:steps, first, last 0, cur, curwhile first < n:steps min(last, n) - first 1first * 10last last * 10 9return stepsdef findKthNumber(self, n: int, k: int)…

2022年6月 Frontier 获得性能第一的论文翻译

为百万兆级加速架构做高性能 Linpack 优化 摘要 我们详细叙述了在 rocHPL 中做的性能优化&#xff0c;rocHPL 是 AMD 对 HPL 基准的开源实现&#xff0c;主要是针对节点进行优化的架构&#xff0c;是为百万兆级系统而设计的&#xff0c;比如&#xff1a;Frontier suppercomput…

蓝桥杯【物联网】零基础到国奖之路:十六. 扩展模块之矩阵按键

蓝桥杯【物联网】零基础到国奖之路:十六. 扩展模块之矩阵按键 第一节 硬件解读第二节 CubeMX配置第三节 MDK代码 第一节 硬件解读 扩展模块和ADC模块是一摸一样的&#xff0c;插在主板上。 引脚对应关系&#xff1a; PB6-ROW1 PB7-ROW2 PB1-COLUMN1 PB0-COLUMN2 PA8-COLUMN3 …

上位机图像处理和嵌入式模块部署(软硬结合才是嵌入式的精髓)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 关于嵌入式&#xff0c;有很多的说法。有的认为stm32 mcu那种才是嵌入式&#xff1b;有的认为嵌入式linux也是嵌入式&#xff1b;也有的同学认为&a…

比较10大热门低代码开发平台及其适用性

本文介绍10款主流低代码开发平台&#xff0c;包括ZohoCreator、OutSystems、Mendix等&#xff0c;它们各具特色&#xff0c;如定制能力强、集成方便、全栈开发等&#xff0c;适合不同企业快速构建应用程序&#xff0c;提升开发效率。 一、Zoho Creator Zoho Creator低代码开发…

沂机管理系统存在存储型XSS漏洞

漏洞描述 沂机管理系统存在存储型XSS漏洞&#xff0c;窃取用户Cookie获取用户信息 漏洞复现 body"后台管理系统演示版" POC GET /data/Ajax.aspx?methoduser_save&frandom0.15233733802978144&FCloud_OrgID1&FCloud_UserID167636&FCloud_EmpID1…