后发而先至的腾讯混元大模型,到底有哪些技术亮点?

news2024/12/26 0:11:03

2023年的夏天已经结束了,但是,围绕AIGC大模型的关注热度,却丝毫没有衰退的意思。

在过去的大半年里,我们亲眼见证了大模型浪潮的崛起,甚至可以说是疯狂。截止7月,国内的大模型数量,已经超过130个。

这些大模型的创造者,既有国有及民营企业,也有大学、科研院所等研究机构。从某种意义上来说,发布大模型,已经成为宣示自身实力的一种方式。

不知道大家有没有注意到,国内互联网大厂百度和阿里,都早早推出了自家的大模型。而身为BAT“三巨头”之一的腾讯,却一直很低调。

几天前,9月7日,在2023腾讯全球数字生态大会上,腾讯自家的通用大语言模型——腾讯混元大模型终于亮相了

c8e27155468a78b36963ced635e657b4.png

为什么腾讯的大模型“不着急”?是他们不重视这场科技浪潮吗?还是说,他们的AI技术不足,在竞争中落后于人?

很显然,这些说法都不对。

ChatGPT是AIGC大模型浪潮的导火线,但是,它并不是大模型的最早开端。

业界对大模型的研究,其实早几年就已经开始了。当时,AIGC并没有这么高的热度。2022年底,ChatGPT横空出世,展现出惊人的自然语言能力,才彻底激发了整个社会对大模型的关注。

正如前面所说,很多企业之所以不惜一切代价搞大模型,完全是为了追逐“风口”。

腾讯集团副总裁蒋杰在采访中介绍:“在腾讯内部,混元已经内测很久了,不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年,腾讯推出了千亿规模的NLP大模型。2022年,腾讯推出万亿参数的 NLP 稀疏大模型。换言之,他们的大模型研究,是国内领先的。

ChatGPT火了之后,腾讯更加理性地思考了自己的大模型战略,提出了四大灵魂拷问:

1、自己为什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么样?

4、搞出大模型之后,到底怎么用?

在经过审慎思考和激烈讨论之后,他们终于理清了自己的答案,按照自己的节奏,稳步向前推进。

腾讯混元大模型,就是在这样的背景下诞生的。

接下来,我们不妨仔细看看,腾讯混元大模型,究竟是如何解答这四个灵魂之问的。

 问题1:为什么要搞大模型?

今年3月,腾讯总裁兼投资委员会主席刘炽平,在财报电话会议上曾经表示:“AI将成为公司未来业务增长的放大器。生成式AI和基础模型技术可以补充优化腾讯的业务。…… (大模型)将在未来对每个业务线都起到正向补充作用。同时,这也有助于推出新业务。”

他还表示,“我们希望沿着正确的路线踏实前进,不急于求成,先打好基础,再追求新进展,我们的第一款产品将会是多次迭代之后的产品,整个过程将是长期的。”

他的表态,其实已经说明了腾讯对大模型的战略基调——紧密结合自身业务线,稳步推进,长期迭代。

在发布会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生也提到:“大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

也就是说,腾讯不会为了搞大模型而搞大模型。既然要搞,就是冲着实用性去的。

基于这个目标搞出来的混元大模型,是“从实践中来,到实践中去”的实用级大模型。它关注的不是推出速度和评测跑分,而是如何真正与实际场景结合,满足用户的真实需求。

 问题2:大模型,到底该怎么搞?

大模型是一场技术博弈。既然决定要做,就必须做出差异化的竞争优势,找准技术路线。

腾讯混元大模型,最大的特点,就是——全链路自研

行业里现有的很多大模型,都是开源大模型。东西拿来就用,依葫芦画瓢,当然推出速度会快。

蒋杰表示,腾讯是一个海量高并发的业务,开源的架构并不适应腾讯,一定要走出一套基于自主体系的研发之路。唯有自研,才能完全掌握技术内核,将大模型更好地融入到自身的技术栈中。所以,他们走上了更加具有挑战性的自研之路。

腾讯混元大模型从第一个token开始从零训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。

算法方面,腾讯在预训练上从零启动训练,优化预训练算法及策略,精调及强化学习,改进注意力机制,并开发了思维链新算法。

机器学习框架方面,腾讯采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。

基础设施方面,采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。

算力集群所基于的网络底座——,具备业界最高的3.2T通信带宽,可以为AI大模型带来10倍通信性能提升。通过自研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通以太网的60%提升到90%以上,极大提高整体集群的算力利用率。

根据验证,腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。

 问题3:大模型,要搞成什么样?

全链路自研,投入虽然大,但回报也是显著的。

腾讯混元大模型,拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

相比于业界已有的大模型,腾讯混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大语言模型的幻觉比例。

使用过大模型的读者都知道,大模型很容易出现“一本正经胡说八道”的问题。也就是说,AI模型生成了不属于现实世界的内容。这就是“幻觉”。“幻觉”是大语言模型每一个厂家都应该面临的重要问题,无论技术做到什么程度,在当前的模型架构下,都无法回避“幻觉”。

针对“幻觉”问题,当前业界普遍的解决方式是采用外挂插件,即给大模型“外挂”一个知识库,使其在推理时进行检索,基于检索结果再进行输出,提高正确率。

这个方式,在遇到复杂任务时,效果有限。

腾讯混元大模型所采取的方式,是在预训练阶段,就通过“探真”算法,进行事实修正。它摆脱了对外挂的依赖,有效降低了复杂任务中的幻觉。

根据测试,经过预训练算法及策略的整体优化后,混元大模型相比其他主流开源大模型,幻觉比例降低了30%-50%。

87c1912907a24d97b3b22544e9030f02.png

更多的理性,更少的“胡说八道”

其次,混元大模型的“陷阱”识别能力大幅提升,可以更好地抗拒“诱导”。

人们在使用大模型时,经常会对它进行“调戏”。也就是说,问一些刁钻问题,给大模型设置“陷阱”,得到令人啼笑皆非的答案。

腾讯通过强化学习的方法,让混元大模型学会识别“陷阱”,对“调戏”说不,提升应用的安全性和智能感。根据数据显示,面对安全诱导类问题,混元大模型的拒答率提升了20%。

cf27bf0ec9ce878b73431c4f7913621b.png

拒绝“挖坑”

除了上面提到的可靠性改进之外,混元也大幅提升了成熟性。

混元大模型覆盖了短文本和千字级别长文本生成能力。

当前市面上大模型在超长任务处理上很难实现。腾讯通过位置编码优化,提升长文的处理效果和性能,结合指令跟随优化,让产出内容更符合字数要求,从而提升超长文本的生成和续写能力。

在逻辑思考能力上,混元大模型持结合实际场景推理决策。

在大模型训练中,一些团队会让大模型通过“死记硬背”的方式学会中小学的数学题。但是在现实生活中,靠“背题”是不够的,还需要让大模型具备理解上下文的能力。腾讯推出思维链新策略,有效强化模型对问题拆解和分步思考的倾向。

以上这些特性,使得混元大模型在使用体验上和传统大模型有明显区别。它的智能化程度更好,表现更加稳定,更像是一个真正的专家和助手。

在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评了66个能力项。在“模型开发(共测试29个能力项)”和“模型能力(共测试37个能力项)”这两个重要领域的综合评价中,均获得了当前的最高分。

 问题4:混元大模型,到底怎么用?

前面我提到,混元大模型是“从实践中来,到实践中去”的实用级大模型。为了充分发挥混元的实用价值,腾讯率先将自己的众多互联网业务与混元进行结合、落地。

目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

腾讯机器学习平台部副总经理王迪提到,腾讯混元大模型和各个产品的结合,并不是一种强制绑定的关系,而是更关注产品在用户体验上的优化,关注哪些地方可以通过AI提效。

77fac61d3efedf439c744d6d6516f763.png

例如,基于混元的腾讯会议AI小助手,可以快速实现会中问答、会议摘要、会议待办项等多种事项。

再例如,基于混元的腾讯文档智能助手功能(内测中),不仅支持数十种文本创作场景,还能生成上百种专业文书规范,以及用自然语言生成数百种Excel公式等。

王迪表示,在将大模型的能力和业务场景结合的过程中,需要做大量的工作,比如怎么把混元大模型的基础指令理解能力、文字总结能力与会议APP里AI的能力和会议内容生成能力结合。如果只是单纯将大模型直接放进去,短期不一定真的能够对业务带来很大的提升。一定是针对业务场景进行专门的优化和提效,才能达到更好的效果。

在混元大模型的研究过程中,其实就已经从腾讯丰富的应用场景中进行了技术积累。场景锻炼了模型,模型反过来服务场景,形成了良性循环。

蒋杰表示,腾讯混元大模型团队关注的首先是做好技术本身,回归本质,做好技术的突破和路径规划。在内部,会把混元所有的能力开放给腾讯所有的业务。

内部业务场景的实践,是为外部服务开放做准备。在发布会上,蒋杰郑重宣布:腾讯混元大模型已正式通过腾讯云对外开放,助力全行业。

混元大模型将作为腾讯云MaaS服务的底座,用户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 结语

腾讯对四大灵魂之问的探索,最终为混元大模型的问世奠定了基础。

正所谓“方向对了,努力才有意义”。腾讯在喧嚣躁动中坚持理性思考,在找准目标后,果断投入,进行艰苦自研。最终,他们拿出了能经受考验的产品,也走出了自己的独特道路。

他们的做法无疑是正确的,也带给整个行业以启示。在百模大战逐渐升级的今天,很多公司都将面对自己的灵魂拷问。

大浪淘沙沙去尽,沙尽之时见真金。唯有那些给出正确答案的大模型,才能笑到最后,成为真正的赢家。

——全文完——

45ac51224f1cdb1b2157f828ba8bffe0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1005884.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL与ES数据同步之异步调用

文章目录 简述SpringBoot项目引入依赖配置文件项目结构实体类配置类RabbitMQ交换机队列声明,绑定配置类回调接口配置类 Mapper接口UserMapper接口UserEsMapper Controller类Service接口Service实现类监听类/消费者 简述 上一篇是同步调用,我们在中间加上…

【海思SS626 | 开发环境】VMware17安装Ubuntu 18.04.6

目录 一、下载 Ubuntu 18.04.6 LTS二、VMware17创建虚拟机三、安装Ubuntu18.04LTS四、安装其他软件五、总结 一、下载 Ubuntu 18.04.6 LTS 问题:为什么要下载 Ubuntu18.04.6 LTS 而不是使用最新的,或者其他Linux发行版? 答:在ss6…

Python 图形化界面基础篇:使用框架( Frame )组织界面

Python 图形化界面基础篇:使用框架( Frame )组织界面 引言什么是 Tkinter 框架( Frame )?步骤1:导入 Tkinter 模块步骤2:创建 Tkinter 窗口步骤3:创建框架( F…

如何做到安全上网

随着信息化的发展,企业日常办公越来越依赖互联网,而访问互联网过程中,会遇到各种各样不容忽视的风险,例如员工主动故意的数据泄漏,后台应用程序偷偷向外部发信息,木马间谍软件的外联,以及各种挖…

聚观早报 | 荣耀V Purse定档;哪吒S迎来最新OTA升级

【聚观365】9月13日消息 荣耀V Purse定档 哪吒S迎来最新OTA升级 宝马将向其英国工厂投资7.5亿美元 英伟达称霸AI芯片领域致初创公司融资难 甲骨文第一财季收入约125亿美元增长9% 荣耀V Purse定档 不久前,荣耀官方推出了全新的荣耀Magic V2内折叠屏旗舰&#x…

【Linux从入门到精通】信号(信号保存 信号的处理)

本篇文章接着信号(初识信号 & 信号的产生)进行讲解。学完信号的产生后,我们也了解了信号的一些结论。同时还留下了很多疑问: 上篇文章所说的所有信号产生,最终都要有OS来进行执行,为什么呢?…

在Android studio 创建Flutter项目运行出现问题总结

在Android studio 中配置Flutter出现的问题 A problem occurred configuring root project ‘android’出现这个问题。解决办法 首先找到flutter配置的位置 在D:\xxx\flutter\packages\flutter_tools\gradle位置中的flutter.gradle buildscript { repositories { googl…

相机坐标系 -> 像素坐标系

代码链接:https://github.com/PanJinquan/python-learning-notes/blob/master/modules/utils_3d/camera_tools.py def __cam2pixel(cam_coord, f, c):"""相机坐标系 -> 像素坐标系: (f / dx) * (X / Z) f * (X / Z) / dxcx,ppx260.166; cy,ppy…

分库分表---理论

目录 一、垂直切分 1、垂直分库 2、垂直分表 3、垂直切分优缺点 二、水平切分 1、水平分库 2、水平分表 3、水平切分优缺点 三、数据分片规则 1、Hash取模分表 2、数值Range分表 3、一致性Hash算法 四、分库分表带来的问题 1、分布式事务问题 2、跨节点关联查询…

【FAQ】本地录像视频文件如何推送到视频监控平台EasyCVR进行AI视频智能分析?

安防监控平台EasyCVR支持多协议、多类型设备接入,可以实现多现场的前端摄像头等设备统一集中接入与视频汇聚管理,并能进行视频高清监控、录像、云存储与磁盘阵列存储、检索与回放、级联共享等视频功能。视频汇聚平台既具备传统安防监控、视频监控的视频能…

Vue2电商前台项目——完成Search搜索模块业务

Vue2电商前台项目——完成Search搜索模块业务 Vue基础知识点击此处——Vue.js 文章目录 Vue2电商前台项目——完成Search搜索模块业务一、项目开发的步骤二、各种请求数据并展示数据1、写Search模块的接口2、写Vuex中的search仓库3、组件拿到search仓库的数据(1&…

详解HPE MSA 2040存储初始化配置划分卷

哈喽大家好,欢迎来到虚拟化时代君(XNHCYL)。 “ 大家好,我是虚拟化时代君,一位潜心于互联网的技术宅男。这里每天为你分享各种你感兴趣的技术、教程、软件、资源、福利……(每天更新不间断,福…

mock技术在测试中的应用

技术简介 mock技术又叫测试桩、挡板 在软件测试中,对于一些不容易构造、获取的对象,用一个虚拟的对象来代替它,以达到相同的效果,这个虚拟的对象就是mock。 mock技术并不是只有测试领域用,最早是在开发领域应用&…

互联网电视流氓乱收费被市场惩罚,传统品牌合力挤压互联网电视

市调机构洛图科技(RUNTO)公布的6月份数据显示,传统电视品牌强势反弹,海信、TCL、创维的销量分别为60万台、58万台、57万台,名次分别为第一名、第三名、第四名,而曾连续数年位居国内电视行业第一名的某互联网…

精品基于NET实现的汽配网上商城系统

《[含文档PPT源码等]精品基于NET实现的汽配网上商城系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程等 软件开发环境及开发工具: 开发软件:VS 2017 (版本2017以上即可,不能低于2017) 数…

第十二章总结

一.集合类概述 java.util包中提供了一些集合类,这些集合类又被称为容器。 集合类与数组的不同之处: 数组的长度是固定的,集合的长度是可变的:数组用来存放基本类型的数据,集合用来存放对象的引用。 常…

windows10系统下Python3.11中安装Numpy库教程

Python3.11中安装Numpy库目录 项目场景:问题描述解决方案:①下载Numpy文件②把NumPy文件放到Python安装的Scripts文件夹里。③安装numpy④安装验证 项目场景: numpy是开源的数值计算扩展,用于数据分析、机器学习、科学计算的重要…

(第十一天)初识SpringMVC SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录

SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录(第十一天)初识SpringMVC 今天我们要来学习一下SSM框架的最后一个框架SpringMVC 一、初认SpringMVC 基本概念: ​ Spring MVC(Model-View-Co…

Qt应用开发(基础篇)——菜单 QMenu

一、前言 QMenu类继承于QWidget,它提供了一个菜单样式的小部件,用于菜单栏、上下文菜单和一些弹出式菜单。 QMenu菜单的选项是可选的,它可以是一个下拉的菜单,也可以是独立的上下文菜单。下拉菜单通常作用于当用户单击相应的项目或…

Unity——模拟AI视觉

人类的视觉系统有以下几个特点: 距离有限。近处看得清,远处看不清容易被遮挡。不能穿过任何不透明的障碍物视野范围大约为90度。实现正前方信息丰富,具有色彩和细节;实现外侧的部分只有轮廓和运动信息注意力有限。当关注某个具体的…