性能高于Transformer模型1.7-2倍,彩云科技发布基于DCFormer架构通用大模型云锦天章

news2024/11/18 8:50:41

2017年,谷歌发布《Attention Is All You Need》论文,首次提出Transformer架构,掀开了人工智能自然语言处理(NLP)领域发展的全新篇章。Transformer架构作为神经网络学习中最重要的架构,成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。而提升Transformer的运行效率也成为人工智能领域的研究热点,2024年4月,谷歌最近一次更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程中提速50%,成为Transformer架构提速升级的又一重要事件。

同样在今年,一家来自国内的人工智能企业彩云科技,在国际机器学习领域的顶级会议ICML(国际机器学习大会)上,发布全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在该论文中,彩云科技团队首次发布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的提升。

11月13日,彩云科技在北京总部与媒体进行一场主题为“From Paper to App”的沟通会。会上,彩云科技CEO袁行远,就通用大模型未来进化之路,与人工智能的落地场景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。

只有模型效率和智能度提升 才能实现真正的AGI

沟通会现场,袁行远首先向参会者展示了一个ChatGPT o1的问答:“假设ChatGPT4每天响应用户约2亿个请求,消耗超过50万千瓦时的电力。假设全球网络都使用ChatGPT作为访问入口,ChatGPT每天消耗多少电力?另外按照这个速度发展下去,到2050年全球人工智能的耗电量会达到目前地球发电能力的多少倍?”ChatGPT o1给出的答案是,“到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的8倍”。

同样的问题,在今年2月份的世界政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假设计算机的速度永远不会变快,我们可能需要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对能源的强大需求在业内已经是共识,英伟达致力于通过提升硬件来提升AI效率,降低能耗;而袁行远则认为,改善大模型底层架构,提升人工智能运行效率,是改变AI能源困局的更优路径。

“Scaling Law告诉我们,随着算力的提升,模型更大、数据更多,模型效果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,人工智能实现之前,或许我们地球的能源就已经无法支撑了。”袁行远表示,“没有效率的提升,AI就是镜花水月。”

彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力,由此实现了对Transformer架构1.7—2倍的性能提升。

今年的ICML会议上,彩云科技团队的3篇论文,在录用平均分为4.25-6.33的情况下,获得平均7分的高分,并成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业,另一家则是华为。

袁行远表示:我们的工作表明,Transformer架构距离“理想模型架构”还有很大的提升空间,除了堆算力堆数据的“大力出奇迹”路线,模型架构创新同样大有可为。往小了说,在大模型领域,利用效率更高的模型架构,小公司也可以在与世界顶级人工智能企业的对抗中取得优势。往大了说,模型效率的提升,可以有效地降低人工智能升级迭代的成本,加速AI时代的到来。

云锦天章问世 首个基于DCFormer架构的通用大模型

作为国内最早做LLM(大语言模型)的公司之一,彩云科技在2017年就已经开始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,是国内为数不多能够实现盈利的人工智能公司。

“世界最强的小说续写通用模型。”沟通会上,袁行远向大家展示了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高雅、华美,和我们的大模型想要实现的效果有共通之处。”袁行远介绍,云锦天章可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。

而在应用端,拥有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5整体流畅性和连贯性提升了20%,支持前文长度由2000字提升至10000字,故事背景设定最长长度高达10000字。“这意味着,在故事创作或者与人工智能对话中,人工智能能够记住之前发生的事情,记住之前故事里发生的细节,人物记得自己明确的目标,并且会根据剧情及时进行反思修正。在做到自主创作的同时,发散性收敛,不会天马行空,人物性格前后一致,故事逻辑性更强。”

“深度对话,超长记忆,逻辑清晰。”袁行远总结彩云小梦V3.5的特征,“我们的目标是为用户打造指尖伴侣定制梦境。”袁行远表示,彩云小梦的用户单次使用时长,累计使用时长在同类产品中都处于遥遥领先的地位,“对话超过400句,你会发现彩云小梦真正的魅力。”

袁行远介绍,公司接下来将继续加大对DCFormer的研究和投入:“一方面有打破‘国外做技术层,国内做应用层’刻板印象的情怀所在,一方面也是为公司自有产品应对市场竞争,实现快速迭代升级和能力领先的现实需要。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2242708.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【异常解决】Linux shell报错:-bash: [: ==: 期待一元表达式 解决方法

博主介绍:✌全网粉丝21W,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…

Linux解决普通用户无法使用sudo指令的问题

问题描述: Linux解决普通用户无法使用sudo指令的问题 sudo 指令是允许 普通用户 临时 以 超级用户 root 的权限运行。 普通用户如果没有配置而直接使用 sudo 指令:系统会提示没有权限(如下图) 使用sudo时系统提示(当前…

9.1 使用haarcascade_frontalface_default.xml分类器对静态图像进行人脸检测。

1)程序代码: # 1. 使用haarcascade_frontalface_default.xml分类器对静态图像进行人脸检测。 import cv2 import numpy as np # 构造级联分类器对象face_cascade cv2.CascadeClassifier(./data/haarcascades/haarcascade_frontalface_default.xml# ./…

【Mysql】Mysql函数----字符串函数

1、字符串函数 函数 描述 示例 CHAR_LENGTH(S) 返回字符串S的字符个数 返回字符串runoob的字符个数&…

(干货)Jenkins使用kubernetes插件连接k8s的认证方式

#Kubernetes插件简介 Kubernetes 插件的目的是能够使用 Kubernetes 配合,实现动态配置 Jenkins 代理(使用 Kubernetes 调度机制来优化负载),在执行 Jenkins Job 构建时,Jenkins Master 会在 kubernetes 中创建一个 Sla…

微积分第五版课后习题答案详解PDF电子版 赵树嫄

(一) 习题解答与注释 该部分基本上对《微积分》(第五版) 中的习题给出了解答, 并结合教与学作了大量注释。通过这些注释, 读者可以深刻领会教材中基本概念的准确含义, 开阔解题思路, 掌握解题方法, 避免在容易发生错误…

【Linux庖丁解牛】—权限!

目录 1、shell命令以及运行原理 2、Linux中的用户及用户切换 3、sudo指令 ​编辑 4、角色与目标属性 5、修改权限 5.1修改文件属性(chmod) 5.2修改文件角色(chown/chgrp) 6、rwx对目录意味着什么 7、Linux中多用户之间的相互“隔离” 8、Linux中的缺省权限 ​编辑 9…

uniapp对接极光推送,实现消息推送功能

通过集成JG-JPush和JG-JCore插件,可以在应用中添加消息推送功能,向用户发送通知、消息等。这对于提升用户体验、增加用户粘性非常有帮助‌。 效果图: 一、登录极光官网 官网链接:portalhttps://www.jiguang.cn/console/#/home点…

【3D Slicer】的小白入门使用指南八

3D Slicer DMRI(Diffusion MRI)-扩散磁共振认识和使用 0、简介 大脑解剖 ● 白质约占大脑的 45% ● 有髓神经纤维(大约10微米轴突直径) 白质探索 朱尔斯约瑟夫德杰林(Jules Joseph Dejerine,《神经中心解剖学》(巴黎,1890-1901):基于髓磷脂染色标本的神经解剖图谱)…

IP数据云 识别和分析tor、proxy等各类型代理

在网络上使用代理(tor、proxy、relay等)进行访问的目的是为了规避网络的限制、隐藏真实身份或进行其他的不正当行为。 对代理进行识别和分析可以防止恶意攻击、监控和防御僵尸网络和提高防火墙效率等,同时也可以对用户行为进行分析&#xff…

GPU分布式通信技术-PCle、NVLink、NVSwitch深度解析

GPU分布式通信技术-PCle、NVLink、NVSwitch 大模型时代已到来,成为AI核心驱动力。然而,训练大模型却面临巨大挑战:庞大的GPU资源需求和漫长的学习过程。 要实现跨多个 GPU 的模型训练,需要使用分布式通信和 NVLink。此外&#xf…

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构 近年来,大模型的发展势头迅猛,成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力,在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…

数据集的重要性:如何构建AIGC训练集

文章目录 一、为什么数据集对AIGC如此重要?1. 数据决定模型的知识边界2. 数据质量直接影响生成效果3. 数据集多样性提升模型鲁棒性 二、构建AIGC训练集的关键步骤1. 明确目标任务和生成需求2. 数据源的选择3. 数据清洗与预处理4. 数据标注5. 数据增强 三、针对不同类…

全网首发:Ubuntu编译跨平台嵌入式支持ffmpeg的OpenCV

难题: 使用cmake编译,死活找不到ffmpeg 使用cmake-gui,能找到ffmpeg,不能编译。 解决思路 结合cmake和cmake-gui。 为了给初次编译的朋友一点方便,这里专门完整详细记录。 安装编译环境 其他的略。 apt -y in…

算法——两两交换链表中的节点(leetcode24)

这是一道对于链表节点进行操作的题目非常考验对于链表操作的基本功; 解法: 本题的解法结合下图来进一步解释 创建一个虚拟节点指向头结点以便使代码逻辑看起来更为简便且操作节点容易,定义cur是为了方便找到cur之后的两个节点进行交换操作定义pre和aft是为了保存执…

非对称加密算法RSA的实现

一、实验目的 1、了解非对称密码体制基本原理 2、掌握编程语言实现非对称加密、解密 二、实验原理 RSA加密算法是一种非对称加密算法,所谓非对称,就是指该算法加密和解密使用不同的密钥,即使用加密密钥进行加密、解密密钥进行解密。在RAS…

劳动力市场

1.劳动力市场概述 (1)劳动力:所有有工作能力且愿意工作的人的总称,由那些正在工作(就业)和正在寻找工作(失业)的人组成,表示为:L(劳动力&#xf…

拉取docker镜像应急方法

发现许多docker hub镜像网址速度也慢得发指啦,如果想速度快点,可以考虑买个按量计费的公有云服务器,用他们的内网镜像,然后再导出,然后传到本地。 开通服务器 可以考虑个开通最低配的,这里我用的是腾讯的…

go-zero(三) 数据库操作

go-zero 数据库操作 在本篇文章中,我们将实现一个用户注册和登录的服务。我们将为此构建一个简单而高效的 API,包括请求参数和响应参数的定义。 一、Mysql连接 1. 创建数据库和表 在 MySQL 中创建名为 test_zero的数据库,并创建user 表 …

113页PPT制造业研发工艺协同及制造一体化

研发工艺协同及制造一体化解决方案是制造业数字化转型的重要组成部分,它涵盖了从产品设计到生产的全过程,旨在提高生产效率、降低成本、提升产品质量,并增强企业的市场竞争力。以下是对该解决方案的详细阐述: 一、方案概述 研发…