解读「快意」大模型关键技术,揭秘实践中的挑战与创新

news2024/9/22 7:26:44

导读

2024年6月,GAITC 2024全球人工智能技术大会在杭州举办,在视觉大模型关键技术与应用主题论坛上,快手NLP专家林梓佳向参会者汇报了快手「快意」大模型研发过程中的多个关键技术创新,以及应用落地过程中的经验与挑战。

快手作为一家AI技术驱动的公司,紧跟AI时代浪潮,于2023年初启动「快意」大模型研发专项,大力投入研发大语言模型和多模态大模型。2024年2月底,快手发布了「快意」175B模型。经过对齐后,在内部评测集上,无论是信息正确性、可读性、安全性等能力维度,还是人文科学、数学、逻辑推理等学科维度,都显著超过GPT-3.5,并整体接近GPT-4/4o最新版本水平。

快手「快意」大模型的成功研发,得益于快手在训练/推理框架、数据、算法、评测等环节的大力投入与务实创新。特别是在算法层面上,也有多项关键技术推动快手「快意」大模型不断发展。

图片

「快意」大模型的八项关键技术创新

一、Temporal Scaling Law:直接在大模型上实现低成本的高效超参搜索

众所周知,影响大模型效果的超参非常多,包括数据配比、学习率、dropout等。为了减少超参搜索的成本,通常大模型超参的设定,是在小模型上先进行超参搜索,然后直接应用到大模型上。但已有研究工作表明,部分超参在小模型和大模型上的最优设置是截然不同的。因此,一个很自然的想法便是考虑在大模型上直接进行超参搜索,并通过训练少量的数据,结合loss预测技术,预测最终模型性能,并根据预测的性能选择最优超参。为此,「快意」大模型团队提出了Temporal Scaling Law的概念,研究大模型loss如何随着训练步骤的增加而演变。

经过初步实验,「快意」大模型团队发现,基于常见Scaling Law的幂律关系直接预测loss整体的粗粒度时序建模方式,预测误差偏高,效果不佳。因此,Temporal Scaling Law将预测过程拆分到每个token位置的loss,并通过观察发现,在不同参数规模的模型上,不同token位置的loss,随着位置(i)变化,整体服从动态倒数关系。从期望的角度看,位置越大的token,上文越多,在预测上会更加容易。而这里的“动态”指的是倒数关系中的参数a_0, a_1, a_2均会随着训练步数的增加而改变。

图片

通过分析a_0, a_1, a_2随着训练步数的变化,可以发现其具备很强的可拟合性,并且呈现分段特性。因此,Temporal Scaling Law定义了分段函数的分界点N_{sep},并基于分界点为a_0, a_1, a_2引入了分段函数,用于拟合其随着训练步数N增加的变化。因此,一旦明确训练步数,便可以预测出a_0, a_1, a_2,进而根据动态倒数关系,得到每个位置的token loss,并通过平均,得到最终的整体loss,这便是Temporal Scaling Law的最终表达式。

图片

而在预测阶段,由于只训练少量的数据,往往只能看到分段函数的第一段,为了得到最终的结果,可以通过分界点的定义预测其位置,并在分界点处,通过增加数值平滑的约束条件,推导出第二段函数的参数,进而可以得到完整的分段函数和最终的loss预测结果。经过实验验证,Temporal Scaling Law相比于以幂律关系等方式建模整体loss的方式,在预测loss方面误差显著降低。

图片

而在实际应用方面,Temporal Scaling Law可以以低成本方式,直接用于在大模型上进行更好的超参搜索。以数据配比为例,可结合小模型搜索先圈定若干较好的候选,进而用Temporal Scaling Law直接在目标大模型上做进一步的选择,而从实验结果来看,Temporal Scaling Law选择的最优方案比小模型搜索得到的最优方案,在绝大多数benchmark上均表现更佳。此外,Temporal Scaling Law也有助于我们洞察大模型训练的内在机制。通过Temporal Scaling Law的公式,可以推导出,随着模型训练达到一定程度,各个位置的token loss整体下降幅度将趋于相同,从实验的观察来看,不同参数规模的模型也确实呈现出理论推导的结果。这意味着,虽然不同位置的token loss本身在预测难度上存在天然差异,但实际上学习进度相似,无需做额外的加权,这也验证了大模型训练的默认设置(即 不对token位置进行加权)的有效性。

图片

二、MiLe Loss:预训练损失函数优化方案

在预训练阶段,不同token由于出现的频率不同,存在学习难易bias的问题,通常而言,出现频率高的token更易学,而频率低的token则学习难度更高一些。基于这样的观察,「快意」大模型在预训练阶段,改进了传统的交叉熵损失,提出了基于信息熵的加权损失优化方案MiLe Loss,并在多种参数规模的预训练模型上均取得显著效果提升。值得一提的是,MiLe Loss实现非常简单,但却能带来模型性能的全面提升。

图片

三、Scaffold-BPE:词表学习方法改进

在大模型中,Tokenizer通常使用BPE(Byte-Pair-Encoding)算法,BPE通过自下而上逐步合并的方式学习词表,但在合并的过程中,可能出现“伪高频”token的情况,导致最终词表在训练语料上的压缩率偏低。例如,“zona”在大部分情况下只出现在“Arizona”中,所以当中间token “zona”与“Ari”合并成新的token “Arizona”之后,“zona” 作为独立token出现的频率显著降低,变成“伪高频” token。「快意」大模型团队提出的Scaffold-BPE词表学习方法,通过在BPE的token合并过程中更新token频率,并将“伪高频”token放入优先队列的方式,将其逐步替换为更高频的token,有效提升了词表压缩率和大模型的训练效果。Scaffold-BPE同样可用于提升机器翻译等传统NLP任务上。

图片

图片

四、引入SFT负反馈机制提升大模型生成优质回复概率

在对齐阶段,SFT(Supervised Fine-tuning)过程,通常仅使用正样本数据训练,但这种方式,难以解决重复生成、身份认知出错等问题。为此,「快意」大模型团队在SFT阶段,引入了负反馈机制,通过构造负样本,并与正样本进行比较的方式,提升了模型区分优劣回复的能力,从而有效减少重复文本等情况,显著提升了大模型生成优质回复的概率。

图片

五、词汇单元并行解码策略:解码速度提升约30%

对齐之后,为了加速推理,「快意」大模型团队提出了词汇单元并行解码策略,在一次推理过程中,同时预测多个token,并自适应地选择其中置信度较低的部分,重新生成。经过实验,该方法可以在对解码效果无损的前提下,大幅提升解码速度约30%,有效扩大了模型服务的吞吐量。 

图片

六、Reward Model引入MoE:有效优化了对齐阶段的全流程

在对齐阶段的强化学习中,Reward Model的质量对强化学习的效果有至关重要的影响。为了解决Reward Model在通用场景下判别能力不高、泛化能力较差的问题,「快意」大模型团队在Reward Model上引入了MoE(Mixture-of-Expert)结构,并通过实验验证了该方法能够显著提升Reward Model的判别、泛化和抗遗忘能力。在「快意」大模型中,Reward Model不仅仅用在RLHF(Reinforcement Learning from Human Feedback)中,也应用在了SFT阶段的数据质量筛选等环节,有效优化了对齐阶段的全流程。

图片

七、迭代式RLHF+RLAIF:提升策略探索和学习效率

在强化学习阶段,除了收集来自人类的反馈,「快意」大模型也收集了来自于「快意」175B、GPT-4等大模型的反馈,整合了RLHF和RLAIF,并且采用了RLHF+RLAIF->Reward Model->Policy Learning 的迭代式Pipeline来更新模型。在每一轮迭代中,人工反馈和大模型的反馈数据整合后,用于迭代Reward Model(防止reward hacking),进而用于指导PPO(Proximal Policy Optimization)和DPO(Direct Preference Optimization)的学习过程,提升强化学习策略探索和学习的效率。强化学习对「快意」大模型的安全性等方面带来了显著提升。

图片

八、MoE路由错误自适应检测与Loss优化

「快意」大模型近期也在升级MoE结构,在研发过程中,「快意」大模型团队发现路由错误,会引发单expert内部的知识产生冲突,加大学习难度,导致最终MoE优化效果不理想。为了提升路由模块预测的准确性和解决上述路由错误导致的expert优化不理想问题,「快意」大模型团队提出了基于训练过程中token梯度分布的自适应错误检测策略,并基于检测的结果,提出了新的路由loss优化方案,最终在多个benchmark的实验上,验证了该方法的有效性。

图片

「快意」大模型的落地实践

「快意」大模型自发布之后,迅速在快手的多个站内场景中落地,并取得了一系列的业务收益,包括评论区AI小快、对话式搜索、商业化短视频文案创作、营销智能Bot、B端和C端的内容理解等,充分验证了「快意」大模型的业务价值。以AI小快的落地为例,「快意」大模型在实践过程也遇到了一些挑战,同时提出了相应的解决方案。

图片

AI小快的挑战与破局

AI小快是孵化自「快意」大模型的情感陪伴机器人,主要在快手App的评论区、私信等场景中上线,具备强大的多模态内容理解和人格化互动能力,从2023年底上线至今,6个月时间就积累了超过1千万的粉丝,日活用户超过150万。

着眼于用户,AI小快的技能跟随着用户需求而持续迭代发展,从目前的分析来看,用户与AI小快的互动中,占比较高的需求主要包括:情感陪伴类、视频内容理解类、闲聊类、知识与工具类等。AI小快在发展技能的过程中,遇到了如下几方面挑战,并通过技术攻关,找到了合适的解决方案。

挑战1:多模态内容理解能力要求高

AI小快作为开放领域的服务,而且在视频评论区中落地,用户会很自然地提问AI小快关于视频内容的相关问题,需要AI小快具备突出的多模态内容理解能力。借助于快意多模态大模型所提供的dense video captioning等能力,以及引入ASR(Automatic Speech Recognition)等辅助信息,AI小快捕获并整合了视频内容的关键信息,为有效回答用户关于视频内容的问题打下坚实基础。

图片

挑战2:有趣、有温度的情感陪伴需求大

AI小快的核心定位是情感陪伴机器人,因此需要在人文关怀上表现优秀,要有趣,更要有温度。基于此,「快意」大模型团队,通过收集和构建大量的人物卡片信息,包括外在的年龄性别等特征,以及内在的人格特征等,在「快意」大模型上,微调出人格化的情感陪伴大模型(KwaiYii-Role),并基于对齐阶段的迭代式强化,让AI小快具备了显著的类人对话风格和情感表达能力。KwaiYii-Role的能力在权威评测榜单CharacterEval上也得到了充分验证,显著优于同赛道竞品,尤其在沟通技巧、表达多样性和共情能力等方面表现优秀。

图片

图片

挑战3:长轮次对话能力需提升

由于常见的对话训练语料,对话轮次在10次左右,很难直接用于训练AI小快使其具备超长轮次的对话能力。为此,「快意」大模型团队额外引入了智能提问的用户模拟器(KwaiYii-Parrot),并基于真实人人、人机对话日志对其进行训练,而后经过用户模拟器与AI小快的多轮交互,累计越来越长的对话日志,并通过数据清洗、增强等方式,同时更新用户模拟器与AI小快,逐步提升其对话轮次。最终,AI小快具备了与用户进行超过200轮对话的能力。

图片

挑战4:多种工具能力需具备

在快手App的场景下,AI小快承载了用户的多种工具类需求,包括短视频推荐、时间查询、画图特效调用、新闻获取、知识问答等。而这些工具或能力,本身并非「快意」大模型所天然具备。因此,为了满足用户需求,「快意」大模型团队在微调「快意」大模型的基础上,研发了函数调用能力和检索增强能力,以便根据用户query调用站内外的工具,或者通过搜索引擎、知识图谱等获取时效性信息、社区信息等,有效延伸了「快意」大模型的能力边界。

图片

图片

得益于快手公司在内容、场景、基建等方面的优势,以及对大模型研发的大力投入,快手「快意」大模型以较短的周期,顺利完成从13B到175B的规模提升和能力升级,同时也在AI小快等多个应用场景中验证了业务价值,打开了大模型落地应用的新局面。未来,「快意」大模型团队,将持续围绕大模型技术创新、应用创新等方面,继续攻关迭代,推动「快意」大模型走向新的高度。

文章来源:快手大模型与多媒体技术部

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么需要加密软件?2024五款电脑文件加密软件推荐

在高度数字化的2024年,数据安全对于个人和企业而言都显得至关重要。加密软件作为保护敏感信息的利器,扮演着不可或缺的角色。从个人隐私数据到企业财务记录、健康信息乃至企业核心机密,加密软件都能有效防止未经授权的访问。 加密软件的重要…

GitHub私有派生仓库(fork仓库) | 派生仓库改为私有

GitHub私有派生仓库 前言解决方案 前言 在GitHub上Fork的派生仓库默认为公有仓库,且无法修改为私有仓库。 若想创建私有的派生仓库,可通过GitHub的导入仓库功能实现,具体步骤请参见下文解决方案。 解决方案 打开GitHub页面,在个…

06.截断文本 选择任何链接 :root 和 html 有什么区别

截断文本 对超过一行的文本进行截断,在末尾添加省略号(…)。 使用 overflow: hidden 防止文本超出其尺寸。使用 white-space: nowrap 防止文本超过一行高度。使用 text-overflow: ellipsis 使得如果文本超出其尺寸,将以省略号结尾。为元素指定固定的 width,以确定何时显示省略号…

One-Class SVM

前提知识:支持向量机(SVM)-CSDN博客 主要思想 找一个超平面将样本中的正例圈出来,预测就是用这个超平面做决策,在圈内的样本就认为是正样本,圈外的是其他样本,如图1所示: 图1 OSVM…

怎样在 PostgreSQL 中优化对大表的分区裁剪和索引选择?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 怎样在 PostgreSQL 中优化对大表的分区裁剪和索引选择一、分区裁剪:精准切割,提…

中科微电子ATGM336H GPS定位模块STM32应用

文章目录 前言1. 中科微电子ATGM336H的使用1.1 ATGM336H引脚说明1.2 数据帧介绍1.3 经纬度介绍1.4 ATGM336H的启动方式 2 数据处理前置C语言知识2.1 strstr函数2.2 memset函数2.3 memcpy函数2.4strtod函数 3. 开始移植3.1 usart初始化程序3.2 串口中断接收函数3.4 数据帧的解析…

【日常记录】【插件】excel.js导出的时候给单元格设置下拉选择、数据校验等

文章目录 1. 代码基本结构2. 导出的excel 某单元格的值设置为下拉选择3. 如何把下拉选择项设置为动态4. 单元格设置校验、提示5. 在WPS上的设置 1. 代码基本结构 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><…

推出全新的ZL3079x、ZL3069x、ZL3066x同步器,优化用于5G运输和无线基础设施设备

一、单通道、双通道和三通道IEEE1588/SyncE网络同步器 ZL3079x提供1个、2个和三个独立的组合硬件和软件平台定时通道&#xff0c;包括IEEE 1588-2008精确时间协议栈和同步算法。该设备使用miTimePLL定时技术&#xff0c;为5G传输和无线基础设施设备提供新的改进功能。该器件非…

文章六:Java中的同步机制

目录 6.1 引言 同步机制在并发编程中的作用 本文的内容结构 6.2 synchronized关键字 使用synchronized进行线程同步 同步方法示例 synchronized的底层实现 6.3 显式锁 ReentrantLock的使用和优势 ReentrantLock示例 Condition接口和多条件等待的示例 Condition示例…

叶师傅:区区1万张表就把MySQL给整崩溃了

自Oracle发布MySQL9.0以来&#xff0c;貌似对MySQL的吐槽有所增加。作为吃瓜群众的我&#xff0c;来跟个风. 以下文章来源于老叶茶馆 &#xff0c;作者YeJinrong/叶金荣 Percona 资深工程师 Marco Tusa 近日爆料称&#xff0c;升级到 MySQL 8.0.38 版本后&#xff0c;当实例中…

【运维资料】智慧项目运维服务方案(2024Word直接套用完整版)

信息化项目运维服务方案&#xff08;投标&#xff0c;实施运维&#xff0c;交付&#xff09; 1.项目整体介绍 2.服务简述 3.资源提供 软件全过程性&#xff0c;标准型&#xff0c;规范性文档&#xff08;全套资料包&#xff09;获取&#xff1a;本文末个人名片直接获取&#xf…

MaxSite CMS v180 文件上传漏洞(CVE-2022-25411)

前言 CVE-2022-25411 是一个影响 Maxsite CMS v180 的远程代码执行漏洞。攻击者可以通过上传一个特制的 PHP 文件来利用这个漏洞&#xff0c;从而在受影响的系统上执行任意代码。 漏洞描述 该漏洞存在于 Maxsite CMS v180 的文件上传功能中。漏洞利用主要通过允许上传带有危…

自动驾驶-定位概述

假设有一张全球的高精度地图&#xff0c;定位的任务是确定车辆在这张高精度地图上的位置。gps精度在1到3米&#xff0c;由于不能完全信任gps&#xff0c;必须找到另一种方法来准确的确定车辆在地图上的位置。 最常用的方法是将所看到的内容和地图上显示的内容进行比较 车辆坐…

C#医学影像管理系统源码(VS2013)

目录 一、概述 二、系统功能 系统维护 工作站 三、功能介绍 影像采集 统计模块 专业阅片 采集诊断报告 报告管理 一、概述 医学影像存储与传输系统&#xff08;PACS&#xff09;是一种集成了影像存储、传输、管理和诊断功能的系统。它基于数字化成像技术、计算机技术和…

探索二进制翻译,openKylin成功在RISC-V平台运行X86架构软件!

众所周知&#xff0c;在新的指令集架构发展初期&#xff0c;往往采用兼容其他架构软件的方法来拓展自身生态体系&#xff0c;如苹果公司的Rosetta 2和微软的Arm64EC&#xff0c;都是将X86架构软件运行在ARM架构的系统之上。 RISC-V作为一个新兴的指令集架构&#xff0c;亟需软…

css技巧混合模式

看上面这个神奇的效果&#xff0c;文字在黑色背景里面显示为白色&#xff0c;而在白色的背景里面显示为黑色&#xff0c;这就是文字智能适配背景。 看到这样的需求&#xff0c;大多数人第一时间想到的是&#xff0c;文字元素有两个&#xff0c;是完全重叠的两层&#xff0c;一…

Pycharm 报错 Environment location directory is not empty 解

删除项目中ven文件夹&#xff08;已存在的&#xff09;&#xff0c;然后再添加新的ven虚拟环境就可以了

链表面试练习习题(Java)

1. 思路&#xff1a; 创建两个链表&#xff0c;一个用来记录小于x的结点&#xff0c;一个用来记录大于等于x的结点&#xff0c;然后遍历完原链表后&#xff0c;将小于x的链表和大于等于x的链表进行拼接即可 public class Partition { public ListNode partition(ListNode pH…

【JVM】JVM调优练习-随笔

JVM实战笔记-随笔 前言字节码如何查看字节码文件jclasslibJavapArthasArthurs监控面板Arthus查看字节码信息 内存调优内存溢出的常见场景解决内存溢出发现问题Top命令VisualVMArthas使用案例 Prometheus Grafana案例 堆内存情况对比内存泄漏的原因:代码中的内存泄漏并发请求问…

自动化测试中如何应对网页弹窗的挑战!

在自动化测试中&#xff0c;网页弹窗的出现常常成为测试流程中的一个难点。无论是警告框、确认框、提示框&#xff0c;还是更复杂的模态对话框&#xff0c;都可能中断测试脚本的正常执行&#xff0c;导致测试结果的不确定性。本文将探讨几种有效的方法来应对网页弹窗的挑战&…