语言模型与人类反馈的深度融合:Chain of Hindsight技术

news2024/9/20 21:02:59

人工智能咨询培训老师叶梓 转载标明出处

语言模型在理解和执行指令方面取得了显著成功,但依赖人工标注数据的监督式微调需要大量标记数据,这不仅成本高昂,而且可能限制了模型识别和纠正负面属性或错误能力。另一方面,基于人类反馈的强化学习虽然能够从所有数据中学习,但需要学习一个奖励函数,这可能导致与人类价值观的不一致,并且优化过程极其复杂。来自加州大学伯克利分校的研究人员提出了一种名为Chain of Hindsight(CoH)的技术,旨在通过人类反馈进一步提升语言模型的性能,该方法超越了传统的监督式微调(SFT)和基于人类反馈的强化学习(RLHF)方法。图1为人类评估在摘要和对话任务中CoH与其他方法的成对比较。

论文链接:https://arxiv.org/pdf/2302.02676

项目链接:GitHub - forhaoliu/chain-of-hindsight: Chain-of-Hindsight, A Scalable RLHF Method

方法

Chain of Hindsight技术的核心思想是模仿人类如何通过语言形式的反馈进行学习。具体而言CoH技术将所有类型的反馈转化为句子序列,然后利用这些序列对模型进行微调,从而利用语言模型的理解能力。模型在训练时会考虑一系列模型生成的输出及其对应的反馈,通过这种方式,模型学会了基于反馈生成输出,同时学会识别和纠正负面属性或错误。

研究者们采用了一个标准的Transformer模型架构,该架构是因果关系和仅解码器(decoder-only)的,这与之前在注意力机制方面的研究工作是一致的。这意味着在每个时间步,模型只能关注到之前的时间和它自身。给定一个由标记表示的文本,标准的因果语言建模目标是最大化文本的对数似然,即。在CoH中,通过结合多个模型输出和反馈来构建x,然后将其用于指令微调。例如,当模型被提示向儿童解释神经网络时,它会生成多个响应,然后将这些响应组合成一个序列,并与基于人类评分的反馈指令配对。

图 2 展示了一个例子。在训练阶段,模型会被展示正面和负面的反馈,分别用“Bad”和“Good”表示,模型被训练以预测更符合后者反馈的输出,例如:“如何向6岁的儿童解释神经网络?Bad: {一个较差的回答} Good: {一个优秀的回答}。”此外,该框架还允许整合自然语言反馈,如:“你如何向6岁的儿童解释神经网络?Bad: {一个次优的回答} Good: {一个杰出的回答}”,这提供了额外的任务特定指导和上下文。通过纳入更广泛的正面和负面反馈,进一步增强了模型的性能。在本研究中,选择了基于评分生成的模板化反馈,而不是来自人类循环的开放式反馈。根据不同的任务,反馈类型会有所不同。

自然语言反馈示例:

  • 一个好的摘要:{positive},一个更差的摘要:{negative}
  • 你是一个有帮助的助手:{positive},你是一个无用的助手:{negative}
  • 一个坏的回答是{negative},一个好的回答是{positive}

理论上,可以使用来自人类循环的开放式反馈。在本研究中,选择使用基于评分的预定模板生成反馈。在推理阶段,用“Good”形式的正面反馈提示模型,以引导模型生成有利的输出。

为了使模型能够从反馈中学习,要求模型预测由模型生成的每个标记。由于在推理时对其他标记应用损失会阻碍模型生成,所以通过掩蔽实现了这一点,可以表示为:,其中表示标记是否不属于反馈。换句话说,如果不属于反馈,则为1;如果它属于反馈,则为0。模型被训练为预测给定先前标记​的每个非反馈标记

算法 1 展示了使用Chain of Hindsight从反馈中对语言模型进行对齐的过程。需要预训练的语言模型M和人类反馈数据集D,以及最大的训练迭代次数n。对于每次迭代,从数据集D中随机抽取一小批模型输出及其相关评分,通过结合采样的模型输出和基于评分的反馈来构建训练序列,然后在这些训练序列上指导微调模型M。

在训练过程中,使用模型输出及其相应的人类偏好数据集,例如正面和负面评分,从中抽取模型输出的小批量样本。为了生成自然语言中的事后反馈,随机抽取一个反馈格式并结合人类评分。将事后反馈和模型输出组合成事后链,作为自回归模型的输入。目标是自回归地预测输入序列,使用交叉熵损失来优化模型。在最后一个模型输出序列的每个时间步上平均损失。在人类偏好学习的情况下,正面和负面数据通常彼此相似(例如,Anthropic有用和无害的数据集)。由于CoH在预测另一个示例时对模型进行了条件限制,模型可以简单地“复制”示例而无需学习理解底层任务。为了解决这个问题,在训练期间随机掩蔽了0%到5%的过去标记,这有助于规范模型并防止其过度拟合在训练期间看到的特定示例。为了保持模型在一般语言建模任务上的性能,添加了一个正则化项,以最大化预训练数据集的对数似然,遵循先前的工作。

监督式微调(SFT)是偏好学习中常用的一种方法,涉及使用正面标记的数据进行微调。然而,本方法与SFT不同,因为它纳入了正面和非正面评分的数据以及反馈输入。与SFT相比,CoH利用了更广泛的信息。条件SFT与决策Transformer模型有相似之处,涉及使用反馈作为前缀标记的条件训练SFT。本质上,CoH和条件SFT都使用反馈标记作为条件输入。然而,区别在于CoH利用了反馈-示例对的序列,使本方法能够在进行预测时考虑更全面的信息。SFT的非可能性损失在传统SFT框架中引入了对负面评分数据的非可能性损失。与基于人类反馈的强化学习(RLHF)相比,CoH提供了一个更简单的训练过程,它在性能方面一贯优于RLHF。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
 

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

研究者使用了三个数据集来学习人类反馈:

  1. WebGPT 数据集:这个数据集包含了19,578个比较,每个例子包括一个问题、一对模型答案和元数据。这些答案由人类根据偏好得分进行评分,这有助于识别两个答案中更好的一个。

  2. HH 数据集:Anthropic的Helpful and Harmless(HH)数据集包含了人类评分的对话。这个数据集中的每个例子由一对人类和语言模型之间的对话组成,其中人类标记者标记了一个对话作为偏好。

  3. 摘要数据集:摘要数据集包含了人类对于模型生成摘要的反馈。人类评估者被要求从两个选项中选择较优的摘要。

在评估基准和指标方面,研究者考虑了自动评估和人类评估在摘要和对话基准上的表现。他们使用了以下评估指标:

  • 摘要基准:研究者使用了TL;DRs数据集进行自动评估和人类评估。这个数据集包含了来自reddit.com的约300万个帖子以及原始发帖者(TL;DRs)撰写的摘要。研究者使用了Stiennon等人提供的过滤版本,包含了123,169个帖子。评估指标包括摘要的覆盖度(从原始帖子中覆盖了多少重要信息)、准确性(摘要中的陈述在多大程度上是帖子的一部分)、连贯性(摘要本身阅读起来有多容易)和整体质量。

  • 对话基准:研究者还在Anthropic的Helpful and Harmless(HH)数据集的验证部分进行了评估,每个例子包括一对人类和大型语言模型之间的对话,其中一个对话被人类标记为偏好。评估对话时,他们考虑了有用性和无害性等指标。为了收集评估数据,研究者构建了使用正面例子的“伪”对话。他们用模型的输出替换了之前对话中的每个模型响应,这是通过在人类响应和过去的模型输出的基础上对模型进行条件限制来生成的。他们采取这种方法而不是让人类直接与微调后的模型聊天,以重用人类生成的数据,因为收集互动数据可能成本很高且容易受到数据质量问题的影响。

在基线方面,研究者的主要基线是SFT、SFT的非可能性(SFT-U)、条件SFT(C-SFT)和RLHF。他们使用GPT-J 6B和OPT作为基础预训练模型,尽管其他语言模型也可以使用。他们采用了PPO算法来实现RLHF基线,并调整了PPO和奖励学习的超参数以获得最佳结果。为了确保公平比较,他们仔细调整了所有其他基线的培训超参数。

图 3 展示了在摘要数据集的测试集上,本模型与基线模型(包括预训练模型、SFT、条件SFT、SFT的非可能性和RLHF)之间的ROUGE得分比较。CoH方法在所有指标上都显著优于基线,包括RLHF。

为了进一步评估CoH方法的性能,研究者进行了人类评估,如表 1 所示。他们聘请了75名精通英语的人类评估者从第三方平台提供评分。在成对比较中,评估者被要求根据上述三个指标选择两个摘要中更好的一个(或打成平手)。结果显示,CoH在与人类偏好保持一致方面显著优于RLHF和条件SFT。

图 4 展示了在HH数据集上对CoH方法与RLHF和SFT基线的对话任务评估。SFT在预训练模型的基础上显示出显著的改进;增加非可能性会降低性能,这表明非可能性损害了模型的生成能力;条件SFT在SFT的基础上显示出改进,展示了从负面例子中学习的好处;RLHF表现第二好,但被CoH显著超越。

表 2 展示了对话任务的人类评估结果。CoH在与人类偏好保持一致方面显著优于RLHF和条件SFT。

研究者还评估了在只有二元反馈的情况下,而不是默认设置中的二元反馈和细粒度语言反馈的组合,CoH方法的性能。他们将这个没有自然语言反馈的基线称为CoH w/o LF。为了评估这些变体的性能,他们进行了一个专注于摘要领域的人类评估任务,使用了75名人类评估者的输入。结果显示,他们的默认方法和“w/o LF”变体都显著优于RLHF。他们的发现还表明,包含自然语言反馈可以增强结果。人类偏好评级显示,有语言反馈的模型比没有语言反馈的模型多出14.1%的偏好,而没有语言反馈的模型则收到了11.6%的偏好。这些结果证明了CoH框架的有效性。由于CoH框架提供了将自然语言反馈纳入培训的灵活性,设计更有效的自然语言反馈是他们未来的一个方向。

为了评估CoH在不同模型大小上的效用,研究者进行了全面评估。图 5 展示了不同模型大小对CoH方法相对于SFT基线和RLHF性能的影响。值得注意的是,对于较小的模型大小,CoH与SFT基线相比表现出较小的性能下降。然而,随着模型大小的增加,CoH一致地超越了所有SFT和RLHF基线,并显示出正的扩展趋势,表明其在增强模型性能方面的有效性随着模型复杂性的增加而增加。

表 3 展示了基于人类评估的摘要任务中自然语言反馈的消融研究的平均胜率。结果显示,CoH方法在与人类偏好保持一致方面显著优于RLHF。

最后,研究者比较了CoH方法在开源人类偏好数据集上的表现,与在ShareGPT数据上使用的SFT方法进行了比较。他们与Koala进行了比较,Koala涉及使用ShareGPT数据进行监督微调。他们保持了SFT和CoH在开源数据集上模型和训练超参数的一致性。

研究者还通过微调ShareGPT和开源数据集将CoH与Koala集成在一起;在这里,开源数据集提供了正面和负面的例子,而ShareGPT仅提供了正面例子。他们使用与Koala相同的人类评估,通过聘请第三方人类评估者对各种模型生成的响应进行成对比较。这些评估基于ShareGPT独有的保留集的问题。结果显示,CoH方法在性能上与Koala相当。另外CoH+Koala的组合方法在人类评级的基础上超越了Koala。与此同时,条件SFT和SFT都远远落后于Koala。这突显了CoH在利用人类偏好进行学习方面的有效性。

通过这项研究可以看到,将人类反馈以一种创新的方式融入语言模型的训练中,可以显著提升模型的性能和适用性,使其更好地服务于人类社会的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2125009.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在职研生活学习--20240908

文章目录 九月八日清晨,我们在鸟鸣声中醒来,精神饱满地迎接大汇演的挑战。上午,我们被分成舞龙队、旗手队、拳队、鼓队四个特色团队进行练习。阳光下,我们挥汗如雨,却乐此不疲。鼓声隆隆,龙舞飞扬&#xff…

使用ESP8266和OLED屏幕实现一个小型电脑性能监控

前言 最近大扫除,发现自己还有几个ESP8266MCU和一个0.96寸的oled小屏幕。又想起最近一直想要买一个屏幕作为性能监控,随机开始自己diy。 硬件: ESP8266 MUColed小屏幕杜邦线可以传输数据的数据线 环境 Windows系统Qt6Arduino Arduino 库…

企业图纸加密软件哪个最好用?10款常用图纸加密软件强力推荐!

在现代企业中,保护图纸和设计文件的安全性至关重要。以下是十款常用且功能强大的图纸加密软件推荐,帮助企业更好地保护其知识产权和敏感数据。 1. 安秉网盾 安秉网盾凭借其强大的加密技术和灵活的权限管理功能,成为企业保护图纸安全的首选。…

源码编译安装python3.12没有ssl模块,python3.12 ModuleNotFoundError: No module named ‘_ssl‘

已经编译安装了opensll 3.3 源码编译安装python3.12没有ssl模块,python3.12 ModuleNotFoundError: No module named ‘_ssl’ 报错如下: [rootlocalhost ~]# python Python 3.12.5 (main, Sep 9 2024, 10:33:15) [GCC 4.8.5 20150623 (Red Hat 4.8.5-4…

vue3 指定元素全屏 screenfull(可直接粘贴使用)

业务需求 由于输入的文字较多,需要将输入框进行全屏展示,方便输入和查看! 效果图 实现方式 下载插件"screenfull": “^6.0.2” yarn add screenfull -S项目中使用 import screenfull from "screenfull"templte中代码…

性能测试的复习3-jmeter的断言、参数化、提取器

一、断言、参数化、提取器 需求: 提取查天气获取城市名请求的响应结果:城市对查天气获取城市名的响应结果进行响应断言和json断言对查天气获取城市名添加用户参数 1、步骤 查看天气获取城市名 json提取器(对响应结果提取、另一个接口请求…

软考系统分析师难吗?现在开始准备需要多久能考试?

先说结论:作为软考中的高级科目,难度肯定是不小的,一般系分的通过率只有10%-20%,其实和高项差不多。但是系分上限高,知识点不会变来变去,按照套路学就会更有把握。 一、什么是系统分析师 要备考系统分析师…

Oracle绑定变量窥视与自适应游标共享

一.Oracle的绑定变量窥视与自适应游标共享 创建test表,列status存在2个值,有数据倾斜,在列status create table test as select rownum id,DBMS_RANDOM.STRING(A,12) name,DECODE(MOD(ROWNUM,500),0,Inactive,Active) status from all_obj…

这本真绝!《自然语言处理新范式:基于预训练模型的方法》真的不要太强(附PDF)

今天给大家推荐一本超绝的大模型书——《自然语言处理新范式:基于预训练模型的方法》 为什么推荐这本书? 近些年来,以GPT、BERT为代表的预训练模型在自然语言处理领域掀起了一股浪潮,打开了“预训练精调”的自然语言处理新范式…

基于repo同步kylin v10 源及构建本地源

1. 需求和环境 需求:满足离线环境下,可以通过yum获取kylin软件包.我们通过x86的设备同步软件包,然后构建本地源。 客户端:X86笔记本 客户端OS版本:Kylin-Server-10-SP1-Release 2. 同步源到本地 2.1 安装createrepo和reposync等…

OPENAIGC开发者大赛高校组特等奖 | OK简历

在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者,希望能带给…

我开源了:学术论文总结AI-Agent!

为什么搞这个项目? 作为一个天天喜欢读最新论文的人,我也深受其害。打开邮箱,几十篇新推送的论文排队等我去点开阅读;好不容易点进去了,还得慢慢啃英文,最后还得写总结……嗯,太痛苦了。所以&a…

ELK预警方案:API+XXLJob

目录 步骤一:出一个接口,接口内查询出10分钟内是否有异常信息 步骤二:XXLJob中设置预警的频率 步骤三:在重要的业务处输出指定格式日志即可 步骤一:出一个接口,接口内查询出10分钟内是否有异常信息 {&qu…

Xshell官网免费版下载

首先打开官网地址:NetSarang Homepage CN - NetSarang Websitehttps://www.xshell.com/zh 然后划到下拉框最下方找到---家庭/学校免费: 打开后直接下载就好了: 完成之后得到,然后傻瓜式安装就可以,安装路径可根据所需…

【电力系统】清除故障后电力系统的摆动曲线

摘要 电力系统在故障清除后通常会经历暂态过程,表现为发电机转子角度的摆动曲线。本文通过仿真分析了故障清除后电力系统的摆动曲线特性,研究了不同类型故障对摆动曲线的影响。结果显示,系统在清除故障后会产生不同幅度和频率的摆动&#xf…

存储课程学习笔记8_spdk的安装以及简单demo测试

已经对相关的基础概念有一定的了解,比如裸盘,文件系统,读写相关裸盘,裸盘挂载使用,内核插入文件系统的方式,相关操作io的库或者函数(io_uring, readv,writev, mmap等)&am…

张驰咨询:打造精益生产高手的摇篮,企业竞争力倍增器!

精益生产培训机构在推动企业转型升级、提升竞争力方面发挥着不可替代的作用。它们通过系统化的培训,将精益生产的核心理念、工具和方法传授给企业及其员工,助力企业实现生产效率的飞跃、成本的有效控制以及产品质量的显著提升。 一、精益生产培训机构的作…

一文搞懂Maven的使用:下载、配置、阿里云私服、IDEA配置

Maven是什么? Maven是一个项目管理工具,其核心是一个项目对象模型(POM:Project Object Model),通过这个模型可以管理项目的构建、报告和文档。Maven还包含了一套标准的集合、项目生命周期、依赖管理系统以…

代码随想录算法训练营第27天|455. 分发饼干、376. 摆动序列、53. 最大子数组和

目录 455. 分发饼干(总出问题,需要多次写)1、题目描述2、思路3、code4、复杂度分析5、超级无敌一句话总结 376. 摆动序列1、题目描述2、思路4、复杂度分析 53. 最大子数组和1、题目描述2、思路3、code4、复杂度分析 455. 分发饼干&#xff08…

无人机之伯努利定律

无人机的伯努利定律是解释无人机飞行原理的关键理论之一,它主要阐述了流体(如空气)在流动过程中速度与压力之间的关系。以下是对无人机伯努利定律的详细解释: 一、伯努利定律的基本原理 伯努利定律是流体力学中的一个基本原理&am…