【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答

news2025/1/16 2:37:47
WebGPT: 基于人类反馈的浏览器辅助问答
《WebGPT: Browser-assisted question-answering with human feedback》

论文地址:https://arxiv.org/pdf/2112.09332.pdf

相关博客
【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答
【自然语言处理】【ChatGPT系列】FLAN:微调语言模型是Zero-Shot学习器
【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里?
【自然语言处理】【ChatGPT系列】Chain of Thought:从大模型中引导出推理能力
【自然语言处理】【ChatGPT系列】InstructGPT:遵循人类反馈指令来训练语言模型
【自然语言处理】【ChatGPT系列】大模型的涌现能力

一、简介

NLP \text{NLP} NLP中一个日益严峻的挑战是 long-form question-answering(LFQA) \text{long-form question-answering(LFQA)} long-form question-answering(LFQA),其需要一个很长的答案来回答开放域的问题。 LFQA \text{LFQA} LFQA系统有可能成为人们了解世界的主要方式之一,但是目前还落后于人类的表现。现有的工作倾向于该任务的两个核心组件:信息检索与合成。

​ 本文利用这些组件的现有解决方案:将文档检索交给 Microsoft Bing Web Search API \text{Microsoft Bing Web Search API} Microsoft Bing Web Search API,通过利用无监督预训练以及微调 GPT-3 \text{GPT-3} GPT-3来实现高质量的合成。本文并不是尝试改善一些原始材料,而是专注在使用更 faithful \text{faithful} faithful的训练目标将其合并。遵循 Stiennon et al \text{Stiennon et al} Stiennon et al的工作,使用人类反馈来直接优化答案质量,这可以使系统实现与人类相当的效果。

​ 本文的两个主要贡献:

  • 创建了一个基于文本的网页浏览环境,微调后的语言模型可以与该环境交互。这使得我们可以以端到端的形式使用通用的方法(例如模仿学习和强化学习)来改善检索与合成。
  • 使用参考资料 (references) \text{(references)} (references)来生成答案:模型在进行浏览时从网页中提取段落。这对于让标注者判断答案的事实准确性来说至关重要。

​ 本文模型主要被训练来回答来自 ELI5 \text{ELI5} ELI5的问题,这是一个从"Explain Like I’m Five" reddit \text{reddit} reddit板块采样问题的数据集。本文还收集了两种额外类型的数据:使用网络浏览器回答问题的人类演示数据 (demonstrations) \text{(demonstrations)} (demonstrations);相同问题两个模型生成答案的比较数据 (comparisions) \text{(comparisions)} (comparisions)。评判答案的标准是事实的准确性、连贯性和整体有用性。

​ 本文以四种方式使用该数据:使用演示数据进行行为克隆(监督微调)、使用比较数据训练奖励模型、针对奖励模型的强化学习、针对奖励模型的拒绝采样。本文最优的模型是合并了行为克隆(behavior cloning)和拒绝采样(rejection sampling)。

​ 本文以三种不同的方式来评估最优模型。首先,针对部分问题比较了模型生成的答案与人类撰写的答案。在56%的时间里模型的答案是首选。其次,比较模型生成的答案与由 ELI5 \text{ELI5} ELI5数据集提供的最高投票答案。模型生成的答案在69%的时间里是首选。第三,在 TruthfulQA \text{TruthfulQA} TruthfulQA上评估了模型。本文的模型能回答对75%的问题,并且在54%的情况下都是真实且包含信息的,超越了基础模型 GPT-3 \text{GPT-3} GPT-3,但是没有达到人类的表现。

二、环境设计

请添加图片描述

请添加图片描述

像先前 REALM \text{REALM} REALM RAG \text{RAG} RAG这样的问答工作主要专注在对于给定的query来改善文档检索。相反,对于这个部分本文使用了熟悉的现有方法:一个现代搜索引擎(Bing)。其有两个主要的优势:首先,现代搜索引擎已经非常强劲,索引了大量的最新文档。其次,使用一个搜索引擎来回答问题可以使我们专注在较高层面的任务。

​ 本文了一个基于文本的网页浏览环境。语言模型会被提示撰写一个环境当前状态的摘要,包括问题、当前页面中位于当前光标的文本、以及一些其他信息(如图1b)。为了完成该目标,模型必须要完成表1中给出的命令之一,即执行Bing搜索、点击链接或者滚动屏幕等。然后在一个新的上下文重复这个过程。

​ 当模型正在浏览时,其能够采用的动作之一是从当前页面抽取一个引用。当执行该操作时,页面标题、域名和摘要会被记录下来用作后面的引用。直至模型发出结束浏览的命令、达到操作的最大数量、或者达到引用的最大长度是结束。此时,只要模型至少有一个引用,模型就会使用问题和引用提示组成最终的答案。

三、方法

1. 数据收集

​ 人类的指导是本文方法的核心。一个预训练语言模型并不能使用基于文本的流量器,因为其不知道有效命令的形式。因此我们收集了人类使用浏览器回答问题的样例,这样的数据称为演示数据 (demonstrations) \text{(demonstrations)} (demonstrations)。然而,在独立的演示数据上进行训练并不能直接优化答案质量,并且不太可能带来超越人类的表现。因此,我们收集了模型针对相同问题生成的答案对,并要求人类来选择哪个更好,该数据称为比较数据 (comparisons) \text{(comparisons)} (comparisons)

​ 对于演示数据和比较数据,绝大多数的问题都是来自于 ELI5 \text{ELI5} ELI5,其是一个long-form问题数据集。为了多样性和实验性,我们也混合了其他源的少量问题,例如 TriviaQA \text{TriviaQA} TriviaQA。总的来说,收集了6000个演示数据,92%的问题来自 ELI5 \text{ELI5} ELI5;收集了21500个比较数据,98%的问题来自于 ELI5 \text{ELI5} ELI5

​ 为了方便人类提供演示数据,我们设计一个环境的图形化用户接口(图1a)。其本质上还是展示了基于文本接口的相同信息,并允许任何有效的行动被执行,但是对人类更友好。对于比较数据,我们设计了一个类似的接口,允许提供辅助注释和比较评分,尽管在训练时仅使用最终的比较评分(更好、更差或者相当)。

​ 对于演示数据和比较数据,我们强调答案应该是相关的、连贯的、并且有值得信赖的参考资料支持。

2. 训练

​ 本文方法中预训练模型的使用至关重要,因为其具有成功使用本文环境回答问题所需要的许多潜在能力,例如阅读理解、答案合成、语言模型的 zero-shot \text{zero-shot} zero-shot能力。因此,微调的模型来自于 GPT-3 \text{GPT-3} GPT-3家族,包含 760M,13B,175B \text{760M,13B,175B} 760M,13B,175B模型尺寸。

​ 基于这些模型,使用四个主要的训练方法:

  • 行为克隆 (Behavior cloning,BC) \text{(Behavior cloning,BC)} (Behavior cloning,BC)。使用监督学习的方法在演示数据上进行微调,以人类标注者发出的命令为标签;
  • 奖励模型 (Reward modeling,RM) \text{(Reward modeling,RM)} (Reward modeling,RM)。基于 BC \text{BC} BC模型,训练一个输入为问题和带有参考资料的答案,输出为标量奖励的模型。遵循Stiennon et al.,奖励代表一个 Elo \text{Elo} Elo分数,两个分数之间的差异表示人类标注者更喜欢其中一个的概率的logit。奖励模型将比较数据集作为标签,使用交叉熵进行训练。
  • 强化学习 (Reinforcement learning,RL) \text{(Reinforcement learning,RL)} (Reinforcement learning,RL)。再一次遵循Stiennon et al.,使用 PPO \text{PPO} PPO在本文的环境中微调 BC \text{BC} BC模型。对于环境的奖励,在每一阶段结束时获得一个奖励模型分数,并将其添加至 BC \text{BC} BC模型在每个token上的 KL \text{KL} KL散度惩罚项,用来缓解奖励模型的过度优化。
  • 拒绝采样 (Rejection sample) \text{(Rejection sample)} (Rejection sample)。从 BC \text{BC} BC模型或者 RL \text{RL} RL模型中采样固定数量的答案(4,16或者64),然后选择一个奖励模型排名最高的答案。我们使用这个作为优化奖励模型的可选方法,其不需要额外的训练,而是要更多的推理时间。

四、评估

​ 评估主要集中在三个 WebGPT \text{WebGPT} WebGPT模型上,每个模型都经过了行为克隆训练,并在相同大小的奖励模型上进行拒绝采样: 760M best-of-4 \text{760M best-of-4} 760M best-of-4模型、 13B best-of-16 \text{13B best-of-16} 13B best-of-16模型、 175B best-of-64 \text{175B best-of-64} 175B best-of-64模型。为了简单起见排除 RL \text{RL} RL,因为其在和拒绝采样相结合时并不能提供显著的改善。

​ 使用采样温度0.8评估了所有的 WebGPT \text{WebGPT} WebGPT,并使用人工评估进行了调整,浏览动作的最大数量为100。

1. ELI5 \text{ELI5} ELI5

请添加图片描述
​ 以两种不同的方式在 ELI5 \text{ELI5} ELI5测试集上评估 WebGPT \text{WebGPT} WebGPT

  • 比较模型生成的答案和使用网络浏览环境的人工撰写的答案。
  • 比较模型生成的答案和来自 ELI5 \text{ELI5} ELI5数据集的参考答案,参考答案来自于 Reddit \text{Reddit} Reddit的最高票答案。在这个评估中,一个担忧是详细的评估准则与真实用户并不一致;另一个担忧是 Reddit \text{Reddit} Reddit的答案通常不包括引用文献,这会带来盲目性。为了缓解这两个担忧,首先从模型生成的答案中剥离了所有的引用和参考文献,然后雇佣了新的承包商来评估结果,新的承包商不熟悉先前的详细准则,而是使用一个更简单的准则。

​ 在这两种评估中,将偏好率为50%看作关键阈值。

​ 结果如上图所示。最优的模型( 175B best-of-64 \text{175B best-of-64} 175B best-of-64模型)在56%的时间里,生成的答案要比人类演示者所写的答案更受欢迎。这说明使用人类反馈是必不可少的,因为仅仅通过模仿演示数据是无法超过50%的。在69%的时间里,同一模型产生的答案优于来自 ELI5 \text{ELI5} ELI5数据集的标准答案。这相较于 Krishna et al. \text{Krishna et al.} Krishna et al.有了重大的改善,其最好的模型仅有23%的时间优于参考答案,尽管它们的计算量比本文的少很多。

​ 虽然相较于先前的工作,在 ELI5 \text{ELI5} ELI5参考答案上虽然效果显著。但是,与人类演示数据进行评估更有意义,原因如下:

  • 事实检测

    在没有参考资料的情况下,很难评估事实的准确性。即使有搜索引擎的帮助,通常也需要专业知识。 WebGPT \text{WebGPT} WebGPT和人类演示数据都是通过参考资料来提供答案。

  • 客观性

    太少的instructions使得人很难知道选择一个答案而不选择另一个答案的准则是什么。更详细的instructions能够带来更多的可解释性和一致性。

  • 盲目性(Blinding)

    即使剔除了引用和参考文献, WebGPT \text{WebGPT} WebGPT构造的答案在风格上与 Reddit \text{Reddit} Reddit不同,这对于比较来说不具有盲目性。相反, WebGPT \text{WebGPT} WebGPT和人类演示者构造的答案类似,这样在评估上会更加客观。

  • 答案意图

    ELI5 \text{ELI5} ELI5中的问题通常是为了获得原始且简洁的解释,而不是那些可以在网络上直接找到的答案。这个准则并不是我们判别答案的标准。此外, ELI5 \text{ELI5} ELI5中的许多问题仅会得到一些不费力的答案。而使用人类演示数据,则很容易确保期望的意图和效果一致。

2. TruthfulQA \text{TruthfulQA} TruthfulQA

请添加图片描述

​ 为了进一步探查 WebGPT \text{WebGPT} WebGPT的能力,所以在 TruthfulQA \text{TruthfulQA} TruthfulQA上评估 WebGPT \text{WebGPT} WebGPT效果。 TruthfulQA \text{TruthfulQA} TruthfulQA是通过对抗性构造的short-form问题数据集,若存在一些错误的概念或者知识,那么人也会在该数据集的问题上回答错误。答案的评分主要是真实性和信息量。

​ 在 TruthfulQA \text{TruthfulQA} TruthfulQA上评估了 GPT-3 \text{GPT-3} GPT-3( WebGPT \text{WebGPT} WebGPT的基础模型)和 WebGPT \text{WebGPT} WebGPT模型本身。对于 GPT-3 \text{GPT-3} GPT-3,使用 QA prompt \text{QA prompt} QA prompt helpful prompt \text{helpful prompt} helpful prompt并使用自动化评估。对于 WebGPT \text{WebGPT} WebGPT则使用人工评估,因为其答案已经超越了自动化评估的分布。 TruthfulQA \text{TruthfulQA} TruthfulQA是一个short-form问题数据集,所以截断 WebGPT \text{WebGPT} WebGPT的答案至50个token的长度,并移除后面的部分句子。

​ 结果如上图所示。所有的 WebGPT \text{WebGPT} WebGPT模型都超越了 GPT-3 \text{GPT-3} GPT-3模型。此外,不同于 GPT-3 \text{GPT-3} GPT-3,随着模型规模的增加, WebGPT \text{WebGPT} WebGPT给出的真实且信息丰富的答案比例也在增加。

五、实验

1. 训练方法比较

请添加图片描述

​ 本文进行了一些额外的实验比较强化学习和拒绝采样以及与行为克隆的baseline。结果如上图所示,拒绝采样 (Rejection sampling) \text{(Rejection sampling)} (Rejection sampling)能够提供显著的收益, 175B best-of-64 BC \text{175B best-of-64 BC} 175B best-of-64 BC模型相较于 175B BC \text{175B BC} 175B BC模型有68%的时间是首选。此外,强化学习 (RL) \text{(RL)} (RL)能够带来更小的收益, 175B RL \text{175B RL} 175B RL模型相较于 175B BC \text{175B BC} 175B BC模型有58%的时间是首选。

​ 尽管拒绝采样和强化学习都是对相同的奖励模型进行优化,这可能有几个原因来解释为什么拒绝采样优于强化学习:

  • 多次尝试回答问题可能是有帮助的,只是为了利用更多的推理时计算。
  • 环境是不可预测的:通过拒绝采样,模型能够查看更多的网站,并且评估它发现的信息。
  • 奖励模型主要是从行为克隆和拒绝采样中收集的数据上进行训练,这可能对拒绝采样的过度优化鲁棒性强于强化学习。
  • 强化学习需要超参数调整,而拒绝采样不需要。

​ 合并强化学习和拒绝采样提供的收益并没有单独的拒绝采样更好。一个可能的原因是强化学习和拒绝采样都是针对奖励模型进行优化的,其很容易被过度优化。除此之外,强化学习减少了 policy \text{policy} policy的熵,其对于探索有害。

​ 另一个值得注意是,针对比较数据仔细调整 BC \text{BC} BC baseline。使用人工评估和奖励模型分数的组合来调整 BC \text{BC} BC模型的epochs数量和采样温度。仅通过这一点就消除了最初看到 BC \text{BC} BC RL \text{RL} RL的差距。

2. 规模实验

请添加图片描述

​ 本文也研究了模型的效果随着数据集大小、模型参数量以及拒绝抽取样本量的变化。因为人工评估可能有噪音并且昂贵,这些实验使用了 175B \text{175B} 175B奖励模型的分数。我们发现在不使用强化学习优化奖励模型的情况下,其是一个人类偏好的优质预测器。回顾一下,奖励表示为 Elo \text{Elo} Elo分数,1个点的差异代表 sigmoid(1) ≈ 73 % \text{sigmoid(1)}\approx 73\% sigmoid(1)73%的偏好。

​ 上图6和7展示了数据集尺寸和模型参数量的缩放趋势。对于数据集尺寸,演示数据的数量翻倍则奖励模型的分数增加0.13,比较数量翻倍则奖励模型的准确率增加1.8%。对于参数量,趋势比较嘈杂,在policy中参数量加倍则奖励模型的分数粗略增加0.09,奖励模型的参数量增加一倍则准确率提升0.4%。

​ 对于拒绝采样,我们分析了给定推理时间计算代价的情况下如何平衡样本数量和模型参数量(上图8)。实验发现使用一定数量的拒绝采样通常是计算高效的,但也不是太多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/142798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[HTML] HTML基础知识

1.HTML简介 HTML指的是超文本标记语言(HyperText Markup Language)&#xff0c;是一种用于创建网页的标准标记语言 HTML页面基本结构 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X…

SpringMVC框架

一、什么是 SpringMVC ? SpringMVC框架是以请求为驱动&#xff0c;围绕Servlet设计&#xff0c;将请求发给控制器&#xff0c;然后通过模型对象&#xff0c;分派器来展示请求结果视图。其中核心类是DispatcherServlet&#xff0c;它是一个Servlet&#xff0c;顶层是实现的Ser…

不会指针?还不进来看看——进阶指针详解

专栏&#xff1a;C语言 每日一句&#xff1a;人贵有自知之明&#xff0c;知道什么可为和不可为。若不可为&#xff0c;怎样做才能可为&#xff0c;那何时可为。 进阶指针前言一、字符指针二、指针数组1.指针数组的介绍2.指针数组的使用三、数组指针1.数组指针的介绍2.&数组…

历史大讲堂:真那么好用?Windows前世今生

hello大家好&#xff0c;这里是每天日更哒博主。 还记得我第一次说的Microsoft Dos吗&#xff1f;那期我提到一次Windows并许诺要讲讲&#xff0c;这不来了&#xff01;今天我们就详细的盘一盘最好用的系统Windows真有那么神吗&#xff1f; 注意&#xff01;以下内容包含非常…

人脸识别美颜算法实战-深度学习基础知识

深度学习与机器学习的区别: 机器学习:人类定义输入数据的特征 深度学习:机器自动找到输入数据的特征 在深度学习中,采用多层的神经网络架构来提取图像 信息,越靠近底层的神经网络提取出来的都是点、线等低维度特征, 而高维度的神经网络层则会更多地保留比如耳朵、眼睛…

MySQL事务基础知识

前言 学习/导流&#xff1a; 小林coding - 事务篇 学习意义 理解MySQL如何去处理并发问题&#xff0c;借鉴其思想存储作为应用的关键能力&#xff0c;而事务作为关系型数据库的关键概念&#xff0c;掌握很必要&#xff0c;也为分布式事务学习做奠基 相关说明 该篇博文是个…

快速搭建springboot程序

SpringBoot快速入门 观狂神讲解视频笔记 【狂神说Java】SpringBoot最新教程IDEA版通俗易懂 第一个springboot程序 使用 idea 可以快速构建一个 springboot 的项目&#xff1a; 1.创建新项目&#xff0c;选择 spring initializr&#xff08;会默认通过官网快速构建&#xff09…

【编程经验】如何学习编程语言的秘诀,编程语言选择,按需学习

大家好&#xff0c;欢迎来到停止重构的频道。最近有些朋友问我们如何学习编程、初学软件的问题&#xff0c;我们打算出几期内容聊聊我们的建议。本期聊一下如何学习编程语言。我们将压箱底的诀窍介绍给新手朋友&#xff0c;当然这仅仅是我们的一些经验&#xff0c;并不是绝对的…

连续四年第一!

近日&#xff0c;IDC发布《2022 H1中国AI云服务市场研究报告》&#xff0c;百度智能云连续四年市场份额第一&#xff0c;整体占比28.1%&#xff0c;在"人体人脸"、"图像视频"‍两个规模最大的子市场继续保持第一。‍‍ 在图像视频等多个领域蝉联市场第一 …

PLC算法系列之数值积分器(Integrator)

数值积分和微分在工程上的重要意义不用多说,闭环控制的PID控制器就是积分和微分信号的应用。流量累加也会用到。有关积分运算在流量累加上的应用,请参看下面的文章链接: SMART S7-200PLC流量累计算法实现(梯形图算法详解+优化)_RXXW_Dor的博客-CSDN博客_smart 200 流量积分…

【bootstrap】使用,初学者的总结

官网&#xff1a;bootstrap中文网 首页点击v3文档&#xff0c;然后下载最左边的那个。 解压后把里面的css和js文件复制过去&#xff0c;因为也要用到jQuery&#xff0c;所以要把jQuery.min.js也一起放入js文件夹。 然后&#xff0c;就是导入&#xff1a; <link rel"s…

Java互联网支付系统源码,基于SpringBoot,含支付宝,微信,银联详细代码案例

spring-boot-pay 支付服务&#xff1a;支付宝&#xff0c;微信&#xff0c;银联详细 代码案例 (支付宝和微信支付测试均需要企业认证&#xff0c;如果没有企业推荐使用 [服务商模式] 申请开通个人商户 也可以测试 )&#xff0c;项目启动前请仔细阅读 注意事项 :fa-hand-o-left…

快速上手 BearPi-HM Micro 一个带显示屏的开发板

一、前言 为什么要写这篇文章呢? 华为官方给OpenHarmony分:南向开发 和 北向开发 北向开发:应用APP开发 南向开发:设备开发 带显示屏的设备,可以更好的使用可视化界面,能更直接的利用烧录到设备里面的代码。 例如:冰箱上面的小的显示屏,可以更好的操控和观察当前冰箱…

一个 web 开发者眼中的技术美术(TA—Technical Artist)

Techical Artist 的中文翻译是技术美术&#xff0c;相比于直译为技术艺术家&#xff0c;技术美术这个称谓让我感觉更加亲切&#xff0c;当然艺术家这个称谓也很好&#xff0c;很高级 :p 。在游戏行业里我们常常能听到美术这个职业&#xff0c;而技术美术&#xff0c;从字面意思…

微信公众号活动策划方案怎么写?看完你也可以直接套用

一场成功的活动策划可以给企业带来相当可观的用户流量和曝光&#xff0c;前提是你的这份公众号活动策划方案是可执行和有回报的&#xff01; 毫不夸张的说&#xff0c;我们在写公众号活动策划方案之前&#xff0c;只要你搞清楚以下这几点&#xff0c;这个方案就可以说是成功了…

介绍一个MySQL参数检索工具

碰巧看到徐老师的这篇文章《MySQL的参数工具》&#xff0c;其中介绍了一个讲解MySQL不同版本参数的小工具&#xff0c;网站的作者是MySQL日本用户组的负责人Tomita。该网站能够提供不同版本MySQL的参数&#xff0c;包括不同版本之间的对比。当用户需要对MySQL进行升级、需要确认…

用javascript分类刷leetcode13.单调栈(图文视频讲解)

84. 柱状图中最大的矩形 (hard) 给定 n 个非负整数&#xff0c;用来表示柱状图中各个柱子的高度。每个柱子彼此相邻&#xff0c;且宽度为 1 。 求在该柱状图中&#xff0c;能够勾勒出来的矩形的最大面积。 示例 1: 输入&#xff1a;heights [2,1,5,6,2,3] 输出&#xff1a;10 …

2022年总结与2023年展望

又是疫情的一年&#xff0c;所幸年尾的政策看来是要全面开放了&#xff0c;也算是一件好事了。但是明年会不会就要强制线下上课导致实习不方便&#xff0c;这也是个问题。 技术学习 确定了自己的方向是走C/CLinux后端开发方向&#xff0c;跟着课程学到了一个图床后端的项目&a…

前端页面插件集成-Markdown编辑器

页面插件集成-Markdown下载MarkDown的插件包引入css、js、Jquary文件定义一个textarea区域作为MarkDown的载体初始化Markdown编辑器最终效果下载MarkDown的插件包 下载地址如下&#xff1a; 下载传送门 点击Github下载&#xff0c;然后解压 解压之后将如下文件夹和 js 文件cop…

贷后联动管控指标与差异化案件的分配逻辑

在风控精细化运营的当下&#xff0c;贷后工作的开展&#xff0c;越来越需要精细化管理。如何做好相关的精细化管理工作&#xff0c;首先我们从这些贷后相关的名词如下开始熟悉&#xff1a; 贷后基本催收名词解释 Flow Rate 迁移率就是在贷后资产评估里最重要的报表了&#xf…