什么是WebGPT?
WebGPT是对GPT-3微调后得出的模型,它可以像人类一样在线搜索问题的答案,并添加引用来源,更加准确地回答开放式问题。
在回答问题时,WebGPT可以通过浏览器进行搜索,在不同链接中寻找相关答案,并在最后组织答案时,将引用来源标注上去,使得答案来源的准确性有迹可循。
为什么有WebGPT?
之前关于问答的研究大多专注与改进给定查询的文档检索,就是给模型挂上一个固定的知识库,这个知识库里的内容是固定的,无法与时俱进,所以作者把这个固定的知识库变成了搜索引擎,因为搜索引擎非常强大,可以索引大量最新的文档。此外,利用搜索引擎可以进行问答领域更高级的任务,就是可以回答更复杂的问题。
论文创新点:
- 创建了一个基于文本的网络浏览环境,经过微调后,模型可以与这个环境交互。这样做以后,就可以使用模仿学习和强化学习等通用方法,以端到端的方式改进检索和合成。
- 模型生成的回答是带有参考文献的,这样可以让生成的回答更具有可解释性。
模型怎么与网络环境交互?
作者设计了一个基于文本的web浏览环境,模型会根据环境的当前状态,给出关于用户提出的问题、当前光标位置、搜索到的结果等等的提示。如下图(a)所示:
然后模型必须发出以下指令,比如说运行Bing搜索、单击链接或者滚动之类的操作。
之后,当模型浏览这些检索结果时,它可以执行很多操作。比如,它可以引用当前页面的摘录。当它执行这个操作的时候,它会记录页面的标题、域名和摘要,如果之后生成的回答引用到这个内容,这些就是作为参考文献。记录完了之后,模型会继续浏览页面,直到达到操作的最大数量,结束浏览的指令被发出;或者达到引用的最大总长度。只要模型找到一个参考文献,它就必须生成最终回答。如下图(b)所示:
大概运作方式应该是这样:
(1)输入问题;
(2)WebGPT会从Bing的API中获取很多链接,它会自己筛选一些它认为高质量的链接,并给出这些链接的摘要;
(3)人可以再次筛选需要的链接;
(4)点击“答案生成”按钮,WebGPT会结合这些链接生成答案;
(5)人可以反馈答案是否满意,这期间所有的人类操作都可以当做反馈。
怎么训练模型?
人类的指导是这篇论文方法的核心部分。所以作者收集了人类使用浏览器回答问题的例子,文中称为演示。但是,仅仅凭借演示训练是不能直接优化答案质量的,也不可能让模型的表现超越人类的。所以,文章采用的方法是,收集两个模型生成的对同一个问题的答案,然后去询问人类更赞同哪一个回答,这个过程称为比较。
微调的基础模型是GPT-3型号的不同参数的模型,分别是760M、13B以及175B的。文章采用了四种主要的训练方法:
- 使用演示的行为克隆(即监督微调)
- 使用比较的奖励建模
- 针对奖励模型的强化学习
- 针对奖励模型进行拒绝采样