论文 | WebGPT: Browser-assisted question-answering with human feedback

news2024/10/10 2:15:19

什么是WebGPT?

WebGPT是对GPT-3微调后得出的模型,它可以像人类一样在线搜索问题的答案,并添加引用来源,更加准确地回答开放式问题。

在回答问题时,WebGPT可以通过浏览器进行搜索,在不同链接中寻找相关答案,并在最后组织答案时,将引用来源标注上去,使得答案来源的准确性有迹可循。

为什么有WebGPT?

之前关于问答的研究大多专注与改进给定查询的文档检索,就是给模型挂上一个固定的知识库,这个知识库里的内容是固定的,无法与时俱进,所以作者把这个固定的知识库变成了搜索引擎,因为搜索引擎非常强大,可以索引大量最新的文档。此外,利用搜索引擎可以进行问答领域更高级的任务,就是可以回答更复杂的问题。

论文创新点:

  1. 创建了一个基于文本的网络浏览环境,经过微调后,模型可以与这个环境交互。这样做以后,就可以使用模仿学习和强化学习等通用方法,以端到端的方式改进检索和合成。
  2. 模型生成的回答是带有参考文献的,这样可以让生成的回答更具有可解释性。

模型怎么与网络环境交互?

作者设计了一个基于文本的web浏览环境,模型会根据环境的当前状态,给出关于用户提出的问题、当前光标位置、搜索到的结果等等的提示。如下图(a)所示:

然后模型必须发出以下指令,比如说运行Bing搜索、单击链接或者滚动之类的操作。

之后,当模型浏览这些检索结果时,它可以执行很多操作。比如,它可以引用当前页面的摘录。当它执行这个操作的时候,它会记录页面的标题、域名和摘要,如果之后生成的回答引用到这个内容,这些就是作为参考文献。记录完了之后,模型会继续浏览页面,直到达到操作的最大数量,结束浏览的指令被发出;或者达到引用的最大总长度。只要模型找到一个参考文献,它就必须生成最终回答。如下图(b)所示:

大概运作方式应该是这样:

(1)输入问题;

(2)WebGPT会从Bing的API中获取很多链接,它会自己筛选一些它认为高质量的链接,并给出这些链接的摘要;

(3)人可以再次筛选需要的链接;

(4)点击“答案生成”按钮,WebGPT会结合这些链接生成答案;

(5)人可以反馈答案是否满意,这期间所有的人类操作都可以当做反馈。

怎么训练模型?

人类的指导是这篇论文方法的核心部分。所以作者收集了人类使用浏览器回答问题的例子,文中称为演示。但是,仅仅凭借演示训练是不能直接优化答案质量的,也不可能让模型的表现超越人类的。所以,文章采用的方法是,收集两个模型生成的对同一个问题的答案,然后去询问人类更赞同哪一个回答,这个过程称为比较。

微调的基础模型是GPT-3型号的不同参数的模型,分别是760M、13B以及175B的。文章采用了四种主要的训练方法:

  1. 使用演示的行为克隆(即监督微调)
  2. 使用比较的奖励建模
  3. 针对奖励模型的强化学习
  4. 针对奖励模型进行拒绝采样

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1863081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第5讲:建立自己的C函数库,js调用自己写的C/C++函数,并包含依赖C/C++第三方静态库。

在javascript中,Array有很多内置的功能,比如Array.map,Array.filter,Array.find等等,能用内置的功能就用内置的功能,最好不要自己实现一套,因为底层调用的可能压根就不是js语言本身,…

windows 安装 Kubernetes(k8s)

windows 安装 docker 详情见: https://blog.csdn.net/sinat_32502451/article/details/133026301 minikube Minikube 是一种轻量级的Kubernetes 实现,可在本地计算机上创建VM 并部署仅包含一个节点的简单集群。 下载地址:https://github.…

SSM 美食食谱分享推荐系统【附源码】

SSM 美食食谱分享推荐系统 本科毕业论文(设计)学术诚信声明 本人郑重声明:所呈交的毕业论文(设计),是本人在导师的指导下,独立进行 研究工作所取得的成果。除文中已经注明引用的内容外&#xf…

嵌入式应用开发ADC学习笔记(立创STMF4开发板)

目录 #ADC #ADC学习相关涉及概念介绍 #ADC相关概念介绍 #软件实现 #常用结构体配置介绍 #常用函数介绍 #软件编写,完成效果。 #ADC #ADC学习相关涉及概念介绍 数字信号(Digital Signal):数字信号用最为常见的二进制数来表示的信号&#x…

k8s部署mongodb副本集

1.什么mongodb? MongoDB 是一个基于分布式文件存储的数据库,由 C 语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富&#xff…

excel实现下拉筛选(超简单)

excel实现下拉筛选 引言1、需求:预警状态下的列 实现下拉筛选2、实现2.1、数据验证2.2、下拉筛选内容2.3、去掉预警状态单元格的下拉筛选 引言 通常,我们会单独新建一张sheet表 专门存每个列的下拉内容。下面我将专门建立一张名为代码表的sheet表来存放…

欧盟指控苹果应用商店规则非法压制竞争,面临巨额罚款风险

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

[Redis]事务

Redis事务 Redis 事务提供了一种将多个命令请求打包的功能。然后,再按顺序执行打包的所有命令,并且不会被中途打断。 但是,事务中的每条命令都会与 Redis 服务器进行网络交互,比较浪费资源 所以,日常开发中不建议使…

LeetCode题练习与总结:随机链表的复制--138

一、题目描述 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点的…

成功解决ES高亮内容引起的字段显示不一致问题

在处理搜索引擎(如Elasticsearch)结果时,常见需求之一是对用户搜索的关键词进行高亮显示,这有助于用户快速识别搜索结果为何与其查询相关。但在实际应用中,如果处理不当,直接使用高亮片段可能会导致原始数据…

冰淇淋PDF编辑器,轻量,无需安装,打开即用

​IceCream PDF Editor (冰淇淋PDF编辑器) 是一款简单实用的PDF文件编辑工具。功能包括:编辑文本、注释添加、页面管理、PDF文件保护等;操作简单,功能强大,使用户能够轻松编辑和修改PDF文件。 软件链接:轻量&#xff…

代码随想录算法训练营第四十五天| 198.打家劫舍,213.打家劫舍II ,337.打家劫舍III

198. 打家劫舍 - 力扣&#xff08;LeetCode&#xff09; class Solution {public int rob(int[] nums) {int[] dp new int[nums.length];if(nums.length 1){return nums[0];}dp[0] nums[0];dp[1] Math.max(nums[0],nums[1]);for(int i2;i<nums.length;i){dp[i] Math.ma…

【服务器】磁盘满载--docker 的日志文件太大造成满载

一.背景 早上过来测试反馈服务器都宕机了,访问不了。一看服务器磁盘都已经满了。所以开始清磁盘数据。 二.解决 主要查看下面目录情况: /home/libe/docker /containers /volumes /overlay21.查看磁盘情况 df -h/ du -a|sort -rn|…

国密SSL证书提升网络安全

随着数字化时代的到来&#xff0c;网络安全已经成为全球关注的焦点。在这种背景下&#xff0c;SSL证书作为保护数据传输安全的重要工具&#xff0c;其重要性日益凸显。 数字证书产品有以下几种类别&#xff1a; 单域名SSL证书&#xff1a;为单一网站提供安全保护。 多域名SS…

ICMAN液位检测——WS003B管道检测模组

ICMAN液位检测之WS003B管道检测模组 体积小&#xff0c;成本低&#xff0c; 液位检测精度高&#xff0c; 有水输出低电平无水高电平&#xff0c; 适用于饮水机、咖啡机、扫地机器人、洗地机等&#xff0c; 有需要朋友快联系我吧&#xff01; AWE展会不容错过的ICMAN检测模组…

sheng的学习笔记-AI-高斯混合模型(GMM)

AI目录&#xff1a;sheng的学习笔记-AI目录-CSDN博客 sheng的学习笔记-AI-聚类(Clustering)-CSDN博客需要学习前置知识&#xff1a; 聚类&#xff0c;可参考 sheng的学习笔记-AI-聚类(Clustering)-CSDN博客 EM算法&#xff0c;可参考 sheng的学习笔记-AI-EM算法-CSDN博客 贝…

python编写的多个FastApi接口如何批量运行

fastapi编写接口并批量运行 为什么要写这fastapi接口以及拿它做什么呢&#xff1f; fastapi可以快速构建你自己的api&#xff0c;前端后端联调时&#xff0c;后端接口还有做好&#xff0c;那么这个fastapi可以快速生成mock一些数据。 结合uvicorn这个python库使用起来很方便 为…

【Python实战因果推断】1_因果效应异质性1

目录 From ATE to CATE Why Prediction Is Not the Answer CATE and ITE 本文将介绍应用于行业的因果推理中最有趣的发展&#xff1a;效应异质性。在此之前&#xff0c;你们了解的是一种治疗方法的一般影响。现在&#xff0c;你将专注于发现它如何对不同的人产生不同的影响。…

【漏洞复现】用友 UFIDA saveDoc.ajax 任意文件上传漏洞

免责声明&#xff1a; 本文内容旨在提供有关特定漏洞或安全漏洞的信息&#xff0c;以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步&#xff0c;并非出于任何恶意目的。阅读者应该明白&#xff0c;在利用本文提到的漏洞信息或进行相关测…

web前端大作业-乡村扶贫、乡村振兴

文章目录 代码分析页面截图代码连接 代码分析 代码结构 主页index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta…