斯坦福| ChatGPT用于生成式搜索引擎的可行性

news2024/12/26 21:48:20

3ae07ee5070ae9bbca715b1a76624e93.png

文|智商掉了一地

随着 ChatGPT 在文本生成领域迈出了重要一步,Bing 浏览器也接入了聊天机器人功能,因此如何保证 Bing Chat 等搜索引擎结果的精确率和真实性也成为了搜索领域的热门话题之一。

当我们使用搜索引擎时,往往希望搜索结果能够真实准确地反映我们的需求。然而,由于搜索引擎的信息庞杂和繁复架构,可能会存在一些错误和欺骗性的信息。这不仅影响到我们获取信息的质量,也会影响到我们对搜索引擎的信任和使用。

值得信赖的生成式搜索引擎的一个先决条件是可验证性,即系统应该引用全面且准确

近日斯坦福大学的一项新研究提供了方法,即评估生成式搜索引擎的可验证性。这意味着评估搜索引擎算法和模型的质量,能检验搜索结果的真实性和精确率,并且也能进一步推动搜索引擎的透明度和可信度。咱们一起来看看这项研究,希望可以让打开这篇文章的你了解一些关于生成式搜索引擎评估的细节,并激发对这一方向未来发展的思考与探索。

论文题目
Evaluating Verifiability in Generative Search Engines

论文链接
https://arxiv.org/abs/2304.09848

代码地址
https://github.com/nelson-liu/evaluating-verifiability-in-generative-search-engines


生成式搜索的可验证性探索

一个可信赖的生成式搜索引擎所必须具备的先决条件就是可验证性。也就是说,有关外部世界的每个生成回复都应该得到一组在线引用的充分支持,同时每个提供的引用都应支持其相关的回复。通过可验证性,读者能够轻易检查任何生成的回复能否得到其所引用的来源的支持。

作者使用人工评估,对四个流行的商业化生成式搜索引擎针对不同类型查询进行了比较。对于每个查询-回复对,利用人工评估来衡量各种方面的维度:

  • 流畅性(生成的文本是否流畅和连贯);

  • 感知效用(经济学术语,用户主观感受到的满意程度,即回复是否对问题有帮助和信息量丰富的答案,在后文中为了便于理解,将用实用性来替代该词汇);

  • 引用召回率(关于外部世界的生成的回复中,被其引用完全支持的比例);

  • 引用精确率(生成的引用支持其关联回复的比例)。

对于来自 NaturalQuestions(自然问题)的各种历史谷歌用户查询,以及来自 Reddit 的动态、开放式问题,回复详情如表 1 中的示例,其中查询来自不同来源,需要从不同答案类型中获取知识。

73bd7e1da55726b94dc66be65fc9f3c7.png
▲表1 每个评估查询分布的示例查询

由此,一个可信赖的生成式搜索引擎应该实现高引用召回率和精确率,表明其所生成的引用是全面(每个生成的回复都由引用完全支持)和正确的(每个引用都支持其关联的回复)。

而针对前面所述的四个评估维度,现有的生成式搜索引擎回复通常具有高流畅性和实用性,但经常包含不支持的回复或不准确的引用(不满足召回率和精确率要求),甚至与高流畅性和实用性呈负相关。例如在图 1 中,对 James Webb 太空望远镜知之甚少的用户可能很难辨别生成的回答中哪些陈述没有得到外部可信来源的支持,也表明了并非所有生成的回复都得到引用的完全支持(引用召回率),也不是每个引用都支持其相关回复(引用精确率)

fd43b4962471eba038ad257e74d8d6ad.png
▲图1 生成式搜索引擎通过生成定制化的回复和在线引用来回答用户的查询

由此,为了便于进一步开发可信生成式搜索引擎的工作,作者发布了人工评估注释。

流畅性、实用性和真实性的人工评估

首先给定用户查询  作为输入,生成式搜索引擎生成一个文本回复(嵌入在线引用的字符串) 。为了评估引用的精确率和召回率,先将  分割为一组  个陈述的集合 ,对于其中每个语句  构造一个(可能为空的)集合 ,其中  是与第个回复语句相关联的第个引用。对于每个引用 ,都有一个URL  和其内容 。

衡量流畅性与实用性

通过给出用户查询、生成的回复以及“回复流畅且连贯”的陈述,来让注释者使用五分制 Likert 量表从“强烈反对”到“强烈同意”来评估回复流畅程度的方法,同时通过类似的流程来衡量实用性,评估回复被认为是“对查询有帮助和信息量充足的答案”的程度。

衡量引用召回率

引用召回率是指相关引用完全支持的可验证陈述的比例(图 2 中有具体示例)。因此,计算引用召回需要:

  1. 确定回复中可验证的陈述;

  2. 评估每一个可验证的陈述是否完全得到其相关引用的支持。

be1799d1f9d74652f3c6d0706e32be73.png
▲图2 如何计算引用召回率和精确率的模式化示例

衡量引用精确率

引用精确率通过评估生成的引用对于相关陈述提供的支持程度(包括完全支持、部分支持和不支持)来衡量其精确率(参见图 2)。同时考虑到相关引用网页的并集是否能够完全支持相关陈述,旨在聚合多个引用中的信息。

引用 F1

结合引用精确率和召回率指标,通过计算他们的调和平均值得到引用 :

引用精确率引用召回率引用精确率引用召回率

评估设置

评估生成式搜索引擎

本文对四个商用生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat)进行了评估,它们都是基于大型语言模型和输入查询及检索内容生成回复。同时,这些搜索引擎的放弃率不同(如表 2 所示),对比它们的表现存在一定难度,人们可能会认为弃权率较高的系统也具有更高的评估性能,因为它们可以简单地避免生成对困难查询的回复,实践中则不然。

9d2306376f5ffd3c1c1c871f8ffd200c.png
▲表2 生成式搜索引擎可以被设计部署于不同的上下文中

评估查询分布

这里研究了现有商业生成式搜索引擎的优缺点,并评估了这些引擎对来自各种来源的查询(例如谷歌用户查询、Reddit 开放式问题与查询)的回答能力,包括短文本、长段落、列表或表格等多种答案类型。使用了1450个不同主题的随机查询,其中包括 AllSouls、davinci-debate、ELI5 (KILT)、ELI5 (Live) 和 WikiHowKeywords 等来源的 150 个查询,以及七个 NaturalQuestions 子分类中的每个分类下的 100 个查询。

在这 12 个查询分布上评估现有的生成式搜索引擎,这些多样化的场景提供了广泛的覆盖范围,涵盖了几个潜在的使用案例和信息需求,帮助我们全面了解系统的优缺点。

人类评估方案

这一部分介绍了对查询-回复对注释的过程,注释人员要完成三个步骤来评估回复的质量。

  1. 首先,评估回复的流畅性和实用性;

  2. 其次,筛选不可验证的陈述;

  3. 最后,评估可验证的回复及其相关的系统生成引用。

注释人员使用亚马逊众包平台进行注释,需要注释的数据集里共包含 1450 个查询。每个查询-回复对只被注释一次。同时,使用三种评判方式对于 250 个随机抽样的查询-回复对进行比较,计算得到较高的一致性水平。

实验结果与分析

作者发现,不同的生成式搜索引擎在流畅性和实用性方面普遍较高,而引用召回率和精确率相当低,尽管系统和查询分布的表现肯定有所不同。当与流畅度和高实用性带来的可信度相结合时,增加了现有生成式子搜索引擎误导用户的可能性。我们的结果还表明,现有生成式搜索引擎的引用召回率和精确率与流畅性和实用性呈负相关,我们假设这是系统倾向于从引用的网页复制或近似引用文本的副产品,这增加了引用精确率和召回率,同时降低了流畅性和实用性。

对于流畅性和实用性,现有的生成式搜索引擎可以生成流畅的文本,且回复似乎是信息丰富且有用的:

  • 生成的回复很流畅,看起来很有帮助;

  • 比较生成式搜索引擎的流畅性和实用性,在聚合所有回应进行比较,发现 Bing Chat 得分最低,其次是 NeevaAI、perplexity.ai 和 YouChat;

  • 对多个查询分布进行流畅度比较,发现自然问题查询和非自然问题查询,在回答长度较长的情况下,平均流畅度评分相似;而在自然问题查询中,对于回答长度较短的查询,生成的回复通常更加流畅。然而,对于那些只有长答案或没有长答案的自然问题查询,由于涉及到在表格单元格或检索来源之间聚合信息的复杂计算,生成的回复可能会变得僵硬而降低整体的流畅度,这是一个显著的离群值分布;

  • 随着查询需要回答更多信息和提取答案变得更加困难,实用性会下降。

对于引用召回率和精确率,对于评估结果分析如下:

  • 现有的生成式搜索引擎往往不能全面或正确地引用,实验结果表明,所有系统中仅有 51.5% 的生成回复完全支持引用(召回率),同时仅有 74.5% 的引用完全支持其关联回复(精确率)。考虑到这些搜索引擎已经拥有数百万用户,尤其是考虑到生成的回答通常看起来富有信息且实用的情况下,认为这些结果是无法接受的;

  • 不同的生成式搜索引擎在引用召回率和精确率方面存在显著差异,平均而言,perplexity.ai 的平均召回率最高,而 Bing Chat 的精确率最高;

  • 修改评估查询分布对引用召回率的影响大于精确率,这是由检索网页的相关性所驱动的,当生成不受引用支持的回复时,会导致召回率降低

  • 比较了不同查询分布下的引用精确率,在自然问题查询中长答案的精确率更高,生成式搜索引擎在具有段落答案类型的自然问题查询中精确率最高,而在 AllSouls 开放式试卷问题和 davinci-debate 查询中,引用精确率最低。

总之,由于所有系统的流畅性通常都很高,因此不比较该属性,在人类评估环节中,Bing Chat 的平均引用 F1 最高,超过 70%,图 3 绘制了平均实用性与平均引用 F1 的对比图,不同的系统在实用性和引用 F1 之间做出了不同的权衡

90e82e279b94ea2fca119a162353d990.png
▲图3 平均实用性与平均引用 F1 对比图

生成式搜索引擎中引用召回率和精确率与流畅性和实用性呈负相关关系,如图 4 示例所示,这种现象的原因是生成的回答往往是从引用文献中改写或复制得到的,虽然能够保证引用精确率,但通常不符合用户的输入查询,导致内在流畅性和实用性变低。此外,更高自由度生成的系统会偏离引用内容,导致生成的精确率和召回率降低,但这些系统生成的回复更能够回答输入查询,内在流畅性和实用性得到提升。这种权衡在包含开放式论文题目的 AllSouls 查询分布中尤其明显。传统搜索引擎的结果应用引用从文章中提取的方式获得的结果虽然能够保证引用精确率,但通常不符合用户的输入查询,导致内在流畅性和实用性变低。作者认为引用召回率和精确率与流畅度和实用性并非根本上负相关,这只是现有生成式搜索引擎的一种实证观察。特别地,我们完全相信未来可以将两者的优点结合起来,构建出既流畅又实用的生成式搜索引擎,同时也有着可靠的引用

490d36f18809e13f4d27cf53c796b116.png
▲图4 负相关关系示例

最后,通过比较生成语句与支持引用网页之间的相似性来计算其精确率。实验结果表明,当生成语句与引用网页之间的相似性更高时,相应的系统具有更高的平均引用精确率。此外,注释者能够找到对于至少由一个相关语句完全或部分支持的语句的 99.5% 的可提取证据,这意味着引用网页可以帮助生成式搜索引擎提高其精确率

思考与讨论

  • 从互联网检索信息时,抽取信息的效果出乎意料的好。即使是那些可能需要多个来源的抽象推理的信息查询,从互联网网页中提取信息也证明非常有效。

  • 然而,如果查询在互联网上没有明确的可抽取答案,生成式搜索引擎则很难进行回答,这是未来研究的一个重要方向。

  • 此外,现有的生成式搜索引擎可能在内容选择方面存在困难,很难识别和权衡来源的可靠性和相关性。

小结

这项研究指出了现有的生成式搜索引擎存在的问题,包括不支持的回复和不准确引用,这对于搜索引擎行业的发展具有重要意义,一经发布便在推特引起广泛讨论。它致力于推动生成式搜索引擎来创造更加可靠的结果,帮助研究人员和用户更好地了解该技术的现有问题,有助于提高搜索引擎的质量,增强用户对搜索引擎的信任,从而提高生成式搜索引擎的市场竞争力,加快社会的发展与进步。

我们也相信,未来将会有更加先进的生成式搜索引擎技术涌现,可以完美结合引用召回率和精确率、流畅度和实用性的优点,使得搜索引擎的回答更加精准和流畅,同时也保障了可靠的引用,能够进一步提高搜索引擎的可信度和可用性。这将是一个令人振奋的探索前景,我们也期待着这些技术的到来,让搜索引擎的发展更上一层楼,更好地服务于人类社会的发展。

adddae8c3e20f63ce7d32db9381a8f56.png

卖萌屋作者:智商掉了一地

北理工计算机硕士在读,近期沉迷于跟 ChatGPT 唠嗑,对一切新颖的 NLP 应用充满好奇,正在努力成为兴趣广泛的斜杠青年~

作品推荐

  1. 我是粉红猪佩奇,我要把粉色吹风机写进 IJCAI 论文!

  2. AI取代人类,可以自动生成prompt了

  3. ICLR 2023 最高分论文被锤抄袭??

  4. AI讲话总爱“结巴”?这篇NeurIPS论文找到了病因,结巴率已接近人类!

  5. 如何提升大规模Transformer的训练效果?Primer给出答案

  6. Yoshua Bengio:我的一生

feef0f026d518de3168f49ad0708b2f6.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/458708.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

教你如何进行DNS域名解析

目录 一:DNS系统介绍 1.DNS服务概述 2.DNS域名空间介绍 3.DNS 域名结构 4.DNS解析方式 5.DNS查询方式 (1)递归查询 (2)迭代查询 6.DNS服务器类型: (1)主域名服务器 (2)从域名服务器 (3)缓存域名服务器 (4)…

Android进阶宝典 -- 解读Handler机制核心源码,让ANR无处可藏

其实ANR核心本质就是让UI线程(主线程)等了太久,导致系统判定在主线程做了耗时操作导致ANR。当我们执行任何一个任务的时候,在Framework底层是通过消息机制来维护任务的分发,从下面这个日志可以看到, "…

thrift、go与php

学习一下thrift。 环境 mac m1,go 1.20,php 7.4,thrift 0.18.1 要学习thrift,第一步得先安装 $ brew install thrift学习的计划是用go作为server,php作为client,通过thrift的方式完成一次请求demo。 建…

Java语言的特点和八大基本类型

“byte和short两兄弟去找int问long去哪了” “int摇摇头说不知道” “此时float和double两兄弟也来凑热闹” “共同商议后决定去找char询问” “char面对五人的询问只好说boolean知道” “六人来到boolean的住处发现long竟然在玩猜真假游戏” Java语言的特点 1.简单易学…

个性化学习路径推荐综述

源自:软件学报 作者:云岳 代欢 张育培 尚学群 李战怀 摘 要 近年来, 伴随着现代信息技术的迅猛发展, 以人工智能为代表的新兴技术在教育领域得到了广泛应用, 引发了学习理念和方式的深刻变革. 在这种大背景下, 在线学习超越了时空的限制,…

2023年电信推出新套餐:月租19元=135G流量+长期套餐+无合约期!

在三大运营商推出的流量卡当中,电信可以说是性价比最高的一个,相对于其他两家运营商,完全符合我们低月租,大流量的要求,所以,今天小编介绍的还是电信流量卡。 在这里说一下,小编推荐的卡都是免…

教你怎样用PXE高效的批量网络装机

目录 一:PXE介绍 1.XPE概述 2.PXE批量部署的优点 3.搭建PXE各部作用 (1)PXE(Preboot eXcution Environment) (2)服务端 (3)客户端 二:部署PXE服务 1.安装并启用TFTP服务 2.安…

Tiktok/抖音旋转验证码

声明 本文以教学为基准、本文提供的可操作性不得用于任何商业用途和违法违规场景。 本人对任何原因在使用本人中提供的代码和策略时可能对用户自己或他人造成的任何形式的损失和伤害不承担责任。 如有侵权,请联系我进行删除。 抖音系的旋转验证码,跟得物一样,都是内外圈一起…

blast的-max_target_seqs?

Shah, N., Nute, M.G., Warnow, T., and Pop, M. (2018). Misunderstood parameter of NCBI BLAST impacts the correctness of bioinformatics workflows. Bioinformatics. 杂志Bioinformatics以letter to the editor的形式刊发了来自美国马里兰大学计算机系的Nidhi Shah等人…

基于html+css的图展示42

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

安卓设备远程管理软件

现在,安卓设备广泛应用于各类智能硬件,有时候我们需要远程管理这些安卓设备。远程管理软件使 IT 管理员能够从任何地方控制和管理安卓设备,确保它们安全、最新并以最佳水平运行。在本文中,我们将介绍一些当前主流的安卓设备远程管…

Automa函数学习(三)

从变量中获取数据 当我们想要用automa获取文本标签获取到网页的文本内容后,想要将获取到的文本内容当做参数往后面的标签里进行传递时就需要用到automa提供的传参格式 {{ variables.自定义参数名}} 举例: 先建立打开百度首页工作流 前面自定义的变量名为text,所以这里参数拼接…

云计算的未来发展趋势与优势,你是否了解?

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一、企业痛点 1.企业信息技术应用痛点 二、云计算的基础概念 1.什么是云计…

纯享三代HiFi reads,至美细菌完成图,加送质粒基因组!

三代测序时代,PacBio High-Fidelity reads在基因组组装中大放异彩。HiFi测序模式可产生既兼顾长读长,又具有高精度的测序结果。凌恩生物HiFi细菌基因组完成图测序,即利用PacBio HiFi测序模式对某细菌物种进行基因组de novo组装,从…

安科瑞充电方案解决电瓶车充电难、管理难、收费难问题

安科瑞 徐浩竣 江苏安科瑞电器制造有限公司 zx acrelxhj 0引言 电动自行车已经成为重要的出行工具,数量肯定还会继续增长,各级政府部门和物业管理者已经对其带来的消防隐患引起高度重视。安科瑞电动自行车运营管理云平台通过充电桩、云平台、APP小程…

Spring框架及源码(二)---Spring IoC高级应用与源码剖析

Spring IOC 应用 第1节 Spring IoC基础 Spring框架下IOC实现,解析bean的几种方式 1.1 BeanFactory与ApplicationContext区别 BeanFactory是Spring框架中IoC容器的顶层接⼝,它只是⽤来定义⼀些基础功能,定义⼀些基础规范,⽽ ApplicationContext是它的⼀个⼦接⼝&a…

Testudo:Spartan + Groth16 的R1CS ZKP证明系统

1. 引言 前序博客有: Spartan: zkSNARKS without trusted setup学习笔记Spartan: zkSNARKS without trusted setup 源代码解析Signatures of Correct Computation 学习笔记(本文称为PST承诺方案)Groth16 学习笔记ZCash bellman版本 Groth16…

Spring Boot的日志文件

目录 日志的作用 日志的打印 常见的日志框架 自定义的日志打印 为什么不用sout来打印日志 Spring Boot日志打印 1.得到日志对象 2.使用日志对象提供的方法打印日志 日志级别 日志级别的顺序 日志级别的设置 日志持久化 配置日志文件的保存路径 配置日志文件的文件…

学习spark笔记

✨ 学习 Spark 和 Scala 一 ​ 🐦Spark 算子 spark常用算子详解(小部分算子使用效果与描述不同) Spark常用的算子以及Scala函数总结 Spark常用Transformations算子(二) Transformation 算子(懒算子):不会提交spark作业&#…

AWT——事件处理机制

事件处理: 定义: 当某个组件上发生某些操作的时候,会自动地触发一段代码的执行 在GUI事件处理机制中涉及到4个重要的概念需要理解。 事件源:操作发生的场所,通常指某个组件,例如按钮、窗口等 事件&…