day02论文学习:能够使大语言模型产生带有引用的文章

news2024/7/6 19:51:38

1.主题:Enabling Large Language Models to Generate Text with Citations(能够使大语言模型产生带有引用的文章)

引用出处: Gao, T., Yen, H., Yu, J., & Chen, D. (2023). Enabling Large Language Models to Generate Text with Citations. ArXiv, abs/2305.14627.

提示: 建议先看论文01,里面提到了 “生成带有引用的文本” 。

2. 摘要:

大型语言模型(LLMs)已经成为广泛使用的信息搜索工具,但它们生成的输出容易出现幻觉【1.前景】。在这项工作中,我们的目标是让LLMs生成带有引文的文本【2.目的】,提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估,这使得重新复制和比较不同的建模方法变得具有挑战性。我们提出了** ALCE【3.核心关键词,控制变量的关键】**,这是第一个用于自动LLMs引文评估的基准。ALCE收集了各种问题和检索语料库,并要求构建端到端系统来检索所支持的文档并生成带有引文的答案。【4.关键词作用】我们开发了沿着流畅性、正确性和引文质量三个维度的自动度量标准【5.评估方法】,并展示了它们与人类判断的强相关性。我们对最先进的LLMs和新颖的提示策略进行了实验,结果显示当前系统仍有很大改进空间——例如,在ELI5数据集上,即使是最好的模型也有50%的时间缺乏完整的引文支持。我们的分析进一步突显了有希望的未来方向,包括开发更好的检索器、推进长文本背景的LLMs,并改进从多个来源综合信息的能力。

总结: 该摘要提出了当今LLMs的优点与缺乏之处,虽能生成连贯的回答【流畅性足】,但这些回答有时会缺乏准确度和可信度。【正确性、引文质量不足】,故因此提出了ALCE这一概念,目的是利用ALCE的新基准测试,通过自动评估机制改进LLMs生成文本的正确性和可验证性,进而提升模型的输出质量。【摘要主要是讲述了ALCE的作用】

ALCE的作用: ALCE能够收集多样化的问题和检索语料库,需要构建从头到尾的系统来检索支持证据并生成带有引用的答案。能够自动评估LLMs生成的带有引用的文本。这个基准的主要目标是提高模型在生成文本时的事实正确性和可验证性。
评估方法: 开发了三个维度的自动度量方法—流畅性、正确性和引用质量,并证明了这些度量与人类评价的强相关性。
实验和发现: 通过对最先进的LLMs和新颖的提示策略进行实验,显示了当前系统在正确性和引用质量方面有很大的改进空间。例如,即使是最好的模型在ELI5数据集上也有50%的生成物缺乏完整的引用支持。【因此控制变量进行论证】

ALCE的任务设置:给定一个问题,系统在提供大型检索语料库中的引用段落的同时生成文本,每个陈述可能包含多个引用

3.Introduction(引言部分)

数据集

"大型语言模型(LLMs; Brown等,2020年;OpenAI, 2023年)已经越来越受到欢迎作为信息搜索工具。虽然它们生成引人入胜且连贯的回答,但它们的输出容易产生幻觉,通常包含事实上不正确的信息(Ji等,2023年)。这使得用户更难相信和验证没有支持证据的LLM生成的输出**【没有引文的坏处】。在这项工作中,我们研究了一种新一代的LLMs生成范式,其中我们要求LLMs"提供引文指向一个或数个文本段落以支撑其生成的任何陈述(见图1)。加入引文带来几项好处:(1)用户可以轻松通过提供的引文验证大型语言模型的声明;(2)大型语言模型可以生成忠实于引用段落的文本,这有望提高正确性并减轻幻觉【引文的好处】。多个商业系统已采用了这一模式:Bing Chat2和perplexity.ai3用自然语言回答用户问题,并附带网络页面的引用。中野等人(2021年);Menick等人(2022年)有相似的动机,但他们主要使用商业搜索引擎和闭源模型进行实验,使得难以评估他们的结果。引用增强的语言模型(Borgeaud等人,2022年;Izacard等人,2022年)在训练和推理过程中都包含检索到的段落,但不能保证对检索到的段落的忠实性,也未明确提供引文。此外,以往的研究大多依赖人类评价(中野等人,2021年;Menick等人,2022年;Liu等人,2023年),这既昂贵又难以复制。我们认为缺乏自动化评估阻碍了这类系统的进步【缺乏自动化评估】**。

我们提出ALCE,这是第一个可复现的基准,用于自动评估有引文支持的LLM生成物。ALCE假设出一个自然语言问题和一个检索语料库,并需要构建端到端系统来从语料库中检索相关段落,生成问题的响应,并引用相应的支持段落**【ALCE的作用】。我们编译了三个数据集,涵盖不同类型的问题和语料库——ASQA(Stelmakh等,2022),QAMPARI(Ru-bin等,2022)和ELI5(Fan等,2019)——如表1所示。与先前的基准(Lee等,2019;Bohnet等,2022)不同,ALCE评估长文本生成,侧重于自动评估引文质量,并允许为个别陈述引用多个段落。我们设计了三个维度的自动评估方法:流畅度、正确性和引文质量【评估表现】**。具体地,我们使用MAUVE(Pillutla等,2021)来衡量流畅度,为每个数据集提出量身定制的正确性指标,并采用自然语言推理(NLI)模型(Honovich等,2022)来衡量引文质量。我们展示了这三个维度如何共同促成稳健评估,防止系统利用捷径。此外,我们进行了人类评估,并展示了与我们自动评估指标的强相关性。

我们在多个具有最先进LLM和检索器的系统上进行实验,并提出了新颖的提示策略,将检索到的文本合成为文本生成物。尽管所有系统都能提供流畅和连贯的响应,但在正确性和引文质量方面仍有大幅改进的空间**【正确性和引文质量是本文的证明之处】**:例如,在ELI5数据集上,我们的ChatGPT和GPT-4基线约有50%的生成物并未得到完全支持。此外,我们发现(1)采用闭书模型(在不访问任何检索文档的情况下生成答案)并进行事后引用可以获得良好的正确性,但引文质量较差;(2)尽管交互式检索方法(Yao等,2023;Schick等,2023)在何时/检索什么方面提供了更多灵活性,但并不提高在这一具有挑战性的基准上的性能;(3)在更短的文本中总结检索到的段落可以提高正确性,但不能提高引文质量;(4)重新排列多个生成物可提高人类评估测量的引文质量;(5)在上下文中加入更多检索段落对ChatGPT没有帮助,但提高了GPT-4的性能

我们的深入分析突出了构建LLM以生成具有引文的文本面临的三个主要挑战:
(1)检索质量对最终性能至关重要,并有很大的改进空间;
(2)LLM的有限上下文窗口限制了它们可以整合的段落数量;
(3)当前的LLM在上下文中综合多个文档时很难避免被无关文档分散注意力,尽管更好的指导调整会带来显著改进。这些挑战为开发更好地整合检索和LLM的系统提供了有前途的研究方向。

** 总结:** 讲述了LLMs的普及和它存在的问题,以及新的LLMs生成范式。【进一步论述了当前LLMs所存在的问题,以及解决这个问题所采取新方法的必要性】

** LLMs的普及和问题:** 虽然LLMs能生成引人入胜和连贯的回答,但它们的输出倾向于包含不准确的信息,这使得用户难以信任和验证LLM生成的输出。
** 新的生成范式:** 研究一种新的LLMs生成范式,在这种范式中,要求LLMs为它们生成的任何声明提供一到几个文本段落的引用。引入引用带来了几个好处:用户可以轻易验证LLM的声明;LLMs可以生成忠实于引用段落的文本,这有望提高正确性并减轻幻觉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1833311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#特性-CallerMemberName、CallerFilePath和CallerLineNumber的介绍和应用

介绍 在csharp中,CallerMemberName, CallerFilePath, 和 CallerLineNumber 是编译时常量,它们是csharp 5.0引入的特性,用于提供有关调用堆栈的信息,通常用于日志记录和调试。这些特性可以自动填充方法的参数,无需显式…

你必须知道的Linux基础知识(一)

Linux简介 类 Unix 系统 Linux 是一种自由、开放源码的类似 Unix 的操作系统 Linux 本质是指 Linux 内核 Linux 这个词本身只表示 Linux 内核,单独的 Linux 内核并不能成为一个可以正常工作的操作系统,所以Linux 出现了各种发行版。 Linux 之父 (林纳斯本纳第…

【系统架构设计师】一、计算机系统基础知识(指令系统|存储系统|输入输出技术|总线结构)

目录 一、指令系统 1.1 计算机指令 1.2 指令寻址方式 1.3 CISC 与 RISC 1.4 指令流水线 二、存储系统 2.1 分级存储体系 2.2 地址映射 2.3 替换算法 2.4 磁盘 2.4.1 磁盘结构和参数 2.4.2 磁盘调度算法 三、输入输出技术 四、总线结构 五、考试真题练习 一、指令…

-------------------------面试散文-----------------------------------

问题1:vue中动态引入图片,为什么使用require? 回答:因为动态添加的src 编译过后的文件地址和被编译过后的资源文件地址不一致,从而导致无法访问题 而使用require 返回的就是资源文件被编译后的文件地址,从…

Linux 按键输入实验

Linux 按键输入实验 1、添加 pinctrl 节点 首先修改在设备树里面添加关于按键的节点。I.MX6U-ALPHA 开发板上的 KEY 使用了 UART1_CTS_B 这个 PIN,打开 imx6ull-alientekemmc.dts,在 iomuxc 节点的 imx6ul-evk 子节点下创建一个名为“pinctrl_key”的子…

OSPF 动态路由协议(思科、华为)

#交换设备 OSPF 动态路由协议 一、基本概念 1.中文翻译:开放式最短路径优先路由协议(open shortest path first),是一个内部网关路由协议(一个自治系统内)2.也称为:链路状态路由协议&#xf…

CAD二次开发(9)- CAD中对象的实时选择

1. 点的拾取 有时候我们需要在CAD画布上实时选取起始点和结束点,然后绘制出来一条直线。实现如下: public void getPoint(){var doc Application.DocumentManager.MdiActiveDocument;var editor doc.Editor;var docDatabase doc.Database;PromptPoi…

Spring Cloud Alibaba Nacos持久化配置

所谓的持久化就是将Nacos配置持久化存储到数据库里面,在0.7版本之前,在单机模式时nacos使用嵌入式数据库实现数据的存储,不方便观察数据存储的基本情况。0.7版本增加了支持mysql数据源能力。 ① 找到并执行sql脚本 这里路径为:n…

摄影构图:人像摄影和风景摄影的一些建议

写在前面 博文内容涉及摄影中人像摄影和风景摄影的简单介绍《高品质摄影全流程解析》 读书笔记整理理解不足小伙伴帮忙指正 😃 生活加油 不必太纠结于当下,也不必太忧虑未来,当你经历过一些事情的时候,眼前的风景已经和从前不一样…

SpringBootWeb 篇-入门了解 Apache POI 使用方法

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Apache POI 概述 2.0 使用 Apache POI 读写 Excel 文件 2.1 写入 Excel 文件 2.2 写入 Excel 文件代码演示 2.3 读取 Excel 文件 2.4 读取 Excel 文件代码演示 1.…

胡说八道(24.6.9)——离散时间系统及simulink仿真

上回说道拉普拉斯变换的定义、性质以及在电路分析中的应用。今天先来谈谈simulink仿真,可为是让我非常的震惊,今天做了三种模型的应用。第一个是simulink中有限状态机的应用,用来解决一些复杂的逻辑问题,实现状态之间的转换。第一…

市场情绪周期2024-6-17(补涨回头潮视角验证)

竞价隔夜单 看长江通信,38亿涨到40亿又回落,那么周末最大的利好消息加持下,隔夜单不及预期,金溢科技 更是如此;空间板华闻集团8天7板,连扳5板,一字跌停,它也是有车联网的&#xff0c…

2V升6V升压恒流WT7012

2V升6V升压恒流WT7012 今天给大家介绍一款能驱动多达7串白光LED的升压转换器WT7012。 WT7012升压恒流应用:2V升6V升9V升12V恒流驱动。其通过外部电流检测电阻,采用电流控制模式以及固定的工作频率来控制LED电流,较低的反馈电压使得电流检测电…

Windows系统下制作Windows Server系统U盘启动及安装指导

Windows系统下制作Windows Server系统U盘启动及安装指导 一、准备工作 U盘不得小于8G(推荐使用usb3.0接口);下载好对应的系统镜像;下载RUFUS或者软通碟U盘制作启动软件; 二、Windows操作系统下制作U盘启动(这里以使用RUFUS软件…

Spring和SpringBoot(概述与功能)

目录 一、SpringBoot 概念 (1)基本介绍 (2)部分注解 (3)其它介绍 ​编辑 二、 Spring 缺点 (1)配置繁琐 (2)依赖繁琐 三、SpringBoot 功能&#xff0…

常见的Redis使用问题及解决方案

目录 1. 缓存穿透 1.1 解决方案 2. 缓存击穿 2.1 解决方案 3. 缓存雪崩 3.1 概念图及问题描述 ​编辑3.2 解决方案 4. 分布式锁 4.1 概念 4.2 基于redis来实现分布式锁 4.3 用idea来操作一遍redis分布式锁 4.4 分布式上锁的情况下,锁释放了服务器b中的锁…

教育培训系统(FastAdmin+ThinkPHP+Unipp)

引领学习新风尚 📚 引言:教育新篇章 随着科技的不断发展,教育形式也在不断创新与变革。教育培训系统作为这一变革的重要载体,正逐渐改变着我们的学习方式。今天,就让我们一起探索教育培训系统的魅力,看看它…

[ARM-2D 专题]3. ##运算符

C语言的宏系统相当强大,它允许使用##符号来处理预处理期的文本替换。这种用法被称为标记连接(token pasting)操作,其结果是将两个标记紧紧地连接在一起,而省略掉它们之间的所有空格。在复杂的宏定义中,运用…

部分CVE复现Web(1)

Apache HTTP Server 路径穿越漏洞CVE-2021-41773 ​ 首先,先来看一下这个漏洞的官方描述: ​ CVE-2021-41773 是在 Apache HTTP Server 2.4.49 中对路径规范化所做的更改中发现了一个缺陷。攻击者可以使用路径遍历攻击将 URL 映射到预期文档根目录之外的…