【RAG】FoRAG:面向网络增强型长形式问答的事实性优化RAG

news2025/1/10 20:40:15

一、解决问题

在基于网络的长形式问答(Web-enhanced Long-form Question Answering, LFQA)任务中,现有RAG在生成答案时存在的问题:

  • 事实性不足:研究表明,现有系统生成的答案中只有大约一半的陈述能够完全得到检索到的参考资料的支持,这严重影响了这些系统的可信度。

  • 清晰逻辑的缺失:与短答案的传统问答任务不同,LFQA任务中理想的答案往往需要多方面组织和整合信息,但现有的开源方法在生成答案时往往缺乏清晰的逻辑结构。

二、提纲增强RAG

提出提纲增强RAG,以改善长形式问题回答 LFQA 中生成答案的结构和质量。

2.1 Outline-Enhanced Generator

现有的开源方法在生成答案时,通常是直接将检索到的内容与原始查询拼接,然后使用特定的提示模板(prompt template)输入到生成模型中。这种方法生成的答案往往较短,缺乏清晰的逻辑结构。为了提高答案的组织性,提出了 “Outline-Enhanced Generator”,它包含以下两个阶段:

  • Outline Stage(提纲阶段):

    在此阶段,生成器首先使用提纲模板,根据用户查询和上下文生成答案的提纲。提纲模板引导大型语言模型(LLM)考虑哪种组织模式最适合当前问题,例如“因果关系”或“比较对比”。然后,LLM根据选定的组织模式输出提纲,为后续的扩展阶段做准备。

  • Expansion Stage(扩展阶段):

    基于前一阶段生成的提纲,LLM扩展每个要点,构建最终答案。模型被要求在包含查询、上下文和提纲的输入下,生成对问题的答案。

注:提纲增强阶段的生成器有SFT训练得到。

2.2 Outline-Enhanced Long-Form QA Dataset

现有数据集和提纲增强答案的详细统计数据

为了支持 “Outline-Enhanced Generator” 的训练和评估,构建了两个大规模的提纲增强型LFQA数据集。这些数据集利用现有的WebCPM和WebGLM数据集的查询和相关段落,并通过GPT4模型应用提纲增强生成技术来收集提纲增强型答案。统计信息显示,使用提纲增强技术生成的答案比现有工作中的答案更长,其具有更强的逻辑结构。

对比(英文)

对比(中文)

2.3 提纲增强数据构建提示词

  • 英文提示词

  • 中文提示词

小结:通过引入提纲阶段来增强生成答案的逻辑结构,并通过扩展阶段来完善和详细化答案内容,从而提高了长形式问题回答的质量。

三、事实性优化RAG

传统的RLHF,优化事实性所面临困难如下:

  • 数据标注成本高:手动标注事实性标签通常成本很高,因为它涉及到比较长篇答案和对应长篇参考资料之间的事实细节。
  • 整体性奖励信号稀疏:标准RLHF使用整体性奖励,即只有在整个回答的最后一个token上才有非零奖励,这为生成模型的训练提供了稀疏的信号,在长篇回答中尤为明显。

因此,提出了一种新颖的事实性优化方法(Doubly Fine-grained RLHF),旨在解决网络增强型 LFQA 中的事实性问题。

3.1 Doubly Fine-grained RLHF

提出了一种新的事实性优化框架,通过在评估和奖励建模中采用细粒度的设计,有效地提高了长形式问题回答中生成答案的事实性,同时减少了对人工标注的依赖。

细粒度评估(Fine-grained Evaluation):
  • 整体性(Holistic):使用单一事实性评分评估整个答案。
  • 句子级别(Sentence-level):将答案分割成句子,并分别评估每个句子。
  • 子声明级别(Subclaim-level):进一步将每个句子分解为多个子声明,并对每个子声明单独评估事实性。
细粒度奖励建模(Fine-grained Reward Modeling):
  • Sequence-level:为每个序列学习单一的奖励,反映相应序列的事实性。
  • Token-level:为序列中的每个token学习奖励,通过聚合所有token级别的奖励来计算序列的奖励。
实现方法

不同粒度级别的自动评估和奖励建模的每种组合的训练损失

  • 奖励模型训练:使用Logloss或MSE损失函数来训练奖励模型,具体取决于评估过程中得到的是二元标签还是连续值奖励。

  • PPO优化:采用近端策略优化(Proximal Policy Optimization, PPO)来优化生成模型,通过最大化细粒度的奖励信号来改善模型性能。

四、实验结果

RAG和FoRAG对比

参考文献

paper:FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering,https://arxiv.org/abs/2406.13779

huggingface:https://huggingface.co/forag

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1876105.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

填报高考志愿时,学校、专业和城市怎么选择呢?

我的观点是: 专业>城市>学校 专业是兴趣导向,符合自己的价值观,失去了这种驱动力的专业学习,会变得非常艰难的,而且没有竞争力,所以我的排序第一位是专业。 其次是城市,最好是一线城市&…

vue3.0(十五)内置组件Teleport和Suspense

文章目录 一、Teleport1.基本用法2.禁用Teleport3.多个 Teleport 共享目标4.搭配组件 二、 Suspense1.什么是Suspense2.异步依赖3.加载中状态4.事件5.错误处理6.和其他组件结合注意 一、Teleport <Teleport> 是一个内置组件&#xff0c;它可以将一个组件内部的一部分模板…

java+mysql通讯录管理

完整代码地址如果控制台打印出现乱码&#xff0c;进行如下设置

stm32-hal库(5)--usart串口通信三种模式(主从通信)(关于通信失败和串口不断发送数据问题的解决)

问题&#xff1a; 最近发现&#xff0c;stm32cubemx最新版本f1系列的hal库&#xff08;1.85版本&#xff09;生成的hal库&#xff0c;其中stm32f1xx_hal_uart.c的库文件中&#xff0c;其串口发送接收存在一些问题&#xff1a; 1.没有使用 __HAL_LOCK 和 __HAL_UNLOCK 宏&…

LinkedIn被封原因和解封方法

对于初识领英和对领英生态规则不熟悉的人来说&#xff0c;很容易造成领英账号被封号(被限制登录)的情况&#xff0c;那么如何才能避免和解决领英帐号被封号(被限制登录)的难题呢&#xff1f; 领英帐号被封号或被限制登录主要会有两类情况。 首先要搞清楚&#xff0c; Linkedi…

谷歌邮箱被停用,开发者账号也要废了?还能申诉回来吗?怎么申诉?

相信不少开发者都遭遇过开发者账号的邮箱被暂停的情况&#xff0c;有时候明明什么也没做&#xff0c;就被突然被停用了&#xff1f; 面对这种情况&#xff0c;开发者们最担心的莫过于这是否会波及到他们使用该邮箱注册的开发者账号&#xff1f;APP还会正常审核吗&#xff1f;毕…

接口自动化测试关联token的方法?

引言&#xff1a; 在接口自动化测试中&#xff0c;有时候我们需要关联token来进行身份验证或权限管理。本文将从零开始&#xff0c;介绍如何详细且规范地实现接口自动化测试中token的关联。 步骤一&#xff1a;准备工作 在开始之前&#xff0c;我们需要确保以下准备工作已完成…

一文说明白,香港优才计划到底适合哪些人申请?

香港优才计划的热度仍然在持续&#xff0c;自取消配额限制以来&#xff0c;仅2023年一年时间&#xff0c;优才计划申请人数就超过8万&#xff0c;比历年累积的申请人数还要多。 之所以有如此高的热度&#xff0c;完全是因为优才的灵活性&#xff0c;为许多中产精英拿香港身份甚…

Ruoyi-前后端分离部署

目录 一. 环境准备 二. 安装Nginx 三. 安装Java 四. 安装MySQL、Redis 五. 配置打包环境 1. 配置前端打包环境 2. 配置后端打包环境 3. 获取代码 4. 前端代码打包 5. 后端项目打包 六. 项目上线 1.前端项目上线 2. 后端项目上线 一. 环境准备 项目官网&#xff1a…

LED封装技术中SMD、COB和GOB的优缺点

在小间距LED显示屏的封装技术中&#xff0c;SMD、COB和GOB各有其优缺点&#xff0c;以下是对这些技术的详细分析&#xff1a; SMD&#xff08;Surface Mounted Devices&#xff09;表贴工艺技术 SMD技术是将LED灯珠焊接在电路板上的一种成熟技术&#xff0c;广泛应用于LED显示屏…

如何高效安全的开展HPC数据传输,保护数据安全?

高性能计算&#xff08;HPC&#xff09;在多个行业和领域中都有广泛的应用&#xff0c;像科学研究机构、芯片IC设计企业、金融、生物制药、能源、航天航空等。HPC&#xff08;高性能计算&#xff09;环境中的数据传输是一个关键环节&#xff0c;它涉及到将数据快速、安全地在不…

Studying-代码随想录训练营day23| 39.组合总和、40.组合总和II、131.分割回文串

第23天&#xff0c;回溯part02&#xff0c;回溯两个题型组合&#xff0c;切割(ง •_•)ง&#x1f4aa; 目录 39.组合总和 40.组合总和II 131.分割回文串 总结 39.组合总和 文档讲解&#xff1a;代码随想录组合总和 视频讲解&#xff1a;手撕组合总和 题目&#xff1a;…

启智畅想:AI集装箱箱号识别系统,解决方案提供商

AI集装箱箱号识别系统 当前,智能卡口管理行业正处于快速发展的阶段。随着物联网、大数据、人工智能等技术的不断进步,智能卡口管理系统已经能够实现对集装箱运输的全程跟踪、监控和管理,大大提高了管理效率和安全性。然而,市场上现有的智能卡口管理系统仍然存在一些痛点问题,如…

【文档智能】DLAFormer:端到端的解决版式分析、阅读顺序方法

前言 前面文章介绍到&#xff0c;文档智能中版式分析(DLA)&#xff08;《【文档智能 & RAG】RAG增强之路&#xff1a;增强PDF解析并结构化技术路线方案及思路》&#xff09;、阅读顺序&#xff08;《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源…

Windows怎么实现虚拟IP

在做高可用架构时&#xff0c;往往需要用到虚拟IP&#xff0c;在linux上面有keepalived来实现虚拟ip的设置。在windows上面该怎么弄&#xff0c;keepalived好像也没有windows版本&#xff0c;我推荐一款浮动IP软件PanguVip&#xff0c;它可以实现windows上面虚拟ip的漂移。设置…

Feign 配置全局日志存入mongo

1、开启feign日志 在application.yml 添加配置 feign:client:config:default:loggerLevel: FULL2、日志实体类 Document(collection "feignLogs") Data public class FeignLog {Idprivate String id;private String method;private String url;private LocalDate…

智慧园区综合平台解决方案PPT(75页)

## 智慧园区的理解 ### 从园区1.0到园区4.0的演进 1. 园区1.0&#xff1a;以土地经营为主&#xff0c;成本驱动&#xff0c;提供基本服务。 2. 园区2.0&#xff1a;服务驱动&#xff0c;关注企业成长&#xff0c;提供增值服务。 3. 园区3.0&#xff1a;智慧型园区&#xff…

Spring Boot结合FFmpeg实现视频会议系统视频流处理与优化

在构建高效稳定的视频会议系统时,实时视频流的处理和优化是开发者面临的核心挑战之一。这不仅仅是简单的视频数据传输,更涉及到一系列复杂的技术问题,需要我们深入分析和有效解决。 高并发与实时性要求: 视频会议系统通常需要支持多人同时进行视频通话,这就意味着系统需要…

IP白名单及其作用解析

在网络安全领域&#xff0c;IP白名单是一项至关重要的策略&#xff0c;它允许特定的IP地址或地址范围访问网络资源&#xff0c;从而确保只有受信任的终端能够连接。下面&#xff0c;我们将深入探讨IP白名单的定义、作用以及实施时的关键考虑因素。 一、IP白名单的定义 IP白名单…

django admin添加自己的页面

建立模型 如果要单独建一个页面&#xff0c;用于展示model的数据&#xff0c;可以新建一个model&#xff0c;继承自要展示的那个类 class ViewsByDayModel(ViewsByDay): # 父类为要展示的model类class Meta:proxy True # 使用代理verbose_name 每日浏览次数统计verbose_nam…