FaaF:利用事实作为评估RAG的函数方法

news2025/1/16 17:50:46

原文地址:faaf-facts-as-a-function-for-evaluating-rag

2024 年 4 月 5 日

在某些情况下,我们使用其他语言模型来验证RAG的输出结果,但这种方法并未能有效识别出数据生成过程中的错误和缺失。

论文解析

挑战

  • 评估的可靠性和效率:如何可靠和高效地评估RAG系统的事实回忆是一个主要挑战。传统的评估方法依赖于人工评估或者与参考文本的精确匹配,这些方法在处理大量数据或不完整信息时可能不够有效或准确。
  • 信息的完整性和准确性:在面对不完整或不准确的生成文本时,如何准确地验证事实陈述成为一个问题。传统的基于提示的语言模型评估者可能无法有效地处理这种情况。
  • 成本和资源消耗:现有的事实验证方法可能需要大量的计算资源和时间,特别是当需要验证的文本中包含多个事实陈述时。
  • 系统的复杂性:RAG系统包含多个组件,如知识库、检索机制、提示构建和语言模型等,这些组件需要精细的调整才能达到最佳性能。因此,评估方法需要考虑到这些组件之间的相互作用。

相关工作

RAG系统评估框架
  • RAGAS:Es等人提出了一个评估RAG系统性能的框架,该框架专注于检索和生成的性能,但不包括对事实准确性的评估。作者认为,事实准确性是RAG系统评估中的关键指标,因此需要更全面的方法。
事实验证方法
  • Min等人:通过使用不同的提示来直接验证从LM生成的文本中提取的单个事实,并与人工评估进行比较,发现在能够检索到事实的情况下,错误率较低。
  • Zhang等人:提出了一种自我测量事实性的方法,通过少量样本提示和与问题相关的生成事实相结合。这种方法虽然依赖于知识库中的事实,但其有效性受限于知识库的范围和检索质量。
  • Li等人:指出LM在使用标准提示策略时难以识别非事实信息,并报告了使用“思维链”(Chain of Thought, CoT)策略可以提高性能。
  • Azaria和Mitchell:发现仅通过提示进行事实验证是不足够的,并提出训练一个分类器来预测生成语句的真实性。但是,由于当前的商业模型(如GPT-4)缺乏对隐藏层激活的访问,因此需要替代方法。
自我评估和自动化评估
  • Fu等人:基于使用令牌概率的概念,引入了一个自我评估框架,通过少量样本提示来评估LM响应的多个方面,如事实性、流畅性等。
  • Manakul等人:提出了SelfCheckGPT,通过统计分析对同一提示的多个响应来自动检测LM输出中的事实错误,无需外部知识源。这种方法表明,生成响应的概率分布可以指示其真实性。
  • Aly等人:使用RoBERTa编码器和线性层来学习和预测给定文本证据的事实标签。
  • Wang等人:描述了一种方法,其中LM被直接提示对答案的特定方面进行评分,例如从0到100的评分或5星评级,取得了显著的成果,但这种方法的有效性高度依赖于提示的设计。
事实准确性的研究
  • Zhang等人:尝试使用参考答案(BertScore)进行灵活的自我评估,通过上下文化嵌入计算生成和参考句子之间的相似性分数。这种方法不依赖于生成和参考文本之间的精确匹配,但在信息不是上下文化和明确的情况下(例如日期),高语义分数并不能保证事实精度。
  • Kadavath等人:观察到大型语言模型(LLMs)为多项选择题提供校准良好的概率,有效地将模型生成答案的验证转化为真/假多项选择题。
数据集和评估方法
  • Cuconasu等人:使用NaturalQuestions-Open(NQ-open)数据集,通过判断地面真相答案(NaturalQuestions注释)是否出现在预测输出中来进行准确性评估。尽管NQ-open数据集具有广泛的范围和领域不可知性,但通过精确匹配进行事实验证面临严重挑战。

研究贡献

  1. 提出了一个针对RAG系统的端到端事实回忆评估框架,可以用于创建测试数据集和执行自动化事实回忆评估。
  2. 探索了在高度不完整或不准确生成文本条件下的事实验证表述的性能。
  3. 引入了“Facts as a Function”(FaaF),这是一种新的事实验证方法,通过利用LM的功能调用能力和框架来提高效率和降低成本。
  4. 开源了FaaF作为Python包(pip install faaf)和增强的WikiEval数据集,以帮助社区在RAG优化中包含事实回忆,从而构建更可靠的系统。 

FaaF方法

FaaF(Facts as a Function)方法是种创新的事实验证方法,旨在提高对RAG系统输出的评估效率和准确性。该方法特别关注于在信息不完整或不准确的情况下,如何有效地识别和验证文本中的事实陈述。以下是对FaaF方法的详细介绍:

核心概念

FaaF方法的核心思想是将事实陈述作为函数参数传递给语言模型,而不是使用传统的基于提示的验证方法。这种方法利用了语言模型的功能调用能力,允许在一个函数调用中同时验证多个事实陈述。通过这种方式,FaaF能够更有效地识别出文本中不支持的事实,即使在信息不完整或存在错误的情况下。

方法步骤
  1. 事实构造:首先,从参考源中提取一系列事实陈述。这些事实陈述是将要验证的文本的基础。

  2. 函数对象创建:然后,根据提取的事实陈述创建一个函数对象。这个对象包含了所有需要验证的事实,并且可以包含特定的解析方法,用于处理语言模型的输出。

  3. 语言模型调用:将函数对象、提示和待验证的文本一起传递给语言模型。提示指导语言模型如何使用函数对象来评估文本。

  4. 输出处理:语言模型生成的输出随后通过函数对象中的解析方法进行处理,以确定每个事实的真实性。

方法优势
  • 提高准确性:FaaF方法通过结构化的方式呈现事实,有助于语言模型更准确地理解和验证每个事实,从而减少错误判断。

  • 效率提升:与传统的逐个事实验证相比,FaaF方法可以在一个调用中验证多个事实,显著减少了所需的语言模型调用次数和生成的令牌数量。

  • 成本降低:由于减少了语言模型的调用次数和令牌消耗,FaaF方法在执行大规模评估时可以显著降低成本。

实验应用

在实验中,FaaF方法被用来评估RAG系统生成的文本。通过与人工评估的比较,FaaF显示出在识别不支持事实方面的错误率显著低于基于提示的验证方法。此外,FaaF还能够处理不完整或不准确的信息,这在传统的验证方法中是一个挑战。

结论

FaaF方法为评估RAG系统提供了一种新的、更高效和准确的事实验证途径。它通过利用语言模型的功能调用能力,改进了事实验证的过程,特别是在处理具有不完整或不准确信息的文本时。这种方法的引入为自动化事实验证领域带来了新的视角,并有望在未来的研究和应用中发挥重要作用。

函数

在论文中,函数是指一种结构化的方法,用于评估和验证RAG系统生成的文本中的事实陈述。这种方法通过将事实陈述封装成函数参数,允许语言模型(LM)在一个统一的框架内处理多个事实验证任务。以下是对论文中提到的函数概念的详细介绍:

函数的定义和作用

  1. 构造函数(Constructor Function):在FaaF方法中,构造函数C用于创建一个对象O,该对象包含了所有需要验证的事实陈述。这些事实陈述以字符串列表S的形式提供给构造函数,同时还可以包括控制参数P,这些参数定义了对象O的结构和行为。

  2. 函数对象(Function Object):构造函数的输出是一个对象O,它包含了一系列的字段(f1, f2, ..., fn),每个字段对应一个待验证的事实陈述。对象O还可能包含特定的解析方法GO,用于解释语言模型的输出并将其转换为可读的结果。

  3. 函数调用(Function Calling):在验证过程中,函数对象O被传递给语言模型,并且通过调用该函数来执行事实验证。函数调用允许语言模型一次性处理和验证整个文本中的多个事实,而不是逐个处理。

函数的关键特点

  • JSON表示:函数对象在传递给语言模型之前,通常会被转换为JSON格式。这种结构化的表示方法有助于语言模型更清晰地理解每个事实陈述和相关的验证要求。

  • 元数据和类型提示:函数对象中的字段可以包含元数据和类型提示,这些信息有助于指导语言模型生成更准确的响应。例如,字段可以明确指出期望的响应类型(如True/False)。

  • 解析函数(Parsing Function):对象O中的GO是一个解析函数,它负责解释语言模型的输出,并将其转换为最终的事实验证结果。这个函数可以根据对象O中的指示和方法来处理和格式化输出。

函数的应用

在论文中,FaaF方法通过函数对象来提高事实验证的效率和准确性。这种方法允许在一个单一的调用中验证多个事实,减少了对语言模型的调用次数,同时降低了生成的令牌数量。通过这种方式,FaaF能够在不完整或不准确信息的情况下,更有效地识别出不支持的事实陈述。

总的来说,论文中介绍的函数是一种创新的方法,它通过结构化和编程式的方式,提高了对RAG系统生成文本中事实陈述的验证能力。这种方法为自动化事实验证领域提供了新的视角,并有望在未来的研究和应用中发挥重要作用。

事实回忆评估框架

在论文中,RAG系统的端到端事实回忆评估框架是一个全面的评估体系,旨在准确衡量RAG系统在事实回忆方面的表现。这个框架不仅关注于系统生成文本的事实准确性,还考虑了检索机制的有效性。以下是对这一评估框架的详细介绍:

框架组成部分

  1. 数据集创建:框架的第一步是创建一个包含多种类型答案的数据集。这些答案可能包括基于事实的答案、无根据的答案和质量较差的答案。数据集通常来源于真实的查询和相应的参考信息。

  2. 事实生成:使用特定的语言模型(如LMf)从参考源中提取事实陈述。这些事实陈述构成了评估的基础,用于后续验证RAG系统输出的准确性。

  3. 人工评估:通过人工评估员对生成的事实陈述进行验证,建立一个事实真相的基准。这一步骤确保了评估的准确性和可靠性。

  4. 自动事实验证:利用不同的自动事实验证方法(包括FaaF)来评估RAG系统生成的答案。这一步骤是通过比较系统输出和人工评估的基准来完成的。

框架的运作流程

  1. 输入:给定一个问题和相关的参考信息,RAG系统会生成一个答案。

  2. 检索和生成:RAG系统通过检索外部知识源并结合语言模型的生成能力来构建答案。

  3. 事实提取:从生成的答案中提取出关键的事实陈述。

  4. 事实验证:使用FaaF等方法对这些事实陈述进行验证,以确定它们是否准确无误。

  5. 性能评估:根据事实验证的结果来评估RAG系统的性能。这包括计算错误率、F1分数等指标。

框架的优势

  • 全面性:端到端框架考虑了从信息检索到文本生成的整个过程,提供了一个全面的评估视角。

  • 自动化:通过自动化的事实验证方法,框架能够高效地处理大量的数据,适用于大规模的评估任务。

  • 准确性:结合人工评估和自动化验证,框架旨在提供准确的性能评估结果。

  • 可扩展性:由于其结构化的设计,该框架可以轻松地适应不同的数据集和评估需求。

结论

RAG系统的端到端事实回忆评估框架为评估和优化RAG系统提供了一个强有力的工具。通过结合人工评估的准确性和自动化验证的效率,该框架有助于推动RAG技术的发展,并确保生成的文本在事实准确性方面的可靠性。此外,该框架的设计也为未来的研究提供了扩展和改进的可能性

 

图1:展示了FaaF的概览。FaaF通过一个构造器动态地从一系列事实陈述中创建一个函数对象。当输入文本被提供时,这个函数的调用使得LMeval能够在单次调用中验证所有事实。与传统的提示方法相比,FaaF显著降低了识别错误事实的错误率,最多可降低40个百分点,并且将LMeval的调用次数和输出令牌数量减少了超过5倍。

问题

RAG系统在实施实际事实回忆评估时面临几个挑战:

  1. 首先,自动验证生成文本中的真实性和独立陈述,尤其是在低质量RAG的环境下,尚未得到充分的研究,相较于提升语言模型生成文本的准确性,这一点被忽视了。
  2. 其次,由于一个生成的文本片段可能包含多个需要验证的事实,逐个独立验证的方法不仅耗时而且对资源的需求极大。
  3. 再者,RAG系统包括知识库、检索机制、提示构建和语言模型等多个组成部分,这些都需要细致的调整,因此在实际应用中,效率是一个关键因素。
  4. 此外,生成文本与真实文本的精确匹配往往会导致误判,因为真实信息可能以不同的方式出现在生成文本中。
  5. 最后,当真实信息长度超过几个单词时,精确匹配的可能性就会大幅降低。

解决方案(FaaF)

为了解决RAG系统中的实际事实回忆评估问题,提出了框架FaaF(事实即函数)。

  1. 专为 RAG 系统量身定制的完整事实召回评估框架。它不仅能够生成测试数据集,还能自动执行事实回忆评估。
  2. 通过结合真实事实和人工注释,评估数据的真实性得到了增强。WikiEval提供了一系列问题与答案对,其中答案的事实准确性参差不齐,这有助于模拟RAG系统的不完善响应。
  3. FaaF是一种创新的事实验证方法,它在所有测试条件下均优于传统的提示验证方式,并且显著减少了LM的调用次数和所需的令牌数量,降幅超过5倍。

考虑下图,FaaF通过一个构造器动态地从一系列事实中创建一个函数对象。当输入文本被提供时,该函数的调用使得LMeval能够在单次调用中验证所有事实。与传统的提示方法相比,FaaF大幅降低了识别错误事实的错误率,最多可降低40个百分点,并且显著减少了LMeval的调用次数和输出令牌数量。

下图展示了RAG系统的事实回忆评估流程。首先,基于一组确定的答案,我们使用LMf工具来提取相关的事实。接着,我们将RAG系统生成的假设性回答(例如,无事实依据的答案和不合格的答案)与这些提取出的事实进行对比,以评估其回忆事实的能力。

综上所述

研究指出,传统的依赖提示进行事实验证的方法往往会导致对陈述真实性的过度估计,尤其是在处理信息缺失的文本时。这种方法的错误率可能高达50%,尤其是在面对不完整文本的情况下。

然而,将事实作为语言模型(LM)的输入函数,即FaaF方法,显著提升了验证的精确度和效率。FaaF的研究结果表明,含有相关但可能不准确信息的文本,相较于那些缺乏细节或不完整的文本,更容易产生误报。

此外,研究还发现,在正确与错误的判断中引入不确定性的选项,能够提升整体的验证准确性。在某些情况下,要求在验证事实之前提供引用可能会有所帮助,但如果文本只是间接支持事实而未提供直接引用,这样的要求可能会导致事实被错误地标记为不支持。

最终,采用FaaF方法大幅减少了进行事实验证所需的LM调用次数和令牌数量,从而在成本和时间上提高了整体的评估效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1572557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cisco Packet Tracer配置AAA认证

出口路由器R1配置: ip domain-name cisco.com;写入设备的默认域名 crypto key generate rsa;产生rsa密钥 ip ssh secret cisco;启用ssh服务 enable secret cisco;设置特权模式密码 连接TACAS的路由器做同样配置 RADIUS服务器的配置 client ip 配置成RADIUS服务器…

力扣---分隔链表

给你一个链表的头节点 head 和一个特定值 x ,请你对链表进行分隔,使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的初始相对位置。 示例 1: 输入:head [1,4,3,2,5,2], x 3 输出&a…

Java 哈希表

一、哈希表的由来 我们的java程序通过访问数据库来获取数据,但是当我们对数据库所查询的信息进行大量分析后得知,我们要查询的数据满足二八定律,一般数据库的数据基本存储在磁盘当中。这使得每次查询数据将变得无比缓慢。为此我们可以将经常…

怎么查看DevV++调试过程中变量的值

方法一:将鼠标移动到代码变量的上方,就会显示当前变量的值 方法二:视图->浮动报告窗口->出现调试窗口 点击下面添加查看输入你想要看的变量就可以在调试窗口显示出来了 如果有帮助就点个赞在走呗

【MySQL】如何判断一个数据库是否出问题

在实际的应用中,其实大多数是主从结构。而采用主备,一般都需要一定的费用。 对于主备,如果主机故障,那么只需要直接将流量打到备机就可以,但是对于一主多从,还需要将从库连接到主库上。 对于切换的操作&a…

一站式指南:Flutter应用如何顺利登陆苹果App Store

引言 🚀 Flutter作为一种跨平台的移动应用程序开发框架,为开发者提供了便利,使他们能够通过单一的代码库构建出高性能、高保真度的应用程序,同时支持Android和iOS两个平台。然而,完成Flutter应用程序的开发只是第一步…

Ubuntu部署LangChain-Chatchat

个人博客:https://blog.lukeewin.top 更多内容欢迎访问我的博客。 一、环境 OS: Ubuntu 20.04 PyTorch: 2.0.0 Python: 3.8 CUDA: 11.8 GPU: RTX 4090 24GB CPU: 12 vCPU Intel(R) Xeon(R) Platinum 8352V CPU 2.10GHz RAM: 90GB 硬盘: 180GB LLM: Chatglm3-6b E…

008 CSS盒子模型

文章目录 盒子模型内容-宽度和高度内边距-padding边框-border圆角-border-radius 外边距-margin上下margin的传递上下margin的折叠块级元素的水平居中行内级元素(包括inline-block元素)的水平居中 外轮廓-outline盒子阴影-box-shadow文字阴影-text-shadow行内非替换元素的特殊性…

C语言实现快速排序算法

1. 什么是快速排序算法 快速排序的核心思想是通过分治法(Divide and Conquer)来实现排序。 算法的基本步骤是: 1. 选择一个基准值(通常是数组中的某个元素),将数组分成两部分,使得左边的部分所有元素都小于…

文心一言指令词宝典之营销文案篇

作者:哈哥撩编程(视频号、抖音、公众号同名) 新星计划全栈领域优秀创作者博客专家全国博客之星第四名超级个体COC上海社区主理人特约讲师谷歌亚马逊演讲嘉宾科技博主极星会首批签约作者 🏆 推荐专栏: 🏅…

Linux:IO多路转接之poll

文章目录 select的缺点pollstruct pollfd解决缺点的方式 代码实现 本篇总结的是poll的相关内容,在总结poll的内容前,先回顾一下select的缺点 select的缺点 select的缺点也比较明显 等待的fd是有上限的,在我们当前这个版本来说,…

Hive 之 UDF 运用(包会的)

文章目录 UDF 是什么?reflect静态方法调用实例方法调用 自定义 UDF(GenericUDF)1.创建项目2.创建类继承 UDF3.数据类型判断4.编写业务逻辑5.定义函数描述信息6.打包与上传7.注册 UDF 函数并测试返回复杂的数据类型 UDF 是什么? H…

【Redis教程0x0F】Redis实战篇

Redis如何实现延迟队列? 延迟队列是指把当前要做的事情,往后推迟一段时间再做。延迟队列的常见使用场景有以下几种: 在淘宝、京东等购物平台上下单,超过一定时间未付款,订单会自动取消;打车的时候&#x…

Android中的aidl接口及案例说明

目录 一、什么是AIDL 二、AIDL语法规格 三、AIDL实例 客户端: 服务端: 一、什么是AIDL AIDL,即 Android Interface Definition Language,用于android不同进程间通信接口。同一个应用里面还是建议用正常接口实现功能即可。 官方说明:Android 接口定义语言 (AIDL) | …

150行Python代码模拟太阳系行星运转

今天我们用Python来模拟一下太阳系行星运动轨迹~ 先上成品图(运行效果含音乐的呦) 想要实现这样的效果并不难 准备材料 首先我们需要准备这样一些材料 宇宙背景图 背景透明的行星图 编写代码 代码分块详解 导入需要的模块 import pygame import …

高效学习方法:冥想背诵,看一句念一句,再每个词分析位置及语法等合理性,忘记哪个词再看猜下为什么会忘,跟自己的表达哪里不一样。

原则:易学则易行,则效果最好。《易经》 你提到的这种学习方法结合了多种记忆和理解技巧,可以帮助提高学习效率。下面是对这种方法的一个详细解释和一些建议: 冥想背诵:通过冥想来集中注意力,可以帮助你在没…

redis 数据库的安装及使用方法

目录 一 关系数据库与非关系型数据库 (一)关系型数据库 1,关系型数据库是什么 2,主流的关系型数据库有哪些 3,关系型数据库注意事项 (二)非关系型数据库 1,非关系型数据库是…

WLAN组网经典实验

1、项目需求 现有一无线网络建设,需求为三层组网,AP、STA网关均在核心交换机上,AC作为给AP分配IP地址的DHCP,SW1作为给STA分配IP地址的DHCP,默认AP工作在vlan1上,说白了就是管理vlan流量在AC上跑,业务vlan流量在核心上跑。 2、项目规划 如上图所示: AP1管理vlan: 2 …

Unity性能优化篇(十四) 其他优化细节以及UPR优化分析器

代码优化: 1. 使用AssetBundle作为资源加载方案。 而且经常一起使用的资源可以打在同一个AssetBundle包中。尽量避免同一个资源被打包进多个AB包中。压缩方式尽量使用LZ4,少用或不要用LZMA的压缩方式。如果确定后续开发不会升级Unity版本,则可…

基于SpringBoot+Vue的前后端分离的电影院售票管理运营平台

一、项目背景介绍: 该系统研究背景聚焦于电影市场的快速增长、互联网电影院管理、用户体验和服务优化以及数据管理与决策支持。随着人们生活水平的提高,电影观影已成为重要的娱乐方式,电影院作为传统场所面临新的挑战。借助SpringBootVue技术…