提升多跳问答中的语言模型知识编辑能力

news2024/11/15 23:25:38

人工智能咨询培训老师叶梓 转载标明出处

大模型在静态知识库的更新上存在局限,特别是在面对需要多步骤推理的多跳问题时,难以提供准确和最新的回答。为了解决这一问题,来自美国佐治亚大学、纽约大学、莱斯大学、北卡罗来纳州立大学等机构的研究人员提出了一种名为“检索增强型知识编辑(Retrieval-Augmented model Editing, RAE)”的框架。图1展示了一个例子,说明了传统的基于相似度的搜索方法在检索用于语言模型编辑的正确事实时的不足,以及如何通过更复杂的检索策略来改进这一过程。

论文链接:https://arxiv.org/pdf/2403.19631

方法

检索增强型知识编辑框架旨在提升多跳问答中的语言模型性能,主要包含两个关键步骤:(1) 检索与问题相关的编辑过的事实(edited facts);(2) 使用这些检索到的事实通过上下文学习(in-context learning)编辑语言模型。

简单的编辑方法可能会使用基于相似度的搜索来检索与目标问题相似的编辑过的事实。这些事实随后被整合到一个提示模板中,通过上下文学习进行编辑。例如,模板可以是“Given fact: {𝛿′}, {𝑞} ?”。然而,这种方法在检索需要回答𝑞的问题时编辑过的事实Δ𝑞时存在困难,因为这些事实通常包含与𝑞不同的实体,导致在大型事实库Δ中得到低相似度分数。

为了解决这个问题,研究者提出了编辑事实链提取的方法来获取。每个本质上形成了一个连接的知识图谱(KG)。这样的知识图谱可以通过从一个实体到另一个实体的迭代遍历来检索。

图2展示了检索增强型上下文模型编辑方法的总体框架。在这个框架中,可以看到从外部知识图谱到编辑记忆的步骤,然后通过互信息基于检索得到检索事实,最后通过上下文学习进行编辑。

研究者介绍了如何构建一个连接不同事实的知识图谱,并提出了给定输入问题时提取相关子图的目标:

为了有效地编辑,检索到的子图𝐺𝑆必须与问题共享相关信息。因此,定义子图检索的目标是最大化子图和需要编辑答案的问题集之间的互信息(MI)。互信息的公式化定义如下:

\text{max}_{𝐺𝑆} \𝐼(𝑄;𝐺𝑆) = 𝐻(𝑄) − 𝐻 (𝑄 | 𝐺 = 𝐺𝑆)

这里,𝐻(𝑄)是固定的问题集𝑄的香农熵,是常数。因此,最大化互信息𝐼(𝑄;𝐺𝑆)相当于最小化条件熵𝐻(𝑄 | 𝐺 = 𝐺𝑆)。

为了解决实际中计算𝑝(𝑞|𝐺 = 𝐺𝑆)的挑战,研究者提出了利用大型语言模型的下一词预测能力来计算概率。给定形成尾到头连接知识图谱的事实链,提取的子图𝐺𝑆可以表示为𝐺𝑆 =(ℎ1, 𝑟1, 𝑡1, ..., ℎ𝑛, 𝑟𝑛, 𝑡𝑛),其中ℎ𝑖和𝑡𝑖是节点,𝑟𝑖是边,𝑛是检索到的三元组的数量。

为了减少检索到的子图中可能引入的不相关信息,研究者提出了一种剪枝方法,该方法利用模型输出的不确定性来消除冗余事实。通过实验验证了这种方法的有效性,实验中使用了不同的事实子集作为模型输入,并观察到当事实子集包含问题的全部事实链时,模型输出的熵显著降低。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
 

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验回答以下问题:

  1. RAE在编辑LLM输出方面的效果如何?
  2. 他们的检索策略与其他检索方法相比表现如何?
  3. 他们提出的剪枝技术是否能够从检索到的事实中移除冗余信息?
  4. RAE是否适用于专有的LLMs?

实验涉及多种不同大小和系列的语言模型,包括GPT-2 (1.5B), GPT-J (6B), Falcon (7B), Vicuna (7B), 和 Llama2-chat (7B)。这些模型中,GPT-2, GPT-J, 和 Falcon 是未经指令调整的预训练语言模型,而Vicuna 是 Llama1 的指令调整变体,Llama2-chat 是 Llama2 的指令调整版本。包括这两种类型的模型,以验证所提方法的有效性。

三种模型编辑方法进行比较:模型权重更新方法、辅助模型方法,以及基于RAG的方法。Subgraph Retriever (SR) 作为高级知识检索方法的基准。

在MQUAKE-CF 和 MQUAKE-T 数据集上评估了编辑方法。这些数据集包含不同跳数的问题的编辑实例。利用 MQUAKE-CF-9k 数据集中的相关案例来为基线和方法制作提示模板。

为了回答第一个问题,研究者们评估了他们的模型编辑方法在不同语言模型上的表现,并与不同的基线方法进行了比较。表2 展示了在进行数千次编辑时,RAE在三个数据集上的表现均优于其他方法。这主要得益于他们新颖的基于互信息的检索目标和有效的剪枝策略。

为了回答第二个问题,研究者们评估了他们基于互信息的检索方法在多跳问答任务中的有效性。他们考虑了三种基于嵌入的方法和一种基于概率的方法作为基线。

为了回答第三个问题,研究者们验证了他们提出的剪枝策略对多跳编辑任务的益处。通过在原始问题所需的事实之外始终检索2个额外事实来进行实验。表4 报告了使用或不使用剪枝策略的RAE的编辑准确性,表明剪枝技术显著提高了模型编辑的性能。

为了回答第四个问题,研究者们将RAE应用于只能通过API访问的专有语言模型,如ChatGPT。他们使用GPT-2 (1.5B) 作为检索模型,并报告了他们方法的编辑准确性和总编辑成本。

研究者们还评估了不同编辑批次大小的编辑性能。他们发现,无论是在Vicuna还是Llama2模型中,RAE的准确性在不同编辑实例中保持稳定,而Mello的准确性随着实例的增加显著下降。

通过图6 展示了两个来自M-CF数据集的案例,以演示在知识图谱上的检索过程和检索到的事实的剪枝过程。图中的红色、黑色和虚线代表了使用束搜索的知识图谱中的最终路径、候选路径和丢弃路径,反映了检索设计中的决策过程。

通过这些详细的实验和评估,全面地展示了RAE框架在多跳问答中编辑语言模型的有效性和实用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32F103C8----GPIO(跟着江科大学STM32)

一,GPIO简介 GPIO(General Purpose Input Output)通用输入输出口 可配置为8种输入输出模式 引脚电平:0V~3.3V(0V),部分引脚可容忍5V 输出模式下可控制端口输出高低电平,用以驱动…

idea2021安装教程与常见配置(可激活至2099年)

idea2021安装教程与常见配置(可激活至2099年) 下载 官网下载地址:https://www.jetbrains.com/zh-cn/idea/download/other.html 这里我们选择压缩包安装方式,选择2021.3 - Windows x64 ZIP Archive (zip),也可以选择exe安装方式 安装 解压缩安装方式 创建非中文目录D:\idea…

Win32绕过UAC弹窗获取管理员权限

在早些年写一些桌面软件时,需要管理员权限,但是又不想UAC弹窗,所以一般是直接将UAC的级别拉到最低,或者直接禁用UAC的相关功能。 什么是UAC(User Account Control) 用户帐户控制 (UAC) 是一项 Windows 安全功能,旨在保…

行走挖机多路比例阀控制放大器

挖掘机比例多路阀是挖掘机液压系统中的关键部件,它负责控制挖掘机各执行元件的运动方向、速度和力矩,从而影响挖掘机的作业效果。比例多路阀由多个阀块组成,其中比例控制阀由BEUEC比例放大器控制。每个阀块都有特定功能,如换向阀用…

昇腾大模型性能分析思路

性能分析 模型训练优化流程 我们根据性能问题的场景,按照单机和集群场景进行分类,再明确性能问题属于哪一类,明确好性能问题背景之后,才方便进行下一步问题的定位; 在明确问题背景后,参考性能分析工具介绍…

004、架构_详解(重点)

GoldenDB 分布式数据库框架 DN和RDB增加了备节点;引入新模块CM,且GTM、MDS、PM、CM都增加备节点;MDS、PM、CM、RDB被统一在了管理节点之中;GTM和MDS间多了一条连线,因为GTM的切换由MDS把控;初步系统架构mysqld:一般称为DB节点,负责单个节点的数据处理; dbproxy:一般…

FreeRTOS学习笔记—③RTOS内存管理篇(正在更新中)

二、RTOS的核心功能 RTOS的核心功能块主要分为任务管理、内核管理、时间管理以及通信管理4部分,框架图如下所示: (1)任务管理:负责管理和调度任务的执行,确保系统中的任务能够按照预期运行。 (…

【SpringBoot】使用Nacos服务注册发现与配置管理

前提:需要提前部署好nacos服务,这里可以参考我的文章:Windows下Nacos安装与配置 0. 版本信息 Spring Boot3.2.8Spring Cloud2023.0.1Spring Cloud alibaba2023.0.1.0nacos2.3.2本地安装的nacos2.3.0 Spring Boot、Spring Cloud、Spring Clo…

黑盒闪清 v2.9.9 体积小巧,简洁高效的手机清理神器

黑盒闪清APP是安卓手机上的一款优质文件管理器,拥有存储分析、文件分类、大文件扫描、空文件夹扫描等功能,应用无广告、无推送,完全免费使用,让你手机中的文件管理就跟在电脑上管理一样简单。 链接:https://pan.quark…

C语言学习笔记 Day16(文件管理--下)

Day16 内容梳理: C语言学习笔记 Day14(文件管理--上)-CSDN博客 C语言学习笔记 Day15(文件管理--中)-CSDN博客 目录 Chapter 10 文件操作 10.5 文件状态 10.6 文件的随机读写 fseek()、rewind() (1&…

对同一文件夹下所有excel表进行相同操作(数据填充、删除、合并)

背景引入:如图所示,笔者需要对数十个表格的银行日记账工作簿合并成一个工作簿,以便与本月银行流水进行核对。 为了方便银行日记账与银行流水进行核对,需要再每个村或小组的表格中,将村或小组的名称放在J列。 clear c…

Java | Leetcode Java题解之第392题判断子序列

题目&#xff1a; 题解&#xff1a; class Solution {public boolean isSubsequence(String s, String t) {int n s.length(), m t.length();int[][] f new int[m 1][26];for (int i 0; i < 26; i) {f[m][i] m;}for (int i m - 1; i > 0; i--) {for (int j 0; j…

9月4日C++作业

#include <iostream> #include <string> using namespace std; class Human {private:string name;int age;public:Human(){} //无参构造函数//有参构造函数Human(string i_name,int i_age):name(i_name),age(i_age){cout<<"调用了Human有参构…

一篇文章讲清楚什么是Spring AOP

目录 1、什么是代理&#xff1f; 1.1静态代理 1.2动态代理 2、什么是AOP&#xff1f; 3、AOP术语名词介绍 4、Spring AOP框架使用教程 5、Spring AOP框架细节讲解 1、什么是代理&#xff1f; 在讲解AOP之前&#xff0c;我们要先了解下什么是代理。 代理是二十四种设计…

Flutter集成Firebase框架

本文档的插件版本 flutter&#xff1a;3.19.4dart版本&#xff1a;3.3.2 firebase_core&#xff1a;2.30.0 firebase&#xff1a;13.7.3flutterfire&#xff1a;1.0.0 前言 Flutter集成Firebase框架要完成以下内容 在Firebase网页端创建一个项目在终端全局安装Firebase工具&…

中断管理笔记

1、异常与中断的基本概念 异常是指任何打断处理器正常执行&#xff0c;并且迫使处理器进入一个由有特权的特殊指令执行的事件。 异常可以分为两类&#xff1a;同步异常和异步异常。 由内部事件&#xff08;像处理器指令运行产生的事件&#xff09;引起的异常称为同步异常。异…

雅思7分相当于六级多少?雅思考试怎么备考才能到7分?

雅思7分相当于六级多少&#xff1f;雅思考试怎么备考才能到7分? 六级500分也不能和雅思7分相提并论&#xff0c;毕竟两者压根不在一个层级。楼主两月自学雅思获得8分&#xff0c;系统总结了雅思速成的提分秘籍&#xff0c;跟着我的方法走&#xff0c;两月屠鸭7分问题不大。1.6…

你做的SEO为什么效果不够好?

SEO&#xff08;Search Engine Optimization&#xff09;即搜索引擎优化&#xff0c;指在不同的搜索引擎中&#xff0c;按照相应的规则与机制提高网站在特定的搜索引擎中的自然排名。作为对产品和服务进行数字宣传营销的重要手段&#xff0c;SEO已然成为各企业提高网站曝光和流…

AI生产力工具暑期迎来大爆发 极光数据:夸克新增用户规模领先

9月3日&#xff0c;极光旗下月狐数据发布《AI生产力工具暑期发展报告》。数据显示&#xff0c;AI生产力工具在用户侧呈现高速增长态势&#xff0c;总体月活跃用户数量达1.7亿。其中&#xff0c;夸克APP实现暑期新增用户数量行业第一&#xff0c;凭借大模型、数据、场景等优势&a…

Java中实现写Word文档

背景&#xff1a;通过java代码&#xff0c;往docx文档中写入标题和段落。 依赖的maven包&#xff1a; <dependency> <groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>5.2.2</version> </depend…