大模型基于指令的知识编辑:InstructEdit技术

news2024/11/24 18:52:18

人工智能咨询培训老师叶梓 转载标明出处

在知识更新和编辑方面,大模型在特定任务上表现出色,但在面对不同任务时往往力不从心,需要为每个任务单独设计编辑器,这在一定程度上限制了其应用范围。为了解决这一问题,浙江大学和腾讯的研究人员提出了一种名为InstructEdit的新技术,旨在提高大型语言模型在不同任务间的知识编辑能力和泛化性。InstructEdit技术的核心是通过简单的指令来指导编辑器适应各种任务表现,从而改善模型的行为,而不影响整体性能。该技术的开发基于对现有知识编辑方法在多任务泛化问题上的深入分析。InstructEdit技术的特点包括:

  1. 统一编辑器:通过一个统一的编辑器,InstructEdit能够在多种任务中实现有效的知识编辑,而无需为每个任务单独设计编辑器。
  2. 多任务编辑能力:实验结果表明,InstructEdit在多任务编辑设置中平均提高了14.86%的可靠性。
  3. 跨任务泛化:InstructEdit在未见过的任务上的表现也超越了以往的强基线,显示出良好的泛化能力。
单任务编辑器(Single-Task Editor)和多任务编辑器(Multi-Task Editor)与InstructEdit的对比

方法

InstructEdit技术通过指令引导编辑器来适应不同的任务,提高模型在多任务编辑中的性能。为了确保多任务编辑的多样性,研究者们选择了几个不同的数据集。其中包括:

Recent:专注于更新2022年7月后添加到WikiData的三元组,用于使模型更新最新知识。

CounterFact:强调来自高浏览量的Wikipedia页面的三元组,以解决模型在修改编辑中忽视不太突出实体的问题。

ConvSent:一个情感编辑任务,旨在调整对话代理对特定主题(如“你对香蕉怎么看?”)的情感,而不会影响其他主题的响应。

研究者们发现将知识从其他任务转移到ZsRE(一种零样本关系提取数据集)是具有挑战性的。因此,他们使用ZsRE来评估多任务编辑的泛化能力,在多任务编辑训练中不包括ZsRE。使用的是[Yao et al., 2023]扩展的版本,它在原有数据集基础上增加了可移植性测试和新的局部性集合。

不同任务的指令示例,如CounterFact和ConvSent任务的描述和输入模板

指令的生成是InstructEdit技术的关键步骤,它涉及到创建和优化用于指导编辑过程的指令。研究者们首先为多任务知识编辑开发了一套指令模板,这些模板覆盖了四个不同的任务家族:CounterFact、Recent、ConvSent和ZsRE。每个任务家族的模板都设计有特定的模型发现指令、输入和目标模板,以及相关的元数据,确保了指令的高度针对性和任务的多样性。

假设可以访问多领域任务数据,单任务编辑、多任务编辑以及InstructEdit在不同领域(如法律、地理、医学和数学)的编辑过程

为了生成这些指令,研究者们采用了GPT-4这一先进的语言模型,并通过精心设计的提示来引导GPT-4产生所需的指令。生成的指令随后通过Trial Editor进行评估,这一评估过程涉及到对指令性能的度量,比如准确性、可靠性等关键指标。评估之后,研究者们继续使用GPT-4对指令进行迭代优化,这个过程一直持续到性能指标不再有显著提升为止。

在指令生成的过程中,研究者们特别注重指令的优化。他们将性能指标反馈给GPT-4,以此来进一步提升指令的质量。这种优化不仅提高了指令的有效性,也确保了它们能够在多任务编辑中发挥最大的作用。完成的指令数据集将向社区公开,使得其他研究者和开发者能够访问和利用这些资源。

在统一编辑器学习指令的过程中,InstructEdit采用了MEND的编辑架构,并结合了元学习编辑器,也就是超网络的概念,来实施精确的编辑操作。这一过程中,模型的参数和梯度被映射到伪激活和伪增量上,从而更新模型参数,实现对知识的具体编辑。InstructEdit通过L2范数缩放梯度,提取了梯度的方向成分,这使得研究者们能够专注于梯度的方向,而忽略其大小,为不同任务间的比较提供了新的角度。

编辑过程本身是将指令附加在输入前,这样做可以促进多任务编辑的进行。通过指令的串联,InstructEdit旨在聚集任务向量并减少不同任务间的潜在冲突。这种策略不仅提高了编辑过程的协同效应,还确保了多任务编辑器在处理各个独立任务时,其性能至少能够达到甚至超过专用的单任务编辑器。这表明InstructEdit技术在提升编辑精度和控制能力方面具有显著优势,能够为大型语言模型提供更为强大和灵活的知识编辑解决方案。

InstructEdit技术通过指令引导编辑器,有效地解决了大型语言模型在多任务编辑中的泛化问题,提高了编辑的精确性和控制能力,并通过可视化分析验证了其有效性。这项工作为知识编辑领域贡献了高质量的指令,并在各种现有的流行知识编辑任务数据集基础上进行了构建。

实验

编辑模型:实验在两个不同规模的大型语言模型上进行:GPT2-XL(1.5B)和LLaMA-2-Base(7B)。这些模型分别代表了不同规模的LLMs,以测试InstructEdit的适用性和有效性。

基线对比:InstructEdit与多种编辑方法进行比较,包括FT-L方法(特定层的FFN微调),CaliNet和GRACE(保持模型参数不变的编辑方法),以及MEND和KE(修改模型参数的编辑方法)。

实验采用了以下一致性评估指标:

可靠性(Reliability):衡量编辑后的模型是否能够正确生成目标答案。

泛化性(Generalization):评估编辑后的模型对等价邻居(例如句子的重述)的预测能力。

局部性(Locality):确保编辑后的模型对范围外的例子保持原有输出。

可移植性(Portability):衡量编辑后的知识在新数据集上的应用能力。

流畅性(Fluency):评估编辑后模型生成文本的多样性。

表3展示了不同编辑方法在多任务编辑中的表现。FT-L方法在可靠性上表现不佳,可能是因为原有模型的先验知识干扰了编辑过程。CaliNet虽然保持了模型的完整性,但在泛化性和可移植性上表现不佳。而MEND和KE在所有指标上都表现出色,实现了可靠性和局部性的平衡。

InstructEdit通过指令引导的方法提高了编辑的精确性和控制能力,达到了与MEND和KE相当的有效性。尽管MEND和KE在编辑结果上有效,但在处理OOD数据时性能不佳,而InstructEdit通过提供具体指令显著改善了这一问题。

通过“保留编辑设置”,评估了知识编辑方法对OOD数据的适应性。结果显示,所有先前的知识编辑基线在应用于OOD数据时性能直线下降。InstructEdit能够有效地解决这些挑战,显示出强大的泛化能力。

InstructEdit在未见指令(Unseen Instructions)上的泛化能力,与见过指令(Seen Instructions)相比达到了可比的结果

结果显示,即使在训练阶段未见过的任务数据集上,InstructEdit也能够实现与单任务编辑相当的性能水平。

通过分析编辑区域的主要成分,并使用t-SNE可视化技术,研究者们展示了InstructEdit与传统编辑方法相比,在优化方向控制、任务扩展对泛化能力的影响,以及适当数据比例对性能提升方面的优势,见图4。

对InstructEdit技术在不同设置下性能的视觉比较和分析

图4(a) 比较了使用InstructEdit和MEND在多任务设置下的知识编辑梯度(∇˜𝑢ℓ)。这里,Recent (InstructEdit) 和 Recent (Multi-Task) 展示了在Recent数据集上分别使用InstructEdit和MEND时的梯度。Recent (Single-Task) 显示了MEND在仅针对Recent数据集训练时的结果。这个子图显示了在多任务编辑中,MEND可能会在不同任务间产生显著的编辑区域重叠,而InstructEdit能够更好地控制梯度,促使不同任务的编辑区域有清晰的分离和足够的边界。

图4(b) 展示了任务扩展对InstructEdit的影响。Recent→ZsRE 表示在Recent数据集上训练并在ZsRE数据集上测试,而Recent&CF→ZsRE 表示同时在Recent和CounterFact数据集上训练,然后在ZsRE上测试。这个子图说明了随着训练任务数量的增加,InstructEdit的编辑区域对不同任务几乎没有重叠,并且编辑的可靠性相应提高。

图4(c) 展示了随着任务数量增加,InstructEdit在可靠性和泛化性方面的表现。这个子图通过不同任务数量的对比,展示了InstructEdit如何在更广泛的任务范围内保持其性能,同时在不同任务上实现更好的泛化。

图4(d) 展示了通过为ConvSent数据集提取1,427个条目来平衡ConvSent (Balanced) 的效果。这个子图说明了在数据平衡后,知识编辑梯度方向变得更加规律,从而提高了编辑器在OOD任务上的可靠性。

InstructEdit技术通过指令引导编辑器,有效地解决了大型语言模型在多任务编辑中的泛化问题,提高了编辑的精确性和控制能力。实验结果表明,InstructEdit在多任务编辑、保留编辑以及对未见指令的迁移方面均展现出卓越的性能。实验分析还揭示了指令在控制优化方向、提高OOD泛化能力以及通过适当数据比例提高性能方面的重要作用。这些发现为知识编辑领域提供了新的见解,并为未来的研究和应用奠定了基础。

论文链接:https://arxiv.org/abs/2402.16123

项目链接:InstructEdit: Instruction-Based Knowledge Editing for Large Language Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2050431.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二十二、状态模式

文章目录 1 基本介绍2 案例2.1 Season 接口2.2 Spring 类2.3 Summer 类2.4 Autumn 类2.5 Winter 类2.6 Person 类2.7 Client 类2.8 Client 类的运行结果2.9 总结 3 各角色之间的关系3.1 角色3.1.1 State ( 状态 )3.1.2 ConcreteState ( 具体的状态 )3.1.3 Context ( 上下文 )3.…

【ARM+Codesys 客户案例 】 基于RK3568/A40i/STM32+CODESYS开发AGV运动控制器,支持国产定制

在过去,步科更多的是为AGV客户提供单一、高性能的低压伺服核心部件产品,而现在,步科基于 CODESYS 开发了一款面向AGV机器人的特种控制器 - 青龙1号,开始提供以步科AGV运动控制器FD1X4S系列低压伺服Green系列HMI等为核心的AGV总线控…

keepalived理论--实验

一 . 高可用集群 1.1 集群类型 LB : Load Balance 负载均衡 LVS/HAProxy/nginx ( http/upstream, stream/upstream ) HA : High Availability 高可用集群 数据库、 Redis SPoF: Single Point of Failure ,解决…

2004-2023华为杯数学建模优秀参考论文

笔者整理了2004-2023年华为杯研究生数学建模全部优秀论文和赛题,内容齐全,适合将要参加建模比赛的朋友学习使用。 免费优秀论文获取联系: 建模忠哥小师妹 2004-2023历届华为杯研究生数学建模优秀论文合集:

【数学分析笔记】第2章第1节实数系的连续性(2)

2. 数列极限 2.1 实数系的连续性 2.1.3 确界存在定理 【定理2.1.1】(确界存在定理——实数系连续性定理)非空有上界的数集必有上确界,非空有下界的数集必有下确界。 【证】(写了一些我自己的理解,欢迎数院大神批评指…

Linux基础知识学习(二)

一. 常用基本命令 1. 目录管理 1> 绝对路径、相对路径 绝对路径路径的全称:C:\ProgramData\360safe\xxx.xx 比如说 360safe 目录下,那这个 xxx.xx 文件,对应我们的相对配置就 /xxx.xx cd : 切换目录命令! ./ &…

【html+css 绚丽Loading】-000001 双极乾坤盘

前言:哈喽,大家好,今天给大家分享htmlcss 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 &#x1f495…

【信创】麒麟打包工具初体验

往期好文:关于信创系统(麒麟、统信、中科方德)的10个问题与答复(二) Hello,大家好啊!今天给大家带来一篇关于麒麟桌面操作系统上麒麟打包工具的介绍与使用的文章。麒麟打包工具是一款专门为麒麟…

C/C++ 不定参函数

C语言不定参函数 函数用法总结 Va_list 作用:类型定义,生命一个变量,该变量被用来访问传递给不定参函数的可变参数列表用法:供后续函数进调用,通过该变量访问参数列表 typedefchar* va_list; va_start 作用&#xff…

解决MSPM0G3507芯片锁住的问题

编译环境:Windows 开发软件:Keil 开发主控:立创的MSPM0G3507 我们在MSPM0G3507时,常为芯片锁住烦恼,常见的锁死是因为使用了ST-Link,这里展示的是使用ST-Link后芯片锁死的解决步骤。 现象&a…

MySQL数据库入门,pycharm连接数据库—详细讲解

一.安装MySQL 1.常用MySQL5.7,首先安装MySQL, (一) (二) (三) (四) (五) 2.配置环境变量 打开MySQL安装路径,在其中找到…

python:画函数积分图

《高等数学》同济大学版 P209 编写 test_diff_area.py 如下 # -*- coding: utf-8 -*- """ 函数积分图 y x^3 -x^2 -x1 """ import numpy as np import matplotlib.pyplot as plt from matplotlib.patches import Polygondef func(x):return …

人工智能的普及造成了一场能源危机,但并不是无法解决。

人工智能的普及造成了一场能源危机,但并不是无法解决。 原文链接: 点击访问我的技术博客https://ai.weoknow.comhttps://ai.weoknow.com 人工智能(AI)的爆炸式增长促使科技巨头(包括 Google、Meta、亚马逊和微软等&…

LeetCode刷题笔记第231题:2 的幂

LeetCode刷题笔记第231题:2 的幂 题目: 想法: 对输入的数值循环除以2直至数值小于等于1,如果最终的数值为1则为2的幂,小于1则不是2的幂。 class Solution:def isPowerOfTwo(self, n: int) -> bool:if n 1:retur…

[C#]winform基于opencvsharp结合Diffusion-Low-Light算法实现低光图像增强黑暗图片变亮变清晰

【训练源码】 https://github.com/JianghaiSCU/Diffusion-Low-Light 【参考源码】 https://github.com/hpc203/Diffusion-Low-Light-onnxrun 【论文地址】 https://arxiv.org/pdf/2306.00306.pdf 【算法原理图】 【效果展示】 【测试环境】 vs2019 netframework4.7.2 …

【数据结构】关于优先级队列(堆),你了解内部原理吗?(超详解!!!)

前言: 🌟🌟Hello家人们,这期讲解二叉树的遍历,希望你能帮到屏幕前的你。 🌈上期博客在这里:http://t.csdnimg.cn/EdeWV 🌈感兴趣的小伙伴看一看小编主页:GGBondlctrl-CSD…

Iinux脚本bash:对自己的应用程序及其相关目录进行备份和恢复,并可查看备份计划、备份状态、备份大小等

目录 一、要求 1、需求 2、需求分析 二、脚本 1、总述 2、创建备份脚本 (1)脚本命名 (2)脚本内容 3、创建恢复脚本 (1)脚本命名 (2)脚本内容 4、设置cron作业 5、监控脚…

mybatis、mybatis-plus自定义插件,实现自定义策略数据脱敏功能

背景 mybatis中四大组件的作用,下面开发的插件拦截器会使用 四大组件Executor、StatementHandler、ParameterHandler、ResultSetHandler 需求 1、根据脱敏规则进行查询数据,显示的时候进行展示脱敏 2、根据脱敏规则进行查询数据,将脱敏后的数据批量更新回数据库,进行脱…

【Python系列】 Python打印99乘法表

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Vue+ElementUI技巧分享:创建一个带有进度显示的文件下载和打包组件

在现代前端开发中,用户体验至关重要,尤其是在处理文件下载时。为用户提供实时的下载进度显示和打包功能,不仅能提升用户体验,还能使应用更具专业性。在本文中,我们将创建一个 Vue 组件,用于显示文件下载进度…