大模型是否潜在地进行多跳推理?

news2024/10/3 6:32:14

人工智能咨询培训老师叶梓 转载标明出处

以往的研究表明,基于Transformer的LLMs能够在参数中存储和检索事实信息,以完成简单提示,例如“Stevie Wonder的母亲是谁”。此外,当必要信息明确给出时,LLMs表现出了显著的上下文推理能力。然而,当推理所需的信息不是输入的一部分时,LLMs是否能够执行多跳推理,这一点尚不清楚。

 Google DeepMind、伦敦大学学院、Google Research 和特拉维夫大学的研究团队提出了一个具体的问题:“当处理如‘Superstition的歌手的母亲是谁’这样的两跳提示时,LLMs是否能够确定‘Superstition的歌手’指的是Stevie Wonder这一桥梁实体,以及利用他们对Stevie Wonder母亲的知识来完成提示?” 回答这个问题对于理解LLMs是否能够通过它们参数中隐含的知识进行连接和遍历,而不仅仅是在参数中冗余地存储信息至关重要。

研究的两个步骤

图 1: 展示了研究的两个步骤:第一跳是改变输入提示以引用桥接实体(例如Stevie Wonder),并检查这是否增加了模型对该实体的内部召回。第二跳是检查增加这种召回是否使模型输出与它对桥接实体属性的知识(例如Stevie Wonder的母亲)更加一致。为了测试LLMs的多跳推理能力,研究者们设计了一个实验框架,通过改变输入提示来观察LLMs的内部召回(entity recall)和一致性(consistency)的变化。

研究者构建了一个名为TWOHOPFACT的数据集,用于研究多跳推理,数据集基于Wikidata构建,包含45,595个独特的双跳提示,涵盖52种类型的事实组合。每个双跳提示都设计成需要模型通过两次逻辑推理步骤来正确回答,例如确定特定歌曲的歌手是谁,然后再确定这位歌手的母亲是谁。数据集的构建旨在评估和分析LLMs在没有直接给出所有信息的情况下,是否能够利用其内部知识库来完成复杂的推理任务。通过这个数据集,研究人员可以更深入地了解LLMs的推理机制,并探索提高其推理效率和准确性的方法。

多跳推理中的第一跳

在研究LLMs潜在多跳推理能力的过程中,一个关键的度量方法是内部实体召回得分,即ENTREC。这个方法的目的是衡量模型在遇到两跳提示时,能否有效地在内部召回作为桥梁的实体。具体为ENTREC关注的是模型在特定层级上对隐藏表示的处理,特别是将这些表示投影到词汇空间时,对实体名称的第一个词的对数概率的计算。

例如,考虑一个实体Stevie Wonder,如果我们想要衡量模型对该实体的内部召回,我们会计算模型在某个层级上对"Stevie"这个词的对数概率。这个概率反映了模型在处理与Stevie Wonder相关的提示时,能够在多大程度上内部地回忆起这个名字。ENTREC的值越高,表明模型对桥梁实体的内部召回越强,这在多跳推理中是一个重要的能力。

为了测试ENTREC,研究者们设计了一系列实验,通过改变两跳提示中的某些部分来观察模型的内部召回是否会增加。实验中采用了两种替换方法:实体替换和关系替换。在实体替换中,原始提示中的实体(e1)被替换为另一个实体(e'1),这个新实体不会指向桥梁实体(e2)。例如,如果原始提示是关于“Superstition的歌手”,那么在实体替换后,它可能变成“Thriller的歌手”,因为“Thriller”并不指向Stevie Wonder。

关系替换则是改变提示中的关系(r1),以确保新的描述不会指向桥梁实体。例如,如果原始描述是“Superstition的歌手”,在关系替换后,可能变成“Superstition的抄袭者”,因为抄袭者与Stevie Wonder没有直接关联。

结果,研究者们发现了充分的证据表明第一跳推理能力随着模型规模的增加而变得更强。图2展示了在不同层级上,通过实体替换和关系替换增加桥梁实体的内部召回的相对频率。对于LLaMA-2 7B模型,实体替换的结果显示,随着层级深度的增加,第一跳推理的证据变得更加清晰,在第31层达到0.71的峰值。而关系替换则表现出稍微有些噪声的模式,在第20层达到0.63的峰值。

通过实体替换和关系替换增加桥接实体内部召回的相对频率。这些图表分布在不同层上展示了不同大小的模型(7B、13B、70B)的结果

当模型规模从7B增加到13B再到70B时,无论是实体替换还是关系替换,第一跳推理出现的频率都变得更高。具体来说,实体替换的最大相对频率从7B的0.71增加到13B的0.72,再到70B的0.78。对于关系替换,这个数字从7B的0.63增加到13B的0.64,再到70B的0.76。

图3进一步展示了随着模型规模增加的实验结果。在图3a中,实体替换的第一跳推理结果表明,最大相对频率随着模型规模的增加而提高。在图3b中,关系替换的结果也显示了类似的趋势。这些结果表明,更大的模型规模有助于提高LLM在第一跳推理任务中的表现。

实验结果详细地反映了不同规模的LLaMA-2模型在多跳推理任务中的表现

此外,研究者们还发现,在52种不同的事实组合类型中,有73%的类型在所有模型规模和替换类型中表现出了较强的第一跳推理证据。例如,“国歌的国家的总统”这一事实组合类型,在所有模型和替换类型中的最大频率分别为0.97/0.92/1.0(实体替换)和0.87/0.87/0.89(关系替换)。这表明某些特定的事实组合类型在不同模型规模上都能稳定地展现出较强的第一跳推理能力。

这些发现为理解LLMs在多跳推理任务中的能力提供了重要的见解,并表明模型规模的增加对于提高第一跳推理能力是有益的。然而,这种提升并不是普遍存在于所有事实组合类型中,不同类型的事实组合在不同层级上展现出的相对频率模式也各不相同,这可能与它们独特的语义结构和复杂性有关。

多跳推理中的第二跳

在深入探究LLMs的多跳推理能力时,研究者们特别关注了模型在完成两跳推理任务时的一致性表现。为此,他们引入了一致性得分(CNSTSCORE),这是一种新颖的度量手段,旨在衡量LLM在回答两跳提示和相应的单跳提示时输出的相似度。这一得分的计算基于两个输出概率分布之间的交叉熵,通过求这两个分布交叉熵的平均值来实现。交叉熵是一种衡量概率分布差异的方法,其值越低表示两个分布越相似。因此,如果LLM能够在处理两跳提示时有效地利用第一步推理的结果,那么它在回答两跳和单跳提示时的输出分布应该是接近的,这样的一致性将表现为较高的CNSTSCORE。

在实验设计上,研究者们采取了一种干预的方法来测试LLM的第二跳推理能力。他们不是简单地观察模型的自然输出,而是通过改变模型内部的状态来评估其推理过程。研究者们调整了在计算ENTREC时使用的隐藏表示(xl),目的是增强模型对桥梁实体的召回。这种调整是通过梯度上升的方法实现的,即在模型的隐藏层表示中增加与桥梁实体相关的信息,以此来促进模型对这一实体的记忆和利用。

通过这种方法,研究者们可以观察到当模型对桥梁实体的内部召回增强时,是否会导致CNSTSCORE的提高。如果CNSTSCORE随着ENTREC的增加而提高,这将表明模型在两跳推理中确实利用了第一步推理的结果,并且在回答两跳提示时能够更加一致地输出与单跳提示相对应的答案。这种一致性不仅是对模型内部逻辑一致性的验证,也是对其多跳推理能力的重要证据。

结果分析中,研究者们提供了关于第二跳推理的证据,指出这种推理能力并没有随着模型规模的增加而变得更强。通过图4的展示,我们可以看到在LLaMA-2 7B模型中,中间层和后层的相对频率显著高于随机概率0.5,特别是在第30层时达到了0.64的峰值。这一结果在统计上是显著的,表明在这些层级上,增强对桥梁实体的召回能够提高模型的一致性得分。

增加桥接实体的召回是否提高了LLM在回答双跳提示时与单跳提示的一致性的相对频率

图4中的柱状图通过颜色编码来表示相对频率与随机概率的对比,其中蓝色表示相对频率大于或等于0.5,而红色则表示相对频率低于0.5。值得注意的是,在最后一层,研究者们手动将相对频率设置为0.5,因为在这一层次上,干预对一致性没有影响。

当模型从7B扩展到13B和70B时,第二跳推理的最大相对频率保持相对稳定,分别为0.64(7B)、0.65(13B)和0.61(70B)。这与第一跳推理的发现不同,第一跳推理的能力是随着模型规模的增加而提高的。这种稳定性表明,尽管模型的规模在增加,但第二跳推理的能力并没有得到相应的增强。

研究者们还观察到,在52种不同的事实组合类型中,大约19%的类型在所有模型规模上都展现出了较强的第二跳推理证据。例如,“创始人的本科母校”和“国歌的国家的总统”这两个事实组合类型,在所有模型规模上都显示出了较强的第二跳推理证据,其最大相对频率分别为0.86/0.81/0.82和0.84/0.89/0.82。

这些发现与Ofir Press等人在2023年的观察结果一致,即单跳问题回答的性能提升速度快于多跳性能,因此随着模型规模的增加,组合性差距(即模型能够正确回答所有子问题但不能生成总体解决方案的比例)并没有减少。这表明,尽管模型规模的增加可能带来了一些好处,但在多跳推理任务中,可能还需要考虑其他因素,如模型架构或训练方法的改进,以进一步提升LLMs的推理能力。

潜在的多跳推理

研究者们将之前的发现结合起来,以评估LLMs在处理两跳提示时进行潜在多跳推理的能力。他们将两跳推理的成功视为两个研究问题(RQ1和RQ2)的成功的组合。RQ1的成功意味着在输入提示中增加对桥梁实体的描述性提及能够增加LLM的内部实体召回。RQ2的成功则意味着增加的内部召回能够提高LLM回答两跳提示与单跳提示的一致性。

研究者们通过分析不同模型大小(7B、13B、70B)的LLaMA-2模型,来观察模型在处理两跳提示时的多跳推理表现。他们记录了四种可能的结果:SS(RQ1和RQ2都成功)、FS(RQ1失败,RQ2成功)、SF(RQ1成功,RQ2失败)和FF(RQ1和RQ2都失败)。结果以相对频率的形式展现,其中绿色表示多跳推理成功(SS)的情况。

四种可能结果的相对频率,这些结果结合了第一跳和第二跳推理的成功与否

模型表现:

LLaMA-2 7B:在实体替换和关系替换的实验中,7B模型表现出了高于随机概率的多跳推理能力,尤其是在实体替换中,第30层的相对频率达到了0.46。

LLaMA-2 13B和70B:随着模型大小的增加,研究者们观察到关系替换的多跳推理能力有所提升。例如,在70B模型中,关系替换的最大相对频率从7B的0.38增加到0.43,表明更大的模型可能有助于通过关系变化促进多跳推理。

研究者们还分析了不同事实组合类型对多跳推理能力的影响。他们发现,在52种事实组合类型中,有23%的类型在超过80%的情况下表现出了强烈的潜在多跳推理证据。例如,“首都的国家国歌”这一类型在所有模型和替换类型中都表现出了较高的多跳推理能力。

尽管在某些情况下LLMs表现出了潜在的多跳推理能力,但这种能力在不同类型的事实组合中表现出高度的上下文依赖性。另外虽然模型大小的增加对于第一跳推理有积极的影响,但对于第二跳推理并没有观察到同样的趋势。这可能表明,当前的模型架构和预训练方法在促进LLMs进行深层次的多跳推理方面存在局限性。

这项研究为理解LLMs的潜在多跳推理能力提供了新的视角,并为未来的研究指出了潜在的挑战和机遇。研究结果表明,尽管LLMs在某些情况下能够表现出多跳推理能力,但这种能力的发展和应用可能需要对现有的模型架构、预训练数据和损失函数进行更深入的研究和改进。

论文链接:https://arxiv.org/abs/2402.16837

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1978944.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS优化了4个自定义倒计时

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><title>4个自定义倒计时</title><style>* {margin: 0;padding: 0;box-sizing: border-box;user-select: none;body {background: #0b1b2c;}}hea…

(javaweb)maven--Java项目的构建工具

目录 一.Maven概述 二.Idea导入maven项目 三.maven核心功能--依赖管理 四.依赖管理--依赖传递 五.依赖管理--依赖范围 六.依赖管理--生命周期 一.Maven概述 1.管理和构建Java项目的工具 2.Apache开源&#xff08;源代码开放&#xff09; 3. 4. Maven核心配置文件&#xff…

解题 - 左旋字符串的三种解法(思路)

文章目录 前言&#xff1a; 题干&#xff1a; 解题思路&#xff1a; 思路一&#xff1a; 思路二&#xff1a; 思路三&#xff1a; 小结 前言&#xff1a; 路漫漫其修远兮&#xff0c;吾将上下而求索。 题干&#xff1a; 解题思路&#xff1a; 创建变量k &#xff0c;用…

【知识专栏丨python数分实战】关于电商零售客户细分数据分析及可视化

今天这篇文章将给大家介绍关于电商零售客户细分数据分析及可视化的案例分析。 01 数据整理 导入数据 import pandas as pdimport numpy as npfrom pyecharts.charts import *import pyecharts.options as opts import warningswarnings.filterwarnings(ignore) 数据读取及预…

shell的基础介绍

文章目录 shell数组读取数组关联数组获取数组的长度 Shell运算符算术运算符关系运算符布尔运算符逻辑运算符字符串运算符文件测试运算符 Shell echo命令1.显示普通字符串2.显示转义字符3.显示变量4.显示换行5.显示不换行6.显示结果定向至文件7.原样输出字符串&#xff0c;不进行…

Macbook上运行Windows系统工具Parallels Desktop19

亲爱的笔记本小能手们&#xff0c;你们是否也有这样的困扰&#xff1a;在Macbook上运行Windows系统&#xff0c;却发现虚拟机软件要么卡顿&#xff0c;要么操作复杂&#xff1f;别急&#xff0c;今天就给你们种草一款神器——Parallels Desktop 19。 Parallels Desktop最新绿色…

无人机工程师技术高级证书详解

随着无人机技术的飞速发展&#xff0c;其在航拍、农业、测绘、救援、物流等多个领域的应用日益广泛&#xff0c;对无人机工程师的专业技能与综合素质提出了更高要求。无人机工程师技术高级证书&#xff0c;作为对无人机领域高级工程师专业技能的权威认证&#xff0c;不仅是对个…

QT网络编程

Qt 给用户提供了网络编程的接口&#xff0c;包括TCP、UDP、HTTP三种协议的API以及各种类&#xff0c;可以了解一下。 而在 QT 中想要使用网络编程&#xff0c;必须在pro文件中添加 network 模块&#xff0c;否则无法包含网络编程所需的头文件。 UDP UDP是传输层的协议&#…

Animate软件基础:在时间轴中标识动画

FlashASer&#xff1a;AdobeAnimate2021软件零基础入门教程https://zhuanlan.zhihu.com/p/633230084 FlashASer&#xff1a;实用的各种Adobe Animate软件教程https://zhuanlan.zhihu.com/p/675680471 FlashASer&#xff1a;Animate教程及作品源文件https://zhuanlan.zhihu.co…

实战项目导航

目录 1.AI毕设生成器&#xff08;完善中&#xff09;2.计算机设计大赛案例3.c迷宫游戏4.python学生管理系统教学关注持续更新哦 1.AI毕设生成器&#xff08;完善中&#xff09; 文章链接 &#x1f680; 一键启航&#xff0c;编码从未如此简单&#xff01; 探索Python毕业设计生…

vulnhub之serial

这次我们来做这个靶场 项目地址https://download.vulnhub.com/serial/serial.zip 使用vm新建虚拟机 以下为注意事项 第一步&#xff0c;收集资产 扫描靶场ip netdiscover -i eth0 -r 192.168.177.0/24 抓个包 扫描目录 看到了cookie中有一个user Tzo0OiJVc2VyIjoyOntzOj…

【Golang 面试 - 进阶题】每日 3 题(十八)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/UWz06 &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏…

算法:BFS 解决拓扑排序

目录 拓扑排序 题目一&#xff1a;课程表 题目二&#xff1a;课程表II 题目三&#xff1a;火星词典 拓扑排序 有向无环图(DAG图) 有向无环图也就是有几个点&#xff0c;每个点之间的线段都是有向的&#xff0c;且任意拿出来几个点&#xff0c;都是无环的&#xff0c;这里…

Adaboost集成学习 | Matlab实现基于ELM-Adaboost极限学习机结合Adaboost集成学习故障诊断

目录 效果一览基本介绍程序设计参考资料效果一览 基本介绍 Adaboost集成学习 | Matlab实现基于ELM-Adaboost极限学习机结合Adaboost集成学习故障诊断 ELM(Extreme Learning Machine)和 Adaboost 都是机器学习领域中常见的算法。ELM 是一种单隐层前馈神经网络,具有快速训练、…

使用 1panel面板 部署 springboot 和 vue

代码仓库&#xff1a;还没弄 目录 网站介绍安装步骤1. 准备云服务器2. 准备域名&#xff08;可跳过&#xff09;3. 安装1panel面板4. 服务器开放端口5. 进入1panel面板6. 安装并启动软件&#xff08;服务器和面板开放端口&#xff09;7. 打包并上传项目7.1 打包 Java项目&#…

算力共享中神经网络切片和算力分配策略

目录 神经网络切片 按照算力的分布进行网络层数切片;就是算力越强,运算神经网络层数越多 神经网络切片和算力占比进行映射 算力分配策略 get_current_shard 神经网络切片 按照算力的分布进行网络层数切片;就是算力越强,运算神经网络层数越多 神经网络切片和算力占比进…

基于RK3588+AI支持能源在线监测系统应用的AIOT产品方案

支持能源在线监测系统应用的AIOT产品方案 近年来&#xff0c;智慧能源行业受益于国家政策扶持、市场需求拉动和先进技术支撑呈现出了蓬勃发展态势。助推智慧能源发展&#xff0c;打造了支持能源在线监测系统应用的AIOT产品方案。 能源在线监测系统的市场潜力 随着社会经济的飞…

C++笔记---类和对象(中)

1. 类的默认成员函数 默认成员函数就是用户没有显式实现&#xff0c;编译器会自动生成的成员函数称为默认成员函数。 一个类&#xff0c;我们不写的情况下编译器会默认生成以下6个默认成员函数&#xff0c;分别为&#xff1a;构造函数&#xff0c;析构函数&#xff0c;拷贝构…

【Java】Java swing 民宿管理系统 GUI(源码+可视化界面)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

【vulnhub】W1R3S.inc靶机

靶机安装 下载地址&#xff1a;https://download.vulnhub.com/w1r3s/w1r3s.v1.0.1.zip 运行环境&#xff1a;vmware 信息收集 靶机发现IP扫描 nmap 192.168.93.0/24 端口扫描,发现开放21、22、80、3306端口 nmap -A 192.168.93.159 -p- 进行目录扫描 dirsearach -u http…