【论文笔记】Multi-Chain Reasoning:对多思维链进行元推理

news2024/11/18 19:35:08

目录

  • 写在前面
  • 1. 摘要
  • 2. 相关知识
  • 3. MCR方法
    • 3.1 生成推理链
    • 3.2 基于推理链的推理
  • 4. 实验
    • 4.1 实验设置
    • 4.2 实验结果
  • 5. 提及文献


写在前面

  • 文章标题:Answering Questions by Meta-Reasoning over Multiple Chains of Thought
  • 论文链接:【1】
  • 代码链接:暂无
  • 仅作个人学习记录用

1. 摘要

现代多跳问答系统(QA)通常将问题分解为一系列的推理步骤,称为思维链(CoT),然后得出最终答案。通常,多个链通过对最终答案的投票机制进行抽样和聚合,但中间步骤本身被丢弃。虽然这些方法提高了性能,但它们没有考虑跨链中间步骤之间的关系,也没有为预测答案提供统一的解释。本文介绍了多链推理(Multi-Chain Reasoning, MCR),一种促使大型语言模型在多条思维链上进行元推理的方法,而不是聚合它们的答案。MCR检查不同的推理链,混合它们之间的信息,并选择在生成解释和预测答案中最相关的事实。在7个多跳QA数据集上,MCR都优于基准模型。此外,分析表明,MCR的解释具有较高的质量,使人类能够验证其答案。

2. 相关知识

对于多跳问答,可以查看【论文笔记】Self-Prompted CoT:自发思维链框架 中的第一部分:1. 开放域 | 多跳 | 推理 | 问答。

对于CoT有关知识,可以查看【学习记录】Prompt Engineering:ICL、CoT 以及更多。

3. MCR方法

MCR方法是一种在多条推理链上进行元推理来回答问题的方法。重点是开放域问答,其中输入是一个问题 q q q ,回答它的证据是在语料库 C C C 中的一个或多个句子中找到的。当回答 q q q 需要多个推理步骤时,它可以用一个推理链来表示,记为 r r r。推理链是一个或多个中间问题-证据-答案三元组 ( q i , e i , a i ) (q_i, e_i, a_i) (qi,ei,ai) 的列表。证据 e i ∈ C e_i∈C eiC是一个与回答中间问题 q i q_i qi 相关的句子。

在这里插入图片描述

上图描述了在回答 “多少蚂蚁适合进入碎片大厦? " 时的MCR方法。

第一,作者首先使用一个 prompted LLM 来生成多条推理链, r ( 1 ) , . . . , r ( k ) r^{(1)},..., r^{(k)} r(1),...,r(k) (步骤1 ~ 2)。每个 r ( j ) r^{(j)} r(j) 是由生成的中间问题和检索到的上下文交织生成的(§3.1)。本文的主要贡献是步骤3:引入第二个 LLM ,在多个推理链上提示元推理,收集证据事实作为其解释并生成最终答案(§3.2)。

3.1 生成推理链

在这里插入图片描述

给定一个问题 q q q,本文使用:(1) 一个分解模型 和 (2) 一个检索器组件来生成它的推理链。本文的推理链生成过程在很大程度上是基于之前的研究工作(Press et al., 2022; Trivedi et al., 2022a)。上图描述了分解和提取的交替进行。在每一步中,分解模型根据原始问题 q q q 和前面的推理步骤生成一个中间问题 q i q_i qi。然后,检索器利用 q i q_i qi 检索相关证据 e i ∈ C e_i∈C eiC,将 e i e_i ei q i q_i qi 反馈到分解模型(伴随着前面的步骤)中,生成中间答案 a i a_i ai。在答案生成过程中,作者将中间证据句前置到链的开始部分,而不是将它们交错起来,因为它提高了所有基线的准确性。对于分解提示,具体见论文中的 §D ,在此不再叙述。

3.2 基于推理链的推理

元推理模块是MCR的核心贡献。作者利用它们进行上下文生成,而不是为它们的预测答案采样多条链。这个context被输入到一个提示的 prompted LLM 中,以读取生成的链并对其进行推理以返回答案。

在 §3.1 中,将推理链定义为 ( q i , e i , a i ) (q_i, e_i, a_i) (qi,ei,ai) 三元组的列表。首先对多个链进行采样,并使用它们的所有中间问答对 ( q i , a i ) (q_i , a_i) (qi,ai) 作为我们的多链上下文(使用问题-证据对 ( q i , e i ) (q_i , e_i) (qi,ei) 的变式)。元推理模块从多个推理链(§ 3.2)中抽取出问答 ( q i , a i ) (q_i , a_i) (qi,ai)对的多链语境来回答问题。作者实验了一个备选的多链情境,由问题和检索到的证据 ( q i , e i ) (q_i , e_i) (qi,ei) (§3.1)组成。这个设定类似于过去的工作(Trivedi et al., 2022a),然而,句子是来自多个推理链的中间证据,而不仅仅是贪婪-解码链(greedy-decoded chain)。作者将这些变体 MCR - Ev 和 SCR - Ev 与 MCR 和 SCR 在QA对上的原因进行了比较。MCR - Ev 和 SCR - Ev 的示例提示在论文中的 §D 中列出。

本文第一张图展示了三个采样链(下部的粉红色方框)的多链上下文。接下来,向元推理模块输入多链语境和原始问题。该模型是一个LLM,在多链环境下进行QA的小样本提示。下图是FEVEROUS数据集(在论文 §D 中给出了充分的提示)元推理提示的一个示例。作者指导LLM在给定多链上下文的情况下"分步回答问题",其中每一行描述来自其中一条采样链的 ( q i , a i ) (q_i , a_i) (qi,ai) 对。接下来,追加问题和一个循序渐进的推理链,紧接着给出最终的答案。最后一环是对问题的解说。元推理模块是在数据集的基础上,用6 - 10个示例来提示的。
在这里插入图片描述
为元推理模块提供多思维链,使其能够跨链组合和聚合事实。此外,模型需要提取链条中最相关的事实作为其解释。这使得 MCR 比过去的多链方法更准确,更具有可解释性。

4. 实验

作者在7个多跳QA基准测试中将 MCR 与现有方法进行了比较。这些涵盖了广泛的推理技巧,包括常识、作文、比较和事实验证。当使用两种不同的LLM和检索器进行实验时,MCR 在所有基准测试中始终优于现有方法。实验的设置在 §4.1 中描述,在 §4.2 中讨论主要结果。

4.1 实验设置

由于本文关注的是多跳问题(在开放域环境中),所有的数据集都需要多个推理步骤。遵循前期工作 (Khattab et al., 2022; Trivedi et al., 2022a),为了限制模型API调用的成本,作者从每个模型的开发集中随机抽取500 ~ 1000个实例进行评估。作者还在STRATEGYQA和FERMI的官方测试集上进行了评估,因为它们以隐式推理为目标,具有多个有效策略,并且它们的测试集评估代价是合理的。对于所有的数据集,我们确保在我们的任何提示中都不会出现评估问题。下表从每个数据集中都有示例问题。我们的多跳QA基准可以根据它们所需的推理技能进行分类:显式推理(Implicit Reasoning)与隐式推理(Explicit Reasoning)。

在这里插入图片描述

为了评估,作者使用F1-score来比较所有显式推理数据集的预测答案和黄金答案和二元选择数据集的精确匹配。在FERMI中,使用了Kalyan et al (2021) 的官方数量级评估。作者在论文中 §A 提供了关于评估的额外技术细节。

元推理模块

  • MCR:元推理模块被赋予5条推理链作为其多链语境(§ 3.2)。用贪婪解码的方法解码一条链,并采样另外四条温度 t = 0.7 t= 0.7 t=0.7 的推理链,这使得元推理模块在回答完整问题时可以审查不同的证据。
  • SCR:单链推理(Single-Chain Reasoning, SCR)可以消除多链上下文的影响。在SCR中,元推理模块除了在上下文中只有贪婪解码的链外,还被给予与MCR相同的提示。这就将使用多条链的效果与从分解模型中分离出来的LLM产生最终答案的效果区分开来。

基准模型

  • SA:Self-Ask (Press et al., 2022) 返回由贪婪解码生成的单个推理链的答案。
  • SC:Self-Consistency (Wang et al , 2023) 作为基线,包含多个推理链。它基于从分解模型中采样的多条链来返回多数答案。使用3、5和15个采样链的变体进行实验,与之前的工作一致。与MCR一样,使用贪婪解码生成的链以及 t = 0.7 t=0.7 t=0.7 时采样的额外链。

检索方式:检索方式与Press et al . (2022) 类似,本文的模型和基线使用基于Google Search的检索器,通过SerpAPI服务。然而,作者还包括使用开源检索器(Khattab and Zaharia, 2020)。由于本文的大部分数据集都包含了来自维基百科的证据,因此作者将其作为检索语料。因此,作者将搜索查询格式化为 ’ en.wikipedia.org q i q_i qi ’ ,其中维基百科域位于中间问题之前。返回谷歌检索到的排名前1的证据。检索到的证据既可以是句子,也可以是解析后的列表。继 Trivedi et al. (2022a) 之后,作者还检索了原问题 q q q 的证据。最后,将所有检索到的证据句前置到分解(§3.1)。

4.2 实验结果

实验设计与结果较多,分析较丰富,有空补充

5. 提及文献

[1] Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, and Mike Lewis. 2022. Measuring and narrowing the compositionality gap in language models. ArXiv, abs/2210.03350.
[2] Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. 2022a. Interleaving retrieval with chain-of-thought reasoning for knowledgeintensive multi-step questions.
[3] O. Khattab, Keshav Santhanam, Xiang Lisa Li, David Leo Wright Hall, Percy Liang, Christopher Potts, and Matei A. Zaharia. 2022. Demonstrate-searchpredict: Composing retrieval and language models for knowledge-intensive nlp. ArXiv, abs/2212.14024.
[4] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc V Le, Ed H. Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. 2023. Self-consistency improves chain of thought reasoning in language models. In The Eleventh International Conference on Learning Representations.
[5] Omar Khattab and Matei Zaharia. 2020. Colbert: Efficient and effective passage search via contextualized late interaction over BERT. In Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval, SIGIR 2020, Virtual Event, China, July 25-30, 2020, pages 39–48. ACM.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1428526.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

江科大stm32学习笔记11——旋转编码器计次

一、接线 旋转编码器,旋钮会不断接触断开触点产生电波。 由于两个电波之间相差90,即为正交波,一个电波处于高电平时另一个处于低电平,所以可以用来判断旋转方向。 二、代码 复制粘贴4-1的工程文件,重命名为“5-2 旋转…

Could not resolve host: github.com问题解决

git clone的时候发现机器无法解析github.com,其实应该改用ssh协议去clone,但是我用的是公用的机器,密钥对一直没配置好,所以也就堵死了。那么如果想让机器能解析github.com,(机器本身没有ping命令&#xff…

深度学习入门笔记(五)前馈网络与反向传播

接着上一节,本节讲解模型自我学习的数学计算过程究竟是怎么样的。 5.1 前馈网络 一个最简单的前馈神经网络如图所示,对于每一个隐藏层,输入对应前一层每一个节点权重乘以节点输出值,输出则是经过激活函数(例如sigmoid函数)计算后的值。 在这样的网络中,输入的数据 x 经…

数据结构—基础知识(16):哈夫曼编码

数据结构—基础知识(16):哈夫曼编码 哈夫曼编码的主要思想 在进行数据压缩时,为了使压缩后的数据文件尽可能短,可采用不定长编码。其基本思想是:为出现次数较多的字符编以较短的编码。为确保对数据文件进…

一、创建Vue3项目

1. 下载 node.js 下载地址:https://nodejs.org/zh-cn 优先选择 16 版本; node -v || node -version 可以检查本地 node.js 版本 2. 设置淘宝镜像源 npm config set registry https://registry.npmmirror.com/ 设置淘宝镜像源 npm config get registry 查看当前镜像…

【GitHub项目推荐--一款100% 开源的物联网开发平台,匹配智慧城市、智能家居和能源管理】【转载】

OpenRemote 一款100% 开源 - 集成您的设备、创建规则以及分析和可视化您的数据的物联网设备管理平台 github地址: https://github.com/openremote/openremote 国内源代码: http://www.gitpp.com/pythonking/openremote OpenRemote 的介绍 OpenRemo…

格式化内存卡后,如何找回丢失的监控视频?

随着摄像头的应用越来越广泛,很多监控摄像头采用了内存卡作为存储介质,方便用户存储和查看摄像头拍摄的视频文件。然而,由于各种原因,监控摄像头的内存卡有时会被意外格式化导致重要数据的丢失,给用户带来诸多困扰。 那…

因子图、边缘化与消元算法的抽丝剥茧 —— Notes for “Factor Graphs for Robot Perception“

Title: 因子图、边缘化与消元算法的抽丝剥茧 —— Notes for “Factor Graphs for Robot Perception” 文章目录 I. 前言II. 因子图的基本概念1. 因子图的定义2. SLAM 中的因子图A. 因子图的图示B. 因子图的因式C. 因子图的二分图形式 III. 边缘化与消元运算的基本原理1. 边缘化…

19. 删除链表的倒数第 N 个结点(力扣LeetCode)

文章目录 19. 删除链表的倒数第 N 个结点题目描述将删除倒数第n个节点转化为删除第n个节点双指针 19. 删除链表的倒数第 N 个结点 题目描述 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:hea…

LeetCode_17_中等_电话号码的字母组合

文章目录 1. 题目2. 思路及代码实现(Python)2.1 回溯 1. 题目 给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应…

中国(合一)民营企业家高峰论坛暨2024精英校友会10周年庆在上饶举行!

1月29日下午,“中国(合一)民营企业家高峰论坛暨2024精英校友会10周年庆典”在上饶市饶商金茂诚悦酒店举行。出席会议的嘉宾有民建上饶市委会专职副主委方乾文、民建上饶市委会秘书长尹林、上饶市民营(个私)经济协会会长傅利平、上…

大数据时代效率革新:数字化管理助力企业迈向全新高度-亿发

在大数据时代的浪潮中,数字化管理成为企业不可或缺的发展趋势。以信息技术为支撑,数字化管理为企业带来了前所未有的机遇和挑战。让我们一起探讨,在这个数字时代,数字化管理如何引领企业走向更加高效、智能的未来。 1. 数据驱动决…

【JAVA】ReentrantLock 显式锁定的类

ReentrantLock 是 Java 中用于进行显式锁定的类,它提供了与 synchronized 关键字类似的互斥性和可重入性,但相比于 synchronized,它提供了更灵活的锁定方式。下面对 ReentrantLock 进行详解: 一、ReentrantLock 是什么&#xff1…

基于JAVA+SpringBoot+Vue的前后端分离的医院管理系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 随着计算机科学的迅猛…

某赛通电子文档安全管理系统 UploadFileList 任意文件读取漏洞复现

0x01 产品简介 某赛通电子文档安全管理系统(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护,系统具有透明加密、主动加密、智能…

动态微信小程序码和开发者工具解析小程序码

一、动态生成微信小程序码 1、方式一 微信官方网站,对已发布的小程序,提供了一个快捷的入口,输入微信小程序的page页面即可。 page页面可以通过右侧开启入口获取 也可以通过开发者工具左下角的页面地址和参数地址那里获取到 二、生成的小…

异步编程,到底有什么用?

关键词:高性能、架构设计、异步思想、场景落地 文章导读 场景切入 先来看一个日常生活快递寄件场景,从寄件人(寄件)到收件人(收件),全流程如下 当你准备寄送一个包裹时,通常你可以…

智慧水务(水厂)大数据平台,打造水务运营管理驾驶舱

智慧水务运营管理平台 全天候把握水源、水厂、管网、泵站等生产调度全过程数据。各环节数据联动,形成设备自动运行的预设逻辑,简化人工操作,实现无人值守。并对取水总能耗、吨水电耗、运行经济性成本加以分析,辅助水务系统节能降…

2024年混合云:趋势和预测

混合云环境对于 DevOps 团队变得越来越重要,主要是因为它们能够弥合公共云资源的快速部署与私有云基础设施的安全和控制之间的差距。这种环境的混合为 DevOps 团队提供了灵活性和可扩展性,这对于大型企业中的持续集成和持续部署 (CI/CD) 至关重要。 在混…

BRAIN :帕金森病中与痴呆相关的动态功能连接改变

fMRI成像手段由于其在高空间分辨率的优势获得了疾病研究的青睐,越来越多的疾病研究使用fMRI手段来通过找到特异的神经标记物从而提升临床治疗的诊断效力以及准确率。但是,功能磁共振受到其时间分辨率相对较低这一缺点的影响,在对疾病时间特异…