复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色

news2024/12/26 13:57:51

大型语言模型(LLM)通过利用庞大的训练语料和强大的计算资源,在众多 NLP 任务中表现卓越。然而,在理解和进行推理方面,这些模型仍显得相对薄弱,仅依靠增加模型的大小无法解决这一问题。

然而,现在广泛研究的思维链(CoT)和自纠正方法仅基于模型对问题的内部理解和观点。在没有外部反馈的情况下,LLM 难以修正其回复,因为模型完全依赖内部表示来生成回复,这使得克服固有的能力限制变得困难。

图片

▲图1 CoT、自纠正和 EoT 的比较

在人类社会中,即使真理只掌握在少数人手中,但通过清晰而有说服力的沟通,也能获得广泛的接受和认可。他人正确的推理可以作为高质量的外部知识,丰富大家对于事物的理解。因此,外部知识的重要性不言而喻,然而获取高质量的外部知识仍是一个极具挑战性的任务。

复旦大学的研究团队提出了思维交流(EoT),该框架实现了在解决问题的过程中跨模型通信。与自纠正方法进行对比,凸显了该模型在整合外部观点方面的独特能力。EoT 促进了思想和思维链在模型间的交流,通过引入丰富的知识来丰富问题解决过程。

论文题目:
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way

论文链接:
https://arxiv.org/abs/2312.01823


背景:什么是 Chain-of-Thought(CoT)

CoT,即“Chain-of-Thought”(思维链),是一种推理链的引导方法。其核心理念是通过生成多个思维链激发语言模型进行更深入的推理和思考,以提升模型的性能。每个思维链代表了模型在解决问题时可能采用的不同思考路径。在 CoT 方法中,通过引导模型生成一系列中间推理步骤,在获得最终答案之前促使模型进行更深入的推理和思考。

具体而言,CoT 包含两个主要步骤:

  1. 生成思维链(Chain-of-Thought Generation): 首先,模型根据输入的问题和上下文生成多个可能的思维链。每个思维链都由一系列与问题相关的语句组成,代表了模型在解决问题时的思考过程。

  2. 选择和生成答案(Answer Selection and Generation): 然后,模型从生成的思维链中选择一条或多条,并基于这些思维链生成最终的答案。这一方法的目的是通过引入多样的推理路径来提高模型的鲁棒性和推理能力。

CoT 是在语言模型中引入多样性和深度推理的方法,有助于模型更全面地理解和回答复杂的问题。

背景:自纠正方法

自纠正方法是指通过利用模型对先前输出的反馈信息,以迭代的方式提高模型生成答案的质量。模型会不断地调整其输出,根据先前的错误或不确定性进行修正,以期望获得更准确、一致的结果。

通常,自纠正方法包括以下步骤:

  1. 生成初始答案: 模型首先生成对于给定输入问题或任务的初始答案。

  2. 获取反馈: 通过比较生成的答案与真实标签或其他参考答案,模型获取关于答案的反馈信息。这可以包括确定哪些部分是正确的,哪些部分是错误的,或者哪些方面存在不确定性。

  3. 调整答案: 模型根据反馈信息调整先前生成的答案,试图更好地匹配预期的正确结果。

  4. 重复迭代: 上述步骤可能会进行多次迭代,每次都尝试进一步优化答案,直至达到满意的性能水平。

这种方法的目标是通过模型对自身产生的错误进行学习和修正,从而提高其在特定任务或领域中的准确性和鲁棒性。

本文方法:EoT

作者提出的思维交流(Exchange-of-Thought,EoT),通过促进跨模型交流,实现对外部反馈的整合。该方法充分利用了 LLM 的通信能力,鼓励参与模型之间理性和答案的共享,从而建立起一个协同思考和分析的环境。EoT 面临着三个主要挑战:

  1. 如何确定模型之间通信的适当对应关系?

  2. 什么条件会使通信终止?

  3. 如何在通信过程中最小化错误推理对结果的影响?

通信范式

作者提出了四种通信范式,以确定模型之间的适当对应关系。如图 3 所示,有了记忆、报告、中继和辩论的通信范式,分别对应总线、星型、环形和树状网络拓扑。

假设在第  轮交流中,给定一组 LLM ,模型  基于  生成相应的理性  和答案 ,其中  是模型  可以收集推理过程的集合。在第一轮中,使用 CoT 方法生成 。

图片

▲图3 通信范式与网络拓扑之间的对应关系

这四种通信范式分别是:

  1. 记忆(Memory): 采用总线拓扑,其中一个中央节点将信息传递给所有其他节点。在 EoT 中,每个模型在推理过程中生成的信息被集中存储,其他模型可以随时访问。

  2. 报告(Report): 采用星型拓扑,其中一个中心节点(中心模型)收集所有其他节点的信息。每个模型向中心模型报告其生成的推理和答案,由中心模型进行综合。

  3. 中继(Relay): 采用环形拓扑,信息通过相邻的节点依次传递。在 EoT 中,模型之间以循环的方式传递推理信息,允许信息在模型之间传递和融合。

  4. 辩论(Debate): 采用树状拓扑,一个中心节点与多个子节点相连。在 EoT 中,中心模型与其他模型展开辩论,各自提出不同的推理和答案,最终达成共识或者根据多数意见选择答案。

通信量

通信量是通过接收的消息数量来衡量的,假设有 n 个模型参与交流,每个节点将其信息从上一轮传输到下一轮。在不同通信范式下的通信量计算方法如下:

  1. 记忆范式: 每个节点都接收来自所有其他节点的信息,导致总通信量为 。每个节点都能够获得其他所有节点的信息,但也导致了较高的通信成本。

  2. 报告范式: 中心节点接收来自  个非中心节点的信息,而每个非中心节点都从中心节点接收信息。每个节点还可以从其上一轮接收信息。总体通信量为 。这种范式下,平均通信量计算为 。

  3. 中继范式: 每个节点从前一节点接收信息以及自己的上一轮信息,导致通信量为 。信息在模型之间传递,但不像记忆范式那样全局传播。节点之间的通信速度为 。

  4. 辩论范式: 每对子节点的通信量为 4,而对于父节点为 3。通信速度  的计算涉及到完全二叉树结构中父节点和子节点之间的信息传递。考虑到节点形成一个高度为  的完全二叉树,总通信量为 。

终止条件

利用模型本轮输出和以前轮的答案,作者制定了两个终止通信的标准:一致输出和多数共识。

  • 一致输出终止: 当模型  在第  轮的输出与第  轮的输出相同时,终止条件触发。在这种情况下, 将停止接收或发送信息并退出当前通信。这种终止条件基于个体模型在连续轮次中达到一致的输出

  • 多数共识终止: 在辩论几轮后,大型语言模型(LLMs)可能会收敛于共识,表明通过人类反馈进行强化学习调整的 LLM 更有可能达成一致。受到这一发现的启发,EoT 提出了多数规则的终止条件,即一旦大多数 LLM 达成一致,它们就停止相互通信。这种方法充当全局终止条件,与一致输出终止不同,后者作为个体模型基础上的停止标准

这两个终止条件有助于确保在通信过程中达到合适的结束点,以提高效率并避免不必要的通信

置信度评估

当人们对自己的答案感到自信时,他们犯错的可能性较小,而当他们对自己的答案感到不确定时,他们更容易受到他人意见的影响。在大模型中亦然,随着生成结果变得更加矛盾,答案正确的可能性降低。因此,如果模型在通信过程中的答案经常变化,那么这些答案很可能是不正确的。

为了评估模型的置信度,作者提出了一种基于回复变化的方法,有助于接收信息的一方验证其可靠性,从而保护问题解决过程免受错误信息的干扰。在通信的每一轮中,模型生成一组答案。计算最常出现的答案的数量 ,得到了模型  在本轮的置信度水平 。

如图 4 所示,这种方法通过观察模型在多轮通信中生成的答案的一致性,为模型的每一轮输出提供了一个置信水平,从而使接收信息的一方能够更好地了解模型对问题的把握程度

图片

▲图4 高置信度模型和低置信度模型之间的示例对比

实验

实验评估了 EoT 在数学推理、常识推理和符号推理三个复杂推理任务中的性能。

性能比较

如表 1 所示,在数学推理任务中,EoT 的四种通信范式相较于 baseline 都显著改进了性能。这突显了 EoT 通过引入外部反馈弥补彼此的不足,来提升模型能力、解决固有缺陷的潜力。

图片

▲表1 EoT 在数学推理任务中的性能比较

通过图 5a 和 5b 的比较,EoT 在常识推理任务上相较于 CoT 和 CoT-SC 方法有明显的性能优势。

图片

▲图5 EoT 在常识推理和符号推理任务中的比较

根据图 5c 和 5d 的比较结果,EoT 在符号推理任务中相较于 CoT 和 CoT-SC 方法有着更好的性能表现。

进一步讨论

根据表 1 的比较,我们观察到不同的通信范式具有各自的优势,这表明不同的通信范式适用于不同的场景。

根据图 6 终止条件的分析结果,缺乏集体协商机制的一致输出终止导致个体模型可能因为退化而过早退出。因此,在涉及多模型通信的情境中,多数共识终止性能提升更高。

图片

▲图6 在 AQuA 上一致输出终止和多数共识终止的比较

根据图 7 的消融实验,置信度评估的引入使模型在通信过程中能够考虑到其他模型的先验置信度,从而有助于在较早的阶段做出更明智的决策,有效减轻了错误思维链的干扰。

图片

▲图7 在 GSM8K 数据集上采用置信度评估对准确性的影响

在图 8 中,对于大多数样本,模型能够在 3 轮通信内就答案达成共识。而 EoT 使模型能够在难以达成共识的问题上进行更多的交流。因此,在部分难题中,可能需要超过 5 轮通信才能达成共识。

图片

▲图8 在 SVAMP 上达到终止条件所需的通信轮次

根据图 9 的实验结果,可以看到通过促进模型之间的外部见解交流,让 EoT 有效提升模型性能,展现了其具有成本效益的优势。

图片

▲图9 在 GSM8K 数据集中的性能和相关成本

如图 10 所示,表明 EoT 在不同的 LLM 上都能够取得显著的性能提升。

图片

▲图10 在 GSM8K 上使用不同 LLM 作为基础的实验比较

通过图 11 探讨了不同 LLM 在不同节点位置对性能的影响。强调了整合更优越的模型和模型多样性能够有效地提高 EoT 的效果。

图片

▲图11 不同 LLM 在 GSM8K 数据集上对准确性的影响

总结

在 CoT 的基础上,作者引入思维交流(EoT)框架,实现了不同模型之间的跨模型交流,从而使推理性能得到显著提升。

EoT的四种通信范式不仅在各种推理任务中展现出卓越的性能,而且相较于其他方法更节约计算成本。通过对外部反馈的整合,EoT 提供了一种新颖而高效的方式,使模型在解决复杂问题时能够更全面、深入地进行推理。

实验证明,EoT 在常识推理和符号推理任务上表现出更好的性能,充分发挥了多模型协作的潜力。我们的研究也强调了模型多样性的重要性,通过整合不同模型的优势,取得了比单一模型更出色的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1322271.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

tcp/ip协议2实现的插图,数据结构5 (22 - 章)

(103) 103 二二1 协议控制块 结构 file, socket , rawcb , inpcb , tcpcb 之间的联系 (104) 104 二二2 回顾总结ip选项和 ip 多播一 ip_dooptions 中对源路由的处理 (105) 105 二二3 回顾总结ip选项和 ip 多播二 选项的定义图与源路由变化图 (106) 106 二二4 回顾总结ip选项和 …

微信小程序长按图片识别二维码

设置show-menu-by-longpress"true"即可&#xff0c;长按图片后会弹出一个菜单&#xff0c;若图片中包含二维码或小程序码&#xff0c;菜单中会有响应入口 <image src"图片地址" show-menu-by-longpress"true"></image>官方说明

Netty应用(七) ----MQTT编解码器

目录 0.前言1. MqttEncoder--编码器1.1 构造方法1.2 encodeConnectMessage -- 连接消息1.3 encodeConnAckMessage - 确认连接1.4 encodePublishMessage -- 发布消息1.5 encodeSubscribeMessage - 订阅主题1.6 encodeUnsubscribeMessage - 取消订阅1.7 encodeSubAckMessage - 订…

姿态识别、目标检测和跟踪的综合应用

引言&#xff1a; 近年来&#xff0c;随着人工智能技术的不断发展&#xff0c;姿态识别、目标检测和跟踪成为了计算机视觉领域的热门研究方向。这三个技术的综合应用为各个行业带来了巨大的变革和机遇。本文将分别介绍姿态识别、目标检测和跟踪的基本概念和算法&#xff0c;并探…

打开VScode时不打开上次使用的文件夹

是不是很烦VScode 打开新的文件夹&#xff0c;每次都打开上次使用过的文件夹&#xff0c;只需在设置里面改一个设置就可以避免了。 Ctrl &#xff0c;打开设置&#xff0c;搜索 window.restoreWindows 通过这种设置就可以让VScode 每次打开新的文件夹而不打开上次的文件夹。

保护您的Android应用程序:Android应用程序安全一览

保护您的Android应用程序&#xff1a;Android应用程序安全一览 我们都知道Android是为所有人设计的——开放、面向开发者、面向用户&#xff0c;这种开放性为今天和明天的移动技术提供了很多便利。然而&#xff0c;开放性也带来了需要妥善处理的安全风险。 安全是我们所有人都…

Linux的SSH(远程登录)

SSH定义&#xff1a; SSH&#xff08;Secure Shell 的缩写&#xff09;是一种网络协议&#xff0c;用于加密两台计算机之间的通信&#xff0c;并且支持各种身份验证机制。 实务中&#xff0c;它主要用于保证远程登录和远程通信的安全&#xff0c;任何网络服务都可以用这个协议…

什么是企业年报?

企业年报是指企业按照规定向相关部门报送的一种年度财务报告&#xff0c;它反映了企业在一年内的经营状况、财务状况、经营成果和现金流量等信息。对于投资者、债权人、政府部门等利益相关者来说&#xff0c;企业年报是非常重要的信息来源。下面就展开讲讲。 一、什么是年报&am…

什么牌子猫粮比较好?质量口碑较好的主食冻干猫粮分享

由于猫咪是肉食动物&#xff0c;对蛋白质的需求很高&#xff0c;如果摄入的蛋白质不足&#xff0c;就会影响猫咪的成长。而冻干猫粮本身因为制作工艺的原因&#xff0c;能保留原有的营养成分和营养元素&#xff0c;所以冻干猫粮蛋白含量比较高&#xff0c;营养又高&#xff0c;…

智能优化算法应用:基于适应度相关算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于适应度相关算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于适应度相关算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.适应度相关算法4.实验参数设定5.算法…

Pycharm中如何使用Markdown?只需装这个插件!

一、前言 由于Markdown的轻量化、易读易写特性&#xff0c;并且对于图片&#xff0c;图表、数学式都有支持&#xff0c;许多网站都广泛使用Markdown来撰写帮助文档或是用于论坛上发表消息。 如GitHub、Reddit、Diaspora、Stack Exchange、OpenStreetMap 、SourceForge、简书等…

SpringMVC---详细介绍+使用

文章目录 什么是SpringMVC&#xff1f;使用SpringMVCSpringMVC创建和连接创建连接RequestMapping的基础使用 获取参数返回数据返回静态页面返回非页面的普通数据&#xff08;text/html&#xff09;返回JSON对象请求转发或者请求重定向 什么是SpringMVC&#xff1f; SpringMVC它…

【MTK平台】BLE链接参数和功耗的关系

一 描述 BLE即低功耗蓝牙,是专为智能设备设计的一种低功耗、低延迟,小数据传输的蓝牙技术。目前广泛应用到手机,平板,及智能穿戴式设备中。 二 解决方案 BLE的数据传输都是发生在Connection Event之间,客户可以根据具体需求来调节链接参数(Connection Parameters)…

OpenAI 偷偷在训练 GPT-4.5!?

最近看到有人已经套路出 ChatGPT 当前的版本&#xff0c;回答居然是 gpt-4.5-turbo&#xff1a; 实际试验下&#xff0c;用 starflow.tech&#xff0c;切换到小星 4 全能版&#xff08;同等官网最新 GPT-4&#xff09;&#xff0c;复制下面这段话问它&#xff1a; What is the…

STM32F407-14.3.12-01使用断路功能

使用断路功能 使用断路功能时&#xff0c;根据其它控制位&#xff08;TIMx_BDTR 寄存器中的 MOE⑨、OSSI⑪ 和 OSSR⑩ 位以及 TIMx_CR2 寄存器中的 OISx⑰ 和 OISxN⑱ 位&#xff09;修改输出使能信号和无效电平。任何情况下&#xff0c;OCx③ 和 OCxN④ 输出都不能同时置为有效…

C#经典面试题:冒泡算法的使用

Hi i,m JinXiang ⭐ 前言 ⭐ 本篇文章主要介绍C#经典面试题&#xff1a;冒泡算法的使用以及部分理论知识 &#x1f349;欢迎点赞 &#x1f44d; 收藏 ⭐留言评论 &#x1f4dd;私信必回哟&#x1f601; &#x1f349;博主收将持续更新学习记录获&#xff0c;友友们有任何问题可…

PIC单片机项目(6)——基于PIC16F877A的心率血氧检测装置

1.功能设计 使用PIC16F877A单片机&#xff0c;检测心率和血氧浓度&#xff0c;通过了protues仿真。仿真中&#xff0c;使用NE555芯片&#xff0c;构成一个振荡装置&#xff0c;振荡频率可调&#xff0c;用于模拟人体心率的变化。血氧传感器&#xff0c;则使用一个滑动变阻来模拟…

Log打印自动打印编译时间版本号打印方法

Log打印自动打印编译时间版本号打印方法 是否需要申请加入数字音频系统研究开发交流答疑群(课题组)&#xff1f;可加我微信hezkz17, 本群提供音频技术答疑服务&#xff0c;群赠送蓝牙音频&#xff0c;DSP音频项目核心开发资料,

scipy库的label函数|标记图像连通域

邻域 label函数标记连通区域 默认以 4 邻域划分区域 from scipy.ndimage import label import numpy as npa np.array([[0,0,1,1,0,0],[0,0,0,1,0,0],[1,1,0,0,1,0],[0,0,0,1,0,0]]) labels, N label(a) print(labels)[[0 0 1 1 0 0][0 0 0 1 0 0][2 2 0 0 3 0][0 0 0 4 0 …

Postman解决批量执行接口中包含文件上传接口断言错误

文章目录 前言一、问题描述二、解决方法一1.点击设置图标 → 选择 "Settings"2.打开允许读取工作目录外的文件开关3.重新批量执行接口&#xff08;问题完美解决&#xff09; 三、解决方法二1.点击设置图标 → 选择 "Settings"2.查看文件存储默认位置3.将要…