中科院提出“思维传播”,极大增强ChatGPT等模型复杂推理能力

news2025/2/28 12:51:06

中国科学院自动化研究所与耶鲁大学计算机系研究人员联合发布了,一份名为《思维传播:用大型语言模型进行基于类比的复杂推理》的论文。

ChatGPT等大型语言模型展示出了超强的创造能力,只需简单的文本提示就能生成小说、营销创意、简历等各种文本内容。但在处理复杂的推理任务时却差强人意,主要面临从0推理以及在任务推理过程中错误累加两大难题。

为了解决这些难题,研究人员提出了思维传播(Thought Propagation,简称“TP”)的技术框架,通过提出类比问题、解决类比问题、聚合类比问题,从而提升大语言模型的复杂推理能力。

根据在最短路径寻优、创造性写作和语言模型智能体计划测试结果显示,相比传统方法,思维传播将性能分别提升了12%、13%和15%。

简单来说,就是为大语言模型添加一种拟人化的“类比思想”,让其学会总结、利用过往的成功经验,不必总是从0开始。

论文地址:https://arxiv.org/abs/2310.03965
在这里插入图片描述

思维传播框架简单介绍

从论文内容来看,思维传播框架模拟的就是人类的“类比思想”。当我们遇见新问题时,经常会使用过往的经验、行动来解决这些难题,这也被称为“类比推理”。

思维传播框架主要由LLM Propose、LLM Solve、LLM Aggregate、多层实现和即插即用等多个模块组成。

LLM Propose :通过使用 prompt 的方式让语言模型提出与输入问题相关的类比问题。提出的类比问题可以从两个角度帮助解决输入问题:(1)类比问题的解可以直接转移应用到输入问题上;(2)解决类比问题可以推导出针对输入问题的计划。

在这里插入图片描述

LLM Solve:使用现有的提示方法(如 Chain-of-Thought)来解决输入问题和 LLM Propose 模块提出的类比问题。得到输入问题和类比问题的初始解。

LLM Aggregate:该模块聚合类比问题的解来增强输入问题。具体来说,有两种方式: (1)提示语言模型基于类比问题的结果直接产生输入问题的新解。

(2)比较输入问题和类比问题,并基于类比问题的结果推导针对输入问题的计划。然后执行该计划来纠正输入问题的中间推理。

多层实现:可以堆叠多个思维传播层,以利用 K 跳的类比问题来逐层改进输入问题的解。

在这里插入图片描述

即插即用:思维传播兼容现有方法,可以应用到不同的推理任务中,只需要替换 LLM Solve 模块的具体实现。

思维传播框架性能测试

为验证思维传播框架的性能,研究团队在最短路径寻优、创造性写作和语言模型智能体计划三大任务上进行了比较实验。

结果显示,思维传播相比于仅使用提示方法的基线系统,在找到最优解的性能提升12%,在生成连贯段落的性能提升13%,在完成任务的性能提升15%。

在这里插入图片描述

研究人员指出,这三个任务分别需要搜索图结构数据、开放式写作和长时间计划,当前的提示方法仍面临挑战。

而思维传播框架展现了在这些复杂推理任务上取得显著提升的潜力。同时,该框架提供了一种可即插即用的通用类比推理方法,可避免针对特定任务设计定制提示,降低使用门槛。

思维传播框架对大语言模型的重要性

从思维传播框架在GPT-4、GPT-3.5等大语言模型的测试结果来看,可显著提升复杂推理能力,并减少推理的错误。

提高复杂推理能力: 思维传播可以重用解决类比问题的经验,来增强大语言模型处理复杂任务的能力,例如,最短路径寻优、创造性写作等需要多步推理的任务。

减少推理错误:通过比较类比问题的解来指导输入问题的推理,可以帮助大语言模型避免从0开始推理时容易堆积的错误。

减少任务特定提示设计:提供了一个通用的类比推理框架,可以即插即用地应用到不同任务,减少了针对特定任务设计定制提示的工作量。

提供新的研究视角:思维传播为研究社区提供了,从类比推理视角来增强大模型复杂推理能力的新思路和有效途径。

表现优于同等规模模型:在多个任务上的试验表明,基于思维传播的GPT-4明显优于不使用该框架的GPT-4,以及其他同等计算量的模型。

可扩展性:思维传播是是一个通用框架,未来可继续优化和扩展到更多的复杂推理任务中,以发挥GPT-4等大语言模型的潜力。

在这里插入图片描述

总体来说,思维传播框架的优势在于可以重用类比问题的解来直接得到输入问题的新解,避免从0开始推理。

同时,它还可以学习到解决类比问题的总体策略,推导出计划来指导输入问题的推理,以此规避中间步骤的错误。

在这里插入图片描述

本文素材来源中国科学院自动化研究所论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1087214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

同城生活广告投放小程序源码系统 带完整搭建教程

今天给大家分享一个同城生活广告投放小程序源码系统,可以通过这个小程序投放广告来获取盈利,操作简单,后台功能强大,新手或小白不用担心。以下是部分核心代码: 系统特色功能如下: 多城市选择:该…

机器视觉公司还是招人?

文章目录 他们是真的在招人吗?裁那么多人,却还要招那么多人,图什么?为什么?闹着玩?我们常见的裁员原因有以下几种:几个小建议: 最近机器视觉搞外包,搞AI外观检测&#xf…

Spring Boot中的JdbcTemplate是什么,如何使用

Spring Boot中的JdbcTemplate是什么,如何使用 Spring Boot是一个流行的Java应用程序开发框架,它简化了Java应用程序的开发过程,并提供了丰富的功能和工具。在Spring Boot中,JdbcTemplate是一个强大的数据库访问工具,它…

如何使用 arrayList.removeAll(Collection<?> c)?

引言 对于 Collection 集合及其实现类都有 removeAll(Collection<?> c)。 对于ArrayList 的实例对象&#xff0c;在数据比较多的情况下&#xff0c;方法 removeAll() 的传参 c 的类型是 HashSet会比是 ArrayList 的情况快的多。 原因 我们来细看一下ArrayList类的re…

redis简介和配置教程

redis简洁版教程 一、概述1、简介2、特点3、优势 二、配置 一、概述 1、简介 Redis是一个高性能的 key-value 数据库。 2、特点 Redis支持数据的持久化&#xff0c;可以将内存中的数据保存在磁盘中&#xff0c;重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-v…

矩阵系统能做什么

矩阵系统可以应用于许多领域&#xff0c;包括但不限于以下方面&#xff1a; 1. 工程领域&#xff1a;在工程项目中&#xff0c;矩阵系统可用于设计和优化结构、系统、网络、电路、热管理等。例如&#xff0c;矩阵系统可以用来分析和预测系统的稳定性、可靠性、响应时间、能耗等…

C++如何让自己变得富有?

&#x1f388;个人主页:&#x1f388; :✨✨✨初阶牛✨✨✨ &#x1f43b;强烈推荐优质专栏: &#x1f354;&#x1f35f;&#x1f32f;C的世界(持续更新中) &#x1f43b;推荐专栏1: &#x1f354;&#x1f35f;&#x1f32f;C语言初阶 &#x1f43b;推荐专栏2: &#x1f354;…

多输入多输出 | MATLAB实现CNN-BiGRU-Attention卷积神经网络-双向门控循环单元结合SE注意力机制的多输入多输出预测

多输入多输出 | MATLAB实现CNN-BiGRU-Attention卷积神经网络-双向门控循环单元结合SE注意力机制的多输入多输出预测 目录 多输入多输出 | MATLAB实现CNN-BiGRU-Attention卷积神经网络-双向门控循环单元结合SE注意力机制的多输入多输出预测预测效果基本介绍程序设计往期精彩参考…

Newman基本使用

目录 简介 安装 使用 官网 运行 输出测试报告文件 htmlextra 使用 简介 Newman 是 Postman 推出的一个 nodejs 库&#xff0c;直接来说就是 Postman 的json文件可以在命令行执行的插件。   Newman 可以方便地运行和测试集合&#xff0c;并用之构造接口自动化测试和持续集成…

基于Java的宠物医院管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言主要功能:具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领…

mysql面试题47:MySQL中Innodb的事务实现原理

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Innodb的事务实现原理 InnoDB是MySQL中一种常用的存储引擎,它支持事务和行级锁等特性。以下是InnoDB事务实现的简要原理: 事务定义: 事务是指一…

【算法系列 | 10】深入解析查找算法之—线性查找

序言 心若有阳光&#xff0c;你便会看见这个世界有那么多美好值得期待和向往。 决定开一个算法专栏&#xff0c;希望能帮助大家很好的了解算法。主要深入解析每个算法&#xff0c;从概念到示例。 我们一起努力&#xff0c;成为更好的自己&#xff01; 今天第10讲&#xff0c;讲…

上机实验二 设计单循环链表 西安石油大学数据结构

实验名称:设计单循环链表 (1&#xff09;实验目的:掌握线性表的链式存储结构;掌握单循环链表及其基本操作的实现。 (2&#xff09;主要内容:实现单循环链表的初始化、求数据元素个数、插入、删除、取数据元素等操作;用插入法建立带头结点的单循环链表;设计一个测试主函数验证…

Sprint framework Day07:注解结合 xml 配置

前言 Spring注解结合XML配置是指在Spring应用中&#xff0c;使用注解和XML配置的方式来进行Bean的定义、依赖注入和其他配置。这种方式可以充分利用Spring框架的注解和XML配置两种不同的配置方式的特点。 在Spring框架中&#xff0c;我们可以使用注解来定义Bean&#xff0c;如…

后端:推荐 2 个 .NET 操作的 Redis 客户端类库

目录 Redis特点 Redis场景 1. StackExchange.Redis 2. FreeRedis &#x1f680; 快速入门 &#x1f3a3; Master-Slave (读写分离) &#x1f4bb; Pipeline (管道)示例 &#x1f30c; Redis Cluster (集群) Redis &#xff0c;是一个高性能(NOSQL)的key-value数据库,Re…

【linux进程(四)】僵尸进程和孤儿进程概念进程优先级讲解

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:Linux从入门到精通⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学更多操作系统知识   &#x1f51d;&#x1f51d; 进程优先级 1. 前言2. 什么是…

快递查询神器:一键筛选超时快递的方法揭秘

快递服务的快速发展&#xff0c;为我们的生活带来了极大的方便。然而&#xff0c;由于各种原因&#xff0c;有时候我们会遇到快递超时的情况&#xff0c;这给我们的生活带来了一些困扰。但是&#xff0c;现在有了一款神奇的快递查询助手软件&#xff0c;能够一键筛选超时快递&a…

上传文件夹里面的文件后,按树结构的table表格展示

1. 先处理最简单的 原始数据大概是这样: let fileArr [{progress: 100,status: 成功,type: 通号,webkitRelativePath: "六捷数据2023-05-04 163909/G163/Abis口详细信息_(G163)(380BL3544-0)(14984173988)(2018-01-24 174431.0740—2018-01-24 180347.9070).xls"…

Node.js 正在逐渐被淘汰!Bun 1.0 正在改变 JavaScript 的游戏规则

在深入讨论之前&#xff0c;我们需要解释什么是 JavaScript 运行时以及为什么我们应该关心其速度。 想象一下&#xff0c;你用 JavaScript 写了一个故事&#xff0c;需要有人大声读出来。JavaScript 运行时就像是那个友好的叙述者&#xff0c;为你的故事赋予生命&#xff01;它…

vue实时显示当前年月日时分秒有时间单位的<script setup>写法

在Vue 3中&#xff0c;您可以使用<script setup>语法来编写实时显示当前年月日时分秒并显示时间单位的代码。以下是一个示例&#xff1a; <template> <div> 当前时间&#xff1a;{{ currentDateTime }} </div> </template><script setup>…