ToT: 利用大语言模型进行有意识的问题解决(上)

news2025/2/1 22:51:33

ToT

  • 摘要
  • 介绍
  • 利用大语言模型进行有意识的问题解决
    • 1. 思维分解
    • 2. 思维产生 G(p,s,k)
    • 3. 状态评估V(p,S)
    • 4. 搜索算法
  • 实验
  • 相关工作
  • 讨论

原文:

原文信息

摘要

语言模型正在迅速成为一般问题解决的部署,但在推理过程中仍然局限于 标记级别(token-level) ,在推理中从左到右做出决定的过程。这意味着语言模型有许多缺陷,在需要探究的任务,需要战略展望的任务,或者初始决定有着重要意义的任务。

token-Level是指以token为单位进行处理和分析的级别。
一个token可以是一个单词,一个字符,一个标点符号或者是一个子词,具体取决于所使用的tokenization方法和任务的要求。
在文本处理过程中,首先需要将原始文本分割成token,这个过程称为tokenization。然后,可以在token-Level上进行各种操作,例如 词性标注、命名实体识别、情感分析、机器翻译等。在这些任务中,模型会对每个token进行处理,而不是整个文本。

left-to-right decision-making 从左到右决策
在这种决策中,决策者会按照一定的顺序或步骤逐一考虑和做出决策。这种顺序可能是基于时间、优先级、逻辑顺序或者其他因素。从左到右的决策过程通常是线性的,即每个决策点都依赖于前一个决策点的结果。

为了克服这种情况,引入了一个新的语言模型推理框架——TOT,它概括了传统的“思维链”方法来提示语言模型,并实现了对 连贯的文本单元 作为解决问题的中间步骤的探索。

ToT允许LM通过考虑多种不同的推理路径来执行需要深思熟虑的任务,还会通过值评估来选择下一步该怎么做,当需要作出整体决策时,还需要进行前瞻和回溯。

该文实验表明,ToT在三个新型任务上明显提高了语言模型解决问题的能力。

介绍

目前一些语言模型如GPT、PaLM在处理推理任务的性能越来越好。但是这些进步的基础仍然是产生文本的原始的自回归机制(autoregressive mechanism),它通过从左到右的方式逐一做出标记级别的决策。那么这样一个简单的机制足以让LM朝着产生解决问题的方向构建吗?如果不的话,什么问题将挑战当前的模式,已经应该有什么替代机制?

本文从“双过程”(dual automatic)模式研究入手回答上述问题。双过程模式认为,人类有两种产生决策的方式:

  1. 一种快的,自动的,无意识的模型
  2. 一种慢的,深思熟虑的,有意识的模型

LM简单的关联标记级别选择类似于1,因此可能受益于深思熟虑的2的规划过程的增强:(1)对当前选择进行维护和探索不同的选择,而不是只考虑一个;(2)评估这个选择当前的状态,并积极展望未来或回溯,以做出更全局性的决策。

从探索规划过程获得灵感,Newell将问题解决描述为通过组合问题空间(表示为树)进行搜索。为此我们提出使用语言模型解决一般问题的思维树。

当现有方法为解决问题提供连续的语言序列样本时,TOT主动维护一个思维树,其中每个思想都是一个连贯的语言序列,作为解决问题的中间步骤。它允许LM通过深思熟虑的推理过程来自我评估这些不同中间思维过程来解决问题,而这些深思熟虑的推理过程也就是实例化的语言。这种通过LM自我评估和审议实现搜索启发式新颖的,因为以前的搜索启发式要么是编程要么是学习。最后我们将这种基于语言的生成和评估不同思想的能力与搜索算法相结合,如广度优先搜索和深度优先搜索,这允许通过前瞻或回溯来系统地探索思维树。

利用大语言模型进行有意识的问题解决

树的节点代表部分解,分支对应于修改它们的操作(即每个节点代表一个思维状态或想法,边表示不同思维状态之间的关系和转换)。选择哪一个分支由启发式决定的,这些启发式有助于导向问题空间并引导问题解决者找到解决方案。
这一观点强调了使用LM解决一半问题的现有方法的两个关键缺点:

  1. 在局部上,它们没有探索思维过程中的不同延续——树的分支。
  2. 在整体上,它们不包含任何类型的规划,前瞻或回溯来帮助评估这些差异——这种启发式引导的搜索似乎是人类解决问题的特征。

为了解决这些缺陷,我们介绍了TOT,一种允许LMs在思维之上探究多条推理路径的范式。

TOT把任何问题都框定为对一课树的搜索,每一个节点是一个状态
s=[x,z1…i],代表一个部分输入和思想序列非常丰富解决方案。
TOT的一个具体实例化涉及回答四个问题:

  1. 如何将中间过程分解为思维步骤;
  2. 如何在每个状态中产生潜在的思维;
  3. 如何启发式的评估状态;
  4. 使用什么搜索算法
    在这里插入图片描述

1. 思维分解

虽然CoT在没有明显的分解的情况下连贯地对思想进行采样,但ToT利用了问题的属性去设计和分解中间的思维步骤。
一个想法可以是几个单词(交叉词)、一行方程式(24游戏)或一整段写作计划(创意写作)。一般来说,一个思维应该足够“小”,以便LMs可以产生有希望的和多样化的样本(例如,生成一本书通常太“大”而不连贯b),但又应该“足够大”,使得LMs可以评估她对于问题解决的前景(例如,生成一个令牌通常太“小”而无法评估)。

2. 思维产生 G(p,s,k)

给定一个树的状态,我们思考两个策略来为下一个思考步骤生成k个候选:

  1. 从COT提示中抽取 i.i.d 思维样本(创意写作):
    思维空间(thought space) 丰富时(例如,每个思维都是一个段落),按照这种方法效果较好,并且i.i.d.样本导致多样性,;

i.i.d独立同分布
指在思维空间中的独立且同分布的思维状态或想法
这意味着在思维空间中,每个思维状态或想法是相互独立的,一个状态或想法的出现不会影响其他状态或想法的出现。同时,这些思维状态或想法也具有相同的分布,即它们在思维空间中以相同的频率或概率出现。

思维空间thought space
即所有可能的思维状态或思考路径的集合。它代表了一个人或系统在思考问题、生成想法或进行推理时可以进入的各种可能性。思维空间可以是非常广阔的,包含了各种不同概念、关系和推断。
在ToT中,通过构建一个树状结构来表示思维空间,每个节点代表一个思维状态或想法,边表示不同思维状态之间的关系和转换。通过遍历这个树状结构,可以探索和展开不同的思维路径,从而生成新的想法或解决问题。

  1. 使用 “建议提示” 按顺序提出想法(24游戏,交叉词):
    当思维空间更加受限制时(例如:每个想法只是一个单词或一行),这种方法更好,因此在同一上下文中提出不同的想法可以避免重复。

propose prompt建议提示
指的是在思维空间中提出一个思考路径或想法的提示。在ToT框架中,propose prompt用于在树的某个节点处生成一个新的子节点,以扩展思维空间并引导后续的思考。
propose prompt 可以是一个问题、主题、假设或任何其他形式的提示,它会激发模型在当前思维状态下产生新的想法或展开更深层次的思考。通过不断提出粗新的提示,ToT可以模拟出更加复杂和丰富的思考过程,从而生成更多多样化和有深度的回答或内容。

3. 状态评估V(p,S)

给出不同状态的边界,状态评估器评估它们做出的解决问题的过程,作为搜索算法的启发式算法,以确定要继续探索哪些状态以及以何种顺序进行探索。尽管启发式是一个解决搜索问题的标准的方法,但它们通常是编程的或学习的。我们提出第三种选择: 通过使用LM来有意识地对不同的思维状态进行推理和思考。在合适的时候,这种故意的启发式可以比编程规则更灵活,也比学习的模型更具样本效率。与思维生成器类似,我们考虑两种策略来独立或一起评估状态:

  1. 独立地评估每一个状态:
    在这里插入图片描述
    其中值提示导致状态s生成标量值w或者分类(例如确定/可能/不可能),该分类可以启发式的转化为值。这种评价推理的原因可能因问题和思维步骤而异。在这项工作中,我们发现通过少量前瞻模拟(例如,通过5+5+14快速确认5、5、14可以达到24,或者)加上常识(例如,123太小而无法达到24,或没有单词可以以“tzxc”开头)来探索评估。尽管前者可能提示“好的”状态,但是后者可以帮忙排除“不好的”状态。这种评估不需要完美,仅需要大概。
  2. 跨状态投票:
    在这里插入图片描述
    根据在投票提示中有意比较s中的不同状态,选出“好”状态 s*~pvote(s* |S),当问题的成功很难直接评估时(例如,段落的连贯性),很自然地会比较不同的部分解决方案,并投票选出最有希望的解决方案。这类似于 step-wise self-consistency思维过程中逐步确保自洽性过程的思想,即将“探索哪个状态”作为最终选择QA,并使用LM样本进行投票。

对于这两种策略,我们可以多次提示LM聚合评或投票结果,以换取时间,资源,成本,从而获得更忠实或稳健的启发式方法。

step-wise self-consistency
指的是在思维过程中逐步确保自洽性的过程。在思考问题或解决复杂任务时,人们经常会分解步骤进行推理和思考,以确保每一步都是相互一致和合理的。
在ToT中,step-wise self-consistency是指在思维模型中逐步推进,确保每一个状态和节点都是与前一步的状态想一致和合理。

4. 搜索算法

最后,在TOT框架内,可以依赖树形结构即插即用不同的搜索算法。我们探索了两种相对简单的搜索算法,并为未来的工作保留了更先进的算法。
(a)广度优先搜索算法(BFS):
(b)深度优先搜索算法(DFS):

从概念上来看,TOT作为一种使用LM来解决问题的方法,有许多好处:
1.生成能力。IO,COT,COT- SC和自我增强,可以作为TOT的特殊案例(例如,有限深度和广度的树)。
2.模块化。基于LM,也是基于思维分解,产生,评估和搜索过程都可以独立的变化。
3.适应性。可以适应不同问题属性,LM的功能和资源约束。
4.方便。不需要额外的训练,只需要一个预训练的LM就可以满足。
另一个模块将展示这些概念的好处如何转换成在不同问题上的强大经验表现。

实验

相关工作

讨论

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/762730.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp左右滑动切换月份

左右滑动触发事件 给组件绑定事件,主要利用组件的触摸开始和触摸结束事件来实现: <view @touchstart="touchStart" @touchend="touchEnd"> 2,声明初始化点击位置变量startX data() {return {list:[],pageNum:1,pageSize:10,//初始化点击位置…

手撕Spring06

概述 该章节通过各种Context解决上下文问题&#xff0c;使用模版方法的设计模式&#xff0c;并增加了bean实例化之前、beanc初始化前后的扩展点整体设计 知识点补充 类图 context context包下主要是传递上下文、调用core.io、beans等包下的实际功能完成&#xff0c;配置文件…

12.11 FS4412开发环境搭建

目录 开发边硬件资源介绍 地址映射表 硬件控制原理 load/store 地址映射表4个G包括 开发边硬件资源介绍 地址映射表 硬件控制原理 1.数据运算指令&#xff08;CPU内部&#xff09; 2.跳转指令&#xff08;CPU内部&#xff09; 3.load/store&#xff08;通过读写对硬件…

测试的基本概念(测试系列2)

目录 前言&#xff1a; 1.什么是需求 1.1需求的定义 1.2为什么有软件需求 1.3测试人眼里的需求 2测试用例 2.1什么是测试用例 2.2为什么要有测试用例 3.软件错误&#xff08;BUG&#xff09; 3.1什么是bug 4.软件的生命周期 5.开发模型 5.1瀑布模型 5.2螺旋模型 …

【PHP源码】手术麻醉管理系统介绍

手术麻醉管理系统是什么&#xff1f; 手术麻醉信息管理系统是数字化手段应用于手术过程中的重要组成部分&#xff0c;用数字形式获取并存储手术相关信息&#xff0c;既便捷又高效。既然是管理系统&#xff0c;那就是一整套流程&#xff0c;管理患者手术、麻醉的申请、审批、安…

c#语法问题记录

1.using using 语句定义一个范围&#xff0c;在此范围的末尾将释放对象。using 指令为命名空间创建别名&#xff0c;或导入在其他命名空间中定义的类型。 2. internal sealed partial class internal&#xff1a; 关键字是类型和类型成员的访问修饰符。sealed &#xff1a;应…

IndexDB完整使用指南

IndexDB完整使用指南 数据存储是大多数 Web 应用程序的重要组成部分&#xff0c;从跟踪用户数据到应用程序数据。随着更快、更强大的 Web 应用程序的快速开发&#xff0c;需要高效的客户端存储来帮助开发。 多年来&#xff0c;Web 上的客户端存储已经发生了很大的变化&#x…

极智AI | torch与torchvision版本对应关系速查

欢迎关注我的公众号 [极智视界]&#xff0c;获取我的更多经验分享 大家好&#xff0c;我是极智视界&#xff0c;本文来介绍一下 torch与torchvision版本的对应关系。 邀您加入我的知识星球「极智视界」&#xff0c;星球内有超多好玩的项目实战源码下载&#xff0c;链接&#x…

2023年湖北安全员ABC考试题型有哪些?考多少分及格呢?

2023年湖北安全员ABC考试题型有哪些&#xff1f;考多少分及格呢&#xff1f; 安全员分为交通厅、水利厅和建设厅三个部门颁发&#xff0c;每个部门发的安全员证书也是不一样的。那么今天启程别跟大家讲的是建设厅安全员ABC证书报考的一些事宜&#xff08;启程别是谁&#xff1f…

稀疏光流法跟中移动物体、监督学习聚类、K均值聚类、加载深度神经网络模型、深度神经网络模型的使用

目录 1、稀疏光流法跟中移动物体 2、监督学习聚类 3、K均值聚类 4、加载深度神经网络模型 5、深度神经网络模型的使用 1、稀疏光流法跟中移动物体 //稀疏光流法跟中移动物体 vector<Scalar> color_lut;//颜色查找表 void draw_lines(Mat &image, vector<Point…

程序员如何90天成功转行黑客(网络安全)?

有人说&#xff1a;”黑客到底比程序员高在哪&#xff0c;为什么很多人开始转行了“ 其实黑客都是程序员&#xff0c;但是并不是所有的程序员都是黑客. 从企业和社会需求来看&#xff0c;现在真不缺程序猿 &#xff0c;反而大量的缺安全工程师 &#xff0c;同样8000块月薪&am…

【Spring框架】spring更简单的读取和存储对象

目录 前置工作更加简单的存储Bean对象类注解存储Bean命名问题Java项目标准分层五大类注解之间的关系方法注解Bean重命名Bean的几种方式 前置工作 在spring-config.xml添加如下配置&#xff1a; 配置bean的扫描根路径&#xff1a;只有当前目录下的类才会扫描是否添加了注解&…

【Android Framework系列】第7章 WMS原理

1 前言 前面【Android Framework系列】第5章 AMS启动流程和【Android Framework系列】第6章 AMS原理之Launcer启动流程我们分析了AMS启动以及Launcher启动的整体流程&#xff0c;那Launcher(Activity启动)后&#xff0c;UI是如何渲染到屏幕并且展示出来的呢&#xff1f;我们这…

零代码编程:用ChatGPT批量提取网页上的文本信息内容

现在有很多个网页&#xff1a; 要批量提取网页内的文本&#xff1a; 可以在ChatGPT中这样写提示词&#xff1a; 你是一个Python专家&#xff0c;写一段Python程序&#xff0c;完全提取网页文本内容的任务&#xff0c;下面是一步步的步骤&#xff1a; 打开表格文件&#xff0c…

麒麟SP3X86系统下,安装Oracle11g数据库

目录 1、写在前面 2、准备工作 2.1 环境准备 2.2 数据库安装前准备 2.2.1 安装依赖 2.2.2 系统环境准备 2.2.3 上传软件安装包 2.2.4 安装调图形化界面的依赖和相关设置 3、执行安装程序 1、写在前面 随着国产化进程&#xff0c;各大应用需要在国产服务器上面进行部署…

【Java基础教程】(十五)面向对象篇 · 第九讲:抽象类和接口——定义、限制与应用的细节,初窥模板设计模式、工厂设计模式与代理设计模式~

Java基础教程之面向对象 第九讲 本节学习目标1️⃣ 抽象类1.1 抽象类定义1.2 抽象类的相关限制1.3 抽象类应用——模板设计模式 2️⃣ 接口2.1 接口定义2.2 接口的应用——标准2.3 接口的应用——工厂设计模式 (Factory)2.4 接口的应用——代理设计模式 (Proxy) 3️⃣ 抽象类与…

前端自动化测试工具 Cypress 试用调研记录

目录 前言 环境准备 1.工具&#xff1a;vs code&#xff1b;环境&#xff1a;node.js。 2.安装 cypress 3.安装插件&#xff1a; 4.配置&#xff1a; 5.启动命令&#xff1a; helloworld&#xff1a; 第一个用例 元素定位方式 使用 request 请求进行登录 提取登录方…

SpringMVC中@ControllerAdvice 注解的三种使用场景

全局异常处理 /**可以定义多个方法&#xff0c;不同的方法处理不同的异常。如专门处理空指针的方法&#xff0c;专门处理数组越界…… */ ControllerAdvice public class MyGlobalExceptionHandler{ExceptionHandler(Exception.class)//指定异常处理类型public ModelAndView c…

一、基础-4.MySQL启动和客户端连接

一、启动 方法一&#xff1a; 1、winR&#xff0c;输入services.msc&#xff0c;按回车 2、找到MySQL&#xff0c;右键-启动/停止 MySQL安装后&#xff0c;默认已启动。 方法二、 1、winR&#xff0c;输入cmd&#xff0c;打开命令行 2、输入启动与停止命令 二、客户端连接 …

工业手持终端在工业现场的实际应用

在工业现场&#xff0c;RFID手持终端设备扮演着关键的角色。本文将介绍RFID手持终端设备在工业现场的功能和优势&#xff0c;并探讨其应用场景和最佳实践。同时&#xff0c;提供选择和使用RFID手持终端设备时的注意事项&#xff0c;以帮助企业实现有效的应用策略。 RFID手持终…