ToT: 利用大语言模型解决需要深思熟虑的问题(下)

news2024/12/1 0:40:45

ToT

  • 摘要
  • 介绍
  • 利用大语言模型进行有意识的问题解决
    • 1. 思维分解
    • 2. 思维产生 G(p,s,k)
    • 3. 状态评估V(p,S)
    • 4. 搜索算法
  • 实验
    • 24游戏
      • 1). 任务设置
      • 2). 基准
      • 3). ToT设置
      • 4).结果
      • 5). 错误分析
    • 创意写作
      • 1). 任务设置
      • 2).基准
      • 3).ToT设置
      • 4).结果
    • 交叉词
  • 相关工作
    • 规划和决策
    • 自我反省
    • 程序引导的LLM生成
    • 经典搜索方法
  • 讨论
  • 总结

摘要

介绍

利用大语言模型进行有意识的问题解决

1. 思维分解

2. 思维产生 G(p,s,k)

3. 状态评估V(p,S)

4. 搜索算法

实验

24游戏

一个算数推理,目标是使用4个数字和基本算数运算符得到24。

1). 任务设置

从4nums.com中收集数据,该网站有1362个游戏,按人类解决时间从易到难排序,并索引为901-1000的相对困难的游戏子集进行测试。 对于每项任务,如果它是一个等于24的有效式子并且每项任务只使用一次输入数,我们就认为输出是成功的。 报告了100场比赛的成功率作为衡量标准。

2). 基准

我们使用了一个带有五个上下文示例的标准IO提示。
在这里插入图片描述

对于CoT提示,我们用3个中间方程来扩充每个输入-输出对,每个式子对剩余的两个数进行运算。
在这里插入图片描述

对于这个游戏,我们采集了100次IO提示和CoT提示的平均性能。我们还考虑了CoT自一致基线。在每次迭代中,LM都以所有先前的历史为条件,以“反思你的错误,并在输出不正确的情况下生成一个精确的答案”

3). ToT设置

为了把24游戏构建成TOT,自然而然就要将思维分解成三个步骤,每个都是中间的等式。在每棵树的节点,我们精准计算“left”数字,并提示LM提出一些可能的下一步措施。所有三个思维步骤都使用相同的“建议提示”,尽管它只有一个带有4个输入数字的例子。我们在TOT中执行了BFS,其中在每一步我们都保持b=5个最佳候选。为了在TOT上执行有意BFS,我们提示LM去评估每一个候选思维(评出sure/maybe/impossible)以达到24,。其目的是促使产生正确的部分解,消除基于“太大太小”常识的不可能的部分解,并保持其余的“可能”。对每个想法的值进行三次采样。

4).结果

在这里插入图片描述

5). 错误分析

图3b细分了CoT和ToT样本失败的步骤,即在CoT中的想法或所有b在ToT的想法中,无效或不可能达到24。值得注意的是,大约60%的Col样本在生成第一步或等效的第三个单词(例如“4+9°”)后已经失败。这突出了直接从左到右解码的问题。

创意写作

创造性写作的任务:其中输入4个随机句子,输出应该是连贯的文章,由4个句子分别组成的段落。这个任务是开放性和探索性的,挑战创造思维和高层规划。

1). 任务设置

2).基准

3).ToT设置

建立了一个高度为2的ToT(即只有一个中间步骤)——LM首先产生k=5个计划并投出最好的一个,然后基于最好的计划中产生k=5个文章。这里的极限宽度b=1,因为每一步只保留一个选择。一个简单的零样本投票提示用于在两个步骤中抽取5张选票。

4).结果

在这里插入图片描述

交叉词

相关工作

规划和决策

聪明的规划和决策对于实现预定的目标来说是至关重要的。它们在大量的知识和人类经验被训练出来,LM已经吸收了丰富的常识,这使得有可能根据问题设置和环境状态提出合理的计划。

TOT方法拓展了现有的规划公式,在每个解决问题的步骤的同时,考虑多个潜在可行计划,并继续进行最有可能的计划。

思维抽样和值反馈有机结合成规划和决策机制,使能够有效地搜索问题解决树。另一方面,传统的决策过程往往需要训练专门的奖励和策略模型来强化学习,而我们使用LM本身来为决策提供价值估计。

自我反省

使用LLM来评估生存能力或其自身的预测正则成为解决问题中越来越重要的程序。

引入了“自我反省”机制。在该机制中,LMs向其一代候选人提供反馈。
有的通过注入反馈消息(由LM自身根据其代码执行结果生成)来提高LM的代码生成的准确性。
类似的,还有引入了“评论家”或对“动作和状态”的审查步骤,以决定在解决计算机操作任务时要采取的下一步行动。

另一项与我们非常相关的是“自我价值引导解码”。自评估解码也遵循树搜索过程,从随机波束搜索解码中采样树叶,然后由LLM本身通过精心准备的自评估提示进行评估。

程序引导的LLM生成

程序引导LIM生成。我们的建议也与最近的进步有关,即用象征性的程序指导来组织LM的行为。例如在算法搜索过程中嵌入LM,以帮助逐步解决问题回答等问题,其中搜索树由可能提供答案的相关段落扩展。然而,这种方法与我们的不同之处在于,树是通过采样外部段落而不是LM自己的想法来扩展的,并且没有反思或投票步骤。另一种方法,LLM+P,更进一步,将实际规划过程委托给经典规划师。

经典搜索方法

最后但同样重要的是,我们的方法可以被视为解决问题的经典搜索方法的现代再现。例如,它可以被认为是一种启发式搜索算法,如,其中每个搜索节点的启发式由LM的自我评估提供。

讨论

总结

由于语言模型在推理过程中仍然局限于标记级别、从左到右做出决策的过程,有许多缺陷。

为了克服这种缺陷,本文从“双过程模式”研究入手,猜想1模式可能受益于2模式的规划过程:

  1. 对当前选择进行维护和探索不同的选择,而非只考虑一个
  2. 评估这个选择当前的状态,并积极前瞻或回溯,以做出更全局性的决策

从该过程获得灵感,将问题解决描述成组合问题空间(树)进行搜索。

其中每个思想都是一个连贯的语言序列,作为解决问题的中间步骤。树的节点代表一个思维状态或想法,边代表不同思维状态之间的关系和转换。

ToT的一个具体实例化设计回答四个问题:

  1. 如何将中间过程分解成思维步骤
  2. 如何在每个状态中产生潜在的思维
  3. 如何启发式的评估状态
  4. 使用什么搜索算法

第一个问题:
ToT利用了问题属性去设计和分解中间思维步骤。
一个想法可以是几个单词、一行方程公式或一整段写作计划。
第二个问题:
提供两种策略:
1. 从CoT提示中抽取独立同分布的思维样本
2. 使用“建议提示”按顺序提出想法,即在思维空间中提出一个思考路径或想法的提示
第三个问题:
使用LM来有意识的对不同的思维状态进行推理和思考。
要么独立评估每一个状态,要么采用跨状态投票的方式
第四个问题:
BFS、DFS

接着进行了三个实验,实验从任务设置、基准(IO提示、CoT提示、SC-CoT提示)、ToT设置、结果以及错误分析这几个模块展开,最终证明ToT较之前的方法表现更为优秀 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/768468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

常见问题-wp

指定顺序展示富集分析的term 调整热图的label角度 h1ggheatmap(dat[cg1,],cluster_rows T, #是否对行聚类cluster_cols T, #是否对列聚类tree_height_rows 0.28, #行聚类树高度tree_height_cols 0.1, #列聚类树高度annotation_cols group_list, #为列添加分组annotation_c…

软件检测报告对软件产品起的作用和编写原则分析

软件检测报告是一项对软件进行全面测试和评估的结果总结,通过对软件的功能、性能、安全性等方面的测试,以及通过分析软件的可靠性和稳定性,来评估软件的质量和合规性。 一、软件检测报告对软件产品起到的作用 1、提供一个全面的评估和分析软…

认识主被动无人机遥感数据、预处理无人机遥感数据、定量估算农林植被关键性状、期刊论文插图精细制作与Appdesigner应用开发

目录 第一章、认识主被动无人机遥感数据 第二章、预处理无人机遥感数据 第三章、定量估算农林植被关键性状 第四章、期刊论文插图精细制作与Appdesigner应用开发 更多推荐 遥感技术作为一种空间大数据手段,能够从多时、多维、多地等角度,获取大量的…

NAT 地址转换路由器配置命令(华为路由器)

#AR1路由器配置 # acl 2000 rule permit source any # interface GigabitEthernet0/0/1 nat outbound 2000 ip address 1.1.1.1 24 # interface GigabitEthernet0/0/0 ip address 172.16.1.1 255.255.255.0 # ip route-static 0.0.0.0 0.0.0.0 1.1.1.2 ip route-static …

工业平板电脑具备IP65防护等级,防尘、防水、防震

随着科技的快速发展,工业平板电脑已经成为了我们日常生活中不可或缺的一部分。而在不同领域中,各行各业的专业需求也在不断增长。针对工业领域的专业需求,工业平板电脑应运而生。它以出色的外观设计、强大的性能和丰富的功能,为工…

【iOS】对象的本质探索

OC对象的底层结构 问题:一个NSObject对象在内存中是如何布局的?NSObject的内存布局1 通过 lldb命令 窥探NSObject内存布局2 通过 View Memory 窥探NSObject内存布局3 通过 底层函数API 窥探NSObject内存布局总结 通过继承关系进一步了解NSObject1 运行项…

【SwitchyOmega】SwitchyOmega 安装及使用

文章目录 安装教程使用教程 安装教程 SwitchyOmega 谷歌商店下载链接:https://chrome.google.com/webstore/detail/proxy-switchyomega/padekgcemlokbadohgkifijomclgjgif?hlen-US 在谷歌商店搜索 SwitchyOmega, 选择 Proxy SwitchyOmega 点击 Add t…

刷题记录-1蓝桥公园

蓝桥杯刷题记录 记录蓝桥杯刷题每一天 python解题 import sysn, m, q map(int, input().split()) dp [[sys.maxsize]*(n1) for _ in range(n1)]for _ in range(m):u, v, w map(int, input().split())dp[u][v] dp[v][u] min(dp[u][v], w)for k in range(1, n1):for i in …

常见的网络攻击

​ 1.僵木蠕毒 攻击业内习惯把僵尸网络、木马、蠕虫、感染型病毒合称为僵木蠕毒。从攻击路径来看,蠕虫和感染型病毒通过自身的能力进行主动传播,木马则需要渠道来进行投放,而由后门木马(部分具备蠕虫或感染传播能力)构…

我在VScode学Java类与对象(Java构造方法 、JavaBean)第二辑 + VScode怎么在预览模式中点击另外一个文件,不会被替换掉

我的个人博客主页:如果’真能转义1️⃣说1️⃣的博客主页 关于Java基本语法学习---->可以参考我的这篇博客:《我在VScode学Java》 关于Java数组学习、JVM中的堆和栈—>可以参考我的这篇文章我在VScode学Java(Java一维数组、二维数组、JVM中的堆和栈…

VSCode种git rebase分支冲突解决无法继续rebase

情景: 常规来说我们git开分支开发完新功能之后,提交之前rebase dev分支,然后合并到dev上算是开发完成。 问题还原: 在开发完之后执行如下指令: 1.执行变基操作:git rebase dev。 //这一步出现冲突vscode上…

SQL中为何时常见到 where 1=1?

你是否曾在 SELECT 查询中看到过 WHERE 11 条件。我在许多不同的查询和许多 SQL 引擎中都有看过。这条件显然意味着 WHERE TRUE,所以它只是返回与没有 WHERE 子句时相同的查询结果。此外,由于查询优化器几乎肯定会删除它,因此对查询执行时间没…

AtcoderABC250场

A - Adjacent SquaresA - Adjacent Squares 题目大意 给定一个由H行W列组成的网格。令(i,j)表示从上到下第i行,从左到右第j列的方块。找出与方块(R,C)共享边的方块数量。 这里,方块(a,b)和方块(c,d)被称为共享边,当且仅当|a-c||b-d|1。 思路…

网站测试自动化系统

首先先分解一下执行测试用例的步骤,编码实现每一个步骤,然后使用批处理的形式将工作流串起来:(当然啦,我们也可以使用.NET里面的Workflow来实现,只不过那样的话我们需要格外添加一个命令—安装.NET Framewo…

数据排布与跨距对齐

1 数据排布 1.1 数据排布的概念 在深度学习框架中,特征图通常以四维数组的形式呈现,这四个维度分别是:批量大小N,特征图通道数C,特征图高度H,特征图宽度W。数据排布(Layout)指的就…

数学建模的赛题类型

一、预测类 指通过分析已有的数据或者现象,找出其内在发展规律,然后对未来情形做出预测的过程。 根据已知条件和求解目的,往往将预测类问题分为:小样本内部预测,大样本内部预测。 解决预测类赛题的一般步骤&#xff…

Minio桶复制(Bucket Replication)入门

文章目录 前言一、部署下载用户组添加 minio.service 文件新建配置文件 minio启动 二、安装 mc三、桶复制1.权限建立 Replication Admin 用户建立 Replication Remote User 用户 2.建立桶3建立桶复制4.验证 总结遇到问题 前言 桶复制: 可以理解像 mysql 主从备份&a…

基于linux下的高并发服务器开发(第二章)- 2.10 进程间通信简介

面试官经常问: ① 你知道进程间通信的方式有哪几种吗? ② 进程间通信当中某一个方式一个具体的原理是什么?怎么去实现呢? 01 / 进程间通讯概念 02 / Linux进程间通信的方式 怎样理解阻塞非阻塞与同步异步的区别? 怎样…

SpringCloud Gateway网关

文章目录 SpringCloud Gateway1.1 网关架构1.2微服务网关介绍1.3Spring Cloud Gateway(技术选型)1.4依赖1.5yaml配置(包含gateway相关配置,实现转发的功能)1.6断言案例:1.7断言详细介绍1.8 整合nacos1.9 nacos整合网关案例1.10动态路由 SpringCloud Gateway 1.1 网关架构 (dub…

专题-【哈夫曼树】

14年三-1) 已知电文信息为“PEFFQ RQRFE QFPQR FPER” (1)请按此信息构造哈夫曼树,求出每个字符的最优编码; (2)若对每个字符进行等长编码,至少需要几位二进制数?哈夫…