论文浅尝 | 一个具有动态记忆和自我反思的自主代理

news2024/11/25 16:54:00

0c82ce9f7f7d4e5c61f395c1d9353130.png

笔记整理:乔硕斐,浙江大学硕士,研究方向为自然语言处理

链接:https://arxiv.org/abs/2303.11366

动机

本文探究了让大规模语言模型具备自我反思能力的方法,让大模型模拟人类的思考方式,自己发现推理过程中的错误并实现自我反思和纠正。

最近,决策型大语言模型(LLM)代理在各种基准测试中展现出了令人印象深刻的性能。然而,这些最先进的方法通常需要对内部模型进行微调、对外部模型进行微调或对定义的状态空间进行策略优化。由于高质量训练数据的稀缺性或状态空间的缺乏定义,实现这些方法可能会带来挑战。此外,这些代理不具备人类决策过程固有的某些品质,特别是从错误中学习的能力。自我反思使人类能够通过试错的过程有效地解决新问题。本文提出Reflexio,这是一种赋予代理动态记忆和自我反思能力的方法,以增强其现有的推理轨迹和任务特定的行动选择能力。为了实现完全自动化,本文引入了一种简单而有效的启发式方法,使代理能够确定halluciation实例、避免行动序列的重复,并在某些环境中构建给定环境的内部记忆映射。

方法架构

本文面向的任务是语言模型做descision-making,主要架构如下图所示:

dcc232b8570c9032f29a725c6aeb7fe7.png

本文使用ReAct作为反思模型,但任何decision-making方法在这个架构中都是适用的。

基本设定

在典型的强化学习(RL)场景中,代理通过在环境中执行操作来从观察中学习解决问题。在时间步骤t中,代理处于状态st,并从环境中接收观察值ot,并根据其当前策略π(at|ct)执行一个操作at。在基于文本的环境中,ct是根据当前状态和轨迹历史记录给代理的上下文,包括过去的观察和行动。由于大模型参数调节几乎是不可能的,因此reflexion不需要学习一个状态空间上的策略π。此外,reflexion限制了给代理的特定奖励信息,以(1)证明Reflexion与其他工作的一致性和(2)保持将该方法推广到广泛的问题范围的能力。此外,reflexion为代理配备启发式函数来检测常见的失败模式。

启发函数

这里定义了启发式函数h(st, at, Ω, ε, [a0, o0, . . . , at−1, ot−1]),告诉代理何时进行自我反思,其中t是时间步骤,st是当前状态,Ω和ε是用于允许最大重复动作循环数和允许的总动作数的超参数,而[a0, o0, . . . , at−1, ot−1]则是轨迹历史记录。

51b962d0588414440f3b23c5877022a1.png

repeat是一个简单的函数,确定产生相同观察值的重复动作循环的数量。Ω是最大的相同循环次数,用于检测连续动作的幻觉。ε通过限制每次试验中在环境中允许的最大动作数,强制执行高效的规划。启发函数h的设计是为了替换human-in-the-loop的角色,以检测halluciation或inefficient planning的迹象。

反思机制

如果启发式函数h建议在t处进行自我反思,代理会在其当前状态st,上一个奖励rt-1,先前的动作和观察[a0,o0,...,at,ot],以及代理现有的工作记忆mem上启动自我反思过程。反思循环旨在通过试错帮助代理纠正幻觉和低效的常见情况。用于自我反思的模型是一个LLM,通过two-shot prompting的方法触发它的反思能力。为了防止代理记忆正确答案,这里不允许它访问给定问题的特定领域解决方案。自我反思机制可以定义为如下函数:

719477ad2ad987a4aafc82e4b0575434.png

最后,我们将反思添加到代理的mem中,重置环境并开始下一轮试验。

奖励模型

通常,设计或训练一个既有效又广泛适用的奖励模型可能是具有挑战性的,本文将代理限制为二元奖励模型。二元奖励模型是一种将值0或1分配给代理在当前状态下采取的行动的奖励函数。1表示成功的结果,0表示失败的结果。选择二元奖励函数是为了紧密限制代理的知识范围,使其仅能基于来自世界的观察和环境中的成功或失败状态来评估其当前性能,而不是使用更描述性的奖励模型的多值或连续输出来评估其当前性能。通过将代理的知识限制为环境中的二元成功状态,迫使代理在没有外部输入的情况下进行有意义的性能推断,以有效地改进其未来的决策。最后,二元奖励模型在许多语言问题上都具有广泛的适用性,如代码生成和代码调试。本文在两个数据集上进行实验,分别是AlfWorld和HotPotQA。在AlfWorld环境中,在每个时间步骤查询AlfWorld引擎,以检查当前状态是否为成功状态。在HotPotQA基准测试中,在回答后使用精确匹配(EM)对代理的响应进行评分。

评估与讨论

reflexion在AlfWorld和HotPotQA上的实验结果分别如下两图所示:

de98d72ccd28109beb32e36f45545294.png

67402ac886615d6bb7a472438eada46a.png

可以发现随着反思轮数的增加,模型效果得到了有效的提高,比without reflexion的baseline效果有明显的增强,这验证了大模型具有一定自我反思的能力。

另外观察左图可以发现,halluciation导致的错误比inefficient planning更加常见,而随着实验轮数的增加,reflexion对于halluciation错误的修正效果显著。

下面分别是用于AlfWorld和HotPotQA反思的two-shot prompt:

AlfWorld

506b7e42a08de72957f68fa471ef327b.png

2c0ab3b3669edd013d38ca61faac4127.png

HotPotQA

123d2c1d8625ec03e8c0df5bef8794cb.png

53f92c4b63218a73d8f04ca33ec59897.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

f3a531d5fecde02e719f13de1856c2cc.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/596267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ant 1.0 tree更改图标

设置 class"treeClass" show-icon <a-treev-if"treeData.length > 0":show-line"true":tree-data"treeData"show-iconref"tree"class"treeClass":defaultExpandAll"true":replace-fields"re…

来自二阳人的一些感想

这几天公众号没更新&#xff0c;因为上周阳了&#xff0c;还得跟各位读者朋友们道个歉。 通过这次阳&#xff0c;对新冠的体会更加深刻了&#xff0c;趁热打铁&#xff0c;简单聊几句。 1. 新冠已经降为了乙类乙管&#xff0c;和新冠共存&#xff0c;已经形成了全世界范围内的共…

这个公司招35岁以上的程序员,给程序员养老!

hi&#xff0c;大家好&#xff0c;这里极客重生。 之前看到一篇文章&#xff1a;《陶建辉&#xff1a;坚持做难而正确的事&#xff0c;三次创业成就不悔人生---墨天轮风云人物访谈录》。 完整文章&#xff1a;陶建辉&#xff1a;坚持做难而正确的事&#xff0c;三次创业成就不悔…

c#快速入门(中)

欢迎来到Cefler的博客&#x1f601; &#x1f54c;博客主页&#xff1a;那个传说中的man的主页 &#x1f3e0;个人专栏&#xff1a;题目解析 &#x1f30e;推荐文章&#xff1a;题目大解析2 目录 &#x1f449;&#x1f3fb;类、对象、类成员简介&#x1f449;&#x1f3fb;语句…

Python3数据分析与挖掘建模(9)相关系数与线性回归

1. 相关系数 1.1 概述 相关系数是衡量两个变量之间线性相关程度的统计量。它的取值范围在-1到1之间&#xff0c;表示变量之间的相关性强度和方向。 1.2 Pearson相关系数 常用的相关系数有皮尔逊相关系数&#xff08;Pearson correlation coefficient&#xff09;&#xff0…

chatgpt赋能python:Python人脸追踪:技术介绍与应用

Python人脸追踪&#xff1a;技术介绍与应用 Python作为一门极为流行的编程语言&#xff0c;其在人工智能领域的应用也不断得到拓展和应用&#xff0c;其中Python人脸追踪技术已经成为广泛应用的一个领域。本篇文章将介绍Python人脸追踪技术的原理和应用&#xff0c;以便读者更…

chatgpt赋能python:Python主菜单:让你的网站更加用户友好

Python主菜单&#xff1a;让你的网站更加用户友好 如果你是一个使用Python编程语言的网站开发者&#xff0c;那么你肯定需要一个主菜单来引导你的用户。一个好的主菜单可以让你的网站更加用户友好&#xff0c;方便用户快速找到需要的内容。而怎样设计一个优秀的主菜单呢&#…

高频面试八股文用法篇(一) hive窗口函数

目录 什么是窗口函数 窗口函数与其他函数区别 over()函数 窗口函数类型 窗口函数举例 什么是窗口函数 窗口函数是一种SQL函数&#xff0c;非常适合于数据分析&#xff0c;因此也叫做OLAP函数。 最大特点是&#xff1a;输入值是从SELECT语句的结果集中的一行或多行的“窗…

vivo互联网视频播放体验优化的探索与实践

随着vivo互联网在视频业务领域的不断扩展&#xff0c;在多样化的业务场景下&#xff0c;如何提升每个用户的视频播放体验&#xff0c;保障最优的播放流畅度和清晰度&#xff0c;vivo互联网技术团队做了很多尝试与突破。LiveVideoStackCon 2022北京站邀请vivo互联网研发经理王道…

CSDN 富文本编辑器的优化建议(1)

CSDN 富文本编辑器的优化建议&#xff08;1&#xff09; &#x1f4da; 写在前面&#xff1a;大家好~ 我是柠檬叶子C&#xff0c;今天是我在 C 站 1000 天创作纪念日&#xff01;在这些日子里&#xff0c;我累计发布了 230 篇博客&#xff0c;这些博客无一例外都是用 C 站的 &q…

深眸科技创新视觉应用,AI+机器视觉为智能制造升级提供新视野

随着智能制造的进程不断加快&#xff0c;各大工业领域正在积极进行数字化转型&#xff0c;加速从制造到“智”造的转变。在全球制造业转型升级的浪潮下&#xff0c;从机器互联互通到人机协作再到无人工厂&#xff0c;机器视觉技术起到了重要作用。机器视觉用机器代替人眼&#…

easyui列表数据核对检查数据展示

1.easyui窗口内放置table列表 <div id"window_Id" class"easyui-window" title"异常参数列表展示" style"width:602px;height:493px;"data-options"closed:true,maximizable:false,resizable:true,minimizable:false,shadow:…

031:Mapbox GL实现地图导航功能,可选择起始点、路线、通行方式

第031个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+mapbox中实现地图导航功能,可选择起始点、路线、通行方式。 直接复制下面的 vue+mapbox源代码,操作2分钟即可运行实现效果 文章目录 示例效果配置方式示例源代码(共71行)安装插件相关API参考:专栏目标示例效果…

《Java并发编程实战》课程笔记(七)

Java 线程 Java 线程的生命周期 通用的线程生命周期 通用的线程生命周期基本上可以用下图这个“五态模型”来描述。这五态分别是&#xff1a;初始状态、可运行状态、运行状态、休眠状态和终止状态。 Java 中线程的生命周期 Java 语言中线程共有六种状态&#xff0c;分别是…

Pytorch入门(三)深度学习模型的训练的基本步骤

文章目录 一、修改现有的网络模型二、模型的保存三、模型的加载四、模型的评估五、训练模型的完整套路六、使用GPU加速模型的训练七、模型训练完整的验证套路 一、修改现有的网络模型 import torchvision from torch import nn # pretrained 为True时会自动下载模型所对应的权…

ES6-ES13学习笔记(4.0)

includes函数 判断字符串是否存在指定字符 <!--* Author: RealRoad1083425287qq.com* Date: 2023-06-01 08:40:33* LastEditors: Mei* LastEditTime: 2023-06-01 08:58:54* FilePath: \vscode\ECMA\05\01.html* Description: * * Copyright (c) 2023 by ${git_name_ema…

Docker+Jenkins+Gitee自动化部署maven项目

1.简介 各位看官老爷&#xff0c;本文为Jenkins实战&#xff0c;注重实际过程&#xff0c;阅读完会有以下收获&#xff1a; 了解如何使用Docker安装Jenkins了解如何使用Jenkins部署maven项目了解如何使用JenkinsGitee实现自动化部署 2.Jenkins介绍 相信&#xff0c;正在读这…

美国频频对中国芯片出手,却没想到最先倒下的是美芯巨头

据报道指出全球知名的硬盘厂商西部数据已基本敲定与日本存储芯片巨头铠侠的合并计划&#xff0c;不过让人意外的是最终主导者将是铠侠而不是西部数据&#xff0c;这意味着西部数据将从此消失于历史之中。 西部数据是全球最大的硬盘厂商&#xff0c;它先后收购了知名硬盘厂商希捷…

【实用篇】Docker

文章目录 Docker实用篇1.初识Docker1.1.什么是Docker1.1.1.应用部署的环境问题1.1.2.Docker解决依赖兼容问题1.1.3.Docker解决操作系统环境差异1.1.4.小结 1.2.Docker和虚拟机的区别1.3.Docker架构1.3.1.镜像和容器1.3.2.DockerHub1.3.3.Docker架构1.3.4.小结 1.4.安装Docker1.…

springboot+vue高校班级管理系统 java 同学录校友录网站

本海滨学院班级回忆录管理员功能有个人中心&#xff0c;用户信息管理&#xff0c;班委信息管理&#xff0c;班级信息管理&#xff0c;加入班级管理&#xff0c;新闻信息管理&#xff0c;班级相册管理&#xff0c;活动信息管理&#xff0c;捐赠信息管理&#xff0c;论坛信息管理…