[论文阅读] |智能体长期记忆与反思

news2024/12/16 7:13:02

写在前面:10月份的时候,联发科天玑9400发布,搭载这款旗舰 5G 智能体 AI 芯片的荣耀MagicOS9.0实现了一句话让手机自动操作美团点咖啡。很快商场实体店里便能看到很多品牌手机已经升级为智能体语音助手。下一步,这些智能体或许便能结合长期交互记忆,挖掘表面行为背后的深层模式(例如偏好)。本文整理前段时间调研的智能体基于长期记忆进行反思的几篇论文。

智能体长期记忆与反思

      • 1. 高层抽取--斯坦福虚拟小镇:智能体角色模拟,基于近期记忆(事件+思考)推理高层思考,形成反思内容
      • 2. 经验积累--Reflexion【NeurIPS 23】: 聚焦多步骤任务,基于之前轮次任务执行的反馈分析失败原因,将反思出的经验作为长期记忆,存储到情景缓冲区用来指导后续轮次的任务决策
      • 3. 经验积累-- Ghost in the Minecraft 游戏代理,学习成功的规划对应的具体执行步骤
      • 4. 终身学习--Jarvis-1:开放世界下形成多模态记忆(目标+环境+成功执行的计划步骤),并基于经验终身学习提升规划能力
      • 5. DiLu(的卢)【ICLR 24】记忆初始化模拟人类驾校考试+记忆存储llm含有数学计算的推理过程
      • 6. MemoChat(腾讯)微调教会智能体识别对话不同主题,存储、并检索记忆
      • 总结
        • 带着目的找论文


1. 高层抽取–斯坦福虚拟小镇:智能体角色模拟,基于近期记忆(事件+思考)推理高层思考,形成反思内容

  • 论文:Park J S, O’Brien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[C]//Proceedings of the 36th annual acm symposium on user interface software and technology. 2023: 1-22. https://dl.acm.org/doi/pdf/10.1145/3586183.3606763
  • 腾讯游戏的记忆流还原:https://zhuanlan.zhihu.com/p/652160198
  • 记忆流截取自demo网站:https://reverie.herokuapp.com/replay_persona_state/March20_the_ville_n25_UIST_RUN-step-1-141/2160/Eddy_Lin/

 

2. 经验积累–Reflexion【NeurIPS 23】: 聚焦多步骤任务,基于之前轮次任务执行的反馈分析失败原因,将反思出的经验作为长期记忆,存储到情景缓冲区用来指导后续轮次的任务决策

  • 论文:Reflexion: Language Agents with Verbal Reinforcement Learning https://arxiv.org/pdf/2303.11366
  • 代码:https://github.com/noahshinn/reflexion/tree/main
  • 吴恩达关于反思的帖子:https://zhuanlan.zhihu.com/p/689492556

 

3. 经验积累-- Ghost in the Minecraft 游戏代理,学习成功的规划对应的具体执行步骤

  • 论文:https://arxiv.org/pdf/2305.17144
    Zhu X, Chen Y, Tian H, et al. Ghost in the minecraft: Generally capable agents for open-world environments via large language models with text-based knowledge and memory[J]. arXiv preprint arXiv:2305.17144, 2023.
  • 知乎讲解:https://zhuanlan.zhihu.com/p/646912995

 

4. 终身学习–Jarvis-1:开放世界下形成多模态记忆(目标+环境+成功执行的计划步骤),并基于经验终身学习提升规划能力

  • 论文:JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models https://ieeexplore.ieee.org/document/10778628
  • 作者的视频讲解:https://event.baai.ac.cn/live/724
  • 新智元解读:https://cloud.tencent.com/developer/article/2369853

 

5. DiLu(的卢)【ICLR 24】记忆初始化模拟人类驾校考试+记忆存储llm含有数学计算的推理过程

  • 论文:DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models https://arxiv.org/abs/2309.16292
  • 代码:https://github.com/PJLab-ADG/DiLu
  • 上海AI Lab发布首个模仿人类学习范式的自动驾驶决策框架DiLu https://www.51cto.com/article/780271.html

 

6. MemoChat(腾讯)微调教会智能体识别对话不同主题,存储、并检索记忆

  • 论文:hMemoChat: Tuning LLMs to Use Memos for Consistent Long-Range Open-Domain Conversation https://arxiv.org/abs/2308.08239
  • 代码:https://github.com/LuJunru/MemoChat

 

总结

带着目的找论文
  • 关注发表时间、单位、期刊、是否有落地/代码
  • 阅读摘要和简介里贡献,粗略了解要解决的问题、提出的方法、达到的结果→判断是否符合当前需求、是否继续阅读
    • 不符合则暂时中止
    • 符合则详细了解设计的方法有什么可借鉴之处、实验部分如何评估并带来多大的增益
    • 论文解释不清楚的地方,必要可寻找补充材料和代码(如prompt如何定义反思的概念)
  • 最后整体思考和总结优点、缺点,再次思考可借鉴的地方。
  • 整体扫描结束后,回头整理所有看的论文,输出结论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CQRS Design Pattern in Microservices - CQRS模式

原文链接 CQRS Design Pattern in Microservices - GeeksforGeeks 【文章看起来像是AI写的。。。 😂😂😂】 简介 实现步骤 1,识别有界上下文:(Identify Bounded Contexts:) 2,命…

《拉依达的嵌入式\驱动面试宝典》—C/CPP基础篇(二)

《拉依达的嵌入式\驱动面试宝典》—C/CPP基础篇(二) 你好,我是拉依达。 感谢所有阅读关注我的同学支持,目前博客累计阅读 27w,关注1.5w人。其中博客《最全Linux驱动开发全流程详细解析(持续更新)-CSDN博客》已经是 Linux驱动 相关内容搜索的推荐首位,感谢大家支持。 《拉…

RPC远程服务调用详解和gRPC简介

RPC (Remote Procedure Call)是远程过程调用,比如说现在有两台服务器A, B,一个在A服务器上的应用想要调用B服务器上的应用提供的某个,由于不在两个方法不在一个内存空间,不能直接调用,需要通过网络表达调用的语义和传达…

计算机网络知识点全梳理(三.TCP知识点总结)

目录 TCP基本概念 为什么需要TCP 什么是TCP 什么是TCP链接 如何唯一确定一个 TCP 连接 TCP三次握手 握手流程 为什么是三次握手,而不是两次、四次 为什么客户端和服务端的初始序列号 ISN 不同 既然 IP 层会分片,为什么 TCP 层还需要 MSS TCP四…

PDFMathTranslate,PDF多语言翻译,批量处理,学术论文,双语对照(WIN/MAC)

分享一个非常实用的PDF文档翻译项目——PDFMathTranslate。作为一个经常逛GitHub的开发者,我总喜欢翻看各种项目附带的论文,虽然大多时候是瞎研究,但却乐在其中。该项目能够完美保留公式、图表、目录和注释,对于需要阅读外文文献的…

前端成长之路:CSS元素显示模式

元素显示模式 网页中的标签非常的多,在不同的地方会使用到不同类型的标签,了解这些标签的特点可以更好的布局我们的网页。 元素显示模式就是元素(标签)按照什么方式进行显示,比如:div标签会自己独占一行&a…

如何在 Ubuntu 22.04 上使用 vnStat 监控网络流量

简介 vnStat是一个免费的、开源的、基于控制台的Linux操作系统网络流量监控工具。通过vnStat,你可以在不同的时间段监控网络统计数据。它简单、轻量级,并且消耗的系统资源很小。vnStat允许你按小时、日、月、周和日生成网络流量数据。本教程将向你展示如…

解决pip下载慢

使用pip下载大量安装包,下载速度太慢了 1、问题现象 pip安装包速度太慢 2、解决方案 配置国内源 vi /root/.config/pip/pip.conf[global] timeout 6000 index-url https://mirrors.aliyun.com/pypi/simple/ trusted-host mirrors.aliyun.com

RabbitMQ中的Publish-Subscribe模式

在现代分布式系统中,消息队列(Message Queue)是实现异步通信和解耦系统的关键组件。RabbitMQ 是一个功能强大且广泛使用的开源消息代理,支持多种消息传递模式。其中,Publish/Subscribe(发布/订阅&#xff0…

专业140+总分410+浙江大学842信号系统与数字电路考研经验浙大电子信息与通信工程,真题,大纲,参考书。

考研落幕,本人本中游211,如愿以偿考入浙江大学,专业课842信号系统与数字电路140,总分410,和考前多次模考预期差距不大(建议大家平时做好定期模考测试,直接从实战分数中,找到复习的脉…

Unity类银河战士恶魔城学习总结(P178 Archer s arrow 弓箭手的箭)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址:https://www.udemy.com/course/2d-rpg-alexdev/ 本章节制作了一个弓箭手的箭 Arrow_Controller.cs 1.OnTriggerEnter2D方法 功能:检测箭矢与其他对象的碰撞。逻辑&#xff1…

后端接受前端传递数组进行批量删除

问题描述:当我们需要做批量删除功能的时候,我们循环单次删除的接口也能进行批量删除,但要删除100条数据就要调用100次接口,或者执行100次sql,这样系统开销是比较大的,那么我们直接采用接收的数组格式数据sq…

ByteCTF2024

wp参考: 2024 ByteCTF wp 2024 ByteCTF WP- Nepnep ByteCTF 2024 writeup by Arr3stY0u 五冠王!ByteCTF 2024 初赛WriteUp By W&M ByteCTF 2024 By W&M - W&M Team ByteCTF Re WP - 吾爱破解 - 52pojie.cn 2024 ByteCTF - BediveRe_R…

Envoy 服务发现原理大揭秘与核心要点概述

1 Envoy动态配置介绍 动态资源,是指由envoy通过xDS协议发现所需要的各项配置的机制,相关的配置信息保存 于称之为管理服务器(Management Server )的主机上,经由xDS API向外暴露;下面是一个 纯动态资源的基…

转盘抽奖功能(附加代码)

写在开头 上期代码主要实现PC端电商网站商品放大效果,本期就来实现积分随机抽奖效果,开发久了很多功能都是通过框架组件库来完成,但是如果组件满足不了开发需求,还需要开发人员手动封装组件,专门出这样一期文章&#x…

【CSS in Depth 2 精译_075】12.2 Web 字体简介 + 12.3 谷歌字体的用法

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 12 章 CSS 排版与间距】 ✔️ 12.1 间距设置 12.1.1 使用 em 还是 px12.1.2 对行高的深入思考12.1.3 行内元素的间距设置 12.2 Web 字体 ✔️12.3 谷歌字体 ✔️12.…

ARM嵌入式学习--第七天(GPT)

GPT -介绍 GPT有一个32位向上计数器,定时计数器值可以使用外部引脚上的事件捕获到寄存器中,捕获触发器可以被编程为上升沿和下降沿。GPT还可以在输出比较引脚上生成事件,并在定时器达到编程值时产生中断。GPT有一个12位预分频器,…

搭建Tomcat(一)---SocketServerSocket

目录 引入1 引入2--socket 流程 Socket(应用程序之间的通讯保障) 网卡(计算机之间的通讯保障) 端口 端口号 实例 client端 解析 server端 解析 相关方法 问题1:ServerSocket和Socket有什么关系? ServerSocket Soc…

SpringBoot快速使用

一些名词的碎碎念: 1> 俩种网络应用设计模式 C/S 客户端/服务器 B/S 浏览器/服务器 俩者对比: 2> 集群和分布式的概念 集群: 分布式: 例子: 一个公司有一个人身兼多职 集群: 招聘N个和上面这个人一样身兼多职 分布式: 招聘N个人,分担上面这个人的工作,进行工作的拆分. 工…

【含开题报告+文档+PPT+源码】基于SpringBoot的开放实验管理平台设计与实现

开题报告 设计开放实验管理平台的目的在于促进科学研究与教学的融合。传统实验室常常局限于特定地点和时间,而开放平台可以为学生、教师和研究人员提供一个便捷的交流与共享环境。通过在线平台,他们可以分享实验资源、交流经验,从而促进科学…