【大模型】Reflextion解读

news2024/12/22 23:09:31

前言:一种大模型强化学习技术,将传统的梯度更新时的参数信号替换成上下文的语言总结,过程和人类反思相似。区别与RLHF,Reflextion是agent自我反思,RLHF是人类反馈。

目录

  • 1. 基础知识
    • 1.1 强化学习
    • 1.2 大模型Agent
  • 2. 创新点
  • 3. 模型框架
  • 参考文献

1. 基础知识

1.1 强化学习

四要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)

  • 策略:定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射。
  • 奖励:定义了强化学习问题的目标,能表征在某一步智能体的表现如何
  • 价值:与奖励的即时性不同,价值函数是对长期收益的衡量
  • 环境:用于预测接下来的状态和对应的奖励。
    在这里插入图片描述

1.2 大模型Agent

Agent是一种框架,Agent 通常利用 prompt 来与用户交互,接收输入,处理信息,然后提供响应。在复杂应用中,Agent 可能具备记忆、长期对话、任务分配、资源调用等多种能力,并且会根据用户的 prompt 和上下文自动调整行为。

2. 创新点

  • 利用自然语言作为反馈信号,将二进制或标量环境反馈转化为文本形式的自反反馈,从而为智能体提供了更加清晰和可解释的方向;
  • 使用长短期记忆(LSTM)网络存储自反反馈经验,以便于智能体在未来的学习过程中参考;

3. 模型框架

在这里插入图片描述

在这里插入图片描述
a. 三个模型

  • Actor模型:使用大型语言模型(LLM)来生成文本和动作,并在环境中接收观察结果。
  • Evaluator模型:负责评估Actor产生的轨迹的质量,并计算一个奖励分数以反映其性能。
  • Self-Reflection模型:对反馈内容进行反思,为后续流程提供有价值的反馈信息。

b. 两个记忆

  • 长期记忆:长期记忆则存储来自Self-Reflextion模型的经验反馈
  • 短期记忆:短期记忆用于存储最近的任务历史记录

参考文献

[1]Reflexion: Language Agents with Verbal Reinforcement Learning
[2]https://github.com/noahshinn/reflexion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Upload-LABS通关攻略【1-20关】

Pass-01 第一关是前端JS绕过 上传一个php文件显示只能上传特定后缀名的文件 这里将1.php改为1.jpg直接进行抓包,在数据包中将jpg改为php放行 文件上传成功,邮件图片新建页面打开 可以访问到1.php文件,则一句话密码上传成功 使用蚁剑 进行连接…

探秘DevSecOps黄金管道,安全与效率的完美融合

软件应用的安全性已成为企业和用户关注的焦点,DevSecOps作为一种将安全融入开发和运维全过程的理念和实践,旨在消除传统开发模式中安全被后置处理的弊端。DevSecOps黄金管道(Golden Pipeline)是实现这一理念的核心框架&#xff0c…

蜂鸣器奏乐

一、粗略了解简谱 拍号:如图,“2”表示一个小节有2拍,“4”表示4分音符为一拍 终止线表示歌曲结束 注意:以下音符都按以四分音符为一拍计算拍数 四分音符: 唱一拍 二分音符: 某一个音右边有一个小横线&…

OpenAI GPT3 Search API not working locally

题意:"OpenAI GPT-3 搜索 API 在本地无法工作" 问题背景: I am using the python client for GPT 3 search model on my own Jsonlines files. When I run the code on Google Colab Notebook for test purposes, it works fine and returns …

文件上传漏洞详解(持续更新…)

第一关 步骤一,打开第一关先点击浏览上传一个jpg格式的图片 步骤二,打开BP修改jpg为php然后放包 步骤三,右键打开图像 成功解析 步骤四,打开蚁剑 第一关还是蛮简单的 第二关 步骤一,打开第二关先点击浏览上传一个j…

leetcode637. 二叉树的层平均值,广度优先搜索BFS

leetcode637. 二叉树的层平均值 给定一个非空二叉树的根节点 root , 以数组的形式返回每一层节点的平均值。与实际答案相差 10-5 以内的答案可以被接受。 给定一个非空二叉树的根节点 root , 以数组的形式返回每一层节点的平均值。与实际答案相差 10-5 以内的答案可以被接受。…

跑通llama-factory

1.在ubuntu下安装环境 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e “.[torch,metrics]” pip install --no-deps -e . 在本地windows,打开http://0.0.0.0:7863/,总是显示无法打开界面。 之后在…

!!学习整理知识模块——关于【如何本地搭建Whisper语音识别模型】/请按需收藏!!

成长路上不孤单😊【14后,C爱好者,持续分享所学,如有需要欢迎收藏转发😊😊😊😊😊😊😊!!!!&#xff…

经验风险最小化和极大似然估计的关系

一、经验风险定义 给定一个训练数据集 T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T{(x1​,y1​),(x2​,y2​),...,(xN​,yN​)},模型f(X)关于训练数据集的平均损失称为经验风险(Empirical…

冻死你都觉得简单

小说大纲 标题:《学霸的豪门对决》 背景设定: 两个家族在商业界拥有举足轻重的地位,但因为历史原因,两家长期处于竞争状态。主角们在顶级私立学校就读,既是学霸也是家族的继承人。 主要人物: 男主角&a…

【前端开发必备小技巧】前端代码规范Vue篇

文章目录 🟢 前端代码规范🟢 一、前端代码规范Vue篇👉1、Vue编码基础👉1.1、组件规范👉1.2、模板中使用简单的表达式👉1.3、指令都使用缩写形式👉1.4、 标签顺序保持一致👉1.5、必须…

<数据集>车辆识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:3002张 标注数量(xml文件个数):3002 标注数量(txt文件个数):3002 标注类别数:21 标注类别名称:[ambulance, army vehicle, auto rickshaw, bicycle, bus, car, garba…

互联网平台大模型网络架构设计

字节跳动:大模型网络实践分享 自2019年起,字节跳动公司便开始着手白盒项目。2020年,推出了首款接入交换机——25G型号,随后逐步实现软硬件的自主研发。在当前一代产品中,已经实现了100G接入、25.6T400G互联&#xff0c…

SprinBoot+Vue实验室考勤管理小程序的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue3.6 uniapp代码 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平…

信息学奥赛一本通/openjudge Crossing River

题目 一本通题目入口 openjudge题目入口 (注:由于一本通题面描述的可能有些欠缺,所以这里的题面采用openjudge英文翻译后的题面) 题目分析 首先我们来看样例,为什么样例的结果是17呢?首先观察,“5”和“…

node环境安装、vue-cli搭建过程、element-UI搭建使用过程

vue-cli 官方提供的一个脚手架,用于快速生成一个 vue 的项目模板;预先定义好的目录结构及基础代码,就好比咱们在创建 Maven 项目时可以选择创建一个骨架项目,这个骨架项目就是脚手架,我们的开发更加的快速 前端项目架…

Spark-Job启动、Stage划分

一、上下文 《Spark-driver和executor启动过程》详细分析了driver和executor的启动,此时资源已经给我们分配好了,且Application也已经注册完成。下面我们就来看看Spark是如何启动job并根据DAG来划分Stage的 二、Job启动 Spark RDD中的算子分为Transfo…

leetcode算法题之 K 个一组翻转链表

照我说这道题其实是披着困难皮的中等题目,问题如下: 题目地址 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍…

深入解析多商户商城系统源码:如何开发直播商城小程序?

本篇文章,小编将深入解析多商户商城系统源码的关键技术,并详细探讨如何基于这些源码开发一个功能完善的直播商城小程序。 一、多商户商城系统源码的核心构架 多商户商城系统源码的核心在于其能够支持多个商户独立运营,但同时又在一个统一的平…

(转载)内存分配器101——写一个简单的内存分配器

文章目录 前提正文Malloc()free()calloc()realloc() 前提 之前学习过手写一个简单的内存分配器,原文是英文的,当初学习的时候便将英文翻译为中文的,方便阅读,当然和原文相比少了点味道。今天整理资料的时候看到了自己的翻译&…