前言:一种大模型强化学习技术,将传统的梯度更新时的参数信号替换成上下文的语言总结,过程和人类反思相似。区别与RLHF,Reflextion是agent自我反思,RLHF是人类反馈。
目录
- 1. 基础知识
- 1.1 强化学习
- 1.2 大模型Agent
- 2. 创新点
- 3. 模型框架
- 参考文献
1. 基础知识
1.1 强化学习
四要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)
- 策略:定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射。
- 奖励:定义了强化学习问题的目标,能表征在某一步智能体的表现如何
- 价值:与奖励的即时性不同,价值函数是对长期收益的衡量
- 环境:用于预测接下来的状态和对应的奖励。
1.2 大模型Agent
Agent是一种框架,Agent 通常利用 prompt 来与用户交互,接收输入,处理信息,然后提供响应。在复杂应用中,Agent 可能具备记忆、长期对话、任务分配、资源调用等多种能力,并且会根据用户的 prompt 和上下文自动调整行为。
2. 创新点
- 利用自然语言作为反馈信号,将二进制或标量环境反馈转化为文本形式的自反反馈,从而为智能体提供了更加清晰和可解释的方向;
- 使用长短期记忆(LSTM)网络存储自反反馈经验,以便于智能体在未来的学习过程中参考;
3. 模型框架
a. 三个模型
- Actor模型:使用大型语言模型(LLM)来生成文本和动作,并在环境中接收观察结果。
- Evaluator模型:负责评估Actor产生的轨迹的质量,并计算一个奖励分数以反映其性能。
- Self-Reflection模型:对反馈内容进行反思,为后续流程提供有价值的反馈信息。
b. 两个记忆
- 长期记忆:长期记忆则存储来自Self-Reflextion模型的经验反馈
- 短期记忆:短期记忆用于存储最近的任务历史记录
参考文献
[1]Reflexion: Language Agents with Verbal Reinforcement Learning
[2]https://github.com/noahshinn/reflexion