【强化学习的数学原理】第10课-Actor-Critic方法-笔记

news2025/4/16 1:56:03

学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰

文章目录

  • 一、最简单的Actor-Critic(QAC)
  • 二、Advantage Actor-Critic(A2C)
  • 三、重要性采样和Off-Policy Actor-Critic
  • 四、Deterministic Actor-Critic (DPG)
  • 五、Summary


一、最简单的Actor-Critic(QAC)

Actor-Critic算法和上节课所学习的policy gradient方法是一种方法,但不同的是,Actor-Critic方法把基于value的方法引入到policy gradient中。

什么是actor?什么是critic?
actor对应的是策略,是更新策略(policy update)的一个过程。
critic对应的是policy evaluation/value estimation的过程。
在这里插入图片描述
先回顾一下上节课讲的policy gradient方法。在policy gradient中,最终要计算的是公式1。这个一整个公式1其实就是一个actor,因为这个公式在更新参数 θ \theta θ,更新 θ \theta θ其实就是更新策略。这就对应着actor的作用。公式1中的 q t ( s t , a t ) q_t(s_t,a_t) qt(st,at)其实就是一个critic,通过计算action value来估计当前这个策略好不好。
在这里插入图片描述
如何计算 q t ( s t , a t ) q_t(s_t,a_t) qt(st,at)
有两种方法。
第一,蒙特卡洛的方法。从状态 ( s , a ) (s,a) (s,a)出发收集一个episode,计算这个episode所对应的return作为 q t ( s t , a t ) q_t(s_t,a_t) qt(st,at)的近似值。按照这种方式计算出来的 q t ( s t , a t ) q_t(s_t,a_t) qt(st,at),再配上刚刚说的算法,这就是REINFORCE。(上节课已经讲过)
第二,用TD方法来估计 q t ( s t , a t ) q_t(s_t,a_t) qt(st,at),用这种方法估计 q t ( s t , a t ) q_t(s_t,a_t) qt(st,at),再配上刚刚说的算法,这种方法被称为actor-critic。
在这里插入图片描述
最简单的actor critic算法的伪代码。其目标是去优化函数 J ( θ ) J(\theta) J(θ)。首先根据当前的策略生成experience ( s t , a t , r t + 1 , s t + 1 , a t + 1 ) (s_t,a_t,r_{t+1},s_{t+1},a_{t+1}) (st,at,rt+1,st+1,at+1)。然后在critic的部分用Sarsa算法去计算 q ( s , a ) q(s,a) q(s,a),在actor部分讲critic部分中计算好的 q ( s , a ) q(s,a) q(s,a)拿过来,去更新策略。随后用更新后的策略,去在下一步中生成新的数据。
在这里插入图片描述
补充说明:

  • Critic对应的是Sarsa+value function approximation
  • Actor对应的是策略更新算法
  • 这个算法是on-policy的
  • 这个算法(QAC)是最简单的actor-critic algorithm之一

二、Advantage Actor-Critic(A2C)

A2C是QAC的推广,其基本思想是在QAC的基础上引入一个偏置量来减少估计的方差。

性质:policy gradient梯度对于引入一个新的偏置是不会变化的。比如下图,引入b(S),对梯度的结果是没有影响的。
在这里插入图片描述

1.为什么引入b(S)对计算梯度没有影响呢?
请看下面的推导过程。
在这里插入图片描述
2.为什么要考虑这个baseline?它究竟有什么用?
把梯度简写成 E [ X ] E[X] E[X]的形式,经过刚刚的推导,已经知道 E [ X ] E[X] E[X] b ( S ) b(S) b(S)是没有任何关系的。但是 v a r ( X ) var(X) var(X)(X的方差)和 b ( S ) b(S) b(S)是有关系的。
t r [ v a r ( X ) ] tr[var(X)] tr[var(X)],也就是矩阵的迹(对角线元素的和)来作为评价方差大小的一个工具。通过计算得出, v a r ( X ) var(X) var(X)是和 b ( S ) b(S) b(S)有关的。
在这里插入图片描述
目标:找一个最好的baseline,让X的方差达到最小。
方差小的好处是,在采样的时候,误差也更小。
但在以前介绍的REINFORCE 和 QAC 中,是没有baseline的,或者说,b=0。最优的b*,其计算公式如下图公式1所示。但因为公式1比较复杂,所以一般不用,一般我们有公式2对应的 b ( s ) b(s) b(s)。公式2对应的 b ( s ) b(s) b(s)实际上就是 v π ( s ) v_{\pi}(s) vπ(s)
在这里插入图片描述
b ( s ) b(s) b(s)(实际上是 v π ( s ) v_{\pi}(s) vπ(s))代入到梯度上升算法中。定义一个新的量 δ π ( S , A ) \delta_{\pi}(S,A) δπ(S,A),这个量被称作advantage function。 δ π ( S , A ) = q π ( S , A ) − v π ( S ) \delta_{\pi}(S,A)=q_{\pi}(S,A)-v_{\pi}(S) δπ(S,A)=qπ(S,A)vπ(S) v π ( S ) v_{\pi}(S) vπ(S)就是相当于很多 q π ( S , A ) q_{\pi}(S,A) qπ(S,A)加起来的再取平均的一个均值。如果当前这个 q π ( S , A ) q_{\pi}(S,A) qπ(S,A)是大于 v π ( S ) v_{\pi}(S) vπ(S)的,说明这个动作a的效果还不错, δ π ( S , A ) \delta_{\pi}(S,A) δπ(S,A)为一个正值。选择 ( S , A ) (S,A) (S,A)的概率就会变大。
在这里插入图片描述
advantage function也可以用TD error来近似(如下图所示)。这样的变换是合理的,因为 q π ( S , A ) q_{\pi}(S,A) qπ(S,A)本来就等于 R + γ v π ( S ′ ) R+\gamma v_{\pi}(S') R+γvπ(S)。并且这样做有一个好处,原来需要用两个神经网络:一个网络去近似 q π ( s t , a t ) q_{\pi}(s_t,a_t) qπ(st,at),另一个网络去近似 v π ( S ) v_{\pi}(S) vπ(S),现在只需要用一个神经网络 v π ( S ) v_{\pi}(S) vπ(S)就好了。
在这里插入图片描述
这是A2C算法的伪代码。Critic中是TD算法和value function approximation相结合的算法。
在这里插入图片描述

三、重要性采样和Off-Policy Actor-Critic

之前讲到的策略都是on policy的,如下图所示,在采样时,要遵循策略 π \pi π,更新时,也是更新的这个策略 π \pi π。但我们也可以使用重要性采样,把on policy改成off policy。
在这里插入图片描述
1.一些简单的例子
假设有一个随机变量X,X是一个集合,里面只有两个值。X的分布如下图所示,据此分布,算出来X的期望为0。那么问题来了,如果这个随机变量的分布是未知的,那是否能通过采样的方式来求 E [ X ] E[X] E[X]
在这里插入图片描述
在第一种情况下,假设 x i {x_i} xi是在X的真实分布 p 0 p_0 p0上进行采样的,那么当采样足够多的时候, x i {x_i} xi的均值和方差就等于 X X X的均值和方差。
在这里插入图片描述

在第二种情况下,假设 x i {x_i} xi是在另一个分布 p 1 p_1 p1上进行采样的,那么这个采样的均值算出来肯定和真实分布上的均值不一样。
在这里插入图片描述
问题是:我们现在有一个概率分布 p 1 p_1 p1,在 p 1 p_1 p1上产生了一些sample,想用这些sample来估计在分布 p 0 p_0 p0下的expectation。为什么要做这个呢?因为想做off-policy。off-policy中用策略 β \beta β来产生数据(相当于分布 p 1 p_1 p1),用策略 π \pi π作为target policy(相当于分布 p 0 p_0 p0)。用重要性采样来实现这个目的。
在这里插入图片描述
2.重要性采样
如下图所示可以通过估计 E X ~ p 1 [ f ( X ) ] E_{X~p_1}[f(X)] EXp1[f(X)],来估计满足分布 p 0 p_0 p0的随机变量 X X X的期望。如何估计 E X ~ p 1 [ f ( X ) ] E_{X~p_1}[f(X)] EXp1[f(X)]?通过采样 x i x_i xi,然后对 f ( x i ) f(x_i) f(xi)求和再求平均就可以,平均数用下图中的 f ˉ \bar{f} fˉ来表示。
在这里插入图片描述
重要性采样的计算方式如下图所示。
在这里插入图片描述
在这里插入图片描述
小结:
有一些服从 p 1 p_1 p1分布的sample x i {x_i} xi,下图中的 x ˉ \bar{x} xˉ是对这些sample求平均,计算结果是在 p 1 p_1 p1分布下的expectation。目标是求 f ˉ \bar{f} fˉ f ˉ \bar{f} fˉ的计算结果是在 p 0 p_0 p0分布下的expectation。
在这里插入图片描述
3.off-policy policy gradient 的理论
假设 β \beta β是一个behavior policy,用来生成很多的经验采样。 π \pi π是target policy,目标是优化下面的 J ( θ ) J(\theta) J(θ)函数。 d β ( s ) d_{\beta}(s) dβ(s)是在策略 β \beta β下的一个stationary distribution。
在这里插入图片描述
这个目标函数对应的梯度如下所示。和之前在on policy中的区别在于,on policy中, A ~ π A~\pi Aπ,但在off policy中, A ~ β A~\beta Aβ。除此之外,还多了一个重要性采样的项。
在这里插入图片描述
下面用梯度上升的方法去优化。在梯度中加上一个baseline b ( s ) b(s) b(s),之前已经证明过,这个baseline不改变梯度。一般设置 b ( S ) = v π ( S ) b(S)=v_{\pi}(S) b(S)=vπ(S)
在这里插入图片描述
公式1中用stochastic gradient去计算梯度,加上了 v π ( S ) v_{\pi}(S) vπ(S)作为baseline。公式2在公式1的基础上加了一个TD error,得到公式3。最后就以公式3来计算梯度。公式4是对公式3进行一个变形,目的是为了提取出step size,对公式进行定性分析。(详见课程)
在这里插入图片描述
这是对应的伪代码。
在这里插入图片描述

四、Deterministic Actor-Critic (DPG)

前面几节所讲到的策略,其 π ( a ∣ s , θ ) \pi(a|s,\theta) π(as,θ)一定是大于0的,也就是说,这些策略都是stochastic的策略。下面介绍Deterministic Actor-Critic。
在这里插入图片描述

在deterministic policy中,策略不再用 π ( a ∣ s , θ ) \pi(a|s,\theta) π(as,θ)来表示,而是用下图中的 a = μ ( s , θ ) a=\mu(s,\theta) a=μ(s,θ)来表示,其输出不再是选择某个动作a的概率值,而直接就是一个实实在在的动作a。所以 μ \mu μ是状态空间到动作空间的映射。在实际应用过程中,可以用一个神经网络来实现。
在这里插入图片描述deterministic policy gradient的目标函数 J ( θ ) J(\theta) J(θ)。其中 d 0 ( s ) d_0(s) d0(s)表示概率分布。 d ( s ) d(s) d(s)是独立于 μ \mu μ的,在这种情况下,梯度更加容易计算。
在这里插入图片描述
这是求出来的梯度结果。这是一个off policy的算法。
在这里插入图片描述
然后用梯度上升的方法进行优化。
在这里插入图片描述
伪代码如下。
在这里插入图片描述
补充说明:

  • 这是一个off policy的算法,其中behaviour policy 是 β \beta β,target policy 是 μ \mu μ
  • β \beta β可以用 μ \mu μ+noise 来代替。
    在这里插入图片描述

五、Summary

从去年11月底开始断断续续看,到今天为止,这门课终于看完了第一遍了。由于基础有限,部分知识还没能消化完全。希望可以在后续实践过程中不断思考、不断学习。

“关于学具有系统性的知识,建议放弃速成的想法,比如一小时入门,一上午精通。很多焦虑都来源于时间安排不合适。举个例子,读一篇论文需要五天,但你只给自己一天的时间,到晚上也许发现,连introduction部分都没搞明白。但是如果给自己足够的时间,心态放平,稳扎稳打,也许三天就可以读完一篇论文。” 这是赵老师在课程里说过的原话,深受启发。做学问切忌心浮气躁,而是应该放平心态,给自己一些消化和适应的时间。在以后的科研生活中,也一直要铭记在心呀!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2301323.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

scratch猜年龄互动小游戏 2024年12月scratch四级真题 中国电子学会 图形化编程 scratch四级真题和答案解析

scratch猜年龄互动小游戏 2024年12月电子学会图形化编程Scratch等级考试四级真题 一、题目要求 老爷爷的年龄是1-100的随机数,老爷爷询问“请猜猜我的年龄是多少?”,输入年龄,老爷爷会回答"大了"或者"小了,直到最后成功猜出年龄。 1、准备工作 (1)删…

java每日精进 2.13 MySql迁移人大金仓

1.迁移数据库 1. 数据库创建语句 MySQL: CREATE DATABASE dbname; 人大金仓(Kingbase): 在人大金仓中,CREATE DATABASE 的语法通常相同,但可能需要特别注意字符集的指定(如果涉及到多语言支持…

2025最新智能优化算法:改进型雪雁算法(Improved Snow Geese Algorithm, ISGA)求解23个经典函数测试集,MATLAB

一、改进型雪雁算法 雪雁算法(Snow Geese Algorithm,SGA)是2024年提出的一种新型元启发式算法,其灵感来源于雪雁的迁徙行为,特别是它们在迁徙过程中形成的独特“人字形”和“直线”飞行模式。该算法通过模拟雪雁的飞行…

Open WebUI项目源码学习记录(从0开始基于纯CPU环境部署一个网页Chat服务)

感谢您点开这篇文章:D,鼠鼠我是一个代码小白,下文是学习开源项目Open WebUI过程中的一点笔记记录,希望能帮助到你~ 本人菜鸟,持续成长,能力不足有疏漏的地方欢迎一起探讨指正,比心心&#xff5e…

什么是Grok-3?技术特点,场景,潜在问题与挑战

Grok-3 的技术特点与优势 1. 超大算力与训练规模 算力投入:Grok-3 使用了 20 万块英伟达 H100 GPU,分两个阶段训练(第一阶段 10 万 GPU 训练 144 天,第二阶段 20 万 GPU 训练 92 天),总计算量是前代 Grok-2 的 10 倍。这种规模远超同期其他项目(如印度的 1.8 万 GPU 公…

JWT 令牌

目录 一、JWT 1、什么是JWT 2、JWT的组成 3、JJWT签发与验证token 1、创建token 2、解析token 3、设置过期时间 4、自定义claims 前言: 在现代Web应用和微服务架构中,用户身份验证和信息安全传输是核心问题。JSON Web Token(J…

鼎捷PLM深度集成DeepSeek,领跑智能研发新赛道

新年伊始,DeepSeek以其卓越的性能、高性价比和开源优势,掀起一股AI技术应用热潮,重塑各行各业的知识管理、知识应用模式。对制造业来说,首当其冲的就是研发管理变革,这也引发了企业的深度思考:在工业领域的…

VMware新建虚拟机

看看自己的电脑是什么内核,有几个处理器 再分配给虚拟机 镜像文件需要自己安装下载地方https://mirrors.aliyun.com/centos/?spma2c6h.13651104.d-2001.8.3fb1320cuI1jeS 然后就出现了 然后开启虚拟机,等待 等待之后如下,选择语言 等待一段时…

使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)

使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手) 序言:最近在抖音上频繁看到曼波唱歌的视频和各种AI语音的搞笑短片,加上年后新购置的M2硬盘终于提供了足够的存储空间,让我有机会深入研究AI语音训练。24年年初…

【JavaEE进阶】Spring MVC(3)

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗 如有错误,欢迎指出~ 返回响应 返回静态页面 //RestController Controller RequestMapping("/response") public class ResponseController {RequestMapping("/returnHtmlPage&…

火语言RPA--Excel读取内容

【组件功能】:读取Excel内指定位置的内容或读取整篇Sheet页内容 配置预览 配置说明 读取位置 单元格:读取指定单元格中的内容。 行:读取指定行内容。 列:读取指定列内容。 区域:读取指定区域内容。 整篇sheet页&…

sass报错:[sass] Undefined variable. @import升级@use语法注意事项

今天创建vue3项目,迁移老项目代码,使用sass的时候发现import语法已经废弃,官方推荐使用use替换。 这里我踩了一个坑找半天的问题,原因是sass升级到1.85之后 定义变量前加上 - 就是表示变量私有,即使使用use导出 在新的…

重新出发的LLM本地部署——DeepSeek加持下的Ollama+OpenWebUI快速部署

DeepSeek 这真的是太惊艳了,发布出来的模型这么能打,在线的版本使用起来也是丝滑连招,感觉效果比起之前一直用智谱 chatglm4 更好用,想着本地化部署一下。 本来以为,会和之前在开发测试 transformers 的模型和代码一样…

动态网格图片展示中的自适应逻辑

在现代网页设计中,自适应逻辑不仅提升了用户体验,也显著提高了组件的灵活性。本文将探讨如何通过 动态计算每页图片数 和 窗口尺寸变化监听 来实现网格图片的自适应展示。以下内容不仅包含逻辑的核心,还展示了如何优雅地将这些逻辑与 Vue 框架…

Java基础——代理模式

代理模式是一种比较好理解的设计模式。简单来说就是 我们使用代理对象来代替对真实对象(real object)的访问,这样就可以在不修改原目标对象的前提下,提供额外的功能操作,扩展目标对象的功能。 一、代理模式的主要作用 控制访问:通…

Django项目之订单管理part1

一.前言 我们前面把django的常用知识点给讲完了,现在我们开始项目部分,项目是一个订单管理系统,我们同时也会在项目之中也会讲一些前面没有用到的知识点。 项目大概流程如下: 核心的功能模块: 认证模块,用…

Electron通过ffi-napi调用dll导出接口

electron使用ffi-napi环境搭建 附打包好的ffi-napi可以直接放到项目目录下使用,避免以后麻烦 一、安装node.js Node.js官网:https://nodejs.org/zh-cn/download,选择LTS长期稳定版本即可 ![在这里插入图片描述](https://i-blog.csdnimg.c…

大数据SQL调优专题——Hive执行原理

引入 Apache Hive 是基于Hadoop的数据仓库工具,它可以使用SQL来读取、写入和管理存在分布式文件系统中的海量数据。在Hive中,HQL默认转换成MapReduce程序运行到Yarn集群中,大大降低了非Java开发者数据分析的门槛,并且Hive提供命令…

用 Biome 替代 ESLint 和 Prettier

简介 ESLint 和 Prettier ESLint:代码质量检查工具,确保代码风格一致与无错误 Prettier:代码格式化工具,自动美化代码布局 所以:ESLint Prettier 能自动美化代码、自动检查代码错误的工具 Biome Biome:…

golang深度学习-基础篇

基础数据结构及类型 字符型-string string 是Go标准库 buildin 内置的一个基础数据类型。string是由8比特字节的集合,通常不一定是UTF-8编码的文本。string可以为空(长度为0),但不会是nil。 string is the set of all strings of 8-bit bytes, conventionally but not nec…