强化学习:Actor-Critic、SPG、DDPG、MADDPG

news2024/10/7 6:42:19

马尔可夫决策过程(MDP)

MDP 由元组 ( S , A , P , R , γ ) (S, A, P, R, \gamma) (S,A,P,R,γ) 描述,分别表示有限状态集、有限动作集、状态转移概率、回报函数、折扣因子 。与马尔可夫过程不同,MDP的状态转移概率是包含动作的,即
P s s ′ a = P [ S t + 1 = s ′ ∣ s t = s , A t = a ] P_{ss'}^a = P[S_{t+1} = s' | s_t = s, A_t = a] Pssa=P[St+1=sst=s,At=a]
强化学习的目标是给定一个MDP,寻找最优策略,即每个状态动作的概率分布 π \pi π

累计回报在状态 s 处的期望定义为状态-值函数
v ( s ) = E [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] v(s) = E[\sum_{k=0}^\infty\gamma^k R_{t+k+1}|S_t = s] v(s)=E[k=0γkRt+k+1St=s]
这里衰减因子 γ \gamma γ 的道理是我们认为距离当前动作越远的将来发生的事情和这个动作的关系越小。类似的,状态-行为值函数定义为
q ( s , a ) = E [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] q(s,a) = E[\sum_{k=0}^\infty\gamma^k R_{t+k+1}|S_t = s,A_t = a] q(s,a)=E[k=0γkRt+k+1St=s,At=a]
可以分别得到其贝尔曼方程:
v ( s ) = E [ R t + 1 ∣ S t = s ] + γ E [ v ( S t + 1 ) ∣ S t = s ] q ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] + γ E [ q ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] v(s) = E[R_{t+1}|S_t=s] + \gamma E[v(S_{t+1}) | S_t = s]\\ q(s,a) = E[R_{t+1}|S_t=s, A_t=a] + \gamma E[q(S_{t+1},A_{t+1}) | S_t = s, A_t = a] v(s)=E[Rt+1St=s]+γE[v(St+1)St=s]q(s,a)=E[Rt+1St=s,At=a]+γE[q(St+1,At+1)St=s,At=a]

Importance Sampling

蒙特卡洛积分中,如果在 f ( x ) f(x) f(x) 对积分贡献大的区域进行相对密集的采样,可以在采样数不变的情况下增加准确度,减少方差。

换句话说,如果我们对 x 的采样本身就满足一个分布 p ( x ) p(x) p(x),那么 p ( x ) p(x) p(x) f ( x ) f(x) f(x) 越接近,统计量的方差就越小。

蒙特卡洛积分与重要性采样详解 - 烈日行者 - 博客园 (cnblogs.com)

Stochastic Policy Gradient(SPG)

一种基于策略的算法,不依赖价值函数。输入状态,输出动作的概率分布。对于策略 π θ \pi_\theta πθ,枚举一轮完整的游戏轨迹 τ \tau τ,计算期望奖励(省略 θ \theta θ 下标):

R ‾ = ∑ τ R ( τ ) p ( τ ) \overline{R}=\sum_\tau R(\tau)p(\tau) R=τR(τ)p(τ)

θ \theta θ 求梯度:
∇ R ‾ = ∑ τ R ( τ ) ∇ p ( τ ) = ∑ τ R ( τ ) p ( τ ) ∇ log ⁡ p ( τ ) = E τ ∼ p ( τ ) [ R ( τ ) ∇ log ⁡ p ( τ ) ] = 1 N ∑ n = 1 N R ( τ n ) ∇ log ⁡ p ( τ n ) = 1 N ∑ n = 1 N R ( τ n ) ∑ t = 1 T n ∇ log ⁡ p ( a t n ∣ s t n ) \begin{aligned} \nabla \overline{R}&=\sum_\tau R(\tau)\nabla p(\tau)\\ &=\sum_\tau R(\tau)p(\tau)\nabla\log p(\tau)\\ &=E_{\tau\sim p(\tau)}[R(\tau)\nabla\log p(\tau)]\\ &=\frac 1N\sum_{n=1}^N R(\tau^n)\nabla\log p(\tau^n)\\ &=\frac 1N\sum_{n=1}^NR(\tau^n)\sum_{t=1}^{T_n}\nabla\log p(a_t^n|s_t^n) \end{aligned} R=τR(τ)p(τ)=τR(τ)p(τ)logp(τ)=Eτp(τ)[R(τ)logp(τ)]=N1n=1NR(τn)logp(τn)=N1n=1NR(τn)t=1Tnlogp(atnstn)
注意到以下两个问题:

  1. 对这个式子来说,如果某个 τ \tau τ 对应的奖励是正的,就要增加对应的一连串 p ( a t ∣ s t ) p(a_t|s_t) p(atst) 的几率。这其实对于奖励都为正的游戏这就不合理了,因为采样到的动作概率都会被提高。在采样足够均匀且大量的情况下也可以收敛,但在实践中这不可取。我们想要的是奖励有正有负;

  2. 同时,一个动作不是跟整个 τ \tau τ 中获得的奖励都有关,而只是和它后面获得的奖励有关。

再考虑上面提到的衰减因子,我们得到这个式子:

∇ R ‾ = 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log ⁡ p ( a t n ∣ s t n ) \nabla\overline{R}=\frac 1N\sum_{n=1}^N\sum_{t=1}^{T_n}\big(\sum_{t'=t}^{T_n}\gamma ^{t'-t}r_{t'}^n-b\big)\nabla\log p(a_t^n|s_t^n) R=N1n=1Nt=1Tn(t=tTnγttrtnb)logp(atnstn)
其中 b b b 应当与 R ( τ ) R(\tau) R(τ) 期望值相关。

注意到,由于采样 τ \tau τ 要服从 p θ p_\theta pθ,因此这是一个 on-policy 的做法,即策略更新后,就要用新策略采样,这样每一个样本只能用一次,效率较低。如何变成 off-policy 的做法?需要引入重要性采样:
∇ R θ ‾ = E τ ∼ p θ ( τ ) [ R ( τ ) ∇ log ⁡ p θ ( τ ) ] = E τ ∼ p θ ′ ( τ ) [ R ( τ ) ∇ log ⁡ p θ ( τ ) p θ ( τ ) p θ ′ ( τ ) ] \nabla\overline{R_\theta}=E_{\tau\sim p_\theta(\tau)}[R(\tau)\nabla\log p_\theta(\tau)]\\ =E_{\tau\sim p_{\theta'}(\tau)}[R(\tau)\nabla\log p_\theta(\tau)\frac{p_\theta(\tau)}{p_{\theta'}(\tau)}]\\ Rθ=Eτpθ(τ)[R(τ)logpθ(τ)]=Eτpθ(τ)[R(τ)logpθ(τ)pθ(τ)pθ(τ)]
这样可以重复利用 agent 和环境互动的数据。

实践中,我们采用下面的式子进行计算:
∇ R θ ‾ = E ( s , a ) ∼ π θ [ A θ ′ ( s , a ) ∇ p θ ( a ∣ s ) p θ ( a ∣ s ) p θ ′ ( a ∣ s ) ] \nabla\overline{R_\theta}=E_{(s,a)\sim\pi_\theta}[A_{\theta'}(s,a)\nabla p_\theta(a|s)\frac{p_\theta(a|s)}{p_{\theta'}(a|s)}] Rθ=E(s,a)πθ[Aθ(s,a)pθ(as)pθ(as)pθ(as)]
其中 A ( s , a ) A(s, a) A(s,a) 表示 Advantage function,对应 ∑ t ′ = t T n γ t ′ − t r t ′ n − b \sum_{t'=t}^{T_n}\gamma ^{t'-t}r_{t'}^n-b t=tTnγttrtnb,体现在某个状态执行某个动作的好坏,也可以使用神经网络来计算。

Actor-Critic

上面的 SPG 很容易就可以变成 Actor-Critic 的方法。Advance function 里面的 ∑ t ′ = t T n γ t ′ − t r t ′ \sum_{t'=t}^{T_n}\gamma ^{t'-t}r_{t'} t=tTnγttrt 其实就是 q ( s t , a t ) q(s_t, a_t) q(st,at),b 其实就是 v ( s t ) v(s_t) v(st),我们可以分别使用神经网络去估计他们。但其实我们不想用两个神经网络来分别估计 q q q v v v,因为这样大大增加了训练收敛的难度。注意到 q ( s t , a t ) = E [ r t + v ( s t + 1 ) ] q(s_t, a_t)=E[r_t+v(s_{t+1})] q(st,at)=E[rt+v(st+1)],在确定性环境中这个期望直接可以去掉,而在不确定环境中也把期望去掉来做近似(a proper approximation),那么 Advantage function 就是 r t + v ( s t + 1 ) − v ( s t ) r_t+v(s_{t+1})-v(s_t) rt+v(st+1)v(st)。当然,也可以令 v ( s t ) = max ⁡ q ( s t , a t ) v(s_t)=\max q(s_t, a_t) v(st)=maxq(st,at),只计算一个 q 网络。

v ( s ) , q ( s , a ) v(s), q(s, a) v(s),q(s,a) 怎么求?

一是 Monte-Carlo 的方法,即让 agent 不断和环境做互动,观察从 s 出发的累计奖励

二是 Temporal Diffierence 的方法, v ( s t ) = γ v ( s t + 1 ) + r t v(s_t)=\gamma v(s_{t+1}) + r_t v(st)=γv(st+1)+rt,也就是 DQN 采用的方法。

MC的方法方差比较大,但比较精确。TD方差较小,但忽略了(可能的)相邻状态奖励值的影响。

【强化学习】随机策略梯度算法(stochastic-policy-gradient)_贰锤的博客-CSDN博客_随机性策略梯度

Deep Deterministic Policy Gradient(DDPG)

直接写神经网络+AC的版本。由于策略是确定的,它天然就是 off-policy 的,也就不需要重要性采样。

是一个 actor critic 的方法。首先使用 TD 之类的方法训练一个 critic 成为 q w ( s , a ) q_w(s,a) qw(s,a),然后要训练一个确定性策略 μ θ ( s ) \mu_\theta(s) μθ(s),使得 q w ( s , μ θ ( s ) ) q_w(s,\mu_\theta(s)) qw(s,μθ(s)) 最大。

和DQN 的比较

DDPG训练时,Actor 根据当前的 s 选择一个a,然后Critic可以根据 state-action 计算一个Q值,作为对Actor动作的反馈。

事实上,我认为 DDPG 和 DQN 的关系更为紧密。DQN 的关键在于Q。根据一个策略计算q,根据Q可以导出一个策略 π \pi π。算法的核心在于q估计的准不准。

DDPG很类似,它的critic 对应于q,但不能根据q导出策略,而是用神经网络估计一个策略。这个策略的目标同样是使得q值最大。

DQN 的 argmax 没法求?

DPG 却不需要。因此在动作空间很大的时候类似于 DQN 中用神经网络拟合 Q 函数的技巧应用到 DPG 中。

MADDPG

从代码到论文理解并复现MADDPG算法(基于飞桨的强化学习套件PARL)_Mr.郑先生_的博客-CSDN博客_maddpg算法

DQN 或者 DDPG 都不适用于多智能体环境,主要的问题是在训练过程中每个智能体的策略都在变化,因此从每个智能体的角度来看,环境变得十分不稳定。即对于同一个 observation,执行相同的 action 得到的 reward 不同,环境的真实状态可能天差地别,进而导致 q 值的估计很不稳定,也就不能给出 action 的正确梯度。

我们想要让 Critic 的评判更全面,就需要给它更多的信息,比如其他智能体的状态和动作等,让对于某个 agent 的环境变成完全可观察的。MADDPG 的思想就是每个 agent 的 Critic 部分能够获取其余所有 Agent 的动作信息,进行中心化训练和非中心化执行,即在训练的时候,引入可以观察全局的 Critic 来指导 Actor 训练,对 Critic 来说,所有智能体的动作、全局状态都是可知的;而测试的时候,每个智能体观察到的状态是受限的,智能体不知道其他智能体的行为。也就是集中训练,分布执行,训练和执行的信息不对等。直觉上来说,相当于每一个 agent 都有一个上帝视角的 Critic 来指导它的行为。

可以发现按照这个思路,是不会有 “MADQN” 这种算法的,因为DQN训练和预测是同一个网络,二者的输入信息必须保持一致,我们不能只在训练阶段加入其他智能体的信息。

类似 DQN,为了训练稳定性,对于每个 agent 都有 4 个网络,q target 采用软更新的方法。

感觉这个方法还可以用在单智能体环境不完全可观察的情况下,道理是一样的。

论文中给出的伪代码,其中 x x x 就是 ( o 1 , o 2 , . . . , o n ) (o_1, o_2, ..., o_n) (o1,o2,...,on),表示感知信息:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/52087.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Express 7 指南 - 开发中间件

Express Express 中文网 本文仅用于学习记录,不存在任何商业用途,如侵删 文章目录Express7 指南 - 开发中间件7.1 概述7.2 例子7.2.1 中间件函数 myLogger7.2.2 中间件函数 requestTime7.2.3 中间件函数 validateCookies7.3 可配置的中间件7 指南 - 开发…

中断系统中的设备树__Linux对中断处理的框架及代码流程简述

1 异常向量入口: arch\arm\kernel\entry-armv.S .section .vectors, "ax", %progbits .L__vectors_start: W(b) vector_rst W(b) vector_und W(ldr) pc, .L__vectors_start 0x1000 W(b) vector_pabt W(b) vector_dabt W(b) …

14 【接口规范和业务分层】

14 【接口规范和业务分层】 1.接口规范-RESTful架构 1.1 什么是REST REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移。 它首次出现在2000年Roy Fielding的博士论文中,R…

教程九 在Go中使用Energy创建跨平台GUI应用 - Go绑定变量JS调用

介绍 Energy Go中定义的变量、结构和函数绑定,在JS中使用。 在Energy中不只可以调用 JS 和 事件机制,也可以通过Go绑定在Go中定义的一些变量函数在JS中调用,在使用的时候就如同在JS调用本身定义的函数一样方便。 运行此示例,需…

Flutter FlutterActivity找不到

Flutter FlutterActivity找不到1.大多数报错应该都是这个样子2.接下来找到我们自己安装的 flutterSDK 路径我放在下面 flutterSdk\flutter_windows_3.3.4-stable\flutter\bin\cache\artifacts\engine\android-arm 3.这个界面大家应该都很熟悉吧(这是快捷键 ctrlshiftalts) …

力扣刷题记录163.1-----684.冗余连接

目录一、题目二、代码三、运行结果一、题目 二、代码 class Solution { public://并查集 基本步骤 初始化 并 查 判断int n1001;int father[1001];//并查集初始化void init(){for(int i0;i<n;i){father[i]i;}}//并查集查找int find(int u){return ufather[u] ? u : …

AI 作画领域中的“神笔马良”是怎样炼成的?

本文由行者AI携手亚马逊云科技共同推出 刷爆朋友圈的 AIGC 是什么&#xff1f; AI Generated Content (AIGC&#xff0c;利用人工智能技术来生成内容)&#xff0c;是继专业生产内容&#xff08;PGC, Professional-generated Content&#xff09;、用户生产内容&#xff08;UGC…

万字详细总结 Promise(期约)及其方法

万字详细总结 Promise&#xff08;期约&#xff09;及其方法 ES6之前的异步编程 异步行为是 javascript 的基础操作。我们在开发的过程中往往需要执行一个操作并得到一个结果&#xff08;例如从后端请求数据&#xff09;&#xff0c;但是由于 javascript 是单线程&#xff0c…

[附源码]Python计算机毕业设计Django个性化名片网站

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

视频播放 (二) 自定义 MediaPlayer

1. 说明 1.1 使用Mediaplayer和surfaceView进行视频播放&#xff0c;并实现&#xff1a;感应生命周期、支持无缝续播、宽高比适配以及全屏模式 1.2 创建一个播放控制View&#xff0c;并以ViewModel驱动 2. 配置信息 2.1 AndroidManifest.xml 添加网络权限 <uses-permission…

Docker入门-上篇

Docker容器技术的使用&#xff0c;现在它已经不仅仅只是运维人员的专属技能了&#xff0c;对于我们开发人员同样需要具备&#xff0c;在很多中小公司中云环境的项目搭建和项目部署依然还是我们开发人员干的事&#xff0c;所以多学一门技术总是没错的。 1.Docker介绍 Docker最…

Ubuntu下解压文件(提取文件总是报错)文件是zip 格式

删除非空文件夹&#xff1a;在该目录下打开终端&#xff1a;sudo rm -r 文件夹名 回到不能解压问题&#xff08;unzip总是容易出问题&#xff09; 安装7zip&#xff1a;sudo apt-get install p7zip-full 解决办法1&#xff08;解压出来好的数据&#xff09;: 使用7z解压文件&…

附录6-JS中的一些概念

1 深拷贝与浅拷贝 在这几个地方涉及到了拷贝 23. 节点_Suyuoa的博客-CSDN博客 复制节点 node.cloneNode() 深拷贝实质上是拷贝要拷贝的对象自身&#xff0c;浅拷贝实质上是对要拷贝对象的引用。 当你浅拷贝复制A为B的时候&#xff0c;改动B会给A造成影响 当你深拷贝复制A…

极速Go语言入门(超全超详细)-进阶篇

基础篇可访问此链接: 基础篇1:https://blog.csdn.net/asd1358355022/article/details/127905011?spm1001.2014.3001.5501 基础篇2:https://blog.csdn.net/asd1358355022/article/details/128039005?spm1001.2014.3001.5501 文章目录GO语言类型断言文件操作打开、关闭、读取文…

第二证券|券商12月金股出炉!多只地产股成热门,科创仍是中长期主线

跟着券商12月金股战略陈述连续出炉&#xff0c;主流组织的配备风向也浮出水面。 到券商我国记者发稿时&#xff0c;已有10多家券商发布12月金股战略陈述&#xff0c;从职业散布来看&#xff0c;信息技术、工业范畴的金股数量最多&#xff0c;其次是材料、可选消费、医疗。值得一…

前端二倍图

物理像素&物理像素比&#xff1a; 物理像素点指的是屏幕显示的最小颗粒&#xff0c;是物理真实存在的&#xff0c;这是厂商在出厂时设置好了我们开发时候1px不是一定等于1个物理像素的Pc端页面&#xff0c;1px等于1个物理像素点&#xff0c;但是移动端就不尽相同一个px能显…

打包发布自己的app

创建自己的app 一、 安装HBuilderX 二、 引入代码&#xff0c;引入组件 三、 配置app信息 四、 云打包 1、第一步 2、第二步 3、证书创建是用的jdk8创建的&#xff0c;软件里带教程&#xff0c;也可以用公共测试证书。 五、打出的包是apk文件&#xff0c;配合我的搭建网…

ROG幻15电脑开机自动安装软件怎么U盘重装系统

ROG幻15电脑开机自动安装软件怎么U盘重装系统。今天和大家一起来分享如何解决ROG幻15电脑开机的时候会自动安装软件的问题。用户反馈开机之后自动后台安装很多软件&#xff0c;导致无法操作卡死。这个情况我们可以使用U盘来重装一些系统&#xff0c;这样就可以解决问题&#xf…

(二)正则表达式——捕获

&#xff08;二&#xff09;正则表达式——捕获 正则捕获的懒惰性 实现正则捕获的方法&#xff1a;exec exec返回的结果&#xff1a; 懒惰性 这就是正则捕获的懒惰性&#xff1a;默认只捕获第1个 lastIndex&#xff1a;下次匹配的开始位置 懒惰的原因&#xff1a;默认lastIndex…

视频播放 (一) VideoView的使用

1. 配置参数 1.1 AndroidManifest.xml 文件添加网络权限 <uses-permission android:name"android.permission.INTERNET" /> 1.2 http 明文请求设置 android:usesCleartextTraffic"true" 1.3 activity 配置屏幕变化&#xff0c;不重新加载 Activity …