强化学习RL 04: Actor-Critic Algorithm

news2025/4/29 5:57:12

actor: 是policy network，通过生成动作概率分布，用来控制agent运动，类似“运动员”。
critic: 是value network，用来给动作进行打分，类似“裁判”。
构造这两个网络，并通过environment奖励来学习这两个网络。

目录

1. Actor-Critic Introduction

1.1 review: state-value function approximation

1.2 Policy Network (Actor): π(a|s, θ)

1.3 Value Network (Critic): q(s, a; w)

2. Actor-Critic Algorithm

2.1 Train the networks

2.1.1 更新θ和w的目标是不同的

2.1.2 training process

2.2 update value network q using TD

2.3 update policy network π using policy gradient

2.4 summary of Algorithm

参考

1. Actor-Critic Introduction

1.1 review: state-value function approximation

π是policy function，可以用来计算动作的概率值，从而控制agent做运动。

Qπ是action-value function，可以用来评价动作的好坏程度。

可是π和Qπ这两个函数我们都不知道。

可以用两个神经网络分别近似这两个函数，然后用actor-critic method同时学习这两个神经网络。

--》

1.2 Policy Network (Actor): π(a|s, θ)

1.3 Value Network (Critic): q(s, a; w)

value network有两个输入：state s和action a。

最后输出一个实数q(s,a; w)，这个分数说明--处在状态s下，做出动作a是好还是坏。

2. Actor-Critic Algorithm

同时训练policy network和value network，就是actor-critic method。

2.1 Train the networks

θ是policy network的参数。
w是value network的参数。

2.1.1 更新θ和w的目标是不同的

学习参数θ是为了让policy network预测更精准

critic是靠environment reward来改进自己的。

2.1.2 training process

对两个神经网络做一次更新需要经历5个步骤：

2.2 update value network q using TD

2.3 update policy network π using policy gradient

state-value function V(s; θ, w)相当于“运动员”所有动作的平均分 <--期望本质

梯度上升可以增加V函数的值

2.4 summary of Algorithm

Note that, agent在预测时，并没有执行 $\tilde{a}_{t+1}$ 这个动作。因为在算法的每一轮循环里面，agent只做一次动作。

用梯度上升来更新policy network，让运动员的平均分更高。

最后一步的qt * dθ,t是policy gradient 的monte-carlo approximation。

每一轮迭代都做这9个步骤，只做一次动作，观测一个奖励，更新一次神经网络的参数。

根据policy gradient algorithm的推导，算法用到了qt，这是critic给动作action打的分数。如果论文中把qt替换成了δt(TD error)，这是policy gradient with baseline method，效果更好一点，它可以降低方差，让算法收敛更快，任何接近qt的数都可以作为baseline，但是这个baseline不能是动作at的函数，e.g.

参考

1. 王树森~强化学习 Reinforcement Learning

2. https://www.cnblogs.com/pinard/category/1254674.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/378220.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

AQS抽象队列同步器

AQS抽象队列同步器

aqs 抽象队列同步器，内部存储了一个valitail修饰的status 和内部类node ，来实现对共享变量并发同步队列机制,以reentrantLock为例，lock底层实际上调用的是sync的lock，会调用cas对status的状态进行修改，来确定是否获得锁…

阅读更多...

学习 Python 之 Pygame 开发魂斗罗（七）

学习 Python 之 Pygame 开发魂斗罗（七）

学习 Python 之 Pygame 开发魂斗罗（七）继续编写魂斗罗1. 载入水中图片并添加在水中的标志2. 修改玩家类函数3. 增加河的碰撞体4. 实现玩家在河中的样子继续编写魂斗罗在上次的博客学习 Python 之 Pygame 开发魂斗罗（六）中&#…

阅读更多...

csgo搬砖项目详细拆解，附选品+详细操作教程

csgo搬砖项目详细拆解，附选品+详细操作教程

项目实操一：项目原理 csgo这款游戏不知道大家玩过没有，如果不了解的话，那你肯定知道穿越火线这款游戏吧，都是一个类型的射击游戏。说到csgo，就得所以一下今天项目的平台steam，它是一个游戏平台&#x…

阅读更多...

Redis面试问题总结

Redis面试问题总结

1. 什么是Redis？Redis 是一个使用 C 语言写成的，开源的高性能key-value非关系缓存数据库。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。…

阅读更多...

【Redis】Redis主从同步中数据同步原理

【Redis】Redis主从同步中数据同步原理

【Redis】Redis主从同步中数据同步原理文章目录【Redis】Redis主从同步中数据同步原理1. 全量同步1.1 判断是否第一次数据同步2. 增量同步3. 优化Redis主从集群4. 总结1. 全量同步主从第一次同步是全量同步。数据同步包括以下三个阶段： 在从节点执行slaveof命令…

阅读更多...

技术分担产品之忧（上）：挑选有业务专家潜力的人

技术分担产品之忧（上）：挑选有业务专家潜力的人

你好，我是王植萌，去哪儿网的高级技术总监、TC主席。从2014年起，担任一个部门的技术负责人，有8年技术总监经验、5年TC主席的经验。这节课我会从去哪儿网产研融合的经验出发，和你聊一聊怎么让技术分担产品之忧。技术分…

阅读更多...

SSL证书与我们普通人之间有什么关系

SSL证书与我们普通人之间有什么关系

对于很多普通人来说，SSL证书似乎会感到很陌生，总觉得离自己很遥远，从而并没有引起察觉。要是这么想的话那么就真的大错特错了，其实SSL证书与我们普通人之间还是很密密相关的，是我们应该都需要关注的，下面就…

阅读更多...

cesium学习记录02-vue项目中cesium的配置与使用

cesium学习记录02-vue项目中cesium的配置与使用

1，下载cesium包 （当然，使用npm install cesium安装也是可以的，不过在这里选择下载包放到本地） 官方下载地址笔者的cesium版本为1.101 2，将下载的Cesium文件夹放到项目里某个位置这里，笔者将…

阅读更多...

又一个国内类ChatGPT模型？【秘塔科技上线自研LLM大模型「对话写作猫」】

又一个国内类ChatGPT模型？【秘塔科技上线自研LLM大模型「对话写作猫」】

又一个国内类ChatGPT模型？【秘塔科技上线自研LLM大模型「对话写作猫」】 （马上被打脸 ~ ~） 一直期待中国有没有类ChatGPT产品可以出现。昨天，2023年2月27日，秘塔科技上线了自研LLM大模型「对话写作猫」，…

阅读更多...

全屋Wi-Fi领域「兵戎相见」，鸿雁这一局赢面大不大？

全屋Wi-Fi领域「兵戎相见」，鸿雁这一局赢面大不大？

作者 | 牧之编辑 | 小沐出品 | 智哪儿 zhinaer.cn相比全屋智能，另一个刚需属性更强，消费规模更大的细分市场，便是全屋Wi-Fi。在这个板块，当鸿雁入局的时候，笔者还是有些许的「诧异」。毕竟，鸿雁给大众的印…

阅读更多...

【Vue3】vue3 + ts 封装城市选择组件

【Vue3】vue3 + ts 封装城市选择组件

城市选择-基本功能能够封装城市选择组件，并且完成基础的显示隐藏的交互功能 （1）封装通用组件src/components/city/index.vue <script lang"ts" setup name"City"></script> <template><div class…

阅读更多...

【PyTorch】教程：torch.nn.Conv2d

【PyTorch】教程：torch.nn.Conv2d

Conv2d CLASS torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride1, padding0, dilation1, groups1, biasTrue, padding_modezeros, deviceNone, dtypeNone) 2D 卷积 out(Ni,Coutj)bias(Coutj)∑k0Cin−1Weight(Coutj,k)∗input(Ni,k)out(N_i, C_{out_j})bias(C_…

阅读更多...

k8s环境jenkins发布vue项目指定nodejs版本

k8s环境jenkins发布vue项目指定nodejs版本

k8s环境jenkins发布vue项目指定nodejs版本1、背景2、分析3、解决方法3.1、找到配置镜像位置3.2、制作新镜像3.3、推送镜像到私有仓库3.4、修改配置文件1、背景发布一个前端项目，它需要nodejs 16.9.0版本支持，而kubesphere 3.2.0集成的jenkins 的镜…

阅读更多...

Hbase2.4.11简单了解_搭建Hbase集群_配置Hbase高可用---大数据之Hbase工作笔记0034

Hbase2.4.11简单了解_搭建Hbase集群_配置Hbase高可用---大数据之Hbase工作笔记0034

然后我们看一下hbase的集群架构,可以看到跟其他Hadoop系列的架构一样都是有个master对吧,然后还有3个region server,然后所有的机器,都连接到zookeeper 然后这里还要注意有个:backup-master103 ,这个是个备用的master 看看master 和 regionserver的作用. master部署到namen…

阅读更多...

深度学习之神经网络的优化器篇

深度学习之神经网络的优化器篇

神经网络的优化器文章目录神经网络的优化器GD 梯度下降算法重球法SGD随机梯度下降Momentum动量梯度NAG(Nesterov accelerated gradient)AdaGrad(Adaptive gradient)RMSProp(Root mean square prop)Adam(Adaptive Moment Estimation)AdamWAdan(Adaptive Nesterov Momentum)本片…

阅读更多...

cesium学习记录03-QGis数据生产=＞Postgis存储=＞Geoserver发布=＞Cesium调用

cesium学习记录03-QGis数据生产=＞Postgis存储=＞Geoserver发布=＞Cesium调用

说明： 参照文章 1，安装 QGIS 下载安装 （前四步就可以了） 2，下载安装postgresql 3，下载安装PostGis 4，QGIS连接PostGis 5，QGIS 上传到Postgis 1，QGIS图的图 &…

阅读更多...

坚鹏：学习贯彻二十大精神解码共同富裕之道（面向银行）

坚鹏：学习贯彻二十大精神解码共同富裕之道（面向银行）

学习贯彻二十大精神解码共同富裕之道课程背景： 很多银行从业人员存在以下问题： 不知道如何准确解读二十大精神？ 不清楚共同富裕相关政策要求？ 不知道如何有效推动共同富裕？ 课程特色： 有实战案例有…

阅读更多...

【C++】STL 模拟实现之 list

【C++】STL 模拟实现之 list

文章目录一、list 的常用接口及其使用1、list 一般接口2、list 特殊接口3、list 排序的性能分析二、list 迭代器的实现1、迭代器的分类2、list 迭代器失效问题3、list 迭代器源码分析4、list 迭代器模拟实现4.1 普通迭代器4.2 const 迭代器4.3 完整版迭代器三、list 的模拟实现…

阅读更多...

05 封装

05 封装

在对 context 的封装中，我们只是将 request、response 结构直接放入 context 结构体中，对应的方法并没有很好的封装。函数封装并不是一件很简单、很随意的事情。相反，如何封装出易用、可读性高的函数是非常需要精心考量的，框架中…

阅读更多...

Pwn 二进制漏洞审计

Pwn 二进制漏洞审计

PWN的另一个名字是二进制漏洞审计 Pwn和逆向工程一样，是操作底层二进制的，web则是在php层面进行渗透测试我是从re开始接触CTF的，有一点二进制基础，本文可能会忽略一些基础知识的补充 ”Pwn”是一个黑客语法的俚语词 ，…

阅读更多...

推荐文章

最新文章