PPO（proximal policy optimization）算法

news2026/2/14 2:31:39

博客写到一半发现有篇讲的很清楚，直接化缘了
https://www.jianshu.com/p/9f113adc0c50

Policy gradient

强化学习的目标：学习到一个策略 $\pi\theta(a|s)$ 来最大化期望回报。
一种直接的方法就是在策略空间中直接搜索来得到最优策略，这种方法称为策略搜索（Policy Search）。策略搜索的本质是优化问题，可以分为基于梯度的优化和无梯度的优化，策略搜索和基于值函数的方法相比，策略搜索可以不需要值函数，直接优化策略。参数化的策略能处理连续状态和动作，可以直接学出随即性策略。策略梯度（Policy Gradient）是一种基于梯度的强化学习方法。假设 $\pi\theta(a|s)$ 是一个关于θ的连续可微函数，可以用梯度上升的方法来优化参数θ使得目标函数 $f(\theta)$ 最大。

简单推导

trajectory $\iota=\{s_1,a_1,s_2,a_2,...s_\iota,a_\iota\}$
$p_\theta=p(s_1)p_\theta(a_1|s_1)p_\theta(s_2|s_1,a_1)p_\theta(a_2|s_2)p_\theta(s_3|s_2,a_2)...=p(s_1)\underset{t=1}{\overset{\iota}{\sum}}p_\theta(a_\iota|s_\iota)p(s_{\iota+1}|s_\iota,a_\iota)$

这里的 $p_\theta$ 表示的是策略，也就是在什么状态下该做什么动作，而 $p$ 是状态转移概率。

For each trajectory: Reward $R_\theta=R(\iota)$
Expeted Reward： $\overline{R_\theta}={\overset{\iota}{\sum}}R(\iota)p_\theta$

我们希望最大化期望，使用梯度上升的方法。
在这里插入图片描述
给定一个策略，在和环境互动之后产生多条轨迹，以及奖励，之后将数据集收集起来之后，求 $\overline{R_\theta}$ 的梯度，之后更新参数，得到新的策略。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/357400.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

详解Ansible中角色的使用

详解Ansible中角色的使用

目录一、ansible roles 1、ansible 角色简介 2、roles目录结构 3、role存放的路径在配置文件ansible.cfg中定义 4、创建目录结构二、roles的写法及应用 1、覆盖变量 2、控制任务执行顺序三、ansible—galaxy命令工具一、ansible roles 1、ansible 角色简介 * Ans…

阅读更多...

VNCTF 2023复现

VNCTF 2023复现

文章目录象棋王子电子木鱼BabyGo象棋王子签到题，直接在源码中找就ok。找到一处编码，在控制台输出。 flag为：flag{w3lc0m3_t0_VNCTF_2023~~~} 电子木鱼需要先理清代码逻辑。存在三个路由。一：/路由用来查看当前的功德数量…

阅读更多...

兼职任务平台收集（二）分享给有需要的朋友们

兼职任务平台收集（二）分享给有需要的朋友们

互联网时代，给人们带来了很大的便利。信息交流、生活缴费、足不出户购物、便捷出行、线上医疗、线上教育等等很多。可以说，网络的时代会一直存在着。很多人也在互联网上赚到了第一桶金，这跟他们的努力和付出是息息相关的。所谓一份耕耘&#…

阅读更多...

Git详解

Git详解

Git1.Git简介1.1 Git是什么1.2 Git的作用1.3 Git的简介1.4 Git的下载和安装1.5 Git的安装目录结构如下2.Git代码托管服务2.1 常用的Git代码托管服务1.Git简介 1.1 Git是什么 Git是一个分布式版本控制工具，主要用于管理开发过程中的源代码文件（Java类、x…

阅读更多...

java 基于maven多模块合并打包部署

java 基于maven多模块合并打包部署

项目环境 jdk 1.8spring 2.7.xmaven 3.6 项目结构模块功能 client – 对外service common – 共用工具切面等 main – 启动类 goods – 子模块具体实现模块间依赖关系 client – 无依赖 common – 无依赖 main – client、common、goods goods – client、common 具体P…

阅读更多...

[软件工程导论(第六版)]第6章详细设计（课后习题详解）

[软件工程导论(第六版)]第6章详细设计（课后习题详解）

文章目录1 假设只有SEQUENCE和DO-WHILE两种控制结构，怎样利用它们完成 IF THEN ELSE操作？2 假设只允许使用SEQUENCE和IF-THEN-ELSE两种控制结构，怎样利用它们完成DO WHILE操作？3 画出下列伪码程序的程序流程图和盒图：4…

阅读更多...

C/C++每日一练(20230219)

C/C++每日一练(20230219)

目录 1. 用队列实现栈 2. 判断是否能组成三角形 3. 只出现一次的数字 II 附录栈（Stack）和队列（Queue）的异同 1. 栈和队列的相同点 2. 栈和队列的不同点 1. 用队列实现栈请你仅使用两个队列实现一个后入先出（…

阅读更多...

基于FFmpeg和Screen Capturer Recorder实现屏幕和声音的录制

基于FFmpeg和Screen Capturer Recorder实现屏幕和声音的录制

当我们看到一些精彩的视频画面，但无法下载时，可以通过录屏的方式将视频和音频录制下来。这个时候我们需要安装采集视频和音频的工具screen-capture-recorder。以下是在windows10环境下，基于FFmpeg和Screen Capturer Recorder实现屏幕和声音…

阅读更多...

带噪学习-概述

带噪学习-概述

在实际应用的时候，我们的样本不会是完全干净的，即存在噪声样本。那使用存在噪声的样本时，我们如何更有效的进行模型学习呢？Label Dependent Nose样本选择（Sample Selection）第一种很直接的想法，…

阅读更多...

PDDON在线画图是如何惊艳到你的?

PDDON在线画图是如何惊艳到你的?

1. 简介 PDDON是一款支持低代码(lowcode)的免费在线画图工具。可用于绘制架构图、流程图、UML、网络拓扑图、韦恩图、鱼骨图、思维导图、BPMN等，并且支持对象建模、数据库建模、代码/脚本生成。 PDDON与市面上现有的画图工具对比有哪些优势呢？ 完全免费…

阅读更多...

SpringJDBC的框架

SpringJDBC的框架

JDBC框架概述目录概述需求：设计思路实现思路分析1.Spring 编程式事务管理2.方法：3.Marks4.网页解析器5.步骤src性能参数测试：参考资料和推荐阅读Survive by day and develop by night. talk for import biz , show your perfect code,full bu…

阅读更多...

【pytorch】nn.SmoothL1Loss 函数使用

【pytorch】nn.SmoothL1Loss 函数使用

SmoothL1 Loss1、Smooth L1 Loss2、nn.SmoothL1Loss 函数使用1、Smooth L1 Loss 本方法由微软rgb大神提出，Fast RCNN论文提出该方法 1）假设x为预测框和真实框之间的数值差异，常用的 L1 loss、L2 Loss 和 smooth L1 loss 定义分别为&#xf…

阅读更多...

浅谈Spring中事务管理器

浅谈Spring中事务管理器

由于事务部分代码在设计上整体比较简单，我自己觉得它在设计上没有什么特别让我眼前一亮的东西，所以下文更多的是侧重执行流程，能理解事务管理器等一众概念以及相关的变量含义，真正遇到Bug会调试，知道在什么地方打断点就…

阅读更多...

前端FileReader对象实现图片file文件转base64

前端FileReader对象实现图片file文件转base64

1、file转base64具体代码 // 图片file转base64方法（file文件，回调函数）fileToBase64(file, callback) {// 创建FileReader对象（不兼容IE）let reader new FileReader();// 将file转为base64 （异步操作&…

阅读更多...

如何正确选择好用的投票平台微信公众平台投票链接链接投票平台

如何正确选择好用的投票平台微信公众平台投票链接链接投票平台

“年度人物楷模”网络评选投票_免费链接投票_作品投票通道_扫码投票怎样进行现在来说，公司、企业、学校更多的想借助短视频推广自己。通过微信投票小程序，网友们就可以通过手机拍视频上传视频参加活动，而短视频微信投票评选活动既可以给用户发…

阅读更多...

driver.js web 新手交互引导工具库

driver.js web 新手交互引导工具库

前言最近逛技术论坛发现了 driver.js 这个库，相信很多人在app中都碰到过功能引导的，这个库就可以用来做这个功能。web段项目很少见到功能引导的，但是用在uniapp 、浏览器插件中感觉还是十分不错的，因此打算来简单学习一下&…

阅读更多...

js 防抖函数节流函数

js 防抖函数节流函数

某些事件中(如 onresize onscroll onkeydown onkeyup onmousemove …)，会连续触发函数的执行，如果函数执行一些耗时的操作(如请求数据…)，会影响性能，也有可能造成服务器压力。这时可以用防抖函数或节流函数解决这种问题。防…

阅读更多...

分布式环境下的服务器时钟同步问题解决办法

分布式环境下的服务器时钟同步问题解决办法

一、分布式集群场景下时钟不同步会有什么问题？ 如上面的示意图所示，分布式集群场景下如果各个服务器时间不一致，可能导致同一时间产生的数据，在处理过程中和数据库中，保存成了不同的时间，造成数据混乱。 …

阅读更多...

大数据之Phoenix环境搭建

大数据之Phoenix环境搭建

文章目录前言一、下载Phoenix安装包二、上传并解压三、拷贝服务包到各个hbase的lib目录下四、修改hbase的配置文件五、重启HBase集群六、连接Phoenix客户端前言 #博学谷IT学习技术支持# 本篇文章主要介绍Phoenix的环境搭建，Phoenix支持使用SQL语句操作HBase&#x…

阅读更多...

JavaWeb6-线程常用方法

JavaWeb6-线程常用方法

目录 1.线程等待join（共有3个方法重载） 1.1.public void join() 1.2.public void join(long millis) 2.线程终止 2.1.通过自定义标记符来中断（常用） 2.2.调用 interrupt() 方法来中断（常用，最推荐使用…

阅读更多...

推荐文章

最新文章