PPO算法-理论篇

news2025/7/13 10:12:44

1. Policy Gradient

【李宏毅深度强化学习笔记】1、策略梯度方法（Policy Gradient）
李宏毅深度强化学习-B站

2. PPO

PPO 算法

PPO算法更新过程如下：

初始化policy参数 $\theta^0$
在每一步迭代中：
- 使用 $\theta^k$ 与环境交互来收集数据 ${s_t, a_t\}$ ，然后计算优势函数 $A^{\theta^{k}}(s_t, a_t)$ ， $\theta^k$ 是前一轮迭代得到的参数
- 优化目标函数 $J_{PPO}(\theta)$ ，注意这里与policy gradient 不同，更新完参数可以继续训练，一直优化该目标函数，但是policy gradient更新完参数后必须重新采样

policy gradient 应该是每个mini batch更新参数后就要重新采样，而PPO可以跑完一个epoch再重新采样
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/429391.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

架构师：不想当架构师的程序员不是好程序员

引言不想当将军的士兵不是好士兵。很多程序员的梦想，就是将来能成为一名架构师。包括我刚学编程那时候，也是以当架构师为目标，觉得不想当架构师的程序员不是好程序员，希望将来能成为一个优秀的架构师。就像拿破仑那句名言&am…

进程调度算法（操作系统）

1、前置知识 1.1 非抢占式与抢占式 1.1.1 非抢占式非抢占式指的是一个线程的在执行期间，另一个线程的到达，尽管各项标准都优于执行线程（例如优先级高于当前执行线程），也不会抢占CPU资源，会耐心的等待该…

【matlab程序】海图坐标轴单位的唯一

【matlab程序】海图坐标轴单位的唯一【matlab程序】海图坐标轴单位的唯一本文写作来源，从实际出发，用于实际： 热带海洋学报，投稿须知： 其中一条关于海图制作规范中： 经度标识（E, W&#…

真题详解(0/1背包)-软件设计（四十九)

真题详解(线性表)-软件设计（四十八)https://blog.csdn.net/ke1ying/article/details/130119249 多态有四种类型： 参数多态：应用比较广泛的多态，称为最纯多态。包含多态：最常见的就是子类型化。过载多态&#xff1…

Nfinity: YouTube创作者如何通过SocialFi变现

Nfinity推出了一个具有革命性的SocialFi平台：该平台通过生成NFT来帮助YouTube创作者实现内容变现。 YouTube做为全球第一大视频内容平台，尽管通过付费会员和广告收入的分成，为创作者们提供了大量的盈利机会，但它也存在很多的局限性…

【MybatisPlus快速入门】—— 基础入门

入门篇我们先简单回顾一下 Mybatis 的用法，再引出MybatisPlus 1.1 Mybatis 框架回顾 🌔 1、什么是Mybatis框架呢？ 一个持久层框架，目的是简化持久层的开发我们就使用springboot整合Mybatis，实现Mybatis框架的搭建…

NBT - 生成式蛋白设计，AI带来的蛋白质工程飞跃

科学家们创建了一个能够从头合成人工酶的人工智能系统。实验测试发现，一些酶与自然界中发现的酶具有相同的功效，即使人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。实验表明，尽管自然语言处理是为了阅读和编写语言文本而开发的&#…

蓝牙技术|安卓将支持超宽带语音，蓝牙通话更清晰

Android 的蓝牙通话即将迎来质的飞跃，超宽带语音技术将让你的声音更清晰、更真实。 Android 专家 Mishaal Rahman 发现，Android 开源项目仓库中最近添加了一个补丁，实现了与蓝牙免提配置文件 v1.9 相关的功能。据IT之家了解，这个…

【初识C++】（关键字，命名空间）

文章目录一、C中的关键字二、命名空间1.命名空间规则展开命名空间域和 #include 的区别2.正确使用命名空间三、C中的输入和输出一、C中的关键字二、命名空间命名空间是对于全局变量来说，我们在定义变量或函数时，函数名可能会和库中的函数名产生冲突。…

window 和 linux 安装 Tesseract-OCR

一、 Window 安装 Tesseract-OCR 1.安装 tesseract-ocr-w64-setup-5.3.1.20230401.exe 下载地址：https://digi.bib.uni-mannheim.de/tesseract/ 2. 配置 PATH 环境变量 3. 配置TESSDATA_PREFIX 环境变量 4. 在 cmd 中查询是否安装成功 5. 在安装的目录 tessda…

算法刷题总结 (七) 双指针

算法总结7 双指针一、双指针的概念1.1、什么是双指针？1.2、常见类型1.2.1、快慢指针1.2.2、左右端点指针1.2.3、区间指针 - 滑动窗口汇总二、经典例题2.1、快慢指针（1）、链表判环141. 环形链表142. 环形链表 II287. 寻找重复数876. 链表的中间…

人工智能学习07--pytorch15（前接pytorch10）--目标检测：FPN结构详解

FPN：用于目标检测的特征金字塔网络 backbone:骨干网络，例如cnn的一系列。（特征提取） (a)特征图像金字塔检测不同尺寸目标。首先将图片缩放到不同尺度，针对每个尺度图片都一次通过算法进行预测。但是这样一来&#…

第二章：HTML CSS 网页开发基础（一）

一、HTML HTML：是一种网页制作标注性语言。HTML通过浏览器的翻译将页面呈现给用户。 1、1 HTML文档结构 HTML文档由4个主要标记组成，<html>、<head>、<title>、<body> <html>标记该标记是所有html文件的开头&a…

[STM32F103C8T6]DMA

DMA(Direct Memory Access，直接存储器访问) 提供在外设与内存、存储器和存储器、外设与外设之间的高速数据传输使用。它允许不同速度的硬件装置来沟通，而不需要依赖于 CPU，在这个时间中，CPU对于内存的工作来说就无法使用。我自己…

实验设备管理系统【GUI/Swing+MySQL】（Java课设）

系统类型 Swing窗口类型Mysql数据库存储数据使用范围适合作为Java课设！！！ 部署环境 jdk1.8Mysql8.0Idea或eclipsejdbc 运行效果本系统源码地址：https://download.csdn.net/download/qq_50954361/87682549 更多系统资源库…

构建新摩尔定律下的算力分发网络

摩尔定律最早由英特尔创始人之一戈登摩尔在1965年提出，他认为集成电路上可以容纳的晶体管数目在大约每经过18到24个月便会增加一倍。20年后的今天，面对日新月异的社会和突飞猛进的数字化需求，摩尔定律也随着社会的进步而被赋予了新的定义。Li…

第八章法律关系

目录第一节法律关系的概念一、法律关系的定义与特征二、法律关系的种类 （一）纵向（隶属）的法律关系和横向（平权）的法律关系 （二）单向（单务）法律关系、双…

基于ITIL搭建公司IT治理服务框架

ITIL帮助组织标准化其IT服务和流程。ITIL文档包括各种政策、程序和指南，帮助IT团队向客户提供优质的服务。根据ITIL框架的五个阶段，ITIL文档被广泛分类为不同的类别。这些阶段包括服务战略、服务设计、服务过渡、服务操作和持续服务改进。每个类别都有…

android内存泄漏检测,Android内存泄露检测之LeakCanary的使用

为了能够简单迅速的发现内存泄漏，Square公司基于MAT开源了LeakCanary。使用LeakCanary，在内存泄漏后，通过分析引用链可以分析内存泄漏的原因，LeakCanary用于检测Activity、Fragment的内存泄漏。下面通过一些实际案例来进行分析。…

如何替换spring boot中spring框架的版本

背景我开源的一个项目中，有朋友提到存在Spring Framework 身份认证绕过漏洞(CVE-2023-20860)。解决方案是升级spring 框架版本： Spring Framework 5.3.X 系列用户建议升级Spring Framework到5.3.26及以上安全版本修复该漏洞Spring Framework 6.0.X 系…

PPO算法-理论篇

1. Policy Gradient

2. PPO

相关文章