PPO 学习笔记

PPO 学习笔记

news2026/2/14 21:56:42

用PPO算法求解整个神经网络在迭代过程中的梯度问题

每走一步就会得到一个新的状态，把这个状态传到网络里面，会得到一个 action，执行这个 action 又会到达一个新状态

policy 中由状态 st 生成动作 at，生成的这个 at 是由整个网络的所有权重参数 $\Theta$ 决定的。最终目标是优化整个网络模型，使得这个网络模型在每一个状态都能给出正确的答案

我们的目标是训练一个网络模型，只不过背景和数据有一些变化，数据是不断地由自己生成的，也就是智能体在玩的过程中不断生成出来的。用一系列生命周期记录数据，目的是训练好当前的网络模型。

一（下一个状态是什么）和三（规则）都是游戏自带的，只有第二个是我们需要考虑的，我们只需要操心怎么把模型训练的更好

我们的目的是求出一个神经网络模型，帮我去玩这个游戏，帮我去得到每一步的 action 是什么，把神经网络中的模型参数 $\Theta$ 求出一个合适的值，所以我们优化的是网络中的权重参数

需要找到一组最优的 $\Theta$ 使得整个生命周期做完之后整体的奖励最大，这是一个梯度上升问题

求 $\Theta$ 等于什么的时候能够使得期望 J( $\Theta$ ) 最大

下面终极版的公式需要很多数据，有没有巧妙的方法帮我们收集这些数据？

到此为止我们还没有提到 PPO，只是在算梯度，一会会说 PPO 是帮助我们求解的

每玩一把都是在攒数据，把数据代入即可求解

PPO 的一些技巧方法：

baseline 去均值，使得奖惩分明，奖励是正的，惩罚是负的

不用总的奖励，用去均值之后的

之前讲的只是策略梯度（policy gradient），没有任何 PPO 的概念，下面看一下 PPO 到底是怎样帮助我们优化当前任务的

在实际中，和 $\Theta$ 2 最像的就是前一步的迭代结果 $\Theta$ 1，用前一步迭代结果的时候用到的 $\Theta$ 1产生大量数据供当前的 $\Theta$ 2 进行学习，学习完之后变成 $\Theta$ 3， $\Theta$ 3 的时候狸猫变成 $\Theta$ 2， $\Theta$ 4 的时候狸猫变成 $\Theta$ 3

PPO2 只是多加了一个限制条件，做一个截断的操作，把他俩的相似范围限制到了一个区间

actor 网络输入的是 state，会帮我们决定当前什么样的 action 是最合适的

critic 也是一个网络，会输出 value 值，这个 value 值来评估我当前这个水平做的这个事情是否合适

b 是 critic 网络要学习的结果，是 critic 网络的输出值 value，如果当前智能体水平很高但是还在打低级怪物，获得比较低的奖励，那么此时当他再减去一个 value 之后可能会得到一个负值，意味着当前做这件事不合适

之所以取 min 值，是希望不论 A 大于 0 还是小于 0，p_ $\Theta$ 和 p_ $\Theta$ k 都不能相差太远

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1636914.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【MySQL】——用户和权限管理（二）

【MySQL】——用户和权限管理（二）

💻博主现有专栏： C51单片机（STC89C516），c语言，c，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux&#xf…

阅读更多...

PotatoPie 4.0 实验教程(33) —— FPGA实现摄像头视频图像叠加

PotatoPie 4.0 实验教程(33) —— FPGA实现摄像头视频图像叠加

链接直达 https://item.taobao.com/item.htm?ftt&id776516984361 什么是视频水印？ 视频水印就是图像叠加，跟画中画，或者是OSD是一样的原理，都是在视频的行场数据流上进行替换操作，比如叠加可以直接用水印图的数…

阅读更多...

【Python小练】求斐波那契数列第n个数

【Python小练】求斐波那契数列第n个数

题目输出斐波那契数列第n个数。分析首先我们要知道，斐波那契数列，这个数列从第三位开始等于前两个数的和，要知道数列第n个数（n>2），就要知道其前两相的值，着就需要用到递归了。来看一下吧…

阅读更多...

Java面试重点之反射机制

Java面试重点之反射机制

一、反射是什么？ 允许程序在运行时查询和操作对象的类型信息。通过反射，程序能够在运行时获取对象的类定义信息，如类的名称、方法、字段、注解等，并且可以动态地调用对象的方法或访问其字段，而无需在编译时具体知道对…

阅读更多...

【LAMMPS学习】八、基础知识(5.3)Body particles体粒子

【LAMMPS学习】八、基础知识(5.3)Body particles体粒子

8. 基础知识此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语，以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

阅读更多...

C语言：数据结构（双向链表）

C语言：数据结构（双向链表）

目录 1、双向链表的结构2、顺序表和双向链表的优缺点分析3、双向链表的实现 1、双向链表的结构注意：这⾥的“带头“跟前面我们说的“头节点”是两个概念，实际前面的在单链表阶段称呼不严谨，但是为了更好的理解就直接称为单链表的头节点。带…

阅读更多...

上位机开发PyQt（五）【Qt Designer】

上位机开发PyQt（五）【Qt Designer】

PyQt5提供了一个可视化图形工具Qt Designer，文件名为designer.exe。如果在电脑上找不到，可以用如下命令进行安装： pip install PyQt5-tools 安装完毕后，可在如下目录找到此工具软件： %LOCALAPPDATA%\Programs\Python\…

阅读更多...

《Fundamentals of Power Electronics》——推挽隔离型降压转换器

《Fundamentals of Power Electronics》——推挽隔离型降压转换器

推挽隔离型降压转换器电路如下图所示。

阅读更多...

2024人工智能“百模大战“，竞争格局分析

2024人工智能“百模大战“，竞争格局分析

中国“百模大战”竞争格局分析大模型是一个重资源禀赋和高进入门槛的赛道，“百模大战”是一场重投入和高消耗的持久战役。“百模大战”的上半场是资源和技术的碰撞，入局企业需要长久的资源支持获得高密度的人才、高质量的数据和大规模的算力&#xff0c…

阅读更多...

Vue.js课后练习（登录注册和大小比较）

Vue.js课后练习（登录注册和大小比较）

第一题请编写登录页面和注册页面，通过动态组件实现动态切换页面中显示的组件，效果如图1和图2所示。图1 登录页面图2 注册页面代码： my.vue代码: <template>登录 </template><script setup> </script><st…

阅读更多...

再谈有效地访问Github

再谈有效地访问Github

文章目录 1. 知识回顾2. 问题描述3. 问题解决3.1 Mac系统3.2 Windows系统4. 内容总结1. 知识回顾我们在之前的内容中介绍过如何有效地访问Github。如果大家忘记的话可以点击这里查看。之前的内容主要偏重于问题的分析和解决的思路，有些朋友看了后还是不清楚如何解决问题。 …

阅读更多...

半监督节点分类：标签传播和消息传递

半监督节点分类：标签传播和消息传递

基础概念回顾传统图机器学习的特征工程——节点层面，连接层面，全图层面节点层面：信用卡欺诈连接层面：推荐可能认识的人全图层面：预测分子结构半监督节点分类半监督节点分类：用已知标签节点预测未…

阅读更多...

【Java EE】多线程（二）Thread 类与常用方法

【Java EE】多线程（二）Thread 类与常用方法

📚博客主页：爱敲代码的小杨. ✨专栏：《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻，您的三连就是我持续更…

阅读更多...

低代码工业组态数字孪生平台

低代码工业组态数字孪生平台

2024 两会热词「新质生产力」凭借其主要特征——高科技、高效能及高质量，引发各界关注。在探索构建新质生产力的重要议题中，数据要素被视为土地、劳动力、资本和技术之后的第五大生产要素。数据要素赋能新质生产力发展主要体现为：生产力由生产…

阅读更多...

linux安装Redis 7.2.4笔记

linux安装Redis 7.2.4笔记

一.保姆级安装 1.下载Redis 7.2.4安装包 sudo wget https://download.redis.io/releases/redis-7.2.4.tar.gz2.解压，可以指定 sudo tar -zvxf redis-7.2.4.tar.gz 3.检测并安装 GCC 编译器： yum 是基于 Red Hat 的 Linux 发行版（如 CentOS、…

阅读更多...

问卷新项目新玩法，一个2-5元，零基础，日赚50-200元零花钱，适合宝妈

问卷新项目新玩法，一个2-5元，零基础，日赚50-200元零花钱，适合宝妈

问卷调研是许多机构或企业为了获取大数据技术结论，进行抽样调查，进而针对特定人群进行付费调查个人行为。问卷调查内容通常涉及新产品，例如通过比较不同类别的商品，展示某些产品的优势和劣势。我们都喜欢某款手机，究竟…

阅读更多...

Docker在linux安装步骤超详细

Docker在linux安装步骤超详细

官网 Install Docker Engine on CentOS | Docker Docs yum -y install gcc yum -y install gcc-c 安装工具 sudo yum install -y yum-utils 设置国内的镜像 yum-config-manager \ --add-repo \ https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo yu…

阅读更多...

【配置】Docker搭建JSON在线解析网站

【配置】Docker搭建JSON在线解析网站

云服务器打开端口8787 连接上docker运行 docker run -id --name jsonhero -p 8787:8787 -e SESSION_SECRETabc123 henryclw/jsonhero-webhttp://ip:8787访问 Github：地址

阅读更多...

AutoCAD 2025 for mac/win：设计未来，触手可及

AutoCAD 2025 for mac/win：设计未来，触手可及

在数字化时代，设计不再局限于纸笔之间，而是跃然于屏幕之上，AutoCAD 2025正是这一变革的杰出代表。无论是Mac用户还是Windows用户，AutoCAD 2025都以其卓越的性能和出色的用户体验，成为了CAD设计绘图领域的佼佼者。 Aut…

阅读更多...

Linux修改文件权限命令 chmod

Linux修改文件权限命令 chmod

【例子引入】以下面命令为例： chmod 777 Random.py 当写入下面名为Random.py的代码后： 如果直接运行，会显示权限不够当输入 chmod 777 Random.py 更改权限后，才能够正常运行在终端中输入这条命令是关于Linux或Unix-like系…

阅读更多...

推荐文章

最新文章