强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

news2026/2/16 3:13:00

针对连续动作空间，策略函数没法预测出每个动作选择的概率。因此使用确定性策略梯度方法。

0 概览

1 actor输出确定动作
2 模型目标：
actor目标：使critic值最大
critic目标：使TD error最大
3 改进：
使用两个target 网络减少TD error自举估计。

1 actor 和 critic 网络

确定性策略网络
actor: a= $\pi(s;\theta)$ 输出为确定性的动作a
动作价值网络
critic Q=q(s,a;w) ,用于评估动作a的好坏

2 critic网络训练

观察一组数据 $s_t,a_t,r_t,s_{t+1})$
即在状态 $s_t$ 时，执行动作 $a_t$ ,得到奖励 $r_t$ ，和下一状态 $s_{t+1}$
$a_t时刻Q值: q_t=q(s_t,a_t,w)$
$a_{t+1}时刻Q值: q_{t+1}=q(s_{t+1},a_{t+1},w)$ ，其中 $a_{t+1}=\pi(s_{t+1};\theta)$
即TD Target = $r_t+\gamma * q_{t+1}$
目标：使t时刻的TD error最小
TD error： $\delta_t=q_t-(r_t+\gamma * q_{t+1})$
$w=w-\alpha *\delta_t* \frac{\partial q(s_t,a_t;w)}{\partial w}$

3 actor 网络训练

actor 网络目标是时critic值最大，所以要借助critic网络，将actor值带入critic网络，使critic最大。

a= $\pi(s;\theta)$ ,带入q(s,a;w)中得到 q(s, $\pi(s;\theta)$ ;w)
即使 q(s, $\pi(s;\theta)$ ;w) 最大
对 $\theta$ 求导:
$g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a }{\partial \theta} *\frac{\partial q(s,a;w) }{\partial a}$
参数更新
$\theta=\theta + \beta* g$

4 训练改进

4.1 主网络actor和critic更新

critic 网络更新时，在计算TD error时，使用了自举，会导致数据过高估计或者过低估计。
关键在于 $t + 1$ 时刻的 $a_{t+1}和q_{t+1}怎么生成$
和其他方法一样，可以使用两个actor和两个critic网络，减少自举带来的估计。

t+1 时的 $a_{t+1}$ 使用另一个target 策略网络actor生成
$a_{t+1}=\pi(s_{t+1};\bar\theta)$
同样t+1时 $q_{t+1}$ 使用另一个target critic网络生成
$q_{t+1}=q(s_{t+1},a_{t+1};\bar w)$

actor 参数更新方式不变。
critic更新方式变化，使用了target网络产生的 $a_{t+1}和q_{t+1}$
在这里插入图片描述

4.2 target网络actor和critic更新

target 网络初始时来自主网络，后期更新时，部分来自主网络，部分来自自己。
$\bar w= \tau *w +(1-\tau) * \bar w$
$\bar \theta= \tau *\theta +(1-\tau) * \bar \theta$

5 其他改进措施

添加经验回放， Experience replay buffer
多步TD target
target networks

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1332054.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

为什么要使用vite

为什么要使用vite

vue ——）webpack 全部读取完毕才显示： vite:只读取修改的部分，速度比较快

阅读更多...

Web前端-JavaScript（Dom基础）

Web前端-JavaScript（Dom基础）

文章目录 1.1 DOM 介绍1.1.1 DOM简介1.1.2 DOM树 1.2. 获取元素1.2.1 根据ID获取元素1.2.2 根据标签名获取元素1.2.3 其它方式获取元素1.2.4 获取特殊元素 1.3 事件基础1.3.1 事件概述1.3.2 事件三要素1.3.3 执行事件步骤1.3.4 鼠标事件 1.4 操作元素1.4.1 操作元素内容1.4.2 属…

阅读更多...

openGauss学习笔记-170 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用合并方式更新和插入数据

openGauss学习笔记-170 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用合并方式更新和插入数据

文章目录 openGauss学习笔记-170 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用合并方式更新和插入数据170.1 前提条件170.2 操作步骤 openGauss学习笔记-170 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用合并方式更新和插入数据在用户需要将…

阅读更多...

Python算法例24 落单的数Ⅱ

Python算法例24 落单的数Ⅱ

1. 问题描述给出3n1个非负整数元素的数组，除其中一个数字之外，其他每个数字均出现三次，找到这个数字。 2. 问题示例给出[1，1，2，3，3，3，2，2，4&…

阅读更多...

【动态规划算法】之打家劫舍Ⅰ

【动态规划算法】之打家劫舍Ⅰ

1.打家劫舍Ⅰ 打家劫舍是dp解决的经典问题，动规五部曲分析如下： 1.确定dp数组（dp table）以及下标的含义 dp[i]：考虑下标i（包括i）以内的房屋，最多可以偷窃的金额为dp[i]。 2.确定递推…

阅读更多...

【ubuntu 22.04】安装vscode并配置正常访问应用商店

【ubuntu 22.04】安装vscode并配置正常访问应用商店

注意：要去vscode官网下载deb安装包，在软件商店下载的版本不支持输入中文在ubuntu下用火狐浏览器无法访问vscode官网，此时可以手动进行DNS解析，打开DNS在线查询工具，解析以下主机地址（复制最后一个IP地址&a…

阅读更多...

简述用C++实现SIP协议栈

简述用C++实现SIP协议栈

SIP（Session Initiation Protocol，会话初始协议）是一个基于文本的应用层协议，用于创建、修改和终止多媒体会话（如语音、视频、聊天、游戏等）中的通信。SIP协议栈是实现SIP协议的一组软件模块，它…

阅读更多...

wpf 非常漂亮ItemsControl 里面的元素间隔不同的颜色 ItemsControl中的子元素按照奇数和偶数索引来交替使用不同的背景颜色

wpf 非常漂亮ItemsControl 里面的元素间隔不同的颜色 ItemsControl中的子元素按照奇数和偶数索引来交替使用不同的背景颜色

在这个例子中，我们使用了两个DataTrigger，它们分别检查ContentPresenter的AlternationIndex属性是否为0或1。如果AlternationIndex为0，TextBlock的背景颜色将设置为#07FAFE；如果AlternationIndex为1，TextBlock的背景颜…

阅读更多...

【数据结构入门精讲 | 第十一篇】一文讲清树

【数据结构入门精讲 | 第十一篇】一文讲清树

在上一篇中我们进行了排序算法的专项练习，现在让我们开始树的知识点讲解。目录树二叉搜索树二叉排序树哈夫曼树折半查找判定树kruskal算法、prim算法、最小生成树完全二叉树树树是一种非线性的数据结构，也是一种表示一对多关系的数据结构&#xff0…

阅读更多...

大白鲨生成Windows木马（仅供参考不可实践）

大白鲨生成Windows木马（仅供参考不可实践）

一、学习方法一个正确的学习方法往往比学习更为重要方法一：学习技术的本质性作用 （第一性定律） — 帮助我们解决的问题是什么 — 产生的原因/价值方法二：在工作中到底如何使用？ 方法三：技术是由人…

阅读更多...

python实现图像的几何变换——冈萨雷斯数字图像处理

python实现图像的几何变换——冈萨雷斯数字图像处理

1、实现图像的平移。原理: 图像的平移是一种基本的图像处理操作，它将图像中的每个像素沿着指定的方向和距离移动，以创建一个新的平移后的图像。平移的原理很简单，通常涉及到以下几个步骤： 确定平移的距离和方向：首先…

阅读更多...

L1-060：心理阴影面积

L1-060：心理阴影面积

题目描述这是一幅心理阴影面积图。我们都以为自己可以匀速前进（图中蓝色直线），而拖延症晚期的我们往往执行的是最后时刻的疯狂赶工（图中的红色折线）。由红、蓝线围出的面积，就是我们在做作业时的心理阴影面…

阅读更多...

kubernetes集群应用实践 zookeeper部署

kubernetes集群应用实践 zookeeper部署

kubernetes集群应用实践 zookeeper部署零、环境说明一、zookeeper持久存储准备 zookeeper属于有状态应用，需要为zookeeper部署后端存储服务。 1.1 在NFS服务器添加一块硬盘vdc [rootnfsserver ~]# lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT …

阅读更多...

Python安装及配置

Python安装及配置

一、前置说明 Python的安装有两种方式：1. 访问Python官方网站下载安装；2. 使用Python的开源发行版进行安装。 Anaconda 是一个用于科学计算、数据分析和机器学习的开源发行版，它包含了许多常用的科学计算和数据分析库。Anaconda 不仅仅是 P…

阅读更多...

2023美团机器人研究院学术年会成功举办

2023美团机器人研究院学术年会成功举办

2023年12月19日，深圳市美团机器人研究院学术年会在清华大学深圳国际研究生院成功落下帷幕。会议回顾了研究院成立一年来的进展和成果，并邀请了各界专家共同讨论机器人技术的未来发展趋势。此外，年会期间还举办了首届低空经济智能飞行管理挑战…

阅读更多...

网络基础知识制作网线了解、集线器、交换机与路由器

网络基础知识制作网线了解、集线器、交换机与路由器

目录一、网线的制作 1.1、材料 1.2、网线的标准类别二、集线器、交换机介绍 2.1、概念： 2.2、OSI七层模型 2.3、TCP/IP四层三、路由器的配置 3.1、概念 3.2、四个模块 1、网络状态 2、设备管理 3、应用管理无人设备接入控制无线桥接信号调节…

阅读更多...

基于alibaba druid的血缘解析工具

基于alibaba druid的血缘解析工具

基于alibaba druid的血缘解析 1、前言 SQL血缘解析指的是通过sql语句来分析该语句中表与表之间的依赖关系和字段和字段之间的依赖关系。本血缘解析工具仅仅对mysql数据库的select查询语句进行了血缘解析（后续会持续扩展），该血缘解析包含了…

阅读更多...

C# 使用Socket进行简单的通讯

C# 使用Socket进行简单的通讯

目录写在前面代码实现服务端部分客户端部分运行示例总结写在前面在.Net的 System.Net.Sockets 命名空间中包含托管的跨平台套接字网络实现。 System.Net 命名空间中的所有其他网络访问类均建立在套接字的此实现之上。其中的Socket 类是基于与 Linux、macOS 或 W…

阅读更多...

python 使用 pip 安装第三方库导入不成功

python 使用 pip 安装第三方库导入不成功

本文是什么意思呢？ 就是你需要使用一些库安装老师或者网上说的通过pip 安装下载了第三方库，但是使用 import xxx from xxx import xx ，pycharm ide 导入的下面还有红色波浪线，导入不成功。这是什么原因？ 这是pyc…

阅读更多...

网络安全行业术语

网络安全行业术语

病毒是在计算机程序中插入的破坏计算机功能或者数据的代码，能影响计算机使用，能自我复制的一组计算机指令或者程序代码。抓鸡利用使用大量的程序的漏洞，使用自动化方式获取肉鸡的行为，即设法控制电脑，将其沦为肉…

阅读更多...

推荐文章

最新文章