强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

news2025/1/6 22:35:20

在这里插入图片描述
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现

在这里插入图片描述
专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现

对于深度强化学习这块规划为:

  • 基础单智能算法教学(gym环境为主)
  • 主流多智能算法教学(gym环境为主)
    • 主流算法:DDPG、DQN、TD3、SAC、PPO、RainbowDQN、QLearning、A2C等算法项目实战
  • 一些趣味项目(超级玛丽、下五子棋、斗地主、各种游戏上应用)
  • 单智能多智能题实战(论文复现偏业务如:无人机优化调度、电力资源调度等项目应用)

本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。

声明:部分项目为网络经典项目方便大家快速学习,后续会不断增添实战环节(比赛、论文、现实应用等)

  • 专栏订阅(个性化选择):

    • 强化学习原理+项目专栏大合集-《推荐订阅☆☆☆☆☆》

    • 强化学习单智能体算法原理+项目实战《推荐订阅☆☆☆☆》

    • 强化学习多智能体原理+项目实战《推荐订阅☆☆☆☆☆》

    • 强化学习相关技巧(调参、画图等《推荐订阅☆☆☆》)

    • tensorflow_gym-强化学习:免费《推荐订阅☆☆☆☆》

    • 强化学习从基础到进阶-案例与实践:免费《推荐订阅☆☆☆☆☆》

强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

1.核心词汇

深度确定性策略梯度(deep deterministic policy gradient,DDPG):在连续控制领域经典的强化学习算法,是深度Q网络在处定性”表示其输出的是一个确定的动作,可以用于连续动作环境;“策略梯度”代表的是它用到的是策略网络,并且每步都会更新一次,其是一个单步更新的策略网络。其与深度Q网络都有目标网络和经验回放的技巧,在经验回放部分是一致的,在目标网络的更新上有些许不同。

2.常见问题汇总

2.1 请解释随机性策略和确定性策略,两者有什么区别?

(1)对于随机性策略 π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(atst) ,我们输入某一个状态 s s s,采取某一个动作 a a a 的可能性并不是百分之百的,而是有一个概率的,就好像抽奖一样,根据概率随机抽取一个动作。

(2)对于确定性策略 μ θ ( s t ) \mu_{\theta}(s_t) μθ(st) ,其没有概率的影响。当神经网络的参数固定之后,输入同样的状态,必然输出同样的动作,这就是确定性策略。

2.2 对于连续动作的控制空间和离散动作的控制空间,如果我们都采取策略网络,应该分别如何操作?

首先需要说明的是,对于连续动作的控制空间,Q学习、深度Q网络等算法是没有办法处理的,所以我们需要使用神经网络进行处理,因为其可以既输出概率值,也可以输出确定的策略 μ θ ( s t ) \mu_{\theta}(s_t) μθ(st)

(1)要输出离散动作,最后输出的激活函数使用 Softmax 即可。其可以保证输出的是动作概率,而且所有的动作概率加和为1。

(2)要输出连续的动作,可以在输出层中加一层tanh激活函数,其可以把输出限制到 [ − 1 , 1 ] [-1,1] [1,1] 。我们得到这个输出后,就可以根据实际动作的一个范围再做缩放,然后将其输出给环境。比如神经网络输出一个浮点数2.8,经过tanh激活函数之后,它就可以被限制在 [ − 1 , 1 ] [-1,1] [1,1] ,输出0.99。假设小车的速度的动作范围是 [ − 2 , 2 ] [-2,2] [2,2] ,那我们就按比例将之从 [ − 1 , 1 ] [-1,1] [1,1] 扩大到 [ − 2 , 2 ] [-2,2] [2,2] ,0.99乘2,最终输出的就是1.98,将其作为小车的速度或者推小车的力输出给环境。

3.面试必知必答

3.1 友善的面试官:请简述一下深度确定性策略梯度算法。

深度确定性策略梯度算法使用演员-评论员结构,但是输出的不是动作的概率,而是具体动作,其可以用于连续动作的预测。优化的目的是将深度Q网络扩展到连续的动作空间。另外,其含义如其名:

(1)深度是因为用了深度神经网络;

(2)确定性表示其输出的是一个确定的动作,可以用于连续动作的环境;

(3)策略梯度代表的是它用到的是策略网络。强化算法每个回合就会更新一次网络,但是深度确定性策略梯度算法每个步骤都会更新一次策略网络,它是一个单步更新的策略网络。

3.2 友善的面试官:请问深度确定性策略梯度算法是同策略算法还是异策略算法?请说明具体原因并分析。

异策略算法。(1)深度确定性策略梯度算法是优化的深度Q网络,其使用了经验回放,所以为异策略算法。(2)因为深度确定性策略梯度算法为了保证一定的探索,对输出动作加了一定的噪声,行为策略不再是优化的策略。

3.3友善的面试官:你是否了解过分布的分布式深度确定性策略梯度算法(distributed distributional deep deterministic policy gradient,D4PG)呢?请描述一下吧。

分布的分布式深度确定性策略梯度算法(distributed distributional deep deterministic policy gradient,D4PG),相对于深度确定性策略梯度算法,其优化部分如下。

(1)分布式评论员:不再只估计Q值的期望值,而是估计期望Q值的分布,即将期望Q值作为一个随机变量来估计。

(2) N N N步累计回报:计算时序差分误差时,D4PG计算的是 N N N步的时序差分目标值而不仅仅只有一步,这样就可以考虑未来更多步骤的回报。

(3)多个分布式并行演员:D4PG使用 K K K个独立的演员并行收集训练数据并存储到同一个回放缓冲区中。

(4)优先经验回放(prioritized experience replay,PER):使用一个非均匀概率从回放缓冲区中进行数据采样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/692267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最大收益(搜索好题)

题目描述 给一行n个数&#xff0c;每次可以取出行首或者行末的数&#xff0c;如果数ai是第j次取出的&#xff0c;可以得到ai*j的收益&#xff0c;求最大的总收益&#xff1b; 输入描述 Line 1: 整数 N&#xff08;1<N<2000&#xff09; Lines 2…N1: 第i个数的 a(i)&…

linux文件系统(目录)层次

本文主要内容来源和修改自 FHS 3.0 和 《鸟哥的私房菜基础学习篇&#xff08;第四版&#xff09;》 虽然 Linux 系统的发行版众多&#xff0c;但他们的目录配置却看起来都差不多&#xff0c;那是因为&#xff0c;大多数 Linux 发行版都遵循了文件系统层次结构标准&#xff08;…

centos7不能识别nvme固态硬盘,无法开机

前提是在机械硬盘已经安装过centos7系统了&#xff0c; 然后新增了一块nvme固态硬盘 其实原因也很简单&#xff0c; 旧版的centos7内核没有nvme驱动&#xff0c;需要更新内核&#xff0c;以下是我用ChatGPT解决的&#xff1a; 在 CentOS 7 中&#xff0c;NVMe 固态硬盘的驱动通…

vscode环境部署

编译cpp vscode安装2个插件&#xff0c;extension pack自动包了下面3个通过命令窗口code .打开代码目录&#xff0c;或者添加cl.exe路径到path&#xff0c;以及c需要的include和lib //在Path中添加cl.exe所在文件夹路径。若未找到&#xff0c;直接VS的安装目录下搜索cl.exe即…

下载好的eclipse的SSM项目导入IDEA配置运行过程(详细)

背景&#xff1a; 在网上下载一份SSM项目源码后&#xff0c;发现原项目是通过eclipse来开发的&#xff0c;但是个人喜欢使用IDEA来进行Java的开发&#xff0c;现在需要将这个SSM项目在IDEA上配置运行起来&#xff0c;下面就是记录一下整个配置过程&#xff01; 战胜 一、下载SS…

前端传递对象参数,以及后端接受参数 @PathVariable @RequestParam @RequestBody 注解的使用

太久没写前后端传递参数了,总是格式对不上号 前端传递对象参数,以及后端接受参数 一、接收参数注解 PathVariable二、接收参数注解 RequestParam2.1 get 请求,普通类型参数2.2 post 请求,普通类型参数 三、接收参数注解 RequestBodypost 请求,对象类型参数 总结 提示&#xff1…

Java之面向对象的思想

Java之面向对象的思想 一、如何理解面向对象二、面向对象和面向过程区别1. 面向过程1.1. 打开洗衣机盖子1.2. 把脏衣服放进洗衣机1.3. 加入适量的洗衣液1.4. 关上洗衣机盖子1.5. 选择洗衣的程序和时间1.6. 开始洗衣机1.7. 总结 2. 面向对象2.1. 属性&#xff1a;2.2. 方法&…

[C++] 刷题日记

785. 快速排序 #include <iostream> using namespace std;const int N 1e610;int n; int q[N];void quick_sort(int q[],int l,int r){if (l>r)return ;int x q[(lr)>>1],il-1,jr1;while (i<j){do i;while(q[i]<x);do --j;while(q[j]>x);if (i<j)sw…

【NLP】Attention机制和RNN

一、说明 循环神经网络是深度学习的主要内容之一,它允许神经网络处理文本、音频和视频等数据序列。它们可用于将序列简化为高级理解、注释序列,甚至从头开始生成新序列! 二、引进长记忆网络 基本的 RNN 设计很难处理较长的序列,但一种特殊的变体——“长短期记忆”网络 [1]…

three.js中的点对象(Point)和点材质(PointsMaterial)

一、点对象和点材质基本介绍 1. 点材质&#xff08;PointsMaterial&#xff09;&#xff1a; 点材质用于渲染点对象&#xff0c;它决定了点的颜色、透明度等属性。 常用属性有&#xff1a; color: 点的颜色&#xff0c;默认为白色。opacity: 点的透明度&#xff0c;默认为1…

List的去重操作

List的去重操作 1.采用Set集合的方式 List listnew ArrayList();for (int i 0; i < 10; i) {list.add(i);list.add(i);}//去重之前System.out.println(list);Set setnew LinkedHashSet(list);//方法1&#xff1a;去重之后System.out.println(new ArrayList<>(set));…

kubernetes核心概念 controller

kubernetes核心概念 Controller 一、pod控制器controller 1.1 Controller作用及分类 controller用于控制pod 参考: https://kubernetes.io/zh/docs/concepts/workloads/controllers/ 控制器主要分为: Deployments 部署无状态应用&#xff0c;控制pod升级,回退ReplicaSet 副…

AIGC大记事【2023-0625】【第五期】:《时代》专访ChatGPT之父:人工智能影响经济还需要很多年

大咖观点&#xff1a; 《时代》专访ChatGPT之父&#xff1a;人工智能影响经济还需要很多年孙正义&#xff1a;我每天和ChatGPT聊天&#xff0c;一场巨大革命即将到来&#xff0c;软银“终将统治世界&#xff01;”刘慈欣谈 ChatGPT&#xff1a;人类的无能反而是人类最后的屏障A…

【数据库】搭建 MMM 以及故障模拟

文章目录 搭建 MMM 以及故障模拟1. 环境配置2. 搭建 MySQL 多主多从模式2.1 修改 master01 配置文件2.2 把配置文件复制到其它 3 台数据库服务器2.3 配置主主复制&#xff0c;两台主服务器相互复制2.4 配置主从复制&#xff0c;在两台从服务器上做 3. 安装配置 MySQL-MMM3.1 安…

流媒体服务器 ZLMediaKit介绍

流媒体服务器是流媒体应用的核心系统&#xff0c;是运营商向用户提供视频服务的关键平台。流媒体服务器的主要功能是对流媒体内容进行采集、缓存、调度和传输播放。流媒体应用系统的主要性能体现都取决于媒体服务器的性能和服务质量。因此&#xff0c;流媒体服务器是流媒体应用…

2023-6-27-第九式外观模式

&#x1f37f;*★,*:.☆(&#xffe3;▽&#xffe3;)/$:*.★* &#x1f37f; &#x1f4a5;&#x1f4a5;&#x1f4a5;欢迎来到&#x1f91e;汤姆&#x1f91e;的csdn博文&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f49f;&#x1f49f;喜欢的朋友可以关注一下&#xf…

HBase性能调优(二)

感谢点赞和关注 &#xff0c;每天进步一点点&#xff01;加油&#xff01; 版权声明&#xff1a;本文为CSDN博主「开着拖拉机回家」的原创文章&#xff0c;遵循CC 4.0 BY-SA版权协议&#xff0c;转载请附上原文出处链接及本声明。 Hbase性能调优&#xff08;二&#xff09;_开着…

计算机网络——自顶向下方法(第六章学习记录)

链路层概述 将运行链路层协议的任何设备均称为节点&#xff08;node&#xff09;。节点包括主机、路由器、交换机和WiFi接入点。把沿着通信路径连接相邻节点的通信信道称为链路&#xff08;link&#xff09;。为了将一个数据报从源主机传输到目的主机&#xff0c;数据报必须通…

智慧班牌源码,基于Java+springboot+vue +element-ui+小程序开发

电子班牌系统又称之为智慧班牌&#xff0c;是当前校园数字化信息化建设、文化建设的主流&#xff0c;是校园日常工作安排、校园信息发布、班级文化风采展示、课堂交流、家校互通的重要应用载体。在每个班级门口安装一台电子班牌终端&#xff0c;实现学校日常管理、校园信息化建…

MySQL的MHA高可用

MySQL的MHA高可用 一、MHA简介1、什么是MHA2、MHA的组成3、MHA的特点4、MHA原理图 二、搭建MySQL的MHA高可用1、实验思路2、实验3、故障模拟 一、MHA简介 1、什么是MHA MHA&#xff08;MasterHigh Availability&#xff09;是一套优秀的MySQL高可用环境下故障切换和主从复制的…