Lecture 13(Extra Material):Q-Learning

news2025/1/16 0:00:04

目录

Introduction of Q-Learning

Tips of Q-Learning

Double DQN

Dueling DQN

Prioritized Reply

Multi-step

Noisy Net

Distributional Q-function

Rainbow

Q-Learning for Continuous Actions


Introduction of Q-Learning

Critic: The output values of a critic depend on the actor evaluated.

How to estimate V𝝿(s)? 有两种方法:

        ① Monte-Carlo(MC) based approach

        The critic watches 𝝿 playing the game.

        ② Temporal-difference (TD) approach

MC v.s. TD: TD比较常见,MC比较少用到

        MC和TD估算出的V𝝿(s)很有可能是不一样的,不同的方法考虑了不同的假设,最后就会得到不同的运算结果。举例如下:

Another Critic:

从表面上看learn一个Q function,只能拿来评估某一个actor 𝝿的好坏。但实际上只要有了Q function,就可以做reinforcement learning:

Q-Learning:

在Q-Learning中会用到的三个tip:

        ① Target Network

        ② Exploration

        有两个做exploration的方法:

        ③ Replay Buffer

        The experience in the buffer comes from different policies. Drop the old experience if the buffer is full.

        Typical Q-Learning Algorithm:

Tips of Q-Learning

——train Q-Learning的一些tip

Double DQN

Q value is usually over-estimated.

解决target(rt+maxQ)总是太大的问题:Double DQN

在Double DQN里面,选action的Q function和算value的Q function不是同一个

Dueling DQN

Q network就是input state,output每一个action的Q value。

Dueling DQN相较于原来的DQN,唯一的差别是改了network的架构。

按照上图方式改network架构的好处是,假设现在train network的target是希望下面两个被划掉的数字的值变为新的值,那么我们希望在train network的时候,network选择去更新V(s)的值而不是A(s,a)的值。

更新V(s)值的好处是,当我们更新这一列的前两个值的时候,第三个值也会发生改变。即在某一个state,只sample到两个action,没sample到第三个action,但是也可以对第三个action的Q value进行更动。这样的好处是不需要把所有的state action pair都sample一遍,可以用比较有效率的方式去estimate Q value。

实际上要给A一些constrain,使得update A比较麻烦,让network倾向于用V去解决问题。实作上做法如下:

Prioritized Reply

——更改sampling的process。因为更改了sampling的process,会更改update参数的方法。

Multi-step

——Balance between MC and TD

好处:sample了比较多的step,sample大N个step才估测value,所以估测的部分所造成的影响比较轻微。

坏处:r的项比较多,把大N项的r加起来,variance就会比较大。

所以需要调N的值,在variance跟不精确的Q之间取得一个平衡。

Noisy Net

——improve exploration

之前讲过的Epsilon Greedy这种exploration,是在action的space上面加noise。更好的方法Noisy Net,它是在参数的space上面加noise。

注意:the noise would not change in an episode.

Noise on Action v.s. Noise on Parameters:

Distributional Q-function

——model distribution. 可以不只是估测mean的值,还能估测distribution(每一个action都有自己的distribution)。

不太好实作,所以没有很多人在实作的时候使用这个技术。

Q-function是accumulated reward的期望值。所以计算出的Q value,其实是一个期望值。

同样的Q value可能会对应不同的distribution。如果只用一个expected的Q value来代表整个reward,会loss掉一些information。

Rainbow

——把所有方法都综合起来

下图是说,每次拿掉Rainbow中的一种技术:

        拿掉double的时候,score和原始的Rainbow没什么差别。一个比较make sense的解释是,当用distributional DQN的时候,就不会over estimate reward。用double就是为了避免over estimate reward的问题。

Q-Learning for Continuous Actions

Q-Learning一个最大的问题是,它不太容易处理continuous的action。

Solution 1:

Solution 2: Using gradient ascent to solve the optimizationproblem.

把a当做parameter,找一个a去maximize Q function,用gradient ascent去update a的value。

Solution 3: Design a network to make the optimization easy

Solution 4: Don't use Q-learning

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/501415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为生信写的Python简明教程 | 视频3

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

PySpark基础入门(7):Spark SQL

概述 SparkSQL和Hive的异同 Hive和Spark 均是:“分布式SQL计算引擎”SparkSQL使用内存计算,而Hive使用磁盘迭代,所以SparkSQL性能较好二者都可以运行在YARN之上SparkSQL无元数据管理,但可以和hive集成,集成之后可以借…

极光笔记 | 极光推出“运营增长”解决方案,开启企业增长新引擎

摘要: 移动互联网流量红利见底,营销获客面临更多挑战 随着移动互联网流量红利见顶,越来越多的企业客户发现获取新客户的难度直线上升,获客成本持续攀高。 传统的移动互联网营销以PUSH为代表,采用简单粗暴的方式给用户…

PaddleVideo 简介以及文件目录详解

简介特性许可证书 PaddleVideo 文件目录总述applications 文件夹详述configs 文件夹详述docs 文件夹详述paddlevideo 文件夹详述utils 文件夹tasks 文件夹loader 文件夹modeling 文件夹solver 文件夹metrics 文件夹 简介 PaddleVideo 旨在打造一套丰富、领先且实用的 Video 工…

【阿里云】秒懂云通信

目录 一、秒懂云通信-第一回听什么? 二、短信的使用场景 1. 短信的三种类型:短信通知、验证、会员营销 三、短信平台的选择 1、看成功率 2、看价格 3、看体验 四、秒懂云通信 五、如何使用 Step 1:业务入口 Step 2:注册账号 Step…

云安全技术——Snort安装与配置

目录 一、Snort简介 二、安装Centos7 Minimal系统 三、基本环境配置 四、安装Snort 五、下载规则 六、配置Snort 七、测试Snort 一、Snort简介 Snort是一个开源的网络入侵检测系统,主要用于监控网络数据包并检测可能的攻击行为。它可以实时分析网络流量&…

HJ37 统计每个月兔子的总数

HJ37 统计每个月兔子的总数 描述示例解题思路以及代码分析解法1解法2 描述 描述 有一种兔子,从出生后第3个月起每个月都生一只兔子,小兔子长到第三个月后每个月又生一只兔子。 例子:假设一只兔子第3个月出生,那么它第5个月开始会…

ASEMI代理ADUM3211TRZ-RL7原装ADI车规级ADUM3211TRZ-RL7

编辑:ll ASEMI代理ADUM3211TRZ-RL7原装ADI车规级ADUM3211TRZ-RL7 型号:ADUM3211TRZ-RL7 品牌:ADI/亚德诺 封装:SOIC-8 批号:2023 引脚数量:8 工作温度:-40C~125C 安装类型:表…

操作系统原理 —— 操作系统什么时候会发生进程的调度(十二)

操作系统什么时候需要进程调度? 进程调度的层次中,有一个低级调度,就是按照某种算法从就绪队列中选择一个进程为其分配 CPU。 那操作系统会在什么时候触发进程调度呢? 在这里一共可以分为两大类: 当前运行的进程主动…

04-微服务部署2023系列-centos安装gitlab

目的:为了将来的devops快速部署搭建自己的代码库,保证速度和私密性 前面01-03小节: 完成基本的服务器环境 centos_nginx_java_docker; 这个基础环境是将来集群中每台服务器的基本, 可以先打一个镜像备份。 阿里云的镜像备份比较简单。以后搭建新服务器时,以这个为基础,安…

JUC并发包详解AQS同步队列

一、AQS介绍 在JUC并发包中,AQS为其最关键的作用,全称为abstractQueuedSynchroinzed同步器,为信号量semaphore、同步锁的基础抽象类。 其中内部主要有二大块 state 共享资源,通过并发操作state修改改值为1,如果修改成…

《Linux 内核设计与实现》09. 内核同步介绍

共享资源之所以要防止并发访问,是因为如果多个执行线程同时访问和操作数据,就有可能发生各线程之间相互覆盖共享数据的情况,从而造成被访问的数据不一致状态。 临界区和竞争条件 临界区:访问和操作共享数据的代码段。原子操作&a…

键控流水灯

项目文件 文件 关于项目的内容知识点可以见专栏单片机原理及应用 的第四章 IO口编写 在电路图的基础上,编写可键控的流水灯程序。要求实现的功能为,K1是总开关,当K1首次按下时,流水灯由下往上流动;当K2按下时停止流动,且全部灯灭…

ASK,FSK和PSK

一、ASK,FSK和PSK 数字信号只有有限个离散值,使用数字信号对载波进行调制的方式称为键控(Keying),分为幅度键控(ASK)、频移键控(FSK)和相移键控(PSK)。 幅度键控可以通过乘法器和开关电路来实现,在数字信…

SpringBoot【开发实用篇】---- 配置高级

SpringBoot【开发实用篇】---- 配置高级 1. ConfigurationProperties2. 宽松绑定/松散绑定3. 常用计量单位绑定4. 校验5. 数据类型转换 进入开发实用篇第二章内容,配置高级,其实配置在基础篇讲了一部分,在运维实用篇讲了一部分,这…

离线安装Percona

前言 安装还是比较简单,这边简单进行记录一下。 版本差异 一、离线安装Percona 下载percona官网 去下载你需要对应的版本 jemalloc-3.6.0-1.el7.x86_64.rpm 需要单独下载 安装Percona 进入RPM安装文件目录,执行下面的脚本 yum localinstall *.rpm修改…

C语言CRC-16 X25格式校验函数

C语言CRC-16 X25格式校验函数 CRC-16校验产生2个字节长度的数据校验码,通过计算得到的校验码和获得的校验码比较,用于验证获得的数据的正确性。基本的CRC-16校验算法实现,参考: C语言标准CRC-16校验函数。 不同应用规范通过对输…

聊聊Doris向量化执行引擎-过滤操作

聊聊Doris向量化执行引擎-过滤操作 Doris是开源的新一代极速MPP数据库,和StarRocks同源,采用全面向量化技术,充分利用CPU单核资源,将单核执行性能做到极致。本文,我们聊聊过滤操作是如何利用SIMD指令进行向量化操作。 …

PCB设计流程步骤中的注意事项

PCB中文名称为印制电路板,又称印刷线路板,几乎所有电子设备中都会应用到PCB。这种由贵金属制成的绿色电路板连接了设备的所有电气组件,并使其能够正常运行。PCB原理图是一个计划,是一个蓝图。它说明的并不是组件将专门放置在何处&…

【51单片机HC6800-EM3 V3.0】动态数码管显示,原理分析,连线操作

🎊专栏【51单片机】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【如愿】 大一同学小吉,欢迎并且感谢大家指出我的问题🥰 目录 🍔提醒 🎊连线图片 🎊原理…