强化学习笔记-07 n-step Bootstrapping 多步TD时分学习

news2025/1/15 13:17:05

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。

上一节介绍了TD算法,其采用了Bootstrapping方法,当前过去的预估以及即期收益来更新累积收益函数:

G_n(s,a)=R + \gamma Q_\pi (s', a')

前文我们提到,通过Bootstrapping TD算法,相比于蒙特卡罗法,可以加快学习速度,但另一方面在更新累积收益函数时会存在可能偏差。而n-step TD算法就是两种算法的中间结合,其在经过n步的蒙特卡罗法采样后,再通过Bootstrapping来预估后续收益,其累积收益函数的更新可以表示为:

G_{t:t+n}(s,a)=\sum_{i=0}^{n-1} \gamma^{i} R_{t+i} + \gamma^n Q_\pi (s', a')

在一些情况中,在单步中很难获得有意义的即时reward,另一方面又想要加快学习速度,n-step TD算法就非常适合,其可以在真实采样n步后,当到达一个有意义的状态后,再通过Bootstrapping来加快训练。n-step TD算法实际上是TD算法结合MC的一个变种。其价值函数的更新也可以改写为:

Q_{n}(s,a)=Q_{n-1}(s,a) + \alpha (G_n(s,a)-Q_{n-1}(s,a))

下图描述了n-step TD算法整体采样以及更新步骤,图中描述了在t时刻完成动作采样,转换下一状态后,更新t-n时刻的价值函数的过程。

 1. on-policy or offline-policy

on-policy和off-policy算法的不同主要不同在于采样动作时,是依赖于target-policy还是behavior-policy。简单来说,对于on-policy算法,采样是通过目标policy函数来选择的,而目标policy函数是在完成价值函数更新后进行修正的。

而off-policy定义了另一个behavior-policy来完成采样,其同价值函数更新后所修正的目标policy函数不同,其主要是为了explore。因此behavior-policy和target-policy之前的不同,会导致累积收益函数之前存在偏差,其需要通过重要性采样方式来修正。

\rho(A_t ,S_t )=\frac{\Pi^{n-1}_{i=0} \pi_\tau (A_{t+i}|S_{t+i})}{\Pi^{n-1}_{i=0} \pi_b(A_{t+i}|S_{t+i})}\\ Q(S_{t}, A_{t})=Q(S_{t}, A_{t}) +\alpha \rho(A_t ,S_t)(G_t^b-Q(S_{t}, A_{t}))

 2. n-step Tree Backup Algorithm

上节提到在off-policy策略,其引入了behavior-policy来完成样本采样,然后通过重要性采样来调整target-policy之间的偏差,本节所介绍Tree Backup方法,不是通过重要性采样来扭偏,而是直接通过target-policy来调整,下图介绍整体逻辑,其类似于上一篇所说的Expected on-policy方法。

上述的公式在求解G(S_t,A_t)时,需要用到G(S_{t+1},A_{t+1}),以及其他子路径的估计值Q(S_t,a),这种树形回溯计算的方式因此称之为Tree Backup算法。

3. 统一的算法

on-policy算法直接通过target-policy进行采样,而off-policy算法或者通过采用behavior-policy+重新性采样,或者类似于Tree Backup引入了期望估计的方法。on-policy方法收敛速度更快,但off-policy更可能找到最优点,因此一种统一算法是设定某个概率值\sigma来随机选择每步是用on-policy直接采样计算,还是通过off-policy算法进行更新,这种方式能综合两种策略的优点,称之为n-step Q(\sigma)算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/598081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过期待已久的帕丽斯·希尔顿人物化身系列,成为元宇宙的偶像

5,555 个以帕丽斯希尔顿为主题的独特人物化身将于 5 月 31 日推出,每个人物化身均可在 The Sandbox 中使用。 我们与帕丽斯希尔顿及全球流行文化中心的下一代娱乐公司 11:11 Media 合作,很高兴宣布帕丽斯希尔顿的人物化身系列即将推出! 作为对…

Word导出PDF时图片质量下降问题的解决方法

Word导出PDF时图片质量下降问题的解决方法 ⭐️ 最近,在使用Word写完论文以后,另存为“PDF”文件时,发现文档中的图像质量明显下降。本文介绍的方法可以将Word保存为图片无压缩的带有标签的高质量PDF文件,建议仅在定稿时进行以下…

2023系统分析师下午案例分析真题

真题1 阅读以下关于软件系统分析与建模的叙述,在纸上回答问题1至3. 说明: 某软件公司拟开发一套汽车租赁系统,科学安全和方便的管理租赁公司的各项业务,提高公司效率,提升利率。注册用户在使用系统镜像车辆预约时需执行以下操作: (a) 用户登录系统 (b) 查询车辆信息 (c) …

业务安全情报第16期 | 大促8成优惠券竟被“羊毛党”抢走!?

目录 八成秒杀账户是羊毛党 羊毛党风险分析 安全防护及产品组合建议 近期,某电商小程序举办美食节营销活动,提供高额折扣券,并允许用户进行秒杀。然而,羊毛党团伙利用作弊手段,抢购囤券,然后倒卖变现&am…

释放 AI 的力量|2023 年 8 款最佳 AI 图像生成器

1973 年,Harold Cohen 设计的 AARON 系统创造了第一件人工智能生成的艺术品。黑白涂鸦远非所谓的美术,但它们为 DALLE-2 和 Midjourney 等一些出色的 AI 图像生成器奠定了基础。 在过去的 50 年里,AI 图像生成器变得更加智能。通过分析和学习…

线程的概念

文章目录 1. Linux线程概念1.1 什么是线程 2. 页表3. 线程的优点4. 线程的缺点5. 线程用途6.进程和线程7. 线程异常 1. Linux线程概念 1.1 什么是线程 线程是CPU调度的基本单位,它是在进程内部运行的执行流,线程比进程粒度更细,调度成本更低…

(2022,实体迁移)GAN 的通用 one-shot 域自适应

Generalized One-shot Domain Adaptation of Generative Adversarial Networks 公众号:EDPJ 目录 0. 摘要 1. 简介 2. 相关工作 3. 基础 4. 方法 4.1 总览 4.2 风格固定与范例重建 4.3 内部分布学习(Internal distribution learning&#xff0…

计算机硬件(1)

1.4 计算机硬件 电脑硬件是计算机系统中最基本的部分,可理解成看得见、摸得着的实物。一台电脑是由许多的零部件组成,只有这些零部件组合在一起协调工作,才能称之为电脑。一般计算机的硬件可以简单分为以下部件: 主机&#xff08…

sql比赛复习

systemctl start mysqld create database if not exit; 导入数据 编码、分割符号 alter更 http://172.19.100.21:9000/#!/auth 导入数据 简单插叙 创建视图 disti

嵌入式保温箱温湿度监测解决方案

无论是生鲜还是水果,在运输过程中都要保持恒温以保食材新鲜,这不仅需要强大的冷链运输车来实现,还需要搭配冷链保温箱。 传统的冷链是通过保温箱蓄冷剂,使用快递进行配送。由于市面保温箱功能不一,不同货品又对温度及保…

使用HbuilderX3.8.3_把开发的小程序发布为Html5页面上传到_免费托管空间---uniapp_小程序开发工作笔记009

首先使用hbuider开发完程序,然后,再去,点击发型,然后选择 上传网站到服务器,然后选择 选择新建,然后点击 新建以后然后这里点击新建服务空间,然后再去 这里选择免费服务空间,然后 然后点击立即购买,然后 点

基于AT89C52单片机的简易电子琴设计与仿真

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/87853299?spm1001.2014.3001.5503 源码获取 主要内容: 本设计是基于51系列的单片机进行的设计,利用所给键盘的八个键,能够发出…

基于单片机的红外光控灯系统

摘要 随着时代的飞逝,人们对更加先进、更加环保、更加节约资源、更加可持续地满足自身需要,高科技的运用正变成当今时代发展的动力,其对电子行业有着重要影响。近年来,智能化技术被广泛运用到各种家庭设备上,如智能洗衣…

如何分析OOM文件

一、下载dump文件。 需联系运维同事获取dump文件。dump文件的生成,需在jvm启动时通过添加启动参数:-XX:HeapDumpOnOutOfMemoryError -XX:HeapDumpPath。因此直接到设置的目录文件下下载下来即可。后缀名一般为hprof。有些为dump后缀,改为hpro…

国际儿童节

节日由来 国际儿童节儿童作品画(11张) 国际儿童节的设立,和发生在二战期间一次屠杀——利迪策惨案有关。1942年6月10日,德国法西斯枪杀了捷克利迪策村16岁以上的男性公民140余人和全部婴儿,并把妇女和90名儿童押往集中营。村里的房舍、建筑物…

MySQL中字符串查询效率大比拼

背景 最近有个同事对字符串加索引,加完后,发现多了个奇奇怪怪的数字 执行的SQL如下: alter table string_index_test add index idx_name (name) USING BTREE;这个奇怪数字就是191,它很是疑惑,也没指定索引的长度 通…

SYSU程设c++(第十四周)函数模板、类模板

函数模板 在函数前加template<typename T1,typename T2,typename T3....>&#xff0c;T1,T2,T3叫模板形参 函数形参中的类型必须涵盖所有模板形参&#xff0c;不然报错 此时dv1,dv2只要相同类型就可以Swap (dv1, dv2); 但如果dv1,dv2不同类型就需要显示转换 Swap <dou…

五款电脑上的小众软件,简洁干净,功能强悍,值得收藏

电脑上的各类软件有很多&#xff0c;除了那些常见的大众化软件&#xff0c;还有很多不为人知的小众软件&#xff0c;专注于实用功能&#xff0c;简洁干净、功能强悍。 1.系统优化——Dism Dism是一款用于优化和维护Windows系统的工具。它可以让你对系统进行清理,备份,还原,更…

二叉树和堆详解

一、树的概念及结构 1.1树的概念 树是一种非线性的数据结构&#xff0c;它是由n(n≥0)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树&#xff0c;也就是说它是根朝上&#xff0c;而叶朝下的。 1.2树的相关基本概念 空集合也是树&#…

macOS Ventura 13.5beta2 (22G5038d)发布

系统介绍 黑果魏叔 6 月 1 日消息&#xff0c;苹果今日向 Mac 电脑用户推送了 macOS 13.5 开发者预览版 Beta 2 更新&#xff08;内部版本号&#xff1a;22G5038d&#xff09;&#xff0c;本次更新距离上次发布隔了 12 天。 macOS Ventura 带来了台前调度、连续互通相机、Fac…