深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议：随机采样、减少保存的数据量、简化计算等

深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议：随机采样、减少保存的数据量、简化计算等

news2025/4/12 19:48:50

高性能的 ReplayBuffer 应该满足以下三点：

随机采样 random sample 的速度要快，尽可能加快读取速度（最为重要）
减少保存的数据量，增加吞吐效率（对分布式而言重要）
保存能简化计算的变量（对特定算法而言重要）

为了达成以上要求，我建议做出以下修改：

把 Replay Buffer 的数据都放在连续的内存里，加快读取速度
按 trajectory 的顺序保存 env transition，避免重复保存 next state，减少数据量
分开保存 state 与其他数据，减少数据量
将 off-policy 的数据一直保存在显存内
保存 mask = gamma if done else 0 用于计算 Q 值，而不是保存 done
为 on-policy 的 PPO 算法保存 noise 用于计算新旧策略的熵

本文的重点：ReplayBuffer 的数据要放在连续内存里，实验结果如下：

我们使用 Numpy 库在内存里、使用 PyTorch 库在显存里创建了一整块连续的空间，对比了 List 和 Tuple 的方案。结果：连续存储空间的明显更节省时间。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/758311.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【从零到Offer】反射那些事

【从零到Offer】反射那些事

什么是反射？ 反射简单来说，就是在代码运行期间，通过动态指定任意一个类，从而构建对象，并了解该类的成员变量和方法，甚至可以调用任意一个对象的属性和方法。以String对象为例子，传统构造方式…

阅读更多...

Go语言开发者的Apache Arrow使用指南：数据操作

Go语言开发者的Apache Arrow使用指南：数据操作

在前面的Arrow系列文章中，我们介绍了Arrow的基础数据类型[1]以及高级数据类型[2]，这让我们具备了在内存中建立起一个immutable数据集的能力。但这并非我们的目标，我们最终是要对建立起来的数据集进行查询和分析等操作(manipulation)的。在这…

阅读更多...

RecycleView闪屏问题（java和ktolin解决）

RecycleView闪屏问题（java和ktolin解决）

问题案例：图库搜索界面点击空格，图片会闪烁两次显示复现概率通过布局看是通过RecycleView加载的，通过打印log并无异常闪烁是 notifyDataSetChange 造成的。由于适配器不知道整个数据集中的哪些内容已经存在，在重新匹配 ViewHol…

阅读更多...

vscode remote-ssh配置

vscode remote-ssh配置

使用vscode的插件remote-ssh进行linux的远程控制。在vscode上安装完remote-ssh插件后，还需要安装openssh-client。 openssh-client安装先win R打开cmd，输入ssh，查看是否已经安装了。如果没有安装，用管理员权限打开powershe…

阅读更多...

LabVIEW将彩色图像转换到灰度图像

LabVIEW将彩色图像转换到灰度图像

LabVIEW将彩色图像转换到灰度图像在LabVIEW中使用许多图像处理工具的必要步骤之一是将其从彩色转换为单色。介绍一个开发的应用程序，用于基于LabVIEW软件环境，在所有支持的色彩空间（RGB、HSI、HSV和HSL）中自动将彩色图像转换为灰…

阅读更多...

Shi-Tomas角点检测、亚像素级别角点位置优化、ORB特征点、特征点匹配、RANSAC优化特征点匹配、相机模型与投影

Shi-Tomas角点检测、亚像素级别角点位置优化、ORB特征点、特征点匹配、RANSAC优化特征点匹配、相机模型与投影

目录 1、Shi-Tomas角点检测 2、亚像素级别角点位置优化 3、ORB特征点 4、特征点匹配 5、RANSAC优化特征点匹配 6、相机模型与投影 1、Shi-Tomas角点检测 //Shi-Tomas角点检测 int test1() {Mat img imread("F:/testMap/lena.png");if (!img.data){cout <<…

阅读更多...

Python结巴中文分词笔记

Python结巴中文分词笔记

📚 jieba库基本介绍 🌐 jieba库概述 Jieba是一个流行的中文分词库，它能够将中文文本切分成词语，并对每个词语进行词性标注。中文分词是自然语言处理的重要步骤之一，它对于文本挖掘、信息检索、情感分析等任务具有重要…

阅读更多...

2023年Java最新面试题

2023年Java最新面试题

由【后端面试题宝典】提供和 equals 的区别是什么？ 对于基本类型，比较的是值；对于引用类型，比较的是地址；equals不能用于基本类型的比较；如果没有重写equals，equals就相当于；如果重…

阅读更多...

带记忆的Transformer模块

带记忆的Transformer模块

MEMORIZING TRANSFORMERS 返回论文和资料目录论文地址 1.导读谷歌去年做的一个工作。内容很简单，在Transformer模块中加入了一层记忆层，结果表明这个方法可以帮助模型提高在NLP任务上的表现：generic webtext (C4), math papers (arXiv),…

阅读更多...

C# IEnumerator 用法

C# IEnumerator 用法

一、概述 IEnumerator 是所有非泛型枚举器的基接口。其泛型等效项是 System.Collections.Generic.IEnumerator<T> 接口。 C# 语言的 foreach 语句（在 Visual Basic 中为 for each）隐藏了枚举数的复杂性。因此，建议使用 foreach 而不…

阅读更多...

掘金量化—Python SDK文档—1.快速开始

掘金量化—Python SDK文档—1.快速开始

掘金量化终端是一款为专业量化投资打造的功能齐备的落地式终端，集成了策略开发到实盘的模块化功能，打通研究、仿真和绩效链路、兼容多种编程语言，易于使用、性能可靠，能够帮助量化投资者提高策略开发效率、减少 IT 投入。掘金量…

阅读更多...

AI 智能对话 - 基于 ChatGLM2-6B 训练对话知识库

AI 智能对话 - 基于 ChatGLM2-6B 训练对话知识库

前情提要怎么将 AI 应用到工作中呢？比如让 AI 帮忙写代码，自己通过工程上的思维将代码整合排版，我挺烦什么代码逻辑严谨性的问题，但是我又不得不承认这样的好处，我们要开始将角色转换出来，不应该是一个工…

阅读更多...

Understanding Cascade Left Joins and Writing Complex Queries

Understanding Cascade Left Joins and Writing Complex Queries

文章目录 a left join b left join cuser casesql query execution order In SQL, the left join is a powerful tool for combining data from multiple tables based on a common column. In this blog post, we will explore the concept of cascade left joins, providing …

阅读更多...

面试之MySQL中的mvcc

面试之MySQL中的mvcc

首先需要知道什么是 MVCC? MVCC 多版本并发控制。MVCC就是通过数据行的多个版本管理来实现数据库的并发控制。这项技术是的InnoDB的事务隔离级别下执行一致性读有了保证。换言之，就是为了查询一些正在被一个事务更新的行。并且可以看到他们被更新之前的值。查询在…

阅读更多...

【excel细碎小知识点】

【excel细碎小知识点】

目录索引 &符号的用法：实例演示： 数字显示和位数的区别：分列功能的妙用：什么叫做常规类型： &符号的用法： **连接字符串:**转化后都是文本字符串类型。你可以通过修改数据类型进行更多可能的操作实…

阅读更多...

高等数学❤️第一章~第二节~极限❤️极限的概念与性质~极限的性质详解

高等数学❤️第一章~第二节~极限❤️极限的概念与性质~极限的性质详解

【精讲】高等数学中极限的性质解析博主：命运之光的主页专栏：高等数学目录【精讲】高等数学中极限的性质解析导言一、基本性质二、四则运算三、极限存在性四、唯一性五、其他性质必需记忆知识点例题（用于熟悉高等数学中…

阅读更多...

wordpress怎么更改主题自带的页脚或设置不显示？

wordpress怎么更改主题自带的页脚或设置不显示？

本文直接提供改原主题代码的方式进行修改首先我们进入站点的后台，依次点击外观---->主题文件编辑器然后确定自己的主题是不是想要更改的，之后找到footer.php文件进行修改可以自己去找一些合适的主题代码复制进去如果想要不显示，可以…

阅读更多...

《面试1v1》大厂的Kafka使用场景

《面试1v1》大厂的Kafka使用场景

🍅 作者简介：王哥，CSDN2022博客总榜Top100🏆、博客专家💪 🍅 技术交流：定期更新Java硬核干货，不定期送书活动 🍅 王哥多年工作总结：Java学习路线总结&#xf…

阅读更多...

按键控制led变化

按键控制led变化

文章目录按键控制led变化一、简介二、代码三、仿真代码四、仿真结果五、总结按键控制led变化一、简介使用按键控制开发板上一个led灯的亮灭，当按键按下的时候led灯就亮，当再一次按下按键的时候led就不亮了。由于按键存在抖动，按键松开的…

阅读更多...

linux中常见命令（1）

linux中常见命令（1）

目录 1. less命令 2. cut 命令 3. head和tail命令 4. awk命令 5. tr命令 6. sed 命令 7. uniq 命令 1. less命令用法：less [option]<filename>##同时打开多个文件 less <filename1> <filename2> <filename3> 点按“q”退出less。利…

阅读更多...

推荐文章

最新文章