强化学习-论文调研-泛化性能力度量

news2024/10/7 6:43:43

 1.[ICML2019]Quantifying Generalization in Reinforcement Learning

​    文章提出16000多个单智能体闯关游戏CoinRun,通过智能体在分割开的训练环境和测试环境上表现的性能作为RL泛化性的度量。具体而言作者通过”奔跑硬币泛化曲线“ (CoinRun Generalization Curves)来评价泛化性,训练和测试时关卡等级服从同分布,所以殉难联合测试表现得差异代表了过拟合程度。

​    结论:1. 更深的CNN网络有益于防止过拟合  2. L2正则化和冻肉皮 out 有益于泛化性,dropout作用更小( Empirically, the most effective dropout probability is p = 0.1 and the most effective L2 weight is w = 10−4 .) 3. 批归一化Batch Normalization 有益于泛化性(As we can see, batch normalization offers a significant performance boost.) 4. 增加策略随机性或者环境随机性,具体是增加、epsilon-greedy和ppo中的熵奖励(但可能因环境不同具体效果差异大,在状态转移高度随机的环境中增益小)

​    1.RL过拟合定义:在见过的环境上通关率高,没见过的通关率低(CoinRun Generalization Curves)

 2.[Arxiv 2018]*(173cited) Assessing Generalization in Deep Reinforcement Learning

​        本文提出一个泛化性的基准和实验方案——对一些经典的强化学习环境-gym 的参数进行内插和外插,内插即训练参数和测试参数相似,外插是不相似。

 3. [Arxiv 2021] A Survey of Generalisation in Deep Reinforcement Learning

​    在监督学习中骂我们将训练和测试的表现差距作为泛化性的测量,与它相似的在强化学习中,交换训练和测试顺序,泛化性的差距度量为

其中:

Ctrain 是一个训练的上下文集合,Ctest是一个测试的上下文集合,p(c)是文本的的分布,它影响的是初始状态的分布

上下文C是对智能体agent不可兼得,这使得CMDP成为一个POMDP。

论文指出在MDP中,奖励函数、转移函数、初始状态分布和发射函数都以上下文作为输入。除了动作空间是固定的外,上下文的选择决定了MDP的一切。

泛化性使用的方法,主要从哪几方面入手具有什么问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1003166.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SSM的会员管理系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

Cocos独立游戏开发框架(十六):UI管理器

引言 本系列是《8年主程手把手打造Cocos独立游戏开发框架》,欢迎大家关注分享收藏订阅。 UI管理器用于管理游戏中所有的UI界面,更加方便快捷地管理UI界面的创建、销毁以及层级管理。本文将深入探讨Cocos独立游戏开发框架中的UI管理器. 本文源码和源工…

获取1688同行还在看 API 返回值说明(调用演示,详细步骤)

接口名称:item_search_peerbuy 功能说明:此API用来获取看过此商品的同行还在看的其他商品列表。通过传入参数num_iid:商品ID和sid:1688店铺标识id(详情接口可获取),获取到同行还在看的其他商品列表,响应参数包括商品i…

explain各字段的含义

“ MySQL 5.6.3以前只能EXPLAIN SELECT; 5.6.3以后就可以EXPLAIN SELECT,UPDATE,DELETE 有这样一张user表,300多万行记录,表结构及索引信息如下: 对于sql: SELECT * FROM user WHERE id > 20000 AND country > 1 AND grade IN ( 1, 4 ) AND city IN ( 1, 500, 1000, 1…

【LeetCode: 1462. 课程表 IV:拓扑排序+图+广度优先搜索】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

开源社区赋能,Walrus 用户体验再升级

基于平台工程理念的应用管理平台 Walrus 已于上月正式开源,目前在 GitHub 已收获 177 颗星🌟 Walrus 希望打造简洁清爽的应用部署与管理体验,帮助研发与运维团队减少“内耗”工作,提升开发体验。 我们十分重视 Walrus 用户的…

SpringBoot AOP实现日志或告警(高级)

文章目录 总结:技术点 动态代理 模版方法模式 线程池异步处理/MQ一、目的二、难点:如何实现不同接口不同入参的数据转换?三、代码实现1.定义 切点注解接口2.定义 转换接口和模版方法3.定义 切面类4.定义 转换实现类5.业务方法使用注解6.常量类和枚举 …

pytorch中的seq2seq的人们国籍分类的示例

一、查漏补缺、用法分析: 1.这个简单的RNN网络示意图是我看过的最清晰明了的: 2.震惊!原来之前关于seq2seq不明白的地方这里都进行了对应的讲解 02 用字符级别的循环神经网络来判断一个人的名字是哪个国家的常用名 - 知乎 (zhihu.com) 请认…

通过bigMap工具获取地图上各地方的经纬度范围

首先去官网下载bigMap工具,地址:http://www.bigemap.com/reader/download/ 下载成功点击软件,我们会出现这个页面,然后接下来就是选择区域了 相对应上面的操作之后,我们点击箭头,把我们的这个区域下载下来,…

win 10 安装新程序总是弹出提示:目前无法访问smartscreen

win 10 安装新程序总是弹出提示:目前无法访问smartscreen 因为后来无法再现警告,无法截图 搜索安全,找到 Windows 安全中心 找到“应用和浏览器控制”,关闭其中 2 项 SmartScreen 奇怪的是,之后我又改回去了&#x…

自助式数据分析平台:JVS智能BI功能介绍(二)数据集管理

数据集是JVS-智能BI中承载数据、使用数据、管理数据的基础,同样也是构建数据分析的基础。可以通俗地将其理解为数据库中的普通的表,他来源于智能的ETL数据加工工具,可以将数据集进行分析图表、统计报表、数字大屏、数据服务等制作。 在整体的…

Codeforces Round 897 (Div. 2) D. Cyclic Operations

置换环。 i向a[i]连边,最终一定会连出一个环,有可能存在着一条链在后边跟这,这个环的长度一定要等于k才是满足题意的。 出现链的原因就是链在成环的路上被另一条成环的路覆盖了。 对于任何k > 2的情况,链是可以任意长的&…

开学ipad手写笔有必要买原装吗?推荐平价好用的电容笔

学生们都在为即将到来的新学期做准备,而iPad又是必不可少的一部分。科技的飞速发展改变了人们的生活。现在,各种各样的电子和数字产品都有了,所以才有了这种可以和平板电脑搭配使用的电容笔。随着国内电容笔的芯片技术的不断进步,…

Ubuntu22.04开启后屏幕黄屏

1. 故障现象 系统:Ubuntu22.04 现象:电脑从开机到进入桌面一直屏幕黄屏 2. 故障分析 可能为屏幕色彩调节出现故障 3. 解决方案 系统设置——》色彩——》删除原来的配置(remove profile)——》添加配置Colorspace:Compatibl…

Ubuntu 22.04LTS + 深度学习环境安装全流程

一、 CUDA Toolkit 安装 1. 选择需要安装的版本(下载地址) 2. 选择自己的系统版本获取下载地址和安装指令 3. 运行安装指令进行安装 wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run sudo sh cuda_12.2.…

_locked勒索病毒有什么特点,中了_locked勒索病毒该如何解决?

_locked是一种新型的勒索病毒,它通常通过电子邮件附件、恶意网站、云存储等途径传播。这种病毒一旦感染系统,就会加密受感染设备中的文件,并要求受害者支付一定数额的赎金以解密文件。这种病毒的特点、解决方案和预防措施如下: 特…

皕杰报表(BIOS Report)中设置序号的方法之四

我们分享了皕杰报表设置序号的三种方法,ds.#0,&cellx和row(),有时用这些方法设置序号并不能满足我们的需求,需要配以显示值的使用,使得序号分类更加清楚。我们看下面的主从表,是如何处理序号的显示值的…

第二证券:股利支付率和留存收益率的关系?

股利付出率和留存收益率是股票出资中非常重要的目标,它们可以反映公司的盈余才能和未来开展的潜力。那么,二者之间究竟有什么联系呢? 一、股利付出率和留存收益率的定义 股利付出率是指公司向股东分配的股息占当期净利润的比例,通…

【OAuth漏洞】第三方身份验证-账号接管

目录 什么是OAuth? OAuth 如何用于身份验证? 在 Booking.com 实施 OAuth 为什么 Booking.com OAuth 在 Booking.com 中的工作原理 Booking.com 帐户接管 安全漏洞 1 - 不允许唯一路径 安全漏洞 2 - 开放重定向 安全漏洞 1 2 帐户接管尝试 更…

navicat SSH连接数据库报错: Putty key format too new

问题 下载 Putty 0.79 生成了密钥,但是在navicat 15 使用SSH通道连接数据库报错: Putty key format too new 错误原因和处理 原来是因为生成的私钥格式是 V3 , navicat 15 只能识别 V2 所以,在 PuTTYgen Load 私钥,重新保存为 …