RL4RS,离线强化学习,无模型强化学习等等资源汇总

news2024/9/20 10:52:39

发现好文章:

强化学习推荐系统综述:Reinforcement Learning based Recommender Systems: A Survey

强化学习图鉴|你与最优策略之间,可能还差一本离线强化学习秘籍
科学应用强化学习创新论文洞察
https://hub.baai.ac.cn/view/18131

在这里插入图片描述
代码收集:
RL4RS: A Real-World Dataset for Reinforcement Learning based Recommender System https://github.com/fuxiAIlab/RL4RS

https://github.com/opendilab/awesome-model-based-RL

https://opendilab.github.io/DI-engine/11_dizoo/index_zh.html

https://github.com/PaddlePaddle/PARL

https://spinningup.readthedocs.io/zh_CN/latest/spinningup/exercises.html#problem-set-1-basics-of-implementation

two additional model-based batch RL baselines, MOPO (Model-based Offline Policy Optimization) and COMBO(Conservative Offline Model-Based Policy Optimization).
https://github.com/tianheyu927/mopo

通过无动作离线预训练指导在线强化学习
arXiv - CS - Artificial Intelligence Pub Date : 2023-01-30 , DOI: arxiv-2301.12876
Deyao Zhu, Yuhui Wang, Jürgen Schmidhuber, Mohamed Elhoseiny

离线 RL 方法已被证明可以通过使用离线收集的剧集训练代理来减少对环境交互的需求。然而,这些方法通常需要在数据收集期间记录操作信息,这在某些实际情况下可能很困难甚至不可能。在本文中,我们研究了使用无动作离线数据集来改进在线强化学习的潜力,将这个问题命名为 Reinforcement Learning with Action-Free Offline Pretraining (AFP-RL)。我们介绍了无动作指南(AF-Guide),一种通过从无动作离线数据集中提取知识来指导在线培训的方法。AF-Guide 由一个 Action-Free Decision Transformer (AFDT) 组成,它实现了一种颠倒强化学习的变体。它学习从离线数据集中规划下一个状态,以及在 AFDT 的指导下在线学习的 Guided Soft Actor-Critic (Guided SAC)。实验结果表明,由于来自无动作离线数据集的知识,AF-Guide 可以提高在线训练中的样本效率和性能。

https://www.x-mol.com/paper/1620534066889703424/t

具有动作表示的离线强化学习
Information Sciences ( IF 8.233 ) Pub Date : 2022-08-11 , DOI: 10.1016/j.ins.2022.08.019
Xingzhou Lou , Qiyue Yin , Junge Zhang , Chao Yu , Zhaofeng He , Nengjie Cheng , Kaiqi Huang

流行的离线强化学习(RL)方法将策略限制在离线数据集支持的区域内,以避免分布偏移问题。但是这些方法忽略了数据集分布之外的潜在高回报行为。为了解决这个问题,我们提出了一种新方法,该方法从离线数据集推广到分布外(OOD)动作。具体来说,我们设计了一种新颖的动作嵌入模型来帮助推断动作的效果。结果,我们的价值函数在动作空间上达到了更好的泛化,并进一步缓解了高估 OOD 动作引起的分布偏移。从理论上讲,我们对价值函数在动作空间上的泛化能力的改进给出了信息论的解释。在 D4RL 上的实验表明,与以前的离线 RL 方法相比,我们的模型提高了性能,尤其是当离线数据集的体验良好时。我们进行了进一步的研究并验证了价值函数对 OOD 动作的泛化得到了改进,这增强了我们提出的动作嵌入模型的有效性。
https://www.x-mol.com/paper/1557917487561093120/t?recommendPaper=1620534066889703424

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【论文精读】PP-YOLOE: An evolved version of YOLO

文章目录前言一、可扩展的 Backbone 和 Neck二、更高效的标签分配策略 TAL (Task Alignment Learning)三、更简洁有效的 ET-Head (Efficient Task-aligned Head)前言 百度飞桨团队发布了 PP-YOLOE,与其他 YOLO 系列算法相比,其具有更强的性能、更丰富灵…

8.2 正态总体的参数的检验

学习目标: 如果我要学习正态总数的参数检验,我会按照以下步骤进行学习: 学习正态分布的基本知识:正态分布是统计学中非常重要的概率分布之一,掌握其基本知识包括概率密度函数、期望值、方差、标准差等是非常重要的。 …

Prometheus - Grafana 监控 MySQLD Linux服务器 demo版

目录 首先是下载Prometheus 下载和安装 配置Prometheus 查看监控数据 监控mysql demo 部署 mysqld_exporter 组件 配置 Prometheus 获取监控数据 -------------------------------------- 安装和使用Grafana 启动Grafana -------------------------------------- 配…

MySQL5.5安装图解

一、MYSQL的安装 1、打开下载的mysql安装文件mysql-5.5.27-win32.zip,双击解压缩,运行“setup.exe” 2、选择安装类型,有“Typical(默认)”、“Complete(完全)”、“Custom(用户自定义)”三个选项,选择“Cu…

VSD Viewer for Mac,Visio绘图文件阅读器

VSD Viewer for Mac版是mac上一款非常强大的Visio绘图文件阅读器,它为打开和打印Visio文件提供了简单的解决方案。可以显示隐藏的图层,查看对象的形状数据,预览超链接。还可以将Visio转换为包含图层,形状数据和超链接的PDF文档。 …

【状态估计】基于增强数值稳定性的无迹卡尔曼滤波多机电力系统动态状态估计(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Linux 进程管理之四大名捕

一、四大名捕 四大名捕,最初出现于温瑞安创作的武侠小说,是朝廷中正义力量诸葛小花的四大徒弟,四人各怀绝技,分别是轻功暗器高手 “无情”、内功卓越的高手“铁手”、腿功惊人的“追命” 和剑法一流的“冷血”。 本文四大名捕由…

【Unity入门】11.脚本控制物体旋转

【Unity入门】脚本控制物体旋转 大家好,我是Lampard~~ 欢迎来到Unity入门系列博客,所学知识来自B站阿发老师~感谢 (一)控制物体自转 (1)创建RotateLogic脚本 上一篇文章我们学习了如何在脚本中获取物体对象…

【前端工具】使用真机在chrome远程调试

手机端需要做的事 手机上下载chrome浏览器 手机开启“开发者模式” 具体步骤各个品牌手机不太一样,华为手机为例: 打开手机上的 “设置” 图标, 进入最下方 “系统” 选项, 再点击最上方 “关于手机”, 接着连续点击 …

(十八)排序算法-计数排序

1 基本介绍 1.1 概述 计数排序是一个非基于比较的排序算法,元素从未排序状态变为已排序状态的过程,是由额外空间的辅助和元素本身的值决定的。该算法于1954年由 Harold H. Seward 提出。它的优势在于在对一定范围内的整数排序时,它的复杂度…

一文解读基于PaddleSeg的钢筋长度超限监控方案

项目背景 钢铁厂生产钢筋的过程中会存在部分钢筋长度超限的问题,如果不进行处理,容易造成机械臂损伤。因此,需要通过质检流程,筛选出存在长度超限问题的钢筋批次,并进行预警。传统的处理方式是人工核查,该方…

数组(九)-- LC[316][321][402] 去除重复字母

1 移掉 K 位数字 1.1 题目描述 题目链接:https://leetcode.cn/problems/remove-k-digits/ 1.2 思路分析 这道题让我们从一个字符串数字中删除 k 个数字,使得剩下的数最小。也就说,我们要保持原来的数字的相对位置不变。 以题目中的 num1432…

深度学习第J5周:DenseNet+SE-Net实战

目录 一、介绍 二、前期准备 二、模型 三、训练运行 3.1训练 3.2指定图片进行预测 🍨 本文为[🔗365天深度学习训练营]内部限免文章(版权归 *K同学啊* 所有) 🍖 作者:[K同学啊] 📌 本周任务&…

网络安全之防火墙

目录 网络安全之防火墙 路由交换终归结底是联通新设备 防御对象: 定义: 防火墙的区域划分: 包过滤防火墙 --- 访问控制列表技术 --- 三层技术 代理防火墙 --- 中间人技术 --- 应用层 状态防火墙 --- 会话追踪技术 --- 三层、四层 UTM…

【手把手带你五分钟手机端注册使用GPT的强力对手Claude,免费,无任何成本】

前言 今天刷到了号称是媲美GPT-4的Claude介绍,无需魔法,无任何成本即可以使用,果断尝试注册使用,效果确实不错,关键是免费无成本!!! Claude使用的是Constitutional AI模型。ChatGPT…

亚马逊平台快速消耗滞销品的七大方式

一、亚马逊后台直接进行清仓 1、卖家和商品的资格 在管理多余库存页面上,可以查看亚马逊根据买家需求和其他因素推荐了哪些符合要求的商品参加清仓计划。商品当前价格下的消息将显示商品是否符合清仓促销要求(通过创建清仓促销提交)或清仓店铺要求(通过创建销售提…

Windos下设置java项目开机自启动

这里是将java项目注册为Windows服务实现开机自启动。 查看.NET framework版本 因为使用winsw工具运行时需要使用.NET framework,基本上现在的win10系统带自带有.NET framework4.0,为了选择合适的版本,我们可以查看本机.NET Framework版本,根…

差速巡线机器人设计-良好(80+)的报告-2023

如何提分?将一篇报告提升20分以上呢?差速巡线机器人设计-及格(60)的报告-2023_zhangrelay的博客-CSDN博客姓名: 学号: 实践项目1名称:差速巡线机器人设计 60分:缺乏思考、没有对比、…

恒生电子面试题总结

CPU突然飙升,如何排查 1.监控cpu运行状态,显示进程运行信息列表 top -c 2. 按CPU使用率排序,键入大写的P P 3.用 top -Hp 命令查看占用 CPU 最高的线程 上一步用 top命令找到了那个 Java 进程。那一个进程中有那么多线程,不可…

[oeasy]python0132_[趣味拓展]emoji_表情符号_抽象话_由来_流汗黄豆

emoji表情符号 回忆上次内容 上次了解了unicode 和 utf-8 unicode是字符集utf-8是一种可变长度的编码方式utf-8是实现unicode的存储和传输的现实的方式 "拜"字 unicode编码是0x62dcutf-8字节形式是b"\xe6\x8b\x9c" 如果我想看看 b"\x62\xdc"用…