发现好文章:
强化学习推荐系统综述:Reinforcement Learning based Recommender Systems: A Survey
强化学习图鉴|你与最优策略之间,可能还差一本离线强化学习秘籍
科学应用强化学习创新论文洞察
https://hub.baai.ac.cn/view/18131
代码收集:
RL4RS: A Real-World Dataset for Reinforcement Learning based Recommender System https://github.com/fuxiAIlab/RL4RS
https://github.com/opendilab/awesome-model-based-RL
https://opendilab.github.io/DI-engine/11_dizoo/index_zh.html
https://github.com/PaddlePaddle/PARL
https://spinningup.readthedocs.io/zh_CN/latest/spinningup/exercises.html#problem-set-1-basics-of-implementation
two additional model-based batch RL baselines, MOPO (Model-based Offline Policy Optimization) and COMBO(Conservative Offline Model-Based Policy Optimization).
https://github.com/tianheyu927/mopo
通过无动作离线预训练指导在线强化学习
arXiv - CS - Artificial Intelligence Pub Date : 2023-01-30 , DOI: arxiv-2301.12876
Deyao Zhu, Yuhui Wang, Jürgen Schmidhuber, Mohamed Elhoseiny
离线 RL 方法已被证明可以通过使用离线收集的剧集训练代理来减少对环境交互的需求。然而,这些方法通常需要在数据收集期间记录操作信息,这在某些实际情况下可能很困难甚至不可能。在本文中,我们研究了使用无动作离线数据集来改进在线强化学习的潜力,将这个问题命名为 Reinforcement Learning with Action-Free Offline Pretraining (AFP-RL)。我们介绍了无动作指南(AF-Guide),一种通过从无动作离线数据集中提取知识来指导在线培训的方法。AF-Guide 由一个 Action-Free Decision Transformer (AFDT) 组成,它实现了一种颠倒强化学习的变体。它学习从离线数据集中规划下一个状态,以及在 AFDT 的指导下在线学习的 Guided Soft Actor-Critic (Guided SAC)。实验结果表明,由于来自无动作离线数据集的知识,AF-Guide 可以提高在线训练中的样本效率和性能。
https://www.x-mol.com/paper/1620534066889703424/t
具有动作表示的离线强化学习
Information Sciences ( IF 8.233 ) Pub Date : 2022-08-11 , DOI: 10.1016/j.ins.2022.08.019
Xingzhou Lou , Qiyue Yin , Junge Zhang , Chao Yu , Zhaofeng He , Nengjie Cheng , Kaiqi Huang
流行的离线强化学习(RL)方法将策略限制在离线数据集支持的区域内,以避免分布偏移问题。但是这些方法忽略了数据集分布之外的潜在高回报行为。为了解决这个问题,我们提出了一种新方法,该方法从离线数据集推广到分布外(OOD)动作。具体来说,我们设计了一种新颖的动作嵌入模型来帮助推断动作的效果。结果,我们的价值函数在动作空间上达到了更好的泛化,并进一步缓解了高估 OOD 动作引起的分布偏移。从理论上讲,我们对价值函数在动作空间上的泛化能力的改进给出了信息论的解释。在 D4RL 上的实验表明,与以前的离线 RL 方法相比,我们的模型提高了性能,尤其是当离线数据集的体验良好时。我们进行了进一步的研究并验证了价值函数对 OOD 动作的泛化得到了改进,这增强了我们提出的动作嵌入模型的有效性。
https://www.x-mol.com/paper/1557917487561093120/t?recommendPaper=1620534066889703424