0.demo展示
当我复现强化学习算法 DDPG 时,我发现论文中缺少必要的实现细节,例如:Gamma、噪声方差、最大训练步数等参数的取值。此外,在我调整参数,成功完成某次训练后,当我对随机种子进行修改,发现训练时长有很大变化,甚至有时候无法完成训练。更别提把在某个任务上 work 的代码换到相似任务上的艰辛历程了。
如果你被这些问题困扰,那么你可能需要这份代码。由于我找不到符合我要求的轮子(2019-08),所以我只能自己造了,我认为这份代码解决了以上问题,符合以下要求:
- 算法适用性广,适用于不同的任务(即便不做修改,也能完成不同的 Gym 的游戏)
- 算法比较简单,代码可读性强(若某个结构加入后对性能提升小,那么删去此结构)
- 算法训练时间短,训练稳定(训练时间不超过 1 小时,即使更换 RandomSeed)
通关双足机器人硬核版 (BipedalWalkerHardcore-v3), 训练比较快(旧记录是 10,000 + 轮) 使用 IntelAC 算法&#