深度强化学习:深度解析 MADDPG
学习强化学习,码代码的能力必须要出众,要快速入门强化学习 搞清楚其中真正的原理,读源码是一个最简单的最直接的方式。最近创建了一系列该类型文章,希望对大家有多帮助。
另外,我会将所有的文章及所做的一些简单项目,放在
1.MADDPG 原理
OpenAI 2017 论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》
知乎已经比较详细介绍了
本文主要分析该开源程序的架构。
该程序主要是对 文章中的 environment 的实验进行房展
在试验中 存在 agent 和 landmarks
实验一:speak 不能动 但是可以看,listener 说一个颜色 listener 就到一个颜色的 landmark 上去
实验二:在这种经典的捕食者 - 食饵游戏变体中,N 个较慢的 Predator 在 Landmark 阻碍下追赶速度更快的 Prey
每一个 Pr