异步两种方法:1:经验回放 2:数据动作非同时产生
举例QLearning为什么是异策略?
生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。
策略优化两种主要方法:基于梯度下降和基于值函数
Policy Gradient主要缺点:不稳定(坏策略迭代导致越来越坏),都是on-policy的 始终都是一种策略采样和更新效率低。
###########################################################################
Policy Gradient主要优化目标:(笔记5里有讲)
这里对比A3C 改进版的优化目标
############################################################################
AC,A2C,A3C 参考
这里注意Critic网络和Actor网络的更新:
对于Actor网络的策略梯度更新,使用Glearning策略梯度定理根据当前的策略 计算更新梯度
对于Critic网络的值函数更新,我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差
A2C使用优势函数代替Critic网络中的原始回报Gt,可以作为衡量选取动作值和所有动作平均值好坏的指标。
A3C中,有一个全局网络(global network)和多个工作智能体(worker)
global network和worker里面都是A2C
worker和环境交互计算梯度不更新,传给globalNet。
globalNet不和环境交互,收集所有worker传来的梯度一起更新,然后将参数copy给worker。
==