TD3算法
全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进,论文
改进如下:
- T w i n \mathcal{T}win Twin:使用了两个critic来评估actor的动作价值,对应两个critic target,一个actor target,因此总共有6个神经网络。
- D e l a y e d \mathcal{D} elayed Delayed:critic参数更新几次之后,才更新actor参数,并把参数同步给各自的target
- 使用较小的 Q t a r g e t Q_{target} Qtarget值更新critic参数,这是为了防止critic "评分"过高,使得actor “骄傲”