DDPG算法 全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进 对DQN算法:使其能够适用于连续动作空间对DPG算法:使用神经网络来拟合函数 算法介绍 核心:确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂 训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target 算法伪代码