1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么?
参考答案:
- GAE(Generalized Advantage Estimation) 的优势在于通过指数加权多步TD误差,平衡优势估计的偏差与方差,提升策略优化的稳定性。
- γ(折扣因子):控制未来奖励的衰减程度,值越大表示更关注长期收益。
- λ(GAE衰减因子):调节多步优势估计的权重,λ=1时等价于蒙特卡洛估计(高方差低偏差),λ=0时退化为单步TD误差(低方差高偏差)。
2. PPO算法和DQN算法的区别是什么?
参考答案:
- PPO:基于策略梯度方法,直接优化策略网络,支持连续动作空间,通过重要性采样和Clip机制限制策略更新幅度。
- DQN:基于值函数逼近,学习Q值网络,仅适用于离散动作空间&#x