代码地址见文末
摘要
自主着陆控制在航天任务中是极具挑战性的技术问题,尤其是在高维状态空间和连续动作空间下,传统的控制方法存在局限性。本文采用强化学习中的**PPO(Proximal Policy Optimization)**算法,对经典的月球登陆器问题进行求解。通过构建强化学习框架,智能体通过与环境交互学习最优控制策略,实现高效且稳定的自主着陆。实验结果表明,PPO能够快速收敛并获得较高的任务成功率,为解决连续控制问题提供了有效的方法与理论支持。
1.介绍
(1)研究背景
在航天任务中,着陆器自主控制是影响任务成功率的关键技术。月球着陆任务要求控制器根据实时状态,调节推进器的推力和方向,平稳地将着陆器降落到指定位置,同时考虑燃料的最小消耗。然而,由于环境复杂、不确定性强,基于规则的控制方法难以满足实时任务需求。 强化学习(Reinforcement Learning, RL)作为机器学习中的一大类方法,通过智能体与环境的交互学习策略,能够自主优化控制行为,为解决复杂控制问题提供了新的思路。本研究中,我们基于强化学习中的PPO算法,针对OpenAI Gym提供的“月球登陆器”任务进行求解与分析,验证PPO在连续动作空间问题中的性能与优势。