文章目录
- Abstract
- 1 Introduction
- 2 Related work
- 3 Motivation
- 4 多最优策略优化(POMO)
-
- 4.1 从多个起始节点进行探索
- 4.2 策略梯度的共享基线
- 4.3 用于推理的多个贪婪轨迹
- 5 Experiments
-
- 5.1 Traveling salesman problem
- 5.2 带容量限制得车辆路径问题
-
- 5.3 0-1背包问题
- 6 Conclusion
Abstract
在神经组合优化(CO)中,强化学习(RL)可以将深度神经网络转变为解决NP-hard问题的快速、强大的启发式求解器。
这种方法在实际应用中具有很大的潜力,因为它允许在没有专家指导和大量领域知识的情况下找到接近最优解。我们介绍了一种名为POMO(Policy Optimization with Multiple Optima)的端到端方法,用于构建这样的启发式求解器。POMO适用于广泛的CO问题。它旨在利用CO解决方案表示中的对称性。POMO使用修改后的REINFORCE算法,迫使多样化的rollout朝向所有最优解。从经验上看,POMO的低方差基线使得RL训练快速且稳定,并且与以前的方法相比,它对局部最小值的抵抗力更强。我们还介绍了一种新的基于增强的推理方法,与POMO相得益彰。
我们通过解决三个流行的NP-hard问题来证明POMO的有效性,即旅行商(TSP)、带容量限制的车辆路径(CVRP)和0-1背包(KP)。对于所有这三个问题,我们基于POMO的求解器在性能上都比所有最近的学习启发式方法有显著提高。特别是ÿ