文章目录
- Abstract
- 1 Introduction
- 2 Related Work
-
- 用于构造性启发式的深度强化学习
- 当前用于更好编码的方法
- 3 LCH-Regret
- 学习构造性启发式
- 反悔机制
- LCH - Regret 机制的 L R L_R LR
Abstract
深度强化学习的神经组合优化中,学习构造性启发式(LCH)通过快速的自回归解构建过程实现高质量的解决方案。
然而,这些基于LCH的方法在收敛性方面存在不足,与最优解仍存在性能差距。直观地说,在构建过程中学习对某些步骤反悔有助于提高训练效率和网络表示。本文提出了基于反悔的新颖机制,用于改进构建过程。
该方法可以作为插件用于任何现有基于LCH的DRL-NCO方法。
1 Introduction
LCH 方法具有更快的推理速度,并在泛化能力方面表现出优势(Ma 等人,2021;Liu 等人,2023)。当前基于 LCH 的 DRL - NCO 方法的网络架构,如注意力模型(AM)(Kool,van Hoof 和 Welling,2019)、Pointerformer(Jin 等人,2023)和 POMO(Kwon 等人,2020),采用了轻量级解码器和具有大量参数的重编