【论文】Continuous Rapid Action Value Estimates阅读笔记

news2026/3/1 1:00:06

之前在阅读KR-UCT论文时，里面提到过与UCT结合的主要两种启发式方法旨在指导探索策略，通过使用渐进拓宽（PW）限制考虑的行动的数量，并使用快速行动价值估计（RAVE）选择最有前途的行动。因此找了一篇RAVE来学习一下。

MCTS最常使用上置信树算法来处理探索和利用之间的权衡，而一些启发式算法被用于指导在大型搜索空间中的探索。在这些启发式方法中，包括快速行动值估计（RAVE）。虽然RAVE被认为是MCTS效率的一个关键因素，但到目前为止，它一直局限于离散的作用空间和状态空间。本文的重点是利用基于高斯卷积的平滑技术将RAVE扩展到连续动作和状态空间。

PW和RAVE提出的原因：

根据式(1)，每一个可能的动作都必须在每个状态中选择一次，当手臂数量在时间范围下很大，这是很难处理的(every possible action must be selected once in each state, which is hardly tractable when the number of arms is large in front of the time horizon，实在不知道该怎么通俗地解释，只能意会，不能言传)；同样，式(1)不能用于一个连续的手臂空间。为了解决这个限制，每个节点树中要考虑的手臂的数量受到限制（PW启发式），手臂的选择也受到控制（RAVE）。

Progressive Widening（PW）：

渐进扩展（PW）启发式根据访问的次数n (s)限制了状态s中考虑的动作的数量。渐进式增宽也被用于连续的动作空间。具体地说，PW在状态s中允许的动作的数量pw（n(s)）被设置为的整数部分，p=为2或4。在增加pw（n(s)）后，RAVE用于选择下一个要考虑的操作。

（之后会再找一篇有关PW的论文进行学习）

Rapid Action Value Estimation（RAVE）：

快速行动价值估计（RAVE），它旨在通过分享沿着游戏树的不同子树收集的奖励，对行动进行更稳健的评估。形式上，设表示在访问状态s后选择了动作a的所有树行走的平均经验奖励，并且设是这种树行走的次数。

是动作a的之和。

连续RAVE算法：

连续动作空间：

虽然所提出的离散RAVE方法支持动作值的快速估计，但其可靠性随着可以考虑的动作数量在相同的情况下增加其他因素的增加而降低。事实上，在连续的动作空间a中，期望中给定动作的尝试次数为0，这使得RAVE无用。因此，我们可以很自然地考虑动作值的平滑估计，例如使用高斯卷积。

给定训练集：

与某个相关的值y的高斯估计定义为：

其中，σ是一个平滑参数，加权x和d（x，x‘）的最近邻的相对重要性，表示空间上所选择的距离。在本文的其余部分中，将只考虑上的欧氏距离。

沿着这条线，让表示从s开始的树行走，让表示相关的累积经验奖励。

则被定义为：

其中是一个问题相关参数（为了同质性，与动作空间的平方维数成正比）；表示所有中涉及的动作的总数，表示随着现有经验证据的增加而达到高斯卷积的峰值。计数器同样用高斯卷积估计，由(用计算)

离散情况下的和连续情况下的都考虑了所有访问状态S和之后收集的累积奖励的tree-walks。两者的区别在于只考虑执行动作a的tree-walks，而认为都有一个根据执行的动作和考虑的动作a之间的距离呈指数下降的权重。因为比更biased（因为它考虑了所有的动作，尽管是加权），因此考虑了和的动态组合：

选择最大化的动作

要注意的是，仅作为动作空间的有限子集进行计算，由于PW效应，每一个状态节点只考虑一定数量的动作，相关的连续快速动作值估计（RAVE）在每次tree-walk之后更新。

连续状态空间：

如前所述，和都十分biased，因为它们考虑每一次tree-walk有条件地访问状态s，并在之后执行动作a或其他相似的动作，尽管这一动作可能会在一个与状态s很不同的状态中执行。

在连续状态空间里，它很自然根据之间的距离来加权与某些状态-动作对相关的贡献。

其中，常数与问题有关，与状态空间的平方维数成正比，作为估计的可用证据的峰值。

实验验证

实验目标和实验设定

实验的主要目标是相对于MCTS/UCT基线，评估动作和状态-动作连续RAVE启发式的效率。

这两种启发式都插入了相同的MCTS/UCT算法与双渐进拓宽和默认参数。经过几次初步实验，将问题相关参数的值设置为，其中分别对应于动作空间和状态空间的维数。在动作空间和状态空间中所选择的距离都是欧氏距离。

一式中的k被设定为50。

实验的第二个目标是研究连续RAVE启发式对时间范围和状态空间大小的敏感性。

寻宝问题

状态空间：这个寻宝问题的游戏环境是一个长宽为D的正方形竞技场，所以智能体的状态空间是。

智能体的目标：从起始点（位于左下角）出发，到达右上角的Treasure终点。

动作空间：智能体的速度是固定的，它的方向角a（应该就是动作空间了）的取值范围是。

奖励设置：在每一时间步中，智能体会得到一个即时奖励-1；最终到达Treasure终点是给予奖励1000；如果在洞里则会得到即时奖励-500。

游戏考虑了两种选择：具有确定性或机率性转移概率；有或没有洞（竞技场中心的长宽为h的正方形）。

转移概率定义为：

在状态下选择动作（也就是方向角）a时，智能体到达状态，其中表示从中均匀抽取的随机变量（确定性情况下）

tree-walk停止的条件：智能体到达treasure终点或掉进洞里；或走了10D的距离。

在确定性情况设置下，最佳奖励是1000减去起始位置和treasure终点之间的最短路径，也就是需要避开洞。而在机率性情况的设置下，最优策略很难找到。

寻宝问题实验结果

情况一：在没有洞、确定性转移下的比较结果

在这种最简单的设置中，方法之间并没有显著的差异，尽管显著地改善了UCT小时间预算。有趣的是，并没有显著改善。因为最优化轨迹时从初始点到treasure终点的直线，最优选择并不依赖于当前状态。当最优选择取决于当前状态时，也就是在更复杂的设置中，的优势将会凸显出来。

情况二：机率性转移，最优动作取决于状态s

在这种情况下，和都明显改善了UCT，但出乎意料的是，比更表现地优秀，尤其是噪音是适中的时候。原因如下：一方面，当不考虑状态的时候，估计方差（estimate variance）比较低；另一方面，最优选择仅仅略微取决于状态s。总的来说，因此使估计更快地收敛，而其偏差保持中等。这一解释被证实为和之间的差距随着噪声振幅的增大而减小。