论文115：Reinforced GNNs for multiple instance learning (TNNLS‘24)

文章目录

1 要点
2 预备知识
- 2.1 MIL
- 2.2 MIL-GNN
- 2.3 Markov博弈
- 2.4 深度Q-Learning
3 方法
- 3.1 观测生成与交互
- 3.2 动作选择和指导
- 3.3 奖励计算
- 3.4 状态转移和终止
- 3.5 多智能体训练

1 要点

题目：用于MIL的强化GNN

代码：https://github.com/RingBDStack/RGMIL

背景：MIL是一种监督学习变体，它处理包含多个实例的包，其中训练阶段只有包级别的标签可用。MIL在现实世界的应用中很多，尤其是在医学领域；

挑战：现有的GNN在MIL中通常需要过滤实例间的低置信度边，并使用新的包结构来调整图神经网络架构。这样的调整过程频繁且忽视了结构和架构之间的相关性；

RGMIL框架：首次在MIL任务中利用多智能体深度强化学习 (MADRL)。MADRL允许灵活定义或扩展影响包图或GNN的因素，并同步控制它们；

贡献：

引入MADRL到MIL中，实现对包结构和GNN架构的自动化和同步控制；
使用边阈值和GNN层数作为因素案例来构建RGMIL，探索了以前在MIL研究中被忽视的边密度和聚合范围之间的相关性；
实验结果表明，RGMIL在多个MIL数据集上实现了最佳性能，并且具有出色的可解释性；

细节：

RGMIL将训练过程建模为一个完全合作的马尔可夫博弈 (MG)；
通过两个智能体搜索边过滤阈值和GNN层数；
利用反向分解网络 (VDN) 来衡量智能体的贡献和相关性；
引入图注意力网络 (GAT) 并设计参数共享机制以提高效率；

符号表：

符号	含义
$\mathcal{B}$	包集合
$\mathcal{G}$	与包相对应的、图的集合
$\mathcal{Y}$	包标签
$\mathcal{M}$	Markov博弈的七元组
$\mathcal{S}$	$\mathcal{M}$ 的状态空间
$\mathcal{O}$	$\mathcal{M}$ 的观测空间
$\mathcal{A}$	$\mathcal{M}$ 的动作空间
$\mathcal{L}$	智能体或者GNN模型的训练损失
$N$	包数量
$M$	包内实例数量
$L$	GNN层的数量
$T$	时间步的数量
$I$	智能体的数量
$D$	特征表示的维度
$\mathbf{A}$	与图相对应的邻接矩阵
$\mathbf{F}$	与图相对应的实例特征矩阵
$\mathbf{E}$	与图相对应的包图特征矩阵
$\mathbf{Z}$	特征变换矩阵
$\mathbf{C}$	重要性系数矩阵
$i; j; k; l; t$	索引变量
$s; o; a; r$	状态、观测、动作、奖励
$v$	注意力机制特征向量
$\gamma$	折扣系数
$\alpha$	智能体学习率
$\mu$	动作或者奖励的窗口大小
$\lambda$	终止条件的奖励阈值
$\&;\%$	逻辑和取余运算
$\oplus$	拼接操作
$\\|\cdot\\|$	矩阵的Norm函数
$\sigma(\cdot)$	激活函数
$\pi(\cdot)$	智能体状态-动作函数
$\text{RWD}(\cdot)$	奖励函数
$\text{TRN}(\cdot)$	状态转移函数
$\text{AGG}(\cdot)$	特征聚合函数
$\text{POL}(\cdot)$	特征池化函数
$\text{EVL}(\cdot)$	分类性能评估函数

2 预备知识

2.1 MIL

令 $\mathcal{B}=\{\mathcal{B}_i|i=1,\dots,N\}$ 表示包含多个包 $\mathcal{B}_i=\{\mathcal{B}_{i,j}|j=1\dots,M\}$ ，其中 $N$ 和 $M$ 分别表示包和包中实例的数量 (通常 $M$ 是变化的)。每个包对应一个两类包标签 $\mathcal{Y}_i=\max(\mathcal{Y}_{i,1},\dots,\mathcal{Y}_{i,M})$ ，其中 $\mathcal{Y}_{i,j}\in\{0,1\}$ 是假设的实例标签。尽管数据集中少量的实例具有真实的标签，然而在MIL的训练过程中，实例标签是不可用的。因此，MIL的目标是学习一个将包映射为标签的映射函数 $\mathcal{B\to Y}$ ，其中 $\mathcal{Y}=\{ \mathcal{Y}_i | i=1,\dots,N \}$ 。

2.2 MIL-GNN

对于MIL-GNN，其首先需要将所有的包转换为一个图的集合 $\mathcal{G}=\{ \mathcal{G}_i|i=1,\dots,N \}$ ，其中每个包对应一个图 $\mathcal{G}_i=(\mathbf{A}_i,\mathbf{F}_i)$ ，此外，每个实例可以看作是一个节点。每个邻接矩阵 $\mathbf{A}_i\in\mathbb{R}^{M\times M}$ 使用原始节点特征构建，并通过阈值来过滤边，其每个元素表示一跳邻域信息。 $\mathbf{F}_i\in\mathbb{R}^{M\times D}$ 表示实例节点的特征矩阵。

基于此， $L$ 层GNN被用于传递节点特征信息，其中对于第 $i$ 个图 $\mathcal{G}_i$ ，其在第 $l$ 层的聚合过程表示为：
$\tag{1} \mathbf{F}_i^l=\sigma\left( \text{AGG}^l (\mathbf{A}_i,\mathbf{F}_i^{l-1})\right)$ 其中 $\text{AGG}^l(\cdot)$ 表示在第 $l$ 层的聚合函数，例如卷积和注意力、 $\sigma(\cdot)$ 表示激活函数、 $\mathbf{F}_i^l$ 是更新后的特征矩阵。

接下来，一个节点特征池化函数 $\text{POL}(\cdot)$ 被用于GNN的最后一层，以获取最终的图级别特征矩阵 $\mathbf{E}(i)\in\mathbb{R}^{1\times D}$ ：
$\tag{2} \mathbf{E}(i)=\text{POL}(\{ \mathbf{F}_i^L(j) |j=1,\dots,M \})$ 其中 $\mathbf{F}_i^L(j)\in\mathbb{R}^{1\times D}$ 是实例节点 $\mathcal{B}_{i,j}$ 的特征向量。最后， $\mathbf{E}(i)$ 传递给一个包图分类器。因此，在MIL-GNN中，其映射过程为 $\mathcal{B\to G\to Y}$ 。

2.3 Markov博弈

在多智能体强化学习 (MARL) 中，Markov博弈 (MG) 是从Markov决策过程 (MDP) 扩展而来。特别地，一个MG包含多个能够共同影响奖励和状态转移的智能体。根据是否所有的智能体都能完全获得全局状态信息，已有的MG可被看作是完全或者部分可观测，其中后者则更为普遍。

部分可观测的MG可以被抽象为一个七元组 $\mathcal{M}=<\mathcal{S,O_i,A_i},\pi(\cdot),\text{RED}_i(\cdot),\text{TRN}(\cdot),\gamma>$ ，其中：

$\mathcal{S}$ ：MG的全局状态空间；
$\mathcal{A}_i$ ：第 $i$ 个智能体的动作空间。在每个时间步 $t\in[1,T]$ ，每个智能体根据其独有的状态动作函数 $\pi_i(\cdot)$ 来选择动作 $a_i^t\in\mathcal{A}_i$ ；
每个智能体会从全局状态获得一个独立的部分观察 $o_i^t\in\mathcal{O}_i$ ，因此， $\pi_i(\cdot)$ 可以表示为 $\mathcal{S\to O_i\to A_i}$ ；
每个智能体使用其奖励函数 $\text{RED}_i(\cdot)$ 获得即时奖励 $r_i^t$ ，这种博弈也被称为分散的部分可观测MDP (Dec-POMDP)，旨在最大化累积奖励 $\sum^T_{t=1}\gamma^{(t−1)}r^{*t}$ ，其中 $γ$ 表示控制后续奖励的折扣系数；
状态转移函数 $\text{TRN}(\cdot)$ 将当前状态 $s^t$ 与联合动作 $a^{*t}$ 映射到下一个状态 $s^{(t+1)}$ ，即 $\mathcal{S \times A^*\to S}$ 。

2.4 深度Q-Learning

作为基于价值的RL的基算法，Q-Learning非常适合实现单一智能体的顺序决策系统。QLearning包含一个状态-动作表 $π (\cdot)$ ，它记录了各种状态下所有可能动作的 $Q$ 值。初始化后，智能体不断与环境交互，并通过Bellman方程更新 $π (\cdot)$ 直到收敛。 $π (\cdot)$ 的更新过程可以表示如下：
$\tag{3} \begin{aligned} & x = x + \alpha \left[ r_t + \gamma \max_{a} \pi(s_{t+1}, a) - x \right] ]\\ & \text{s.t. } x = \pi(s_t, a_t) \end{aligned}$ 其中： $\pi(s_t, a_t)$ 是预测的Q值，以及在状态 $s_t$ 下选择动作 $a_t$ 的预期奖励、 $r_t$ 表示时间步 $t$ 的即时奖励、 $\max_a \pi(s_{t+1}, a)$ 是下一个状态 $s_{t+1}$ 的最大Q值，以及 $\alpha$ 是 $\pi(·)$ 的学习率。

在实际应用中，许多环境的状态空间是无限的，记录所有状态-动作对的值是不可行的。受深度学习的启发，许多工作引入了深度神经网络 (DNN) 来近似返回值，其中深度Q-Learning (DQN) 是传统Q-Learning的直接扩展：

DQN使用DNN构建动作-价值函数 $π$ （亦称为 $Q$ 函数)，该函数将每个状态向量映射到 $Q$ 值向量 $\pi(s) \in \mathbb{R}^{1 \times |A|}$ ，其中 $∣ A ∣$ 表示动作空间 $A$ 的大小；
DQN应用经验回放和目标网络技术来更新函数 $\pi(·)$ 。例如，给定过去时间步 $t$ 的经验记录，其元组形式为 $\langle s_t, a_t, r_t, s_{t+1} \rangle$ ，则 $π$ 的时序差分损失可以计算如下：
$\tag{4} \begin{aligned} &L_\pi = \mathbb{E}_{s,a,r,s'} \left[ \left( \overline{\pi}(s_t, a_t) - \pi(s_t, a_t) \right)^2 \right]\\ &\text{s.t. } \overline{\pi}(s_t, a_t) = r_t + \gamma \max_a \overline{\pi}(s_{t+1}, a) \end{aligned}$ 其中： $\pi(·)$ 表示评估网络，其用于预测状态 $s_t$ 和动作 $a_t$ 的 $Q$ 值的评估网络、 $\overline{\pi}(·)$ 是一个目标网络，其架构与 $\pi(·)$ 相同。只有 $\pi(·)$ 被优化，并且其训练参数周期性复制到 $\overline{\pi}(·)$ 。由于 $\overline{\pi}$ 不更新时目标 $Q$ 值是稳定的，因此 $\pi(·)$ 的训练稳定性是极好的；
为了权衡探索新动作的概率，DQN应用了 $ϵ$ -贪婪算法。因此，它并不总是选择 $\pi(s)$ 中最大条目的对应动作，其可以表示如下：
$\tag{5} \begin{aligned} a = \begin{cases} \text{random action}, & \text{w.p.} \quad\epsilon \\ \text{argmax}_a \pi(s_t, a), & \text{w.p.} \quad 1 - \epsilon \end{cases} \end{aligned}$ 其中， $\epsilon$ 表示随机选择动作的概率，即探索，而 $1-\epsilon$ 表示选择当前基于 $π$ 的最优动作，即利用。通过这样做，DQN避免了在强化学习任务中的探索-利用困境，避开了局部最优，并促进了更好的 $π$ 函数的发现。

3 方法

本节介绍RGMIL的细节，包括：1) 用于提升博弈公平性的观测生成与交互；2) 用于提升GNN效率的动作选择和指导技术；3) 用于提升博弈稳定性的奖励计算；4) 用于确保博弈收敛的状态转移和终止技术；以及5) 多智能体训练。

RGMIL的总览如图4所示，其中左子图对应章节3.1至3.4，右子图对应章节3.5。

图4：RGMIL总览。左右子图分别对应经验收集和代理优化：1) 每一个时间步，初始观测从当前的block导出；2) 观测作为代理的输入，用于选择当前的动作；3) 构建可信包图，并作为定制的GNN的输入；4) GNN训练后，通过动作组合来评估性能，并确定当前的奖励；5) 带有动作的转移函数作为输入，以生成下一次观测；6) 记录以上过程，到达一定数量后，由VDN执行代理优化

3.1 观测生成与交互

在RGMIL中，我们将其训练过程建模为一个合作的马尔可夫博弈 (MG)，涉及两个智能体，分别用于搜索最佳的边过滤阈值和GNN层数：

利用一个改进的VDN来实现MG：
- 将训练集划分为多个等大小的区块，其中一个区块作为验证集，其余区块用作构建MG状态空间 $S$ ；
- 在第一个时间步之前，随机选择一个训练区块作为全局状态；
- 由于边过滤阈值的选择通常与拓扑信息相关，我们随后指定当前状态中包图的结构特征作为第一个智能体的观察；
- 通过包图的成对相似性建立实例节点的初始边。以属于当前区块的第 $i$ 个包 $\mathcal{B}_i$ 为例，它的包图 $\mathcal{G}_i$ 可以被抽象为一个邻接矩阵 $\mathbf{A}_i$ 以及一个特征矩阵 $\mathbf{F}_i$ ；
- 给定初始矩阵 $\mathbf{F}^0_i$ ，初始邻接矩阵 $\mathbf{A}_i$ 的计算如下：
  $\tag{6} \mathbf{A}_i(j, j') = \|\mathbf{F}^0_i(j) - \mathbf{F}^0_i(j')\|_2$ 其中 $\|\cdot\|_2$ 表示矩阵的二范数、 $\mathbf{A}_i(j, j')$ 编码了第 $j$ 个和第 $j^{'}$ 个实例节点之间的欧式距离。
- 因此，第一个智能体的观察计算如下：
  $\tag{7} \begin{aligned} &o_1(d) = \frac{1}{N_d} \sum_{i=1}^{N_d} \exp(-\mathbf{A}_i)\\ & \text{s.t. } M_i = d, \quad d \in [1, \max M_i] \end{aligned}$ 其中 $o_1(d)$ 表示向量 $o_1$ 的第 $d$ 个条目、 $N_d$ 是当前区块中包的数量，并且它包含的实例数量等于 $d$ 、 $M_i$ 是包图 $G_i$ 的实例节点数量；
由于GNN层数控制特征聚合的迭代，随后从初始节点特征 $\mathbf{F}^0_i$ 中获取第二个智能体的观察：
$\tag{8} o_2 = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{1}{M_i} \sum_{j=1}^{M_i} F^0_i(j) \right)$ 其中 $\mathbf{F}^0_i(j)$ 是第 $j$ 个实例节点的特征向量、 $N$ 是当前区块中包图的总数；
为了进一步探索边密度和聚合迭代之间的潜在相关性，引入了观察信息交互：
$\tag{9} \begin{aligned} &o_1 = o_1 \oplus \sigma((o_1 \oplus o_2)(o_2 \oplus o_1)^T {o_1})\\ &o_2 = o_2 \oplus \sigma((o_1 \oplus o_2)(o_2 \oplus o_1)^T {o_2}) \end{aligned}$ 其中 $\oplus(\cdot)$ 是向量的连接操作。通过此操作，观察 $o_1$ 和 $o_2$ 具有相同的维度，并且都编码了来自对方的信息；

RGMIL减轻了由于观察的特征维度或信息量的变化可能导致的MG中的不公平博弈。此外，为了提高这部分的效率，RGMIL只为每个数据区块一次性计算并记录这些初始邻接矩阵和观察。

3.2 动作选择和指导

当输入当前的观察向量 $o_i$ 后，每个智能体将其映射为一个 $Q$ 值向量 $\pi_i(o_i) \in \mathbb{R}^{1 \times |\mathcal{A}_i|}$ ，并基于最大的 $Q$ 值条目或随机选择一个动作 $a_i$ (如公式5)：

第一个阈值动作 $a_1 \in [0, 1]$ 是一个小数，而第二个层数动作 $a_2$ 是一个整数；
在 $a_1$ 的指导下，可以获得一个更可靠的邻接矩阵 $\mathbf{A}_i$ ：
$\tag{10} \mathbf{A}_i(j, j') = \begin{cases} 1, & \text{if } \exp(-\mathbf{A}_i(j, j')) \geq a_1 \\ 0, & \text{if } \exp(-\mathbf{A}_i(j, j')) < a_1 \end{cases}$
在 $a_2$ 的指导下，RGMIL将构建定制的GNN。以GAT为例，节点特征的聚合过程可以表示为：
$\begin{aligned} &\mathbf{C}^{(l-1)}_i(j, j') = v \cdot (\mathbf{F}^{(l-1)}_i(j) \mathbf{Z}^{(l-1)} \oplus \mathbf{F}^{(l-1)}_i(j') \mathbf{Z}^{(l-1)} )^T\\ &\mathbf{F}^{l}_i(j) = \sigma\left(\sum_{j'}x \mathbf{F}^{(l-1)}_i(j') \mathbf{Z}^{(l-1)}\right)\\ & \text{s.t.}\quad x=\text{softmax}\left(\sigma\left(\mathbf{C}_i^{l-1}\left(j,j'\right)\right)\right)\&\mathbf{A}_i(j,j')=1 \end{aligned}$ 其中： $\in [1, a_2]$ 表示运行 $a_2$ 次迭代聚合、 $\mathbf{F}^{l}_i(j)$ 是第 $l$ 层GNN中第 $j$ 个节点 $\mathcal{B}_{i,j}$ 的 $D_l$ 维特征向量、 $\mathbf{Z}^{(l-1)}$ 表示形状为 $D^{(l-1)} \times D^l$ 的特征转换矩阵。此外， $\in \mathbb{R}^{1 \times 2D^l}$ 表示自注意力机制的特征向量、 $\mathbf{C}_i(j, j')$ 是邻居 $\mathcal{B}_{i,j}$ 相对于其目标 $\mathcal{B}_{i,j'}$ 的重要性系数，其需要通过softmax函数获得，以及 $\&$ 表示逻辑操作。基于注意力的节点特征池化函数，RGMIL获得当前训练区块的最终包图特征矩阵 $\in \mathbb{R}^{N \times D^{{a_2}}}$ ：
$\tag{12} \begin{aligned} &\mathbf{C}^{(a_2)}_i(j) = \text{softmax}\left( v' (\mathbf{F}^{a_2}_i(j) \mathbf{Z}')^T \right)\\ &\mathbf{E}(i) = \sum_{j=1}^{M_i} \mathbf{C}^{a_2}_i(j) \mathbf{F}^{a_2}_i(j) \end{aligned}$ 其中： $\mathbf{F}^{a_2}_i(j)$ 表示最后一层中第 $j$ 个节点的 $D^{a_2}$ 维特征向量，其相应的重要性系数为 $\mathbf{C}^{a_2}_i(j)$ 。 $v^{'}$ 和 $\mathbf{Z}'$ 分别是注意力机制的查询向量和线性变换矩阵。 $\mathbf{E}(i)$ 是 $\mathbf{E}$ 的第 $i$ 行，也是包图 $G_i$ 的特征向量。结合包图标签 $\mathcal{Y}$ ，GNN损失表示为：
$\tag{13} \mathcal{L}_{\text{GNN}} = -\sum_{i=1}^{N} \overline{\mathcal{Y}}_i \log\left(\mathbf{E}(i) \overline{\mathbf{Z}}\right)^T$ 其中： $\overline{\mathbf{Z}}$ 是图分类器、 $\overline{\mathcal{Y}}_i$ 是包图 $G_i$ 的标签向量，由 $\mathcal{Y}_i \in \mathcal{Y}$ 扩展而来。

为了提高GNN效率，RGMIL在GNN框架中引入了参数共享机制，其层数固定为最大动作值。这样，RGMIL每次只需要使用并微调GNN框架的前 $a_2$ 层。RGMIL避免了每次重建和重新训练新GNN时消耗大量时间和空间资源。此外，RGMIL记录了每个动作组合的出现次数。如果 $a_1, a_2)$ 的记录超过了预定义的数量，当前的GNN训练过程将被省略。

3.3 奖励计算

获得动作组合并优化GNN之后，RGMIL将通过在验证数据区块上计算即时奖励来评估该组合。具体来说，在RGMIL建模的完全合作MG中，所有智能体拥有相同的联合奖励 (也称为团队奖励)。由于GNN模型旨在提高表示学习，奖励是基于相邻时间步上的包图分类性能差异来计算的。类似地，RGMIL根据动作 $a_1$ 处理验证样本，并将它们输入到具有 $a_2$ 层的模型中。奖励函数 $\text{RWD}(\cdot)$ ：
$\tag{14} \begin{aligned} &r^* = \text{RWD}(a_1, a_2) = \text{EVL}(t) - \frac{1}{\mu} \sum_{t'}^{t} \text{EVL}(t')\\ &\text{s.t.}\quad t'=t-\mu+1 \end{aligned}$ 其中 $t$ 表示当前步、 $\text{EVL}(\cdot)$ 是分类性能评估函数、 $\mu$ 表示历史记录窗口大小。RGMIL平均 $\mu$ 个历史记录以确保奖励的可靠性以及博弈的稳定性。特别的， $\mu$ 还作为动作组合的预定义记录数量。

3.4 状态转移和终止

RGMIL引入了一种新颖的启发式状态转移函数来获取下一个全局状态和观察：

RGMIL根据当前动作组合计算下一个全局状态的数据区块索引。考虑到 $a_1$ 和 $a_2$ 分别属于小数和整数，RGMIL将它们视为不同的状态转移依赖性。下一个状态对应的数据区块索引 $k$ 计算如下：
$\tag{15} \begin{aligned} &k = ((\text{round}(a_1) + a_2) \%|S|) + 1\\ &\text{s.t. } k \in [1, |S|] \& \text{round}(a_1) \in \{0, 1\} \& a_2 > |S| \end{aligned}$ 其中： $\text{round}(\cdot)$ 表示四舍五入、 $\%$ 是余数操作。动作 $a_2$ 较大以确保覆盖训练区块，而 $\text{round}(a_1)$ 则提供小偏移以增加变化。由于 $k$ 主要受 $a_2$ 的影响，RGMIL避免了由于后期两个动作同时剧烈波动可能导致的博弈不收敛问题；
通过第3.1节介绍的方法构建下一个观察；
一个时间步的经验 $\langle (o_1, o_2), (a_1, a_2), r^*, (o'_1, o'_2) \rangle$ 被存储起来。转移将不会终止，直到达到最后一个时间步 $T$ ，或者在较早的中间步 $t$ (其中 $\leq T$ ) 满足以下终止条件：
$\tag{16} \left|\frac{1}{\mu} \sum_{t'}^{t} r^{*t'}\right| < \lambda,\qquad\text{s.t.}\ \ t'=t-\mu+1$ 其中：不等式符号表示过去 $\mu$ 个奖励的平均值没有超过预定义阈值 $\lambda$ ，以及 $r^{*t'}$ 是过去时间步 $t^{'}$ 的联合奖励。

3.5 多智能体训练

当历史经验的数量大于 $\mu$ 并且博弈尚未结束时，RGMIL需要在完成上述过程后通过经验回放训练两个智能体。由于VDN证明了联合 $Q$ 函数可以分解为不同智能体的 $Q$ 函数，因此RGMIL以值分解的方式更新智能体：

RGMIL通过反向传播将联合 $Q$ 值分解给每个智能体。两个智能体将通过测量它们对联合 $Q$ 值的贡献来积极地朝着共同的目标工作；
给定在时间步 $t$ 收集的经验元组 $\langle (o^t_1, o^t_2), (a^t_1, a^t_2), r^*_t, (o^{t+1}_1, o^{t+1}_2) \rangle$ ，智能体的联合损失计算如下：
$\tag{17} L_{\pi^*} = \mathbb{E}_{\langle s,a,r,s'\rangle} \left[ \left( (\overline{\pi}^*(o^{*t},a^{*t}) - \pi^*(o^{*t},a^{*t})\right)^2 \right]$ 其中 $\pi^*(o^{*t},a^{*t})$ 表示预测的联合 $Q$ 值：
$\tag{18} \pi^*(o^{*t},a^{*t}) \approx \pi_1(o^t_1, a^t_1) + \pi_2(o^t_2, a^t_2)$ 其中： $\pi_1(\cdot)$ 和 $\pi_2(\cdot)$ 分别是第一个和第二个智能体的评估网络 (Q函数)、 $\overline{\pi}^*(o^{*t},a^{*t})$ 表示目标联合 $Q$ 值其类似于公式(18)的总和形式，其中每个加法分量 $\overline{\pi}_i(o^t_i, a^t_i)$ )可以表示为：
$\tag{19} \overline{\pi}_i(o^t_i, a^t_i) = r^{*t} + \gamma \max_{a} \overline{\pi}_i(o^{t+1}_i, a)$ 其中： $\overline{\pi}_i(\cdot)$ 是第 $i$ 个智能体的目标网络，其架构与 $\pi_i(\cdot)$ 相同；
RGMIL只训练评估网络，并且每隔 $\mu$ 个时间步将它们的参数复制到目标网络；
为了缓解可能的高估问题，RGMIL采用传统的双DQN算法来计算目标Q值，该算法用评估网络确定动作，并用目标网络计算 $Q$ 值，如图4右子图所示。因此，公式(19)重写为：
$\tag{20} \overline{\pi}_i(o^t_i, a^t_i) = r^{*t} + \gamma \overline{\pi}_i \left(o^{t+1}_i, \text{argmax}_a \pi\left(o^{t+1}_i, a\right) \right)$