【强化学习论文】多智能体强化学习是一个序列建模问题

news2025/1/18 16:50:31
  • 文献题目:Multi-Agent Reinforcement Learning is A Sequence Modeling Problem
  • 时间:2022
  • 代码:https://github.com/PKU-MARL/Multi-Agent-Transformer.

摘要

  • GPT 系列和 BERT 等大序列模型(SM)在自然语言处理、视觉和最近的强化学习中表现出了突出的性能和泛化能力。 一个自然而然的后续问题是如何将多代理决策也抽象为序列建模问题,并从 SM 的繁荣发展中受益。 在本文中,我们介绍了一种名为多智能体变换器 (MAT) 的新型架构,它有效地将协作式多智能体强化学习 (MARL) 转化为 SM 问题,其中目标是将智能体的观察序列映射到智能体的最佳动作序列 . 我们的目标是在 MARL 和 SM 之间架起桥梁,以便为 MARL 释放现代序列模型的建模能力。 我们的 MAT 的核心是编码器-解码器架构,它利用多代理优势分解定理将联合策略搜索问题转化为顺序决策过程; 这只为多代理问题呈现线性时间复杂度,最重要的是,赋予 MAT 单调性能改进保证。 与 Decision Transformer 等现有技术不同,Decision Transformer 仅适合预先收集的离线数据,MAT 以在线策略方式通过环境中的在线试错法进行训练。 为了验证 MAT,我们对星际争霸 II、多代理 MuJoCo、灵巧手操作和 Google Re 搜索足球基准进行了大量实验。 结果表明,与包括 MAPPO 和 HAPPO 在内的强大基线相比,MAT 实现了卓越的性能和数据效率。 此外,我们证明了无论代理人数量如何变化,MAT 在未见过的任务上都是一个优秀的 few-short 学习者。 请参阅我们的项目页面,网址为 https://sites.google.com/view/multi-agent-transformer(1)。

引言

  • 多智能体强化学习 (MARL) [44, 8] 是一个具有挑战性的问题,因为它的难度不仅来自于识别每个智能体的策略改进方向,而且还来自于将智能体的策略更新联合起来,这对整个团队应该是有益的 . 最近,由于引入了分散执行的集中训练 (CTDE) [11、45],多智能体学习中的这种困难得到了缓解,它允许智能体在训练阶段访问全局信息和对手的动作。 该框架能够成功开发直接继承单代理算法的方法。例如,COMA 将策略梯度 (PG) 估计替换为多代理 PG (MAPG) 对应项 [11],MADDPG 将确定性策略梯度扩展到具有集中式评论家的多代理设置中 [20, 34],QMIX 利用深度 Qnetworks 实现分散代理,并引入集中式混合网络进行 Q 值分解 [29、36、26]。 MAPPO 赋予所有代理相同的一组参数,然后通过信任区域方法进行训练 [46]。 PR2 [42] 和 GR2 [43] 方法在 CTDE 框架下进行递归推理。 然而,这些方法无法涵盖多智能体交互的全部复杂性; 事实上,其中一些在最简单的合作任务中表现不佳 [15]。 为了解决这个问题,提出了多主体优势分解定理 [15,定理 1],它捕捉了不同主体如何对回报做出贡献,并通过顺序决策过程方案提供了合作出现背后的直觉。 在此基础上,推导了 HATRPO 和 HAPPO 算法 [15、17、16],由于分解定理和顺序更新方案,它们为 MARL 建立了新的最先进的方法。 然而,它们的局限性在于代理人的政策并不知道发展合作的目的,并且仍然依赖于精心设计的最大化目标。 理想情况下,代理团队应该通过设计意识到他们训练的联合性,从而遵循一个整体有效的范例——一个尚未提出的理想解决方案。
  • 近年来,序列模型(SM)在自然语言处理(NLP)方面取得了实质性进展[27]。 例如,基于自回归 SM 的 GPT 系列 [3] 和 BERT 模型 [9] 在广泛的下游任务上表现出了卓越的性能,并在少样本泛化任务上取得了出色的性能。 尽管 SM 由于其与语言的顺序属性自然契合而主要用于语言任务,但序列方法不仅限于 NLP,而是一种广泛适用的通用基础模型 [2]。 例如,在计算机视觉 (CV) 中,可以将图像拆分为子图像并将它们按序列对齐,就好像它们是 NLP 任务中的标记一样 [9、10、12]。 尽管通过 SM 解决 CV 任务的想法很简单,但它是一些性能最佳的 CV 算法的基础 [38、41、39]。 此外,最近,顺序方法开始产生强大的多模态视觉语言模型,如 Flamingo [1]、DALL-E [28] 和 GATO [30]。
  • 随着 Transformer [40] 等有效且富有表现力的网络架构的出现,序列建模技术也引起了 RL 社区的极大关注,这导致了基于 Transformer 架构的一系列成功的离线 RL 开发 [5,14,30,23] ]. 这些方法在解决一些最基本的 RL 训练问题方面显示出巨大的潜力,例如长期信用分配和奖励稀疏性 [37、24、25]。 例如,通过以纯监督方式在预先收集的离线数据上训练自回归模型,Decision Transformer [5] 绕过了通过动态规划计算累积奖励的需要,而是根据期望的回报、过去的状态和行动生成未来的行动 . 尽管取得了显着的成功,但这些方法都没有被设计用来模拟多代理系统中最困难的(也是 MARL 独有的)方面——代理的交互。 事实上,如果我们简单地赋予所有智能体一个 Transformer 策略并独立训练它们,它们的联合性能仍然不能保证得到改善 [15,命题 1]。 因此,虽然有无数强大的 SM 可用,但 MARL(一个将从 SM 中受益匪浅的领域)并没有真正利用它们的性能优势。 那么要问的关键研究问题是
  • 我们如何通过序列模型对 MARL 问题进行建模
  • 在本文中,我们采取了几个步骤来对上述研究问题提供肯定的答案。 我们的目标是通过强大的顺序建模技术增强 MARL 研究。 为了实现这一目标,我们首先提出了一种新颖的 MARL 训练范式,该范式在协作 MARL 问题和序列建模问题之间建立了联系。 新范式的核心是多智能体优势分解定理和顺序更新方案,有效地将多智能体联合策略优化转化为顺序策略搜索过程。 作为我们发现的自然结果,我们引入了多代理转换器 (MAT),这是一种通过 SM 实现通用 MARL 解决方案的编码器-解码器架构。 与 Decision Transformer [5] 不同,MAT 是基于策略方式的试验和错误在线训练的; 因此,它不需要预先收集演示。 重要的是,多智能体优势分解定理的实现确保了 MAT 在训练过程中享有单调的性能提升保证。 MAT 为合作 MARL 任务建立了一个新的最先进的基线模型。 我们通过在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 的基准上评估 MAT 来证明这种说法是正确的; 结果表明,MAT 比 MAPPO [46]、HAPPO [15]、QMIX [29] 和 UPDeT [13] 等强基线具有更好的性能。 最后,我们表明 MAT 在任务泛化方面具有巨大的潜力,无论新任务中的代理数量如何。

预训练

  • 在本节中,我们首先介绍合作 MARL 问题公式和多代理优势分解定理,它们是我们工作的基石。 然后,我们回顾与 MAT 相关的现有 MARL 方法,最后让读者熟悉 Transformer。

问题表述

  • 协作 MARL 问题通常由马尔可夫游戏 < h N , O , A , R , P , γ i > <h_N,O,A,R,P,γi> <hN,O,A,R,P,γi> [19] 建模。 N = { 1 , . . . , n } N = \{1, . . . , n\} N={1,...,n} 是agent的集合, $O =Qni=1 Oi
    是agent的局部观察空间的乘积,即联合观察空间, A =Qni=1

是agent的动作空间的乘积,即 联合动作空间, R : O × A → [ − R m a x , R m a x ] R : O × A → [−R_{max}, R_{max}] R:O×A[Rmax,Rmax] 为联合奖励函数, P : O × A × O → R P : O × A × O → R P:O×A×OR 为转移概率函数, γ ∈ [ 0 , 1 ) γ ∈ [0, 1) γ[0,1) 为折扣因子。 在时间步 t ∈ N t ∈ N tN,代理 i ∈ N i ∈ N iN 观察到一个观察 o t i ∈ O i ( o = ( o 1 , . . . , o n ) o^i_t ∈ O^i (o = (o^1, . . . , o^n) otiOio=(o1,...,on) 是一个“联合”观察)

  • 为了符号方便,我们省略了定义以全局状态为输入并为每个代理输出局部观察的代理观察函数,而是直接定义代理的局部观察。
  • 并根据其策略 π i π_i πi 采取行动 a t i a^i_t ati ,这是智能体联合策略 π π π 的第 i i i 个组成部分。 在每个时间步,所有代理都根据他们的观察同时采取行动,没有顺序依赖性。 过渡核 P 和联合策略导致(不正确的)边际观测分布 $ρ_π(·) , P∞t=0 γtPr(ot = o|π)

。 在每个时间步结束时,整个团队收到联合奖励 R ( o t , a t ) R(o_t, a_t) R(ot,at) 并观察 o t + 1 o_{t+1} ot+1,其概率分布为 P ( ⋅ ∣ o t , a t ) P(·|o_t, a_t) P(ot,at)。 遵循这个无限长的过程,代理人获得折扣累积回报。在这里插入图片描述

多智能体优势分解定理

  • 智能体使用 Q π ( o , a ) Q_π(o, a) Qπ(o,a) V π ( o ) V_π(o) Vπ(o) 来评估动作和观察值,定义为
    在这里插入图片描述
  • 目标的共同性导致与信用分配问题相关的困难——在获得共享奖励后,个体代理无法推断出他们自己对团队成功或失败的贡献 [4]。 事实上,应用传统的 RL 方法(仅使用上述价值函数)会导致训练障碍,例如多代理策略梯度 (MAPG) 估计的方差不断增加 [17]。 因此,为了解决这些问题,已经开发了局部价值函数 [21] 和反事实基线 [11] 的概念。 在本文中,我们使用此类最一般的概念——多代理观察值函数 [15]。 也就是说,对于任意不相交的、有序的代理子集 i 1 : m = { i 1 , . . . , i m } i_{1:m} = \{i_1, . . . , i_m\} i1:m={i1,...,im} j 1 : h = { j 1 , . . . , j h } j_{1:h} = \{j_1, . . . , j_h\} j1:h={j1,...,jh}, 对于 m , h ≤ n m, h ≤ n m,hn, 我们定义多智能体观察值函数为
    在这里插入图片描述
  • 上面的数量描述了如果代理 i 1 : m i_{1:m} i1:m 采取联合行动 a i 1 : m a^{i_{1:m}} ai1:m,一旦 j 1 : h j_{1:h} j1:h 采取了 a j 1 : h a^{j_{1:h}} aj1:h,联合行动 a a a 将比平均水平好/坏多少。 同样,当 h = 0 h = 0 h=0 时,优势将 a i 1 : m a^{i_{1:m}} ai1:m 的值与整个团队的基线值函数进行比较。 这种代理人行为的价值函数表示能够研究他们之间的相互作用,以及分解联合价值函数信号,从而有助于减轻信用分配问题的严重性 [29、35、22]。 等式(3)的见解是通过以下定理完成的。
  • 定理 1(Multi-Agent Advantage ecomposition [17])。 设 i 1 : n i_{1:n} i1:n 是代理的排列。 然后,对于任何联合观察 o = o ∈ O o = o ∈ O o=oO 和联合行动 a = a i 1 : n ∈ A a = a^{i_{1:n}} ∈ A a=ai1:nA,以下等式始终成立,无需进一步假设,
    在这里插入图片描述
  • 重要的是,这个定理提供了一种直觉来指导渐进式改进动作的选择。假设代理 i 1 i_1 i1 选择一个具有积极优势的动作 a i 1 a^{i_1} ai1 A π i 1 ( o , a i 1 ) > 0 A^{i_1}_π (o, a^{i_1} ) > 0 Aπi1(o,ai1)>0。然后,假设对于所有 j = 2 , . . . . . , n j = 2,... . . , n j=2.....,n, 智能体 i j i_j ij 知道其前任的联合动作 a i 1 : j − 1 a^{i_{1:j−1}} ai1:j1。 在这种情况下,它可以选择优势 A π i j ( o , a i 1 : j − 1 , a i j ) A^{i_j}_π (o, a^{i_{1:j−1}}, a^{i_j} ) Aπij(o,ai1:j1,aij) 为正的动作 a i j a^{i_j} aij。 总而言之,该定理确保联合行动 a i 1 : n a^{i_{1:n}} ai1:n 具有正优势。 此外,请注意联合动作是在 n n n 个步骤中选择的,每个步骤都搜索一个个体代理的动作空间。 因此,此搜索的复杂性在动作空间的大小上是相加的,$Pni=1 |Ai|

。 如果我们直接在联合动作空间中执行搜索,我们将浏览一组乘法大小,|A| =Qni=1 |Ai|

。 稍后,我们将基于这一见解设计一个 SM,该 SM 可以有效地优化联合策略,逐个代理,而无需立即考虑联合行动空间。

MARL 中的现有方法

  • 我们现在简要总结两种最先进的 MARL 算法。 它们都建立在近端策略优化 (PPO) [33] 之上——一种以其简单性和性能稳定性而闻名的 RL 方法。
  • MAPPO [46] 是第一个也是最直接的在 MARL 中应用 PPO 的方法。 它为所有代理配备一组共享参数,并使用代理的聚合轨迹来更新共享策略; 在第 k + 1 k + 1 k+1 次迭代中,它通过最大化 clip 目标来优化策略参数 θ k + 1 θ_{k+1} θk+1
    在这里插入图片描述
  • 其中剪辑运算符剪辑输入值(如有必要),使其保持在区间 [ 1 − ε , 1 + ε ] [1−\varepsilon , 1+\varepsilon ] [1ε,1+ε] 内。 然而,强制参数共享等同于在联合策略空间上施加约束 θ i = θ j , ∀ i , j ∈ N θ^i = θ^j,∀i,j∈N θi=θj,i,jN,这可能导致呈指数级恶化的次优结果 [15]。 这激发了异构代理信赖域方法(例如 HAPPO)的更有原则的发展。
  • HAPPO [15] 目前是充分利用定理 (1) 实现具有单调改进保证的多智能体信赖域学习的 SOTA 算法之一。 在更新期间,智能体随机选择一个排列 i 1 : n i_{1:n} i1:n,然后按照排列中的顺序,每个智能体 i m i_m im 选择 π n e w i m = π i m π^{i_m}_{new} = π^{i_m} πnewim=πim 以最大化目标
    在这里插入图片描述
  • 其中 r ( π i m ) = π i m ( a i m ∣ o ) / π o l d i m ( a i m ∣ o ) r(π^{i_m}) = π^{i_m}(a^{i_m}|o)/π^{i_m}_{old} (a^{i_m}|o) r(πim)=πim(aimo)/πoldim(aimo)。 请注意,期望接管了新更新的先前智能体的策略,即 π n e w i 1 : m − 1 π^{i_{1:m−1}}_{new} πnewi1:m1 ; 这反映了一种直觉,即根据定理 (1),代理 i m i_m im 对其前面的代理 i 1 : m − 1 i_{1:m−1} i1:m1 作出反应。 然而,HAPPO 的一个缺点是代理的策略必须遵循排列中的顺序更新方案,因此不能并行运行。

变压器模型

  • Transformer [40] 最初是为机器翻译任务设计的(例如,输入英语,输出法语)。 它维护一个编码器-解码器结构,其中编码器将令牌的输入序列映射到潜在表示,然后解码器以自回归方式生成一系列所需的输出,其中在推理的每个步骤中,Transformer 将所有先前生成的标记作为输入。 Transformer 中最重要的组件之一是缩放点积注意力,它捕获输入序列的相互关系。 注意函数写为
    在这里插入图片描述
  • 其中Q、K、V对应queries、key、value的向量,可以在训练中学习, d k d_k dk代表Q和K的维度。Self-attentions是指Q、K、V共享 同一套参数。
  • 受注意力机制的启发,UPDeT [13] 通过将每个代理的观察解耦为一系列观察实体,将它们与不同的动作组匹配,并使用基于 Transformer 的函数对匹配的观察实体之间的关系进行建模,以便在 MARL 问题中更好地表示学习。 除此之外,基于定理 (1) 中描述的顺序属性和 HAPPO [15] 背后的原理,可以直观地考虑另一种基于 Transformer 的多智能体信赖域学习实现。 通过将代理团队视为一个序列,Transformer 架构允许我们对具有可变数量和类型的代理团队进行建模,同时避免 MAPPO/HAPPO 的缺点。 我们将更详细地描述如何通过序列模型解决协作 MARL 问题。

MARL 和序列模型之间的惊人联系

  • 为了建立 MARL 和序列模型之间的联系,定理(1)提供了从 SM 角度理解 MARL 问题的新角度。 如果每个智能体都知道其前任的任意决策顺序的动作,则智能体的局部优势总和 A π i j ( o , a i 1 : m − 1 , a i m ) A^{i_j}_π (o, a^{i_1:m−1}, a^{i_m}) Aπij(o,ai1:m1,aim) 将恰好等于联合优势 A π i 1 : n ( o , a i 1 : n ) A^{i_{1:n}}_π (o, a^{i_{1:n}} ) Aπi1:n(o,ai1:n). 这种跨智能体的有序决策设置简化了它们联合策略的更新,其中最大化每个智能体自身的局部优势等同于最大化联合优势。 这样一来,代理在策略更新过程中就不用再担心其他代理的干扰了; 局部优势函数已经捕获了代理之间的关系。 定理 (1) 揭示的这一特性启发我们为 MARL 问题提出了一种多智能体顺序决策范式,如图 (1) 所示,我们为智能体分配了任意决策顺序(每次迭代一个排列); 每个代理人都可以访问其前辈的行为,然后根据这些行为做出最佳决策。 这种顺序范式促使我们利用顺序模型(例如 Transformer)来明确捕获定理 (1) 中描述的代理之间的顺序关系。
    在这里插入图片描述
  • 图 1:传统的多智能体学习范式(左),其中所有智能体同时采取行动,而多智能体顺序决策范式(右),其中智能体按照顺序采取行动,每个智能体负责前面智能体的决策 如红色箭头所示。
  • 在定理 (1) 的支持下,序列建模降低了 MARL 问题随着代理数量从乘法到加法的复杂性增长,从而呈现线性复杂性。 在 Transformer 架构的帮助下,我们可以使用统一的网络对异构代理的策略进行建模,但在不同位置区别对待每个代理,从而确保高采样效率,同时避免 MAPPO 面临的指数级恶化结果。 此外,为了保证联合策略的单调改进,HAPPO 必须在训练过程中逐一更新每个策略,通过利用 π i 1 , . . . , π i m − 1 π^{i_1}, ..., π^{i_{m−1}} πi1,...,πim1 的先前更新结果来改进 π i m π^{i_m} πim,这对于大型代理的计算效率至关重要。 相比之下,Transformer 架构的注意力机制允许在缓冲区中对 ground truth 动作 a t i 0 , . . . , a t i n − 1 a^{i_0}_t, ..., a^{i_n−1}_t ati0,...,atin1 进行批处理,以同时预测 a t i 1 , . . . , a t i n a^{i_1}_t, ..., a^{i_n}_t ati1,...,atin 和更新策略,这显着提高了训练速度,并使其适用于大型代理。 此外,在智能体的数量和类型不同的情况下,SM 可以通过其对具有灵活序列长度的序列建模的能力将它们合并到一个统一的解决方案中,而不是将不同的智能体数量视为不同的任务。 为了实现上述想法,我们在下一节中介绍了一个名为 Multi-Agent Transformer 的实用架构。

多代理转换器

  • 为了实现 MARL 的序列建模范例,我们的解决方案是多代理转换器 (MAT)。 应用 Transformer 架构的想法来自这样一个事实,即代理的观察序列输入 ( o i 1 , . . . , o i n ) (o^{i_1}, . . . , o^{i_n} ) (oi1,...,oin) 和代理的动作序列输出 ( a i 1 , . . . , a i n ) (a^{i_1}, . . . , a^{i_n} ) (ai1,...,ain) 之间的映射是类似于机器翻译的序列建模任务。 正如定理 (1) 所回避的那样,行动目标取决于所有先前代理人的决策 a i 1 : m − 1 a^{i_{1:m−1}} ai1:m1。 因此,我们在图 (2) 中的 MAT 由一个编码器和一个解码器组成,编码器学习联合观察的表示,解码器以自动回归的方式为每个单独的代理输出动作。
    在这里插入图片描述
  • 图 2:MAT 的编码器-解码器架构。 在每个时间步,编码器接收一系列代理的观察并将它们编码为一系列潜在表示,然后传递给解码器。 解码器以顺序和自回归的方式生成每个代理的最佳动作。 屏蔽的注意块确保代理只能在训练期间访问其前面的代理的操作。 我们在附录 A 中列出了 MAT 的完整伪代码,在 https://sites.google.com/view/multi-agent-transformer 中显示了 MAT 动态数据流的视频。
  • 我们用 φ φ φ 表示其参数的编码器以任意顺序获取一系列观察值 ( o i 1 , . . . , o i n ) (o^{i_1}, . . . , o^{i_n} ) (oi1,...,oin),并将它们传递给几个计算块。 每个这样的块都包含一个自我注意机制和一个多层感知器(MLP),以及防止梯度消失和网络随着深度的增加而退化的剩余连接。 我们将观察的输出编码表示为 ( o ^ i 1 , . . . , o ^ i n ) (\hat o^{i_1}, . . . , \hat o^{i_n} ) (o^i1,...,o^in),它不仅对代理的信息 ( i 1 , . . . , i n ) (i_1, . . . , i_n) (i1,...,in) 进行编码,还对表示代理交互的高级相互关系进行编码。 为了学习表达表示,在训练阶段,我们使编码器逼近价值函数,其目标是通过以下方式最小化经验贝尔曼误差
    在这里插入图片描述
  • 其中 φ ¯ φ¯ φ¯ 是目标网络的参数,它是不可微分的并且每隔几个时期更新一次。
  • 我们用 θ θ θ 表示其参数的解码器传递嵌入式联合动作 a i 0 : m − 1 , m = { 1 , . . . n } a^{i_{0:m−1}} , m =\{1, . . . n\} ai0:m1,m={1,...n}(其中 a i 0 a^{i_0} ai0是指示解码开始的任意符号)到解码块序列。 至关重要的是,每个解码块都带有一个掩蔽的自注意力机制,其中掩蔽确保对于每个 i j i_j ij ,只在第 i r t h i^{th}_r irth 和第 i i i j j j 个动作头之间计算注意力,其中 r < j r < j r<j 以便可以维持顺序更新方案。 然后是第二个掩蔽注意力函数,它计算动作头和观察表示之间的注意力。 最后,该块以 MLP 和跳过连接结束。 最后一个解码器块的输出是联合动作的表示序列, { a ^ i 0 : i − 1 } i = 1 m \{\hat a^{i_0:i−1}\}^m_{i=1} {a^i0:i1}i=1m。这被馈送到输出 i m i_m im 动作概率分布的 MLP,即策略 π θ i m ( a i m ∣ o ^ i 1 : n , a i 1 : m − 1 ) π^{i_m}_θ(a^{i_m} |\hat o^{i_{1:n}} , a^{i_{1:m−1}} ) πθim(aimo^i1:n,ai1:m1). 为了训练解码器,我们最小化以下剪裁 PPO 目标
    在这里插入图片描述
  • 其中 A ^ t \hat A_t A^t 是联合优势函数的估计值。 可以应用
  • $\hat V_t =1nPnm=1 V (^oimt)
    的广义优势估计 (GAE) [32] 作为联合价值函数的稳健估计。 值得注意的是,动作生成过程在推理和训练阶段是不同的。 在推理阶段,每个动作都是自回归生成的,在某种意义上,目标将再次插入解码器以生成目标+1(从 a i 0 a^{i_0} ai0 开始到 a i n − 1 a^{i_{n−1}} ain1 结束)。 而在训练阶段,所有动作的输出 a i 1 : n a^{i_{1:n}} ai1:n 可以并行计算,因为 a i 1 : n − 1 a^{i_{1:n−1}} ai1:n1 已经被收集并存储在回放缓冲区中。
  • 位于 MAT 核心的注意力机制使用权重矩阵对观察和动作进行编码,该权重矩阵通过乘以嵌入式查询 ( q i 1 , . . . , q i n ) (q^{i_1},...,q^{i_n}) qi1...qin和键 ( k i 1 , . . . , k i n ) (k^{i_1},...,k^{i_n}) ki1...kin, 其中每个权重 w ( q i r , k i j ) = < q i r , k i j > w(q^{i_r}, k^{i_j} ) = <q^{i_r}, k^{i_j}> w(qir,kij)=<qir,kij>。 嵌入值 ( v i 1 , . . . , v i n ) (v^{i_1}, . . . , v^{i_n} ) (vi1,...,vin) 与权重矩阵相乘以输出表示。 编码器中的未屏蔽注意力使用全权重矩阵来提取代理之间的相互关系,即 o ^ i 1 : n \hat o^{i_{1:n}} o^i1:n,解码器中的屏蔽注意力使用三角矩阵捕获 a i 1 : m a^{i_{1:m}} ai1:m,其中 w ( q i r , k i j ) = 0 w(q^{i_r}, k^{i_j}) = 0 w(qir,kij)=0 r < j(参见附录 A 中的可视化图示)。 通过适当的掩蔽注意机制,解码器可以安全地输出策略 π θ i m + 1 ( a i m + 1 ∣ o ^ i 1 : n , a i 1 : m ) π^{i_{m+1}}_θ(a^{i_{m+1}} |\hat o^{i_{1:n}} , a^{i_{1:m}}) πθim+1(aim+1o^i1:n,ai1:m),从而完成定理 (1) 的实现。
  • 单调改进保证。 MAT 代理 i m i_m im 通过调节其对代理的策略比率来优化以代理 $i_{1:m−1} 的新决策为条件的信任域目标(见等式(5))。 因此,它单调地增加联合回报,就像它遵循 HAPPO [15,定理 2] 的顺序更新方案一样。 然而,与该方法相反,MAT 模型不需要等到它的前辈进行更新,也不需要使用它们更新后的动作分布来进行重要性采样计算。 事实上,由于所有智能体的动作都是 MAT 的输出,它们的裁剪目标可以并行计算(在训练期间),因此在时间复杂度上优于 HAPPO。 最后,为了确保限制性联合策略不会激励任何代理人改变其策略(纳什均衡),MAT 需要在每次迭代时改变更新的顺序,这与 HAPPO [15] 中的发现一致 定理3]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/69621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FL Studio免费升级21完整版新功能新插件介绍

万众期待的 FL Studio 21 版本正式发布上线&#xff0c;所有FL Studio的用户&#xff0c;都可以免费升级到21版&#xff01; 按照惯例&#xff0c;本次新版也会增加全新插件&#xff0c;来帮助大家更好地创作。今天先给大家分享一下&#xff0c;新增的4款插件简单介绍&#xf…

基于AT89S52单片机的蘑菇大棚环境监测系统论文(附录代码)

目 录 第1章 绪 论 1 1.1 研究背景和意义 1 1.2 国内外发展现状 2 1.3 设计内容和指标 4 第2章 系统设计方案 5 2.1 系统组成 5 2.1.1 总体结构 5 2.1.2 单片机的选型 5 2.1.3 温湿度传感器选型 6 2.1.4 二氧化碳传感器选型 6 2.1.5 PH值传感器选型 7 2.1.6 加热器选型 8 2.1.7…

HTTP协议分析 实验报告

实验名称&#xff1a; HTTP协议分析 一、实验预习 1、实验目的 利用抓包工具&#xff08;Wireshark/Windump/Sniffer&#xff09;抓取HTTP报文&#xff0c;以进一步熟悉和理解HTTP报文格式规范与HTTP协议的工作原理 2、实验内容&#xff08;…

《Linux-权限的理解、shell的理解和粘滞位》

目录 一、shell的理解 二、Linux权限 一、用户的引入 二、权限管理 一、什么是权限 二、Linux下的权限 三、视图展示 四、文件类型 五、为什么gcc编译器编译.txt后缀的文件有问题&#xff1f; 六、修改权限 一、chmod设置文件的访问权限 一、基本使用 二、八进制方案(访…

es的自动补全查询——DSL语句java代码实现

1、DSL语句 elasticsearch提供了Completion Suggester查询来实现自动补全功能。这个查询会匹配以用户输入内容开头的词条并返回。 为了提高补全查询的效率&#xff0c;对于文档中字段的类型有一些约束&#xff1a; 参与补全查询的字段必须是completion类型。 字段的内容一般…

SpringMVC的执行流程

文章目录1 初始化阶段2 匹配阶段3 执行阶段我们把整个流程分成三个阶段初始化阶段匹配阶段执行阶段 1 初始化阶段 在 Web 容器第一次用到 DispatcherServlet 的时候&#xff0c;会创建其对象并执行 init 方法 init 方法内会创建 Spring Web 容器&#xff0c;并调用容器 refre…

阿里十年技术沉淀|深度解析百PB级数据总线技术

云原生场景下数据总线需求场景及挑战 数据总线简介 数据总线作为大数据架构下的流量中枢&#xff0c;在不同的大数据组件之间承载着数据桥梁的作用。通过数据总线&#xff0c;可以实时接入来自服务器、K8s、APP、Web、IoT/移动端等产生的各类异构数据&#xff0c;进行统一数据…

【java 新特性】java8新特性

核心内容 lambda 函数编程 在Java世界里面&#xff0c;面向对象还是主流思想&#xff0c;对于习惯了面向对象编程的开发者来说&#xff0c;抽象的概念并不陌生。面向对象编程是对数据进行抽象&#xff0c;而函数式编程是对行为进行抽象。现实世界中&#xff0c;数据和行为并…

【机器学习实战】使用SGD、随机森林对MNIST数据集实现多分类(jupyterbook)

1. 获取数据集并重新划分数据集 # 获取MNIST数据集 from sklearn.datasets import fetch_openml mnist fetch_openml(mnist_784, version1, cacheTrue, as_frameFalse)# 查看测试器和标签 X, y mnist[data], mnist[target] X_train, X_test, y_train, y_test X[:60000], X[…

Nuxt3使用echart,使用中国地图

目录 第一步安装echart 第二步配置plugins 第三步使用 例如使用饼状图 例如使用中国地图 第一步安装echart npm install echarts --save 第二步配置plugins 在plugins创建echarts.ts文件并写入下面内容 import * as echarts from echartsexport default defineNuxtPlugin((…

springboot事件监听机制二:基本工作原理

前言 这是继《springboot事件监听机制一&#xff1a;实战应用》第二篇&#xff0c;知其然&#xff0c;当然还要知其所以然&#xff0c;深入的源码里面探寻一下这一有套机制的工作原理。spring生态很茂盛&#xff0c;这里不会站太高去分析这个问题&#xff0c;大扯spring的一些原…

优秀的项目跟踪管理软件有哪些?

国内外优秀的项目跟踪管理软件有&#xff1a;1、软件项目跟踪管理PingCode&#xff1b;2、通用项目跟踪管理Worktile&#xff1b;3、小型团队项目跟踪管理Asana&#xff1b;4、基于桌面的项目跟踪软件Microsoft Project&#xff1b;5、适用所有类型项目的跟踪软件Clickup&#…

[ vulhub漏洞复现篇 ] GhostScript 沙箱绕过(任意命令执行)漏洞CVE-2018-16509

&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 _PowerShell &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 &#x1f389;点赞➕评论➕收藏 养成习…

Cellobiose-PEG-DBCO 纤维二糖-聚乙二醇-二苯基环辛炔,DBCO-PEG-纤维二糖

Cellobiose-PEG-DBCO 纤维二糖-聚乙二醇-二苯基环辛炔&#xff0c;DBCO-PEG-纤维二糖 中文名称&#xff1a;纤维二糖-二苯基环辛炔 英文名称&#xff1a;Cellobiose-DBCO 别称&#xff1a;二苯基环辛炔修饰纤维二糖&#xff0c;二苯基环辛炔-纤维二糖 PEG分子量可选&…

2023年湖北安全员ABC报名时间和考试时间是什么时候?甘建二

2023年湖北安全员ABC报名时间和考试时间是什么时候&#xff1f; 安全员ABC考试和报名时间&#xff0c;12月份安全员ABC考试时间是12月底&#xff0c;12月份湖北安全员ABC报名是现在开始报名了&#xff0c;目前报名入口已经开通需要开始报名了。 2023年湖北安全员ABC报名时间&am…

人工智能历史上的重要一步:ChatGPT影响到谷歌地位?

AI神器ChatGPT 火了。 能直接生成代码、会自动修复bug、在线问诊、模仿莎士比亚风格写作……各种话题都能hold住&#xff0c;它就是OpenAI刚刚推出的——ChatGPT。 有脑洞大开的网友甚至用它来设计游戏&#xff1a;先用ChatGPT生成游戏设定&#xff0c;再用Midjourney出图&…

如何让 useEffect 支持 async/await?

大家在使用 useEffect 的时候&#xff0c;假如回调函数中使用 async...await... 的时候&#xff0c;会报错如下。 看报错&#xff0c;我们知道 effect function 应该返回一个销毁函数&#xff08;return返回的 cleanup 函数&#xff09;&#xff0c;如果 useEffect 第一个参数传…

[毕业设计]C++程序类内聚度的计算与存储

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

651页23万字智慧教育大数据信息化顶层设计及智慧应用建设方案

目录 一、 方案背景 1.1 以教育现代化支撑国家现代化 1.2 教育信息化是教育现代化重要内容和标志 1.3 大数据驱动教育信息化发展 1.4 政策指导大数据推动教育变革 1.5 教育大数据应用生态服务教育现代化 二、 建设需求 2.1 地区教育系统亟待进行信息共享、系统融合 2.2…

L2正则线性回归(岭回归)

岭回归 数据的特征比样本点还多&#xff0c;非满秩矩阵在求逆时会出现问题 岭回归即我们所说的L2正则线性回归&#xff0c;在一般的线性回归最小化均方误差的基础上增加了一个参数w的L2范数的罚项&#xff0c;从而最小化罚项残差平方和 简单说来&#xff0c;岭回归就是在普通…