【多智能体合作】Self-Organized Group for Cooperative Multi-agent Reinforcement Learning

news2025/1/9 1:20:23

【多智能体合作】Self-Organized Group for Cooperative Multi-agent Reinforcement Learning

本文提出了一个自主分组机制,这种机制具有 选举指挥官(CE)消息总结(MS) 的功能。

  • 在 CE 中,每隔 T个时间步,选举出一定数量的指挥官来暂时构建群组,每个群组都具有 指挥官-追随者 的共识,追随者只能与其指挥官进行通信。
  • 在 MS 中,每个指挥官对接收到的消息进行总结并分发给所有隶属群组成员,以进行统一的调度。

作用:当面对未知情景时,每个智能体的行为很容易偏离训练模式。它们可能表现出矛盾的行为方式,并对系统的稳定性构成威胁。相反,指挥官可以发送统一的指令,使每个智能体有序地行动,从而 避免整体训练模式的崩溃。同时,本文的方法大大 减少了通信所需的带宽和成本。为了实现高效且经济的消息传递,本文还设计了一种变分消息总结器(MS),它压缩了局部观测信息,并有助于预测未来的轨迹。

本文解决了什么问题?

现有的基于 集中式训练分布式执行方法(CTDE) 的协同多智能体方法的泛化性较差,主要体现在团队成员数量变化和可变的局部观测的泛化性较差。

经典的 CTDE 算法,如QMIX 和MADDPG,受限于固定数量的智能体。然而,在现实世界的多智能体场景中,参与的智能体数量往往是变化的。最近,一些方法引入了注意力机制 ,以同时训练不同数量的智能体。它们只寻求解决方案覆盖一定范围内的变化团队规模,无法提供对超出该范围的情况的泛化能力

以下图简单任务为例,该任务仅在三个按钮同时按下时才能完成

在这里插入图片描述

因此,智能体 A、B 和 C 分别需要按下三个不可重复的按钮。按钮 1 和 2 相距十米,而按钮 3 位于它们的中点位置。每个智能体的视野范围是一个 半径为六米 的圆。因此,负责按钮 2 的智能体无法感知到是否有其他智能体按下按钮 1,因为受到视野范围限制。

如果使用常规的集中式训练分散执行(CTDE)方法,例如 QMIX ,处理这个任务,这些智能体在超出个体视野范围时无法有效协调,因为每个智能体的执行都取决于其自己的行动-观察历史 。智能体之间的通信是处理部分可观测性的一种简单而灵活的解决方案之一。

本文的解决方法是什么?

针对具有动态团队组成的合作多智能体任务,每隔 T 个时间步长,选举出一定数量的指挥者,并相应地构建分组。

由于本文的主要任务是多智能体强化学习,简化了通信过程,假设所有消息都可以准确无误地传递且没有延迟,并且每个智能体可以同时处理所有接收到的消息。本文的目标是构建一个满足以下特性的通信机制:

  • 轻量级。通信消息应简洁而具有信息量,例如,智能体当前状态的三维摘要向量。
  • 鲁棒性。分组应能够处理 不同数量的群体成员不熟悉的环境条件 (例如不同的视野范围)。

通信协议的设计

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

通信内容设计:消息总结(Message Summary)

在这里插入图片描述

指挥官选举(Conductor Election)

在这里插入图片描述

实验结果如何?

本文实验设计回答以下问题:

  • SOG 是否比 全连接通信 方法更好地帮助多智能体协调?
  • SOG 能否促进对于 动态团队组成不断变化的部分可观察性 的零样本泛化?
  • SOG 中选举指挥官的方式对结果有什么影响?
  • 哪一个因素对 SOG 的影响最大?

实验环境

  1. 资源收集

    智能体需要从 6 个资源点收集资源并将货物运送回家。训练时智能体的数量从 {2,3,4,5} 中均匀采样,而测试时从 {6,7,8} 中采样。每个智能体有一个视野范围 S R SR SR 。对于智能体 i i i 来说,超出其视野范围的其他智能体和资源点对智能体 i i i 是不可见的。

  2. 捕食者-猎物

    智能体扮演捕食者的角色,旨在捕捉一些进行随机行走的猎物。训练时,捕食者的数量从 {3,4} 中进行采样,同时只有 1 个猎物。在执行过程中,我们初始化 5 或 6 个捕食者,以及 1 或 2 个猎物。

  3. 星际争霸2

    在每个回合的开始,地图会随机初始化 3-8 个智能体和相同数量的敌人。我们将训练过程中的智能体数量限制在 3-5 个,并使用智能体数量为 6-8 的情况测试模型。

在上述每个场景中,智能体的数量是不固定的,也就是在 每个场景的每个回合 开始前会对当前回合的智能体数量进行采样。测试任务比训练任务更加复杂,需要处理在训练阶段没有遇到的情况。

实验结果

  1. Resource Collection

    作者在两种视野范围(SR)0.5和1.0上进行训练。在图4(a-b)中展示了所有方法的结果。当SR=0.5和SR=1.0时,SOG明显优于其他方法。考虑到测试场景包含6/7/8个智能体,而训练场景只有2/3/4/5个智能体,SOG的通信机制极大地增强了其对动态团队组成的零-shot泛化能力。当团队规模变化时,指挥官选举(CE)方法之间没有明显差异。

    然后,作者在不同的环境条件下测试零样本泛化能力。我们保存了之前用固定视野范围 0.5 或 1.0 训练的模型,并在不同的智能体视野范围设置上进行评估。每个设置重复进行160个测试回合,结果是在具有不同种子的3个模型上进行平均。我们在图4(c-d)中展示了每种方法的表现。**除了SR = 0.2这种困难的设置,所有方法在从SR = 0.5到SR = 1.0的不同情景中表现出与训练情景相似甚至更好的性能。**SOG_rl甚至在从SR = 1.0转换到SR = 0.8时表现更好。与此同时,其他方法在从训练设置转换到其他设置时都显示出明显的性能下降。结果显示了SOG在未知情景下的强大适应能力

在这里插入图片描述

  1. StarCraft Micromanagement Tasks

首先,作者探讨了对于 动态团队组成的适应性 。如图5(a)所示,在4个地图上的结果表明,当以比训练时更多的智能体和敌人数量进行模型测试时,我们的方法在与预设AI对战时具有最高的测试胜率。而基于PG的指挥官选举策略在3-8sz上改善了性能。结合资源收集的结果,我们得出结论:基于PG的指挥官选举策略可以在许多情况下提高智能体对于动态团队组成的零样本泛化能力,这是由于相较于随机选举,基于PG的策略具有更合理的指挥官选举机制

接下来,作者研究了对于 不同环境条件的适应性 。作者保存了在3-8sz_D地图上以视野范围为3训练的模型,这是一个难度较高的情况,智能体被分散并且视野受限。然后我们在其他初始条件和视野范围下评估这些模型的性能。结果如图5(b)所示。初始条件(Gather或Disperse)对于所有四种方法的性能都没有明显影响。然而,当智能体能够看到比训练时更多的实体时,其他三种方法的性能都大幅下降,而我们的方法在性能上与训练中的表现相当。这可能是由于群组内的统一消息传递机制所致。有趣的现象是,随机CE在2个场景中的性能与基于RL的CE相当或更好。作者推测这是由于不同环境设置下随机CE的相似模式所导致的

在这里插入图片描述

  1. Predator Prey

首先,作者探索了 消息总结器 的效果。除了LFP和LCEB之外,我们还尝试了类似于Wang等人的熵正则化器。它旨在通过最大化消息的熵来促进探索。如表1所示,LFP和LCEB的组合获得了最佳的平均测试回报,超过了CTDE方法A-QMIX和通信方法EMP的性能。虽然熵正则化器有助于稳定训练(与正则化器结合时降低了方差),但对于平均性能没有贡献。因此,我们将LF P + LCEB作为消息总结器的默认损失函数。请注意,在训练场景中,EMP的性能与SOG相似。然而,当应用于复杂的评估场景时,SOG表现更好。

在这里插入图片描述

在表2中分析了与通信相关的选择,包括期望中的 群组数量、消息维度 和 通信间隔 。群组数量为2的性能优于数量为1或4的情况。由于猎物需要同时被 3 个捕食者捕捉的规则,将 5 或 6 个智能体分成 2 组是合适的。当消息维度从10降低到3时,结果并没有明显下降。然而,当消息维度设置为1时,结果大幅下降。结果表明,对于捕食者-猎物任务,3维消息足够进行通信。至于通信间隔,T = 2比T = 4稍好,而T = 10对于充分的通信来说不够。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/668194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【无标题】机器学习——朴素贝叶斯

朴素贝叶斯(Naive Bayesian algorithm)是有监督学习的一种分类算法,它基于“贝叶斯定理”实现,该原理的提出人是英国著名数学家托马斯贝叶斯。 一、贝叶斯定理 P(A) 这是概率中最基本的符号,表示 A 出现的概率。比如在…

Spark 4/5

4. 启动Spark Shell编程 4.1 什么是Spark Shell spark shell是spark中的交互式命令行客户端,可以在spark shell中使用scala编写spark程序,启动后默认已经创建了SparkContext,别名为sc 4.2 启动Spark Shell Shell /opt/apps/spark-3.2.3-bi…

实战深入了解redis+消息队列如何实现秒杀

SpringBoot Redis RabbitMQ 实现高并发限时秒杀 所谓秒杀,从业务角度看,是短时间内多个用户“争抢”资源,这里的资源在大部分秒杀场景里是商品;将业务抽象,技术角度看,秒杀就是多个线程对资源进行操作&…

配置NIS服务器及客户端

在服务端安装所需软件包 设置主机名和NIS域名 编辑 NIS服务器主配置文件 最下面编辑访问控制 建立测试用户 配置NFS,否则客户端切换用户时,用户没有家目录 安装NFS所需软件包 Nfs-utils 给两个共享目录权限,编辑NFS配制文件 共享两个目录 重…

12.JavaWeb-Spring Boot + 物业管理项目

1.Spring Boot 概念 自动处理应用程序幕后的各种杂事(Spring框架的应用程序的配置和部署过程),让你专注于做那些使应用程序独特的工作 1.1 Spring Boot的核心功能 1.1.1 自动配置 Spring Boot根据应用程序的依赖和配置信息&#xff0…

计算机网络——自顶向下方法(第二章学习记录)

本章学习应用层 网络应用是计算机网络存在的理由。 网络应用程序体系结构 现代网络应用程序有两种主流体系结构:客户—服务器体系结构和对等(P2P)体系结构 客户—服务器体系结构(client-server ),在这个结构中,有一个总是打开的…

SAP CAP篇五:为CAP添加Fiori Elements程序(2)

本文目录 本系列之前的文章新建Fiori Elements Application选择Application TypeData SourceEntity SelectionProject InformationLaunchpad Setting 修改manage-books文件夹子文件夹 webapp重命名 annotations.cds更新fiori-service.cdsmanifest.json 添加services.cds到app文…

哈工大计算机网络课程传输层协议之:拥塞控制原理剖析

哈工大计算机网络课程传输层协议之:拥塞控制原理剖析 文章目录 哈工大计算机网络课程传输层协议之:拥塞控制原理剖析拥塞成因和代价:场景1拥塞成因和代价:场景2拥塞成因和代价:场景3如何进行拥塞控制拥塞控制的方法TCP…

哈工大计算机网络课程网络层协议之:网络层服务概述

哈工大计算机网络课程网络层协议之:网络层服务概述 文章目录 哈工大计算机网络课程网络层协议之:网络层服务概述网络层概述网络层核心功能—转发与路由网络层核心功能—连接建立网络层服务模型虚电路网络与数据报网络虚电路网络虚电路(VC)的具体实现VC转…

Web 渗透测试攻防之浅述信息收集

前言 众所周知渗透测试的本质是信息收集,在渗透测试中信息收集的质量直接关系到渗透测试成果的与否。在对系统进行渗透测试前的信息收集是通过各种方式获取所需要的信息,收集的信息越多对目标进行渗透的优势越有利。通过利用获取到的信息对系统进行渗透…

【前端布局篇】响应式布局 Bootstrap 移动端布局

前言 1. 布局介绍 布局:layout 对事物的全面规划和安排 页面布局:对页面的文字、图形或表格进行格式设置。包括字体、字号、颜色纸张大小和方向以及页边距等。 网页布局:利用html搭建结构与内容,使用CSS添加装饰 网页布局有很多种方式&a…

Flink 学习七 Flink 状态(flink state)

Flink 学习七 Flink 状态(flink state) 1.状态简介 流式计算逻辑中,比如sum,max; 需要记录和后面计算使用到一些历史的累计数据, 状态就是:用户在程序逻辑中用于记录信息的变量 在Flink 中 ,状态state 不仅仅是要记录状态;在程序运行中如果失败,是需要重新恢复,所以这个状态…

基于Django的疫情困扰下的民慧钢材销售分析及纾困策略-计算机毕设 附源码87656

基于Django的疫情困扰下的民慧钢材销售分析及纾困策略 摘 要 疫情之下,实体经济面临下行压力。2019年以来,新冠肺炎疫情卷土而来,各地地疫情防控形势严峻,许多中小微企业经营发展屡次遭受打击。面对疫情常态化的社会现实&#x…

[学习笔记] [机器学习] 13. 集成学习进阶(XGBoost、OTTO案例实现、LightGBM、PUBG玩家排名预测)

视频链接数据集下载地址:无需下载 学习目标: 知道 XGBoost 算法原理知道 otto 案例通过 XGBoost 实现流程知道 LightGBM 算法原理知道 PUBG 案例通过 LightGBM 实现流程知道 Stacking 算法原理知道住房月租金预测通过 Stacking 实现流程 1. XGBoost 算…

SPI协议(嵌入式学习)

SPI协议 概念时序SPI通信模式图四种通信模式 优缺点 概念 SPI(Serial Peripheral Interface)是一种串行外设接口协议,用于在数字系统之间进行通信。它被广泛应用于嵌入式系统和电子设备中,用于连接微控制器、传感器、存储器、显示…

Linux权限管理(超详解哦)

Linux权限 引言文件访问者的分类文件类型与访问权限文件类型访问权限 文件权限值的表示方法修改权限的指令chmod修改文件权限通过角色/-/权限来修改通过三个八进制数修改 chown修改所有者chgrp修改所属组umask修改或查看文件权限掩码文件创建时的权限 目录的权限粘滞位 总结 引…

【命令参数】SVN - 环境配置及常用命令参数

目录 环境配置 基本语法 参数指令 SVN是一款基于C/S架构的版本控制系统,能够实现对产品项目的版本托管以及对源码库的高效管理。而掌握SVN中的一些命令参数,一定程度上可以使日常效率得到进一步提升。 环境配置 为在调用时更加便捷,通常会…

我们如何实现业务操作日志功能?

1. 需求 我们经常会有这样的需求,需要对关键的业务功能做操作日志记录,也就是用户在指定的时间操作了哪个功能,操作前后的数据记录,必要的时候可以一键回退,今天我就为大家实现这个的功能,让大家可以直接拿…

哈尔滨工业大学计算机考研分析

关注我们的微信公众号 姚哥计算机考研 更多详情欢迎咨询 哈尔滨工业大学(A)考研难度(☆☆☆☆☆) 哈尔滨工业大学计算机考研招生学院是计算学部、计算学部(深圳)和计算学部(威海)…