多智能体强化学习--MAPPO(pytorch代码详解)

多智能体强化学习--MAPPO(pytorch代码详解)

news2026/2/12 20:03:22

标题

代码详解
- Actor和Critic网络的设置

代码详解

代码链接（点击跳转）
在这里插入图片描述

Actor和Critic网络的设置

基本设置：3个智能体、每个智能体观测空间18维。
Actor网络：实例化一个actor对象，input-size是18
Critic网络：实例化一个Critic对象，input-size是18x3=54
在choose_action调用actor网络的时候，传入的直接是三个智能体的参数，tensor_size=[3,18]；也就是说，智能体之间是共用一套参数的，也就是参数共享；（三个18维向量之间是相互独立的，改变其中一个向量的值，经过神经网络后，只有他自己的输出值改变了，而其他两个向量仍然是原来的大小）；
在训练时，可以认为只有一个Critic网络，因此这叫做集中式训练；
值得注意的是，Critic网络的实际输入的向量的值是[3,54]！！而这三个向量是一模一样的。
关于reward，代码给出的实例是所有智能体共享同一奖励函数，因此将策略梯度算法扩展到多智能体场景下的最简单的方式就是每个智能体共用同一个全局 critic 函数。（但好像值分解的方法更合理一点）

2.box类

box类对应于多维连续空间
Box空间可以定义多维空间，每一个维度可以用一个最低值和最大值来约束
定义一个多维的Box空间需要知道每一个维度的最小最大值，当然也要知道维数。

作者在文献附录中有谈到说如果智能体是同种类的就采用相同的网络参数，对于每个智能体内部也可以采用各自的actor和critic网络，但是作者为了符号的便利性，直接就用的一个网络参数来表示)。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1424930.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Shell脚本——免交互

Shell脚本——免交互

目录一、Here Document免交互 1、免交互概述 2、语法格式 2.1示例：免交互方式实现对行数的统计，将要统计的内容置于标记EOF之间，直接将内容传给wc-l来统计 3、变量设定 ①变量图换成实际值 ②整行内容作为变量并输出结果 ③使输出内…

阅读更多...

杠杆交易在伦敦金市场的优势与风险

杠杆交易在伦敦金市场的优势与风险

伦敦金作为黄金市场的灯塔，每天吸引着全球投资者的目光。伦敦金的特殊地位使得以它为基准的杠杆交易成为众多投资者追逐的目标。在这篇文章中，我们将深入探讨伦敦金杠杆交易的奥秘，带你揭开这一盛宴的神秘面纱。伦敦金杠杆交易的核心在于通过…

阅读更多...

【pytorch】anaconda使用及安装pytorch

【pytorch】anaconda使用及安装pytorch

https://zhuanlan.zhihu.com/p/348120084 https://blog.csdn.net/weixin_44110563/article/details/123324304 介绍 Conda创建环境相当于创建一个虚拟的空间将这些包都装在这个位置，不需要了可以直接打包放入垃圾箱，同时也可以针对不同程序的运行环境选…

阅读更多...

HashSet 的基本操作【集合容器知识回顾 ④】

HashSet 的基本操作【集合容器知识回顾 ④】

HashSet 是 Java 中的一个集合类，它实现了 Set 接口。Set 是一种不允许包含重复元素的集合，而 HashSet 则是 Set 接口的一个具体实现。因此，HashSet 用于存储一组唯一的元素，不允许重复。 HashSet 的一些特点： 不允许…

阅读更多...

揭开时间序列的神秘面纱：特征工程的力量

揭开时间序列的神秘面纱：特征工程的力量

目录写在开头1. 什么是特征工程？1.1 特征工程的定义和基本概念1.2 特征工程在传统机器学习中的应用1.3 时间序列领域中特征工程的独特挑战和需求3. 时间序列数据的特征工程技术2.1 数据清洗和预处理2.1.1 缺失值处理2.1.2 异常值检测与处理2.2 时间特征的提取2.2.1 时间戳解析…

阅读更多...

Vue中使用定义的函数时,无法访问到data()里面的数据

Vue中使用定义的函数时,无法访问到data()里面的数据

const translateItems1 () > {this.translatedItems this.items1.map(item > {return {...item,label: this.$t(item.labelKey)};}); items1是我们data()里面的数据，无法访问到解决办法把箭头函数替换为普通函数 const translateItems1 function() {th…

阅读更多...

echarts 鼠标移入有单位；echarts 纵坐标有单位；echarts 纵坐标刻度有单位

echarts 鼠标移入有单位；echarts 纵坐标有单位；echarts 纵坐标刻度有单位

1.echarts 鼠标移入有单位 tooltip series: [{name: "平均值",type: "line",data: this.avgData,tooltip: {valueFormatter: function (value) {return value 万元}}}]2.echarts 纵坐标有单位；name yAxis: [{type: "value",name: t…

阅读更多...

为什么贪婪的 GPU需要快速的对象存储？

为什么贪婪的 GPU需要快速的对象存储？

一个链条的力量取决于其最薄弱的环节 - 同样，您的AI/ML基础设施的速度也只有您的最慢组件那么快。如果您使用GPU训练机器学习模型，那么您的薄弱环节可能是您的存储解决方案。结果就是我所说的“饥饿GPU问题”。饥饿GPU问题发生在您的网络或存储解决方案…

阅读更多...

三、软硬件工作流程分析

三、软硬件工作流程分析

现在的计算机主要是由两部分组成：软件系统和硬件系统。这里先捋清楚硬件和软件的关系，以及电脑各个组成部分是如何配合工作的。软件系统主要被分类为两大类： 系统软件：这包括操作系统，如Windows、Linux等。操作系统是…

阅读更多...

ManticoreSearch-(安装配置,集群搭建)-学习总结

ManticoreSearch-(安装配置,集群搭建)-学习总结

ManticoreSearch-(安装配置)-学习总结基础概念安装搭建集群搭建(基于K8S) 原文地址 https://blog.csdn.net/liuyij3430448/article/details/135955025 基础概念 Manticore Search是一个专门为搜索设计的多存储数据库，具有强大的全文搜索功能，适用于…

阅读更多...

力扣hot100 三数之和双指针细节去重

力扣hot100 三数之和双指针细节去重

Problem: 15. 三数之和文章目录思路Code 思路 👨‍🏫 参考 Code ⏰ 时间复杂度: O ( n 2 ) O(n^2) O(n2) 🌎 空间复杂度: O ( 1 ) O(1) O(1) class Solution {public List<List<Integer>> threeSum(int[] nums){List&l…

阅读更多...

composer常用命令

composer常用命令

查看全局配置信息 composer config -gl 设置镜全局像地址 composer config -g repo.packagist composer https://mirrors.aliyun.com/composer/ 去掉-g，即表示只有当前项目使用该镜像批量安装composer项目依赖 composer install 执行该命令后，会读取当…

阅读更多...

算法练习-二叉树的层序遍历（思路+流程图+代码）

算法练习-二叉树的层序遍历（思路+流程图+代码）

难度参考难度：中等分类：二叉树难度与分类由我所参与的培训课程提供，但需要注意的是，难度与分类仅供参考。且所在课程未提供测试平台，故实现代码主要为自行测试的那种，以下内容均为个人笔记，旨…

阅读更多...

EasyExcel根据对应的实体类模板完成多个sheet的写入与读取

EasyExcel根据对应的实体类模板完成多个sheet的写入与读取

1.展示模板一的实体类 import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.ColumnWidth; import com.alibaba.excel.annotation.write.style.ContentRowHeight; import com.alibaba.excel.annotation.write.style.HeadRowH…

阅读更多...

$软件价值3-A*算法寻路$

软件价值3-A*算法寻路

A*算法（A-star算法）是一种启发式搜索算法，主要用于在图或网络中找到从起始节点到目标节点的最佳路径。它结合了Dijkstra算法的广度优先搜索和贪婪最优优先搜索的特点，通过估算从起始节点到目标节点的代价来指导搜索方向。 A*算法…

阅读更多...

CentOS 8最小安装

CentOS 8最小安装

简介 CentOS 8的IOS如果下载DVD版本至少有10G 这里我们直接选择最小安装，因此选择最小系统boot版本 CentOS-8.5.2111-x86_64-boot.iso 下载地址 https://mirrors.aliyun.com/centos/8.5.2111/isos/x86_64/ 直接选择CentOS-8.5.2111-x86_64-boot.iso 大小只有789.0…

阅读更多...

MIT6.5830 实验0

MIT6.5830 实验0

前置本次实验使用 Golang 语言实现，在之前的年份中，都是像 cs186 那样使用 Java 实现。原因： Golang 语言作为现代化语言，简单易上手但功能强大。使参加实验的同学有同一起跑线，而不是像Java那样，有些同…

阅读更多...

鸿蒙HarmonyOS——AVSession开发指导

鸿蒙HarmonyOS——AVSession开发指导

AVSession开发指导说明： AVSession的所有接口均为系统接口，其功能仅提供给系统应用使用。会话接入端开发指导基本概念会话元数据AVMetadata: 媒体数据相关属性，包含标识当前媒体的ID(assetId)，上一首媒体的ID(previousAsset…

阅读更多...

链式二叉树（1）

链式二叉树（1）

目录二叉树的概念&结构二叉树的遍历概念手写二叉树测试二叉树遍历实现代码递归图解前序遍历递归图解中序序遍历递归图解后续遍历递归图解二叉树的概念&结构二叉树是： 空树非空：根节点，根节点的左子树、根节点的右子…

阅读更多...

基于MongoDB实现聊天记录的存储

基于MongoDB实现聊天记录的存储

一、mongodb简介 1.1 mongodb简介 MongoDB是一个基于分布式文件存储的数据库，使用C语言编写。它旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB介于关系数据库和非关系数据库之间，是非关系数据库当中功能最丰富、最像关系数据库的。 Mong…

阅读更多...

推荐文章

最新文章