多智能体强化学习理论与算法总结

news2025/4/26 1:49:03

多智能体强化学习理论与算法总结

先搞明白on-policy和off-policy
【强化学习】一文读懂，on-policy和off-policy
我的理解：on-policy就是使用最新的策略来执行动作收集数据，off-policy的训练数据不是最新策略收集的。on-policy也是使用同个策略网络去采样动作并执行，更新Q值也需要用到该策略网络。

1.基础概念理解，多智体的状态，观测，奖励等需要重新定义：
强化学习——多智能体强化学习
强化学习笔记：Policy-based Approach

2.最新多智能体强化学习方法总结：
最新多智能体强化学习方法【总结】
这里不错Transformer讲解：
Transformer讲解

3.一些基础算法（PPO,DQN等）步骤
DQN——PPO流程总结
强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】
进阶篇—PPO代码逐行分析

4.TD，GAE优势函数等定义：
GAE 广义优势估计

5.一些经典的多智能算法的局限性总结：
【一】最新多智能体强化学习方法【总结】

6.需要掌握的协作类（合作）的多智体算法：
一、基于价值函数值分解的方法：
（1）COMA算法：
【COMA】一种将团队回报拆分为独立回报的多智能体算法
COMA算法解析: Counterfactual Multi-Agent Policy Gradients

（2）VDN/QMIX/QTRAN/Qatten算法的介绍和局限性：
多智能体深度强化学习值分解方法总结（1）—VDN/QMIX/QTRAN/Qatten

（3）QMIX算法:
多智能体强化学习入门Qmix
代码：https://blog.csdn.net/tianjuewudi/article/details/121005721

（4）QTRAN算法:
QTRAN 算法详解（VDN和QMIX的升级版本）

（5）Qatten算法:
Qatten

（6）MAVEN算法:

（7）Weighted QMIX算法:
从 QMIX 到 WQMIX —— Weighted QMIX 算法详解

（8）QPLEX算法:
多智能体强化学习2021论文（五）QPLEX

最后，有个大佬调研：
多智能体强化学习值函数分解论文调研
多智能体强化学习之值函数分解：VDN、QMIX、QTRAN系列优缺点分析

二、基于PPO的方法：
（1）MAPPO
多智能体强化学习之MAPPO理论解读

在这里插入图片描述
（2）HAPPO

（3） MAT

三、好代码：
https://github.com/marlbenchmark/on-policy
https://github.com/hijkzzz/pymarl2

四、一些论文总结
https://www.zhihu.com/people/sanmuyansan-mu-yang/columns

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/699295.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

苹果手机ios设备管理软件iMazing 2.17.6官方版下载及常见问题解决

苹果手机ios设备管理软件iMazing 2.17.6官方版下载及常见问题解决

苹果手机ios设备管理软件iMazing 2.17.6官方版下载(ios设备管理软件)是一款管理苹果设备的软件， Windows / macos 系统上的一款帮助用户管理 IOS 手机的应用程序，软件功能非常强大，界面简洁明晰、操作方便快捷，设计得非常人性化。…

阅读更多...

electron+vue3+ts+vite

electron+vue3+ts+vite

首先使用vite工具创建一个vue3ts的项目 npm create vite创建好vuets项目后启动项目 cd electron-vue3-ts-vitenpm installnpm run dev 访问http://127.0.0.1:5173/地址可以看到项目已经启动成功安装Electron 接下来我们安装electron，使用以下命令 npm i -D el…

阅读更多...

FlashAttention论文解析

FlashAttention论文解析

FlashAttention让语言模型拥有更长的上下文 FlashAttention序：概述：简介：FlashAttention块稀疏 FlashAttention优点：标准注意力算法实现流程： FlashAttentionBlock-Sparse FlashAttention实验使用FlashAttention后更快…

阅读更多...

【网络管理发展】网络杂谈（12）之网络管理未来发展趋势

【网络管理发展】网络杂谈（12）之网络管理未来发展趋势

涉及知识点网络管理未来的发展方向，网络管理未来的发展趋势，个人闲谈网络管理未来发展，网络管理技术现状，应用服务供应商（ASP），网络的远程管理，人工智能与未来。原创于&#xff1…

阅读更多...

try catch 异常处理

try catch 异常处理

C中使用异常时应注意的问题任何事情都是两面性的，异常有好处就有坏处。如果你是C程序员， 并且希望在你的代码中使用异常，那么下面的问题是你要注意的。1. 性能问题。这个一般不会成为瓶颈，但是如果你编写的是高性能或者实时性要求…

阅读更多...

保偏产品系列丨5款保偏光纤产品简介

保偏产品系列丨5款保偏光纤产品简介

保偏光纤应用日益扩大，特别是在干涉型传感器等测量方面，利用保偏光纤的光无源器件起着非常重要的作用，种类也很多。本文来介绍5款保偏光纤系列产品以及它们的性能，欢迎收藏转发哦！ 01、保偏光纤跳线-TLPMPC 保偏光纤跳…

阅读更多...

2015年全国硕士研究生入学统一考试管理类专业学位联考数学试题——纯题目版

2015年全国硕士研究生入学统一考试管理类专业学位联考数学试题——纯题目版

2015 级考研管理类联考数学真题一、问题求解（本大题共 15 小题，每小题 3 分，共 45 分）下列每题给出 5 个选项中，只有一个是符合要求的，请在答题卡上将所选择的字母涂黑。 1.若实数a,b, c 满足 a : b : c…

阅读更多...

手机记事本中的内容转到新手机不见了，怎么办？

手机记事本中的内容转到新手机不见了，怎么办？

在更换新手机时，很多网友都会面临这样一个问题，这就是旧手机中的重要数据如何转移到新手机上。一般来说，如果是相同品牌的手机，我们可以借助手机云空间账号进行数据的同步；但如果使用的是不同品牌的手机，这…

阅读更多...

如何恢复电脑回收站中的数据？应对已清空电脑回收站的措施

如何恢复电脑回收站中的数据？应对已清空电脑回收站的措施

在我们日常使用电脑的过程中，误删文件是难以避免的。幸运的是，电脑回收站提供了一种简便的方式来找回被删除的文件。然而，有些文件可能不会进入回收站，或者回收站的数据被清空，导致丢失的文件无法通过常规方式恢复。在…

阅读更多...

在rails项目里面把a链接中的com前半部分用sub替换

在rails项目里面把a链接中的com前半部分用sub替换

在Rails项目中，你可以使用sub方法来替换a链接中的"com"前半部分。下面是一个示例： # 假设a链接的原始URL为：https://example.com/some/pagelink "https://example.com/some/page" modified_link link.sub("com…

阅读更多...

node.js宿舍管理系统-计算机毕设附源码80331

node.js宿舍管理系统-计算机毕设附源码80331

node.js宿舍管理系统摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于角度存在偏差，人们经常能够获取不同类型的信息，这也是技术最为难以攻克的课题。针对宿舍管理系统等问题&#…

阅读更多...

高防IP服务靠谱吗？能抵御什么攻击?

高防IP服务靠谱吗？能抵御什么攻击?

今天我们要揭开一个神秘而又酷炫的面纱——高防IP服务！是不是已经感到心跳加速了呢？那么，问题来了，高防IP服务靠谱吗？它能抵御什么攻击呢？ 我们来给大家科普一下高防IP服务是什么。简单来说，高防…

阅读更多...

JetBrains编程IDE将具备Ai助手功能，或将提高开发速度

JetBrains编程IDE将具备Ai助手功能，或将提高开发速度

近日JetBrains发布博客文章宣布，本周所有基于IntelliJ的IDE和.NET工具的EAP版本都将具备AI助手功能。而这些操作或许将提高开发效率，并且这些AI助手也是使用自家的**ERP**模型和OpenAI服务。 JetBrains表示，当下AI助手功能主要体现在IDE的两…

阅读更多...

adb 查询app占用的cup和内存

adb 查询app占用的cup和内存

一、先将cpu定频先进入shell 模式 adb shell 查看当前CPU的工作模式 cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor 然后把CPU工作模式设置为performance模式 echo performance > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor 改完后查看模式…

阅读更多...

Pytest接口自动化框架

Pytest接口自动化框架

目录前言： 插件： test_case pytest.ini (pytest.ini 配置文件不支持注释) run_all.py report 插件： test_case pytest.ini (pytest.ini 配置文件不支持注释) run_all.py report 前言： pytest是一个基于Python的开源测试框…

阅读更多...

ShaderGraph制作“红旗迎风飘扬”效果(Unity2019版)

ShaderGraph制作“红旗迎风飘扬”效果(Unity2019版)

零、准备“旗面”游戏物体旗面是一个平面，右键创建的3D物体里是平面的，有Quad和Plan，模仿旗面“起伏”的原理是对平面的顶点，做不同程度的抬升：Quad从线框图中看，是一个长方形，只有四个顶点&am…

阅读更多...

nginx unknown directive “stream“

nginx unknown directive “stream“

目录 1、安装依赖 2、执行命令 nginx 运行报错：unknown directive "stream"的原因，主要是因为没有安装stream模块导致的，我们只需要编译安装一下stream模块即可解决这个问题。 1、安装依赖提前安装编译所需要的依赖插件 # gcc…

阅读更多...

【机器学习与遥感】sklearn与rasterio实现遥感影像非监督分类

【机器学习与遥感】sklearn与rasterio实现遥感影像非监督分类

在学习遥感的过程中，我们都了解到了监督分类与非监督分类，二者是遥感解译的基础。之前更多的是使用Erdas与ENVI来进行这两种分类。这里使用python语言，基于机器学习库sklearn与遥感影像处理库rasterio，使用kmeans动态聚类方法实现…

阅读更多...

PP-Structure—表格数据提取

PP-Structure—表格数据提取

目录简介特性效果展示表格识别版面分析和表格识别版面恢复关键信息抽取快速开始 1. 准备环境 1.1 安装PaddlePaddle 1.2 安装PaddleOCR whl包 2 快速使用 3. 便捷使用 3.1 命令行使用 3.2 Python脚本使用 3.3 返回结果说明分析总结简介 PP-Stru…

阅读更多...

Python 装饰器

Python 装饰器

一、什么是装饰器装饰器本质上就是一个Python函数，它可以装饰在其他函数上，使得其他函数不需要做任何改动就可以获得装饰器函数中的功能。实际上被装饰器修饰的函数在执行的时候不会直接运行其函数内部的逻辑，而是先将这个函数当作参数传递…

阅读更多...

推荐文章

最新文章