通过无模型多代理强化学习掌握Stratego游戏

通过无模型多代理强化学习掌握Stratego游戏

news2026/2/12 6:14:20

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段，Stratego对人工智能（AI）构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法，并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏，人工智能系统可以玩得和人类一样好，甚至比人类更好，而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用，这些问题的特点是信息不完善，因此目前无法解决。

我们介绍了DeepNash，一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能（AI）尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏：它需要像国际象棋一样进行长期的战略思维，但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法，无需搜索，通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法，并在Gravon游戏平台上实现了年初至今（2022年）和历史前三名，与人类专家玩家竞争。

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段，Stratego对人工智能（AI）构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法，并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏，人工智能系统可以玩得和人类一样好，甚至比人类更好，而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用，这些问题的特点是信息不完善，因此目前无法解决。

我们介绍了DeepNash，一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能（AI）尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏：它需要像国际象棋一样进行长期的战略思维，但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法，无需搜索，通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法，并在Gravon游戏平台上实现了年初至今（2022年）和历史前三名，与人类专家玩家竞争。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/705530.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Crontab的sendmail邮件发送引发磁盘问题

Crontab的sendmail邮件发送引发磁盘问题

一.背景大清早的收到一台服务器的内存占用高达98%的钉钉告警。回想了一下，这台服务器没跑什么业务啊，咋从凌晨1点就开始告警呢? 赶紧登录服务器，top 按照内存倒序一下，没发现占用特别大的进程。内存监控图如下: 但是发现了很…

阅读更多...

Windows环境本地部署Oracle11g r2实操手册

Windows环境本地部署Oracle11g r2实操手册

前言：一直在做其他测试，貌似都忘了Windows环境oracle安装，这是一个很早很早的安装记录了，放上来做个备录给到大家参考。环境： （都是常规系统及工具，官网度娘搜索即可下载测试学习）…

阅读更多...

通过无代码CDC工具实现Oracle实时同步到Mysql

通过无代码CDC工具实现Oracle实时同步到Mysql

Oracle数据实时同步需求现代企业对于数据实时同步的需求日益迫切，特别是在涉及Oracle数据库的情况下。实时同步数据对企业来说至关重要，因为它可以确保不同系统之间的数据始终保持一致性和最新性，提供准确的决策支持和及时的业务反应。针…

阅读更多...

Leetcode-每日一题【725.分隔链表】

Leetcode-每日一题【725.分隔链表】

题目给你一个头结点为 head 的单链表和一个整数 k ，请你设计一个算法将链表分隔为 k 个连续的部分。每部分的长度应该尽可能的相等：任意两部分的长度差距不能超过 1 。这可能会导致有些部分为 null 。这 k 个部分应该按照在链表中出现的顺序排列&#…

阅读更多...

在 JavaScript 中获取选中或突出显示的文本

在 JavaScript 中获取选中或突出显示的文本

本文将展示我们如何使用 DOM API 来让用户在屏幕上突出显示或选择文本。 DOM API 为我们提供了 getSelection() 方法，该方法允许我们获取用户选择的文本。窗口对象可以直接访问这个方法。让我们看看如何实际实现此功能。使用 JavaScript 中的 window.getSelecti…

阅读更多...

Vscode快速对比两个文件的不同部分

Vscode快速对比两个文件的不同部分

文件对比第一种方法： 打开vscode，打开文件或者文件夹选中需要对比的文件按住ctrl选择要对比的另一个文件，鼠标右键选择将已选项进行比较结果如下： 文件对比第二种方法： 打开文件，点击鼠标右键命…

阅读更多...

牛客网论坛考研计算机组成原理笔记，GitHub已下载量已过百万

牛客网论坛考研计算机组成原理笔记，GitHub已下载量已过百万

**前言：**看过很多书，但总是忘得很快。知识广度越大越容易接纳新东西，但从考察角度来说，自然是对某个方面了解越深越好。那些大而全的著作虽然每本都是经典中的经典，但实际工作中可能只用到其中的一小部分。我现在越发…

阅读更多...

机器学习13：使用 TensorFlow 进行二元分类（Binary Classification）编程实践

机器学习13：使用 TensorFlow 进行二元分类（Binary Classification）编程实践

在【机器学习6】和【机器学习9】中，我们使用 TensorFlow 进行了“线性回归模型”和“组合特征”编程实践。本质上，其中采用的都是回归模型，也就是说，我们创建了产生浮点预测的模型，比如“这个社区的房子要花 N 千美元。…

阅读更多...

基于matlab深度学习的多光谱图像语义分割（附源码）

基于matlab深度学习的多光谱图像语义分割（附源码）

一、前言此示例演示如何使用 U-Net 对具有七个通道的多光谱图像执行语义分割。语义分割涉及用类标记图像中的每个像素。语义分割的一个应用是跟踪森林砍伐，即森林覆盖率随时间的变化。环境机构跟踪森林砍伐，以评估和量化一个地区的环境和生态健康状况…

阅读更多...

Flink消费kafka出现空指针异常

Flink消费kafka出现空指针异常

文章目录出现场景：表现：问题：解决： tombstone : Kafka中提供了一个墓碑消息（tombstone）的概念，如果一条消息的key不为null，但是其value为null，那么此消息就是墓碑消息. …

阅读更多...

echarts tooltip自定义线条样式及数据提示框内容

echarts tooltip自定义线条样式及数据提示框内容

option {......tooltip: {trigger: axis,borderWidth: 0, // 去除数据提示框默认的边框axisPointer: {lineStyle: { // 设置hover时竖线样式color: {type: linear,x: 0,y: 0,x2: 0,y2: 1,colorStops: [{offset: 0,color: rgba(128,200,244,0) // 0% 处的颜色},{offset: 1,colo…

阅读更多...

【40000字】！最适合新手的Springboot+Vue项目

【40000字】！最适合新手的Springboot+Vue项目

更多文章：https://mp.weixin.qq.com/mp/appmsgalbum?__bizMzg2NDY3NjY5NA&actiongetalbum&album_id2053253027934863360#wechat_redirect hello我是索奇，本套项目对应bilibili视频，大家可以结合视频看哈，有些基础的只看…

阅读更多...

2022年系统架构师论文（回忆版）

2022年系统架构师论文（回忆版）

2022年11月6日，全国计算机等级下半年考试，在疫情压力下如期举行。北京市软件架构师考试地点在北京市工贸技师学院（机电分院），地址：海淀区北四环北路132号（金泰海博大酒店北侧） 查看…

阅读更多...

网络安全（黑客）自学笔记

网络安全（黑客）自学笔记

建议一：黑客七个等级黑客，对很多人来说充满诱惑力。很多人可以发现这门领域如同任何一门领域，越深入越敬畏，知识如海洋，黑客也存在一些等级，参考知道创宇 CEO ic（世界顶级黑客团队 0x557 成员…

阅读更多...

chatgpt赋能python：吐血推荐的Python编程好玩的代码

chatgpt赋能python：吐血推荐的Python编程好玩的代码

吐血推荐的Python编程好玩的代码近年来，Python 成为了全球最受欢迎的编程语言之一。Python 的简洁明了，易学易用，使得越来越多的开发者选择了 Python。Python 的生态系统非常丰富，有很多丰富有趣的库和代码可以供我们玩耍。在本…

阅读更多...

使用MySQL根据原型字段创建表结构

使用MySQL根据原型字段创建表结构

⭐️ 不爱生姜不吃醋，原创不易，转载请注明原链接 ❗️ 注：本文写的是基于MySQL对数据库表结构进行的操作(DDL) 文章目录一、数据库1.基本概念2.关系型数据库（RDBMS）3.数据模型4.SQL通用语法5.SQL分类二.创建表结构1.…

阅读更多...

关于nlohmann::json的简单使用

关于nlohmann::json的简单使用

nlohmann::json的使用非常简单，只需要包含.hpp文件即可，这是它的官网https://github.com/nlohmann/json 简单使用： #include "json.hpp" #include <iostream>using Info nlohmann::json;int main() {Info info;std::cout &…

阅读更多...

Java面试Day11

Java面试Day11

1. MySQL 事务有哪些隔离级别、分别有什么特点，以及 MySQL 的默认隔离级别是什么？ 在MySQL中事务的隔离级别是为了解决常见的并发问题，在保证数据库性能的同时保持事务的隔离性，常见的并发问题有： 脏读：如果…

阅读更多...

利用nginx/apache代理wss 实现小程序端口反向代理

利用nginx/apache代理wss 实现小程序端口反向代理

除了用Workerman自身的SSL，也可以利用nginx/apache作为wss代理转发给workerman 我就是栽在这大坑里（nginx/apache代理wss，workerman部分就不要设置ssl，否则将无法连接，两个方法2选1）官方推荐用nginx/apach…

阅读更多...

基于matlab基于预训练的膨胀双流卷积神经网络的视频分类器执行活动识别（附源码）

基于matlab基于预训练的膨胀双流卷积神经网络的视频分类器执行活动识别（附源码）

一、前言此示例首先展示了如何使用基于预训练的膨胀 3-D （I3D） 双流卷积神经网络的视频分类器执行活动识别，然后展示了如何使用迁移学习来训练此类视频分类器使用 RGB 和来自视频的光流数据 [1]。基于视觉的活动识别涉及使用一组视频帧预…

阅读更多...

推荐文章

最新文章