强化学习-google football 实验记录

news2025/1/23 11:27:13
    • google football 实验记录

      1. gru模型和dense模型对比实验

    • 实验场景:5v5(控制蓝方一名激活球员),跳4帧,即每个动作执行4次

    • 实验点:

      • 修复dense奖励后智能体训练效果能否符合预期

    • 实验目的:

      • 对比gru 长度为16 和 dense net作为aggrator的区别

    • 实验效果

      • reward

    • 敌方得分


      • 我方得分


    • 实验结论:

      • 相较于长度16的gru,dense net 作 聚合器有益于快速收敛。

      • gru聚合器学到了持球奖励,所以在双方奖励初步收敛后,gru能凭借持球奖励再一步将总奖励提到0以上(另一方面说明持球奖励设置太大了)

      • 两种方法都很难学会进球,进球的次数太少。

    • 2 课程学习

      2.1 禁区内

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在简单课程:禁区射门,开始

    • 实验目的:

      • 测试简单课程能否教会智能体智能体在禁区中射门

    • 实验效果

      • 奖励

      • 我方得分:

      • 敌方得分:

      • 实验结论

        • 课程学习中,将我方球员和足球放置于禁区内,有助于智能体学会在禁区内射门动作

        • 只进行这一种课程学习无法教会智能体从后场带球突破前场然后射门的策略,所以进球数始终无限接近于一(禁区内射门)而无法超过一

      2.2前场禁区外-对战简单规则

      • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在进阶课程:我方全部球员处于敌方禁区外的前场,敌方所有球员处于我方的后场,足球位于我方球员附近。敌方体力0.05,我方体力1.00

      • 实验配置:加载经过简单禁区内射门课程学习智能体的模型

      • 实验目的:试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略

      • 实验效果:

        • 奖励:

        • 得分

        • 胜率

      • 实验结论

        • 进阶课程学习中,将我方球员和足球放置于前场,有助于智能体学会突破防守,进入禁区,然后射门,在敌方体力0.05,我方体力1.00的设置下每场净进球最高为8,胜率接近1

        • 进阶课程中,由于我方全部处于越位位置,传球会导致越位,使得训练后智能体在突破过程中倾向于单刀直入,很少有传球动作。并且进攻路线比较单一,总是从中路的一条直线突破。在敌方持球阶段,防御能力很弱。

    • 2.3前场禁区外-对战困难规则

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在进阶课程3.7中:敌我双方球员均处于各自半场,我方球员更接近球场中心,足球位于球场中心。敌方体力1.00,我方体力1.00;在进阶课程4.8中:敌我双方球员均处于对称位置,足球位于球场中心。敌方体力1.00,我方体力0.11

    • 实验配置:加载经过简单禁区内射门课程学习智能体的模型

    • 实验目的:试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略

    • 实验效果:

      • 奖励:

      • 得分

      • 胜率

    • 实验结论

    • 通过进阶课程37-48,可以使智能体在较公平和较劣势情况下学习到战胜规则智能体的策略。

    • 由于课程的设置,智能体很少有传球动作。并且进攻路线比较单一,总是从中路的一条直线突破。在敌方持球阶段,防御能力很弱。

    • Naive Selfplay

      单一模型,纯selfplay

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,左右双方均为强化学习智能体,采用同一模型、右边队伍以0.01的概率为 规则智能体,

    • 实验配置:加载经过进阶课程学习36智能体的模型

    • 实验目的:测试selfplay训练方法对模型攻防性能的影响

    • 实验效果:

      • 奖励:

      • 得分:

      • 胜率

    • 实验结论

    • 根据对战视频,selfplay可以增加智能体进攻策略的多样性,智能体不会拘泥一种策略,而是从多个方向向禁区突破,并且具有较低水平的防守能力,偶尔会截断传球,成功铲球等

    • selfplay 后的智能体对战规则的胜率降低,不能像在课程学习中那样,降低规则的进球数,说明其对自身模型产生较大的过拟合,参考文献 Bansal, Trapit et al. “Emergent Complexity via Multi-Agent Competition.” ArXiv abs/1710.03748 (2017): n. pag. 中也有指出naive selfplay的这种过拟合现象,文章通过抽取不同时期的model缓解这种现象。

    • 单一模型,selfplay和规则混合训练

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,左右双方均为强化学习智能体,采用同一模型、右边队伍分别以0.5、 0.75 的概率为 规则智能体,

    • 实验配置:加载经过进阶课程学习36智能体的模型

    • 实验目的:测试selfplay和规则混合训练方法对模型攻防性能的影响,观察不同占比的规则对手,对智能体训练会产生什么影响

    • 实验结果:

      • 奖励:

      • 得分

      • 胜率

      • value loss

      • policy loss

    • 实验结论

    • 面对混合对手,智能体策略迅速保守化,具体表现为自己得分下降同时让对手的得分下降,视频中效果为将球运到自己半场后不再进攻,这一现象不会因为规则占比的多少而出现明显不同。考虑造成这种现象的原因可能有以下两种:1. 由于规则和selfplay的策略差别较大,造成智能体进攻策略时,价值函数和策略函数更新过程中的方差大,因而偏向保守策略。 2. 单模型的selfplay模型更新有问题,一些右队的数据应该被抛弃的数据、影响了模型更新

最终效果图,左队为强化学习智能体

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1418554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前端web入门第二天】02 表单-input标签-单选框-多选框

表单 文章目录: 1.input标签基本使用 1.1 input标签占位文本1.2 单选框 radio 1.3 多选框 checkbox 作用:收集用户信息。 使用场景: 登录页面注册页面搜索区域 1.input标签基本使用 input标签type属性值不同&#xff0c;则功能不同。 <input type"..."&g…

如何搭建开源笔记Joplin服务并实现远程访问本地数据

文章目录 1. 安装Docker2. 自建Joplin服务器3. 搭建Joplin Sever4. 安装cpolar内网穿透5. 创建远程连接的固定公网地址 Joplin 是一个开源的笔记工具&#xff0c;拥有 Windows/macOS/Linux/iOS/Android/Terminal 版本的客户端。多端同步功能是笔记工具最重要的功能&#xff0c;…

【深度学习:目标检测】深度学习中目标检测模型、用例和示例

【深度学习&#xff1a;目标检测】深度学习中目标检测模型、用例和示例 什么是物体检测&#xff1f;物体检测与图像分类物体检测与图像分割 计算机视觉中的目标检测物体检测的优点物体检测的缺点深度学习和目标检测人员检测 物体检测如何工作&#xff1f;一阶段与两阶段深度学习…

从0开始搭建若依微服务项目 RuoYi-Cloud(保姆式教程 一)

掌握陌生项目解读技巧 掌握若依(RuoYi-Cloud)框架 掌握SpringCloud Alibaba体系项目开发套路&#xff0c;结合我之前所有企业项目来学习就知道有多么简单。 一、框架介绍 1. 简介 一直想做一款后台管理系统&#xff0c;看了很多优秀的开源项目但是发现没有合适的。于是利用空…

老司机用脚本批量巧删恶意文件

作者&#xff1a;田逸&#xff08;formyz&#xff09; 一个NFS服务器&#xff0c;为多个Web项目所共享。这些目录包括PHP程序、图片、HTML页面和用户上传的文档和附件等。因为某些Web框架古老&#xff0c;存在诸如不对上传文件做严格的安全性检查&#xff0c;虽然此NFS服务器位…

OceanMind海睿思入选《2023大数据产业年度创新技术突破奖》,并蝉联多项图谱

近日&#xff0c;由数据猿和上海大数据联盟主办&#xff0c;上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海成功举行&#xff0c;吸引了数百位业界精英的参与。中新赛克海睿思作为国内数字化转型优秀厂商代表…

虚拟机安装Centos8.5

记得看目录哦&#xff01; 附件1. 新建虚拟机2. 安装Centos8.5 附件 安装包自行下载 https://mirrors.aliyun.com/centos/8/isos/x86_64/ 1. 新建虚拟机 2. 安装Centos8.5 启动虚拟机–选择第一个install Centos8.5 记得接收许可证

25考研北大软微该怎么做?

25考研想准备北大软微&#xff0c;那肯定要认真准备了 考软微需要多少实力 现在的软微已经不是以前的软微了&#xff0c;基本上所有考计算机的同学都知道&#xff0c;已经没有什么信息优势了&#xff0c;只有实打实的有实力的选手才建议报考。 因为软微的专业课也是11408&am…

在Windows上安装与配置Apache服务并结合内网穿透工具实现公网远程访问本地内网服务

文章目录 前言1.Apache服务安装配置1.1 进入官网下载安装包1.2 Apache服务配置 2.安装cpolar内网穿透2.1 注册cpolar账号2.2 下载cpolar客户端 3. 获取远程桌面公网地址3.1 登录cpolar web ui管理界面3.2 创建公网地址 4. 固定公网地址 前言 Apache作为全球使用较高的Web服务器…

Web开发8:前后端分离开发

在现代的 Web 开发中&#xff0c;前后端分离开发已经成为了一种常见的架构模式。它的优势在于前端和后端可以独立开发&#xff0c;互不干扰&#xff0c;同时也提供了更好的可扩展性和灵活性。本篇博客将介绍前后端分离开发的概念、优势以及如何实现。 什么是前后端分离开发&am…

Linux-动静态库

背景 在实践中&#xff0c;我们一定会使用别人的库&#xff08;不限于C、C的库&#xff09;&#xff0c;在实践中&#xff0c;我们会使用成熟、被广泛使用的第三方库&#xff0c;而不会花费很多时间自己造轮子&#xff0c;为了能更好地使用库&#xff0c;就要在学习阶段了解其…

[嵌入式系统-4]:龙芯1B 开发学习套件-1-开发版硬件介绍

目录 前言&#xff1a; 一、龙芯 1B 开发学习套件简介 1.1 概述 二、龙芯1B 200开发板硬件组成与接口介绍 2.1 概述 2.2 核心板 2.2.1 CPU 2.2.2 什么是核心板 2.2.3 龙芯1B 200核心板 2.2.4 龙芯1B核心板的接口定义 2.3 开发板 2.3.1 龙芯1B0200开发板 2.3.2 龙芯…

Linux使用匿名管道实现进程池得以高效通信

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;Nonsense—Sabrina Carpenter 0:50━━━━━━️&#x1f49f;──────── 2:43 &#x1f504; ◀️ ⏸ ▶️ …

Redis 持久化详解:RDB 与 AOF 的配置、触发机制和实际测试

什么是持久化&#xff1f; 就是 Redis 将内存数据持久化到硬盘&#xff0c;避免从数据库恢复数据。之所以避免从数据库恢复数据是因为后端数据通常有性能瓶颈&#xff0c;大量数据从数据库恢复可能会给数据库造成巨大压力。 Redis 持久化通常有 RDB 和 AOF 两种方式&#xff…

​ PaddleHub 首页图像 - 文字识别chinese_ocr_db_crnn_server​

PaddleHub 便捷地获取PaddlePaddle生态下的预训练模型&#xff0c;完成模型的管理和一键预测。配合使用Fine-tune API&#xff0c;可以基于大规模预训练模型快速完成迁移学习&#xff0c;让预训练模型能更好地服务于用户特定场景的应用 零基础快速开始WindowsLinuxMac Paddle…

算法学习系列(三十):高斯消元解线性方程组

目录 引言一、高斯消元法二、代码模板三、例题 引言 这个高斯消元法主要是线性代数的一些东西&#xff0c;然后步骤跟上课讲的步骤是一样的&#xff0c;只不过使用代码实现了而已&#xff0c;在竞赛和笔试中还是有出现的可能的&#xff0c;所以掌握它还是很重要的&#xff0c;…

「 典型安全漏洞系列 」07.OS命令注入详解

引言&#xff1a;什么是操作系统命令注入&#xff0c;如何防御和利用漏洞&#xff1f; 1. 简介 操作系统命令注入&#xff08;OS command injection&#xff09;是一种Web安全漏洞&#xff0c;允许攻击者在运行应用程序的服务器上执行任意操作系统&#xff08;OS&#xff09;命…

专栏:数据库、中间件的监控一网打尽

前言 对于数据库、中间件的监控&#xff0c;目前社区里最为完善的就是 Prometheus 生态的各个 Exporter&#xff0c;不过这些 Exporter 比较分散&#xff0c;不好管理&#xff0c;如果有很多目标实例需要监控&#xff0c;就要部署很多个 Exporter&#xff0c;要是能有一个大一…

基于springboot的房屋交易系统

文章目录 项目介绍主要功能截图&#xff1a;部分代码展示设计总结项目获取方式 &#x1f345; 作者主页&#xff1a;超级无敌暴龙战士塔塔开 &#x1f345; 简介&#xff1a;Java领域优质创作者&#x1f3c6;、 简历模板、学习资料、面试题库【关注我&#xff0c;都给你】 &…

【C语言/数据结构】排序(快速排序及多种优化|递归及非递归版本)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 ​​​​ 目录 交换排序 快速排序 hoare版代…