探索利用人工智能追踪逃犯的新技术

news2024/10/10 13:52:23

介绍

论文地址:https://arxiv.org/abs/2404.12626
近年来,"追逃游戏 "引起了人们的广泛关注。"追逃游戏 "模拟了多组追捕者与单个逃犯之间的追捕游戏。这种博弈发生在城市道路网等图上,有效地找到这种博弈的策略具有多种潜在应用,包括在现实世界的城市安全中尽早逮捕罪犯。

然而,传统方法依赖于某些初始条件(如玩家的初始位置和入口/出口设置),由于这些条件在真实犯罪现场中不断变化,目前的算法每次都需要重新计算,效率低下。因此,本文提出了一个名为 "Grasper "的新框架。

Grasper 是一个多功能系统,可以根据初始条件生成跟踪器的策略。图神经网络将初始条件转换为嵌入向量,超网络则根据嵌入向量生成跟踪器的行为策略。此外,还开发了一种高效的三阶段学习程序和一种使用启发式方法得出的参考策略的新型预训练方法。

在对各种地图的实验中,Grasper 显示出了远远优于传统方法的性能和多功能性。即使初始条件发生变化,只需点击一下鼠标,就能生成针对具体情况的新策略,这种能力使 Grasper 成为一种创新的追逐和逃脱游戏解算器,在现实世界中具有巨大的应用潜力。

相关研究

追逐与飞行游戏

追逐-逃逸博弈(PEG)是将追逐者和逃逸者之间的对抗关系模拟成一个图,已被应用于维护城市安全等实际问题。传统上,人们一直使用值迭代法等方法,但由于计算复杂,这些方法很难应用于大规模博弈。近年来,基于大规模不完全信息博弈论的方法,如反事实正则化和政策空间响应谕令(PSRO),引起了人们的关注。

游戏中的泛化

目前正在研究如何推广在某一特定博弈中学到的模型,以便将其应用于不同的博弈。在正常形式的博弈中,纳什均衡的近似模型已被证明在理论上是可训练的,并在一定程度上具有实验通用性。然而,在复杂博弈(如追逐博弈和逃脱博弈)中的推广一直是一个未决问题。

自我监测图形学习

通过自我监督学习从图形数据中获取有用表征的方法已经开发出来。与对比方法相比,生成方法(如 GraphMAE)表现出色。

多任务强化学习

有人提出了多任务强化学习方法,通过同时学习几个不同的任务来提高每个任务的泛化性能。

本文的定位是将这些相关领域的研究成果结合起来进行一项重要研究,并首次探讨了追逐和逃脱博弈中不同初始条件下的一般性问题。

建议的方法(Grasper)

Grasper 是一个通用的追逐者策略生成框架,可用于追逐和逃脱游戏中的不同初始条件。其三个主要组成部分是

图神经网络(GNN)

追逃游戏的初始条件(如玩家的起始位置、入口和出口的位置)被嵌入到一个图中,然后将其输入到 GNN 中以获得隐藏状态向量(图 1(a) 和 (b))。

超网络

以上述隐藏状态向量和时间跨度为输入,生成该游戏特有的跟踪器基本测量参数(图 1©)。

观测表示层

这一层将追踪器的观测数据(如播放器的位置)转换为嵌入向量。

Grasper 采用高效的三步学习程序

(1) 预学习:使用 GraphMAE 等自我监督方法从图形数据中预学习 GNN。
(2) 预学习:采用新颖的启发式多任务预学习(HMP)来学习超网络和观测表示层。利用启发式方法(如 Dijkstra 方法)得出的参考测量值对跟踪器测量值进行正则化,以提高搜索效率。
(3) 微调:在 PSRO 算法的每次迭代中,超网络生成的基本策略用于初始化,以微调跟踪器的最优响应策略。

因此,Grasper 将图表示法、超网络和高效学习程序结合在一起,成为解决追逐与逃脱游戏泛化问题的创新方法。

试验

图 3 比较了 Grasper 和传统方法的性能。纵轴表示跟踪器最坏情况下的效用值,横轴表示执行时间。
- 对于所有地图,Grasper 都比传统方法显示出更高的收敛值和更稳定的性能,即使在增加了预训练时间之后也是如此。
- 特别是,Grasper 的泛化性能在非分布测试集 (I2) 中表现突出。
- 从图中的斜率可以看出,Grasper 在 PSRO 的每次迭代中改进度量的速度都比传统方法快得多。

表 1 显示的结果证实了所提方法的关键组成部分:启发式引导的多任务预训练(HMP)和观察表示层(Rep.)的有效性。
- 可以看出,只有同时使用 HMP 和观察表示层时,才能获得较高的效用值和较小的标准偏差。
- 这说明这两种新方法都是必不可少的。

审议

- Grasper 的高性能和稳定性源于其能够根据初始条件输出跟踪测量值的结构特征。
- 特别是,Grasper 能够在初始条件不同的博弈中稳健地输出精确的解,而传统方法的性能则会明显下降。
- 由于高质量的初始化和快速的策略改进,即使增加了预训练时间,最终收敛时间也比传统方法更快。- HMP 减少了随机搜索,提高了基于启发式搜索的效率(图 2)。- 此外,图 5 显示,Grasper 能够针对逃犯的不同初始位置输出合理的追捕效用值。

这表明,Grasper 的创新结构和学习方法在解决追逐与逃脱游戏的泛化问题方面取得了重大进展。

结论

本研究提出了由 GNN、超网络和高效学习程序组成的 Grasper,用于解决追逃游戏的初始条件泛化问题。实验证明了 Grasper 的高性能和多功能性。

未来,Grasper 将进一步提高效率,推广到异构图,并应用到更高级的环境中,为构建实用系统和相关领域做出贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2202165.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10月9-10日,优阅达邀您参与 2024 新加坡科技周,一站式体验亚洲前沿技术!

一场不容错过的亚洲商业技术盛会将于新加坡滨海湾金沙会展中心盛大开幕。 当全球化的浪潮席卷每一个角落,中国科技企业正站在新的起点,迎接出海的挑战与机遇。 一场不容错过的亚洲商业技术盛会 TECH WEEK SINGAPORE(点击报名新加坡科技周&am…

HyperWorks基于几何投影的网格变形

在Altair(HyperWorks)里,使用本节将演示如何通过 line difference 功能,将已有网格以几何图形为目标进行投影,以生成全新的网格模型。 图 7-5 网格变形模型的状态 Step01:读取模型。 (1) 打开文件 Exerci…

C++入门基础知识106—【关于C++continue 语句】

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于C continue 语句的相关内容!…

打不死的超强生命力

水熊虫是你可能听说过的小生物,它们能够在极端环境中生存,堪称地球上的“超强幸存者”。数十年来,科学家们试图通过各种极端实验杀死它们,但无论是把它们以900米/秒的速度发射,还是将它们暴露在宇宙辐射下,…

【含开题报告+文档+PPT+源码】基于springBoot+vue超市仓库管理系统的设计与实现

开题报告 随着电子商务的快速发展和物流行业的日益壮大,超市仓库管理系统的重要性也日益凸显。传统的超市仓库管理方式存在许多问题,比如人工操作繁琐、数据统计不准确、管理效率低下等。因此,需要设计和实现一个高效、智能的超市仓库管理系…

c语言中有关指针的题型整理,以及一些详解

(1)应注意其二维数组的书写形式,以及逗号表达式的 (2)要注意数组名表示首元素地址,解引用之后表示元素,&a表示整个数组,1表示指向后面的,ptr-1又指向数组末尾&#x…

鸿蒙架构-系统架构师(七十八)

1信息加密是保证系统机密性的常用手段。使用哈希校验是保证数据完整性的常用方法。可用性保证合法用户对资源的正常访问,不会被不正当的拒绝。()就是破坏系统的可用性。 A 跨站脚本攻击XSS B 拒绝服务攻击DoS C 跨站请求伪造攻击CSRF D 缓…

绘制YOLOv11模型在训练过程中,精准率,召回率,mAP_0.5,mAP_0.5:0.95,以及各种损失的变化曲线

一、本文介绍 本文用于绘制模型在训练过程中,精准率,召回率,mAP_0.5,mAP_0.5:0.95,以及各种损失的变化曲线。用以比较不同算法的收敛速度,最终精度等,并且能够在论文中直观的展示改进效果。支持…

React(一) 认识React、熟悉类组件、JSX书写规范、嵌入变量表达式、绑定属性

文章目录 一、初始React1. React的基本认识2. Hello案例2.1 三个依赖2.2 渲染页面2.3 hello案例完整代码 二、类组件1. 封装类组件2. 组件里的数据3. 组件里的函数 (重点)4. 案例练习(1) 展示电影列表 三、JSX语法1. 认识JSX2. JSX书写规范及注释3. JSX嵌入变量作为子元素4. JS…

QT 10.8

Xmind: QT的核心机制 QT对话框

Python Django ORM 的工作原理

在 Web 开发中,处理数据库是非常常见的需求,尤其是在构建动态应用程序时。Django 作为一个流行的 Python Web 框架,提供了一套强大的工具帮助开发者轻松管理数据库。Django 的 ORM(对象关系映射,Object-Relational Map…

【STM32单片机_(HAL库)】4-5-2【定时器TIM】【感应开关盖垃圾桶】HC-SR04超声波模块实验

1.硬件 STM32单片机最小系统HC-SR04超声波模块 2.软件 hcsr04驱动文件添加main.c程序 #include "sys.h" #include "delay.h" #include "led.h" #include "uart1.h" #include "hcsr04.h"int main(void) {HAL_Init(); …

k8s微服务

一 、什么是微服务 用控制器来完成集群的工作负载,那么应用如何暴漏出去?需要通过微服务暴漏出去后才能被访问 Service是一组提供相同服务的Pod对外开放的接口。 借助Service,应用可以实现服务发现和负载均衡。 service默认只支持4层负载均…

全网首创Windows Powershell 批量创建、重命名和拷贝文件夹和文件到指定目录

哈喽大家好,欢迎来到虚拟化时代君(XNHCYL)。 “ 大家好,我是虚拟化时代君,一位潜心于互联网的技术宅男。这里每天为你分享各种你感兴趣的技术、教程、软件、资源、福利…(每天更新不间断,福利…

Redis 完整指南:命令与原理详解

目录 1. Redis 概述什么是 RedisRedis 应用场景 2. 安装与启动Redis 安装步骤源代码安装使用包管理器安装(以 Ubuntu 为例) 编译与启动命令编客户端连接 3. Redis 存储结构KV 存储结构数据结构类型String(字符串)List(…

selenium有多个frame页时的操作方法(5)

之前文章我们提到,在webdriver.WebDriver类有一个switch_to方法,通过switch_to.frame()可以切换到不同的frame页然后才再定位某个元素做一些输入/点击等操作。 比如下面这个测试网站有2个frame页:http://www.sahitest.com/demo/framesTest.h…

支付宝开放平台-开发者社区——AI 日报「10 月 10 日」

1 AI逆向绘画火了!一键重绘梵高《星空》,来自华盛顿大学 量子位|阅读原文 这项魔法来自华盛顿大学,项目名为Inverse Painting,相关论文已入选SIGGRAPH Asia 2024,其中两位作者还是东北大学(Bo…

车载SerDes历史和发展概述

1. 场景起源 1.1 原始时代: 在古老的很久很久以前,摄像头和显示屏等接口是多种多样的,丰富多彩的。大家各凭本事,各显神通,在各种地盘上成立各种帮派。比如CVBS、DVP、AHD、USB。 CVBS,包括后面的AHD&a…

【puppeteer】wvp-puppeteer制作 过程

、 制作 docker build -t dxw-pupet4 -f .\dockerfile2 . docker run -itd --name dxw4 -p 35105:35105 dxw-pupet4 推送到私库 docker tag dxw-pupet4:latest dualvenregistry:5000/wvp-puppeteer:v1.0 docker push dualvenregistry:5000/wvp-puppeteer:v1.0 重启桌面上…

2024.10.9 QT事件

1.思维导图 2.一个圆形根据wsad上下左右移动&#xff0c;超出界限则不移动。鼠标点击和双击事件测试。 1.main.cpp #include "mainwindow.h"#include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);MainWindow w;w.show();re…