基于强化学习的目标跟踪论文合集

news2025/1/19 22:20:22

文章目录

  • 2020
    • UAV Maneuvering Target Tracking in Uncertain Environments Based on Deep Reinforcement Learning and Meta-Learning
    • UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning
  • 2021
    • Research on Vehicle Dispatch Problem Based on Kuhn-Munkres and Reinforcement Learning Algorithm
    • Multi-Agent Reinforcement Learning Aided Intelligent UAV Swarm for Target Tracking
    • Active Learning for Deep Visual Tracking
  • 2022
    • Remote Sensing Object Tracking With Deep Reinforcement Learning Under Occlusion
  • 2023
    • Deep Reinforcement Learning for Vision-Based Navigation of UAVs in Avoiding Stationary and Mobile Obstacles
    • SRL-TR2: A Safe Reinforcement Learning Based TRajectory TRacker Framework
    • Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking

2020

UAV Maneuvering Target Tracking in Uncertain Environments Based on Deep Reinforcement Learning and Meta-Learning

摘要: 本文结合深度强化学习(DRL)与元学习,提出了一种新颖的方法,名为元双延迟深度确定性政策梯度(Meta-TD3),实现无人机(UAV)的控制,允许无人机快速跟踪目标环境的目标是不确定的。这种方法可应用于各种情况,如野生动物保护、紧急援助和遥感。我们考虑一个多任务经验重放缓冲区为DRL算法的多任务学习提供数据,并结合元学习开发了一种多任务强化学习更新方法,以确保强化学习的泛化能力。与现有的深度确定性策略梯度(DDPG)和双延迟深度确定性策略梯度(TD3)算法相比,实验结果表明,Meta-TD3算法在收敛值和收敛速度方面都取得了很大的提高。在无人机目标跟踪问题中,Meta-TD3只需要几个步骤来训练,使无人机能够快速适应新的目标运动模式,并保持更好的跟踪效果。
在这里插入图片描述

UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning

code: https://github.com/sarthak268/Target-Tracking-Simulator
摘要: 由于视野有限、障碍物能见度障碍、目标运动不确定,无人机在城市环境中进行持续目标跟踪是一项困难的任务。车辆需要在三维空间中进行智能规划,以使目标可见性最大化。在本文中,我们介绍了一种基于深度q网络(TF-DQN)的深度强化学习技术,具有课程训练框架,用于无人机在存在障碍物和目标运动不确定性的情况下持续跟踪目标。通过多次仿真实验,对该算法进行了定性和定量的评价。结果表明,无人机在不同的环境中持续跟踪目标,同时在训练好的环境和看不见的环境中避开障碍物。

在这里插入图片描述

2021

Research on Vehicle Dispatch Problem Based on Kuhn-Munkres and Reinforcement Learning Algorithm

摘要: 随着人工智能和5G通信技术的发展,自动驾驶汽车的可实现性越来越大。城市交通汽车提供出租车服务,有效降低了劳动力成本,实现了智能交通系统。结合5G技术的车辆系统可以快速获取交通信息,为车辆调度提供了决策依据。因此,有必要开发一种有效的方法来分配和分配这些车辆,以最大化系统的潜在收入。本文基于2016年纽约市绿色出租车数据的出行数据进行了车辆调度研究,并提出了两种调度方法。首先,我们将调度问题作为一个最大权值匹配问题。然后,利用库恩和Munkres(KM)算法,提出了一种以减少乘客等候时间为目标的基于距离调度方法。最后,我们用马尔可夫决策过程(MDP)制定了车辆调度决策,并引入了一种基于强化学习(RL)的调度方法,该方法结合了RL算法和KM算法来解决调度问题,使潜水员的长期收入最大化。实验将KM算法与全置换算法进行了比较,证明了KM算法的有效性。介绍了基于远程的调度方法和基于rl的调度方法在小型调度和大规模调度中的性能。首先,我们将调度问题作为一个最大权值匹配问题。然后,利用库恩和Munkres(KM)算法,提出了一种以减少乘客等候时间为目标的基于距离调度方法。最后,我们用马尔可夫决策过程(MDP)制定了车辆调度决策,并引入了一种基于强化学习(RL)的调度方法,该方法结合了RL算法和KM算法来解决调度问题,使潜水员的长期收入最大化。实验将KM算法与全置换算法进行了比较,证明了KM算法的有效性。介绍了基于远程的调度方法和基于rl的调度方法在小型调度和大规模调度中的性能。

在这里插入图片描述

Multi-Agent Reinforcement Learning Aided Intelligent UAV Swarm for Target Tracking

摘要: 过去几年,无人机(uav)被广泛应用于目标跟踪的区域监测和打击。大多数现有的目标跟踪方法依赖于由所装备的相机获得的目标运动帧,或理想地假设一个预先设定的目标轨迹。但在实际应用中,无人机不能事先完全知道目标的真实轨迹,目标也可以根据环境智能地调整其飞行策略。此外,单架无人机有限的飞行性能以及信息捕获和处理能力,难以满足高跟踪成功率的要求。针对上述问题,本文提出了一种端到端协同多智能体强化学习(MARL)方案,该方案使无人机能够根据目标过去和当前的状态,做出协同目标跟踪的智能飞行决策。为了降低功耗,延长无人机跟踪系统的使用寿命,介绍了推进功耗模型和节能策略。此外,为了进一步提高检测的覆盖范围,在跟踪算法中引入了空间信息熵。仿真结果表明,我们提出的算法在平均事件奖励方面优于深度强化学习基线,同时在跟踪成功率、省电效率和检测覆盖率方面也具有较高的性能。

在这里插入图片描述

Active Learning for Deep Visual Tracking

摘要: 卷积神经网络(CNNs)近年来已成功地应用于单目标跟踪任务。一般来说,训练一个深度CNN模型需要大量标记的训练样本,这些样本的数量和质量直接影响训练模型的表征能力。然而,这种方法在实践中是限制性的,因为手动标记如此大量的训练样本是耗时的和非常昂贵的。在本文中,我们提出了一种深度视觉跟踪的主动学习方法,它选择和标注未标记的样本来训练深度cnn模型。在主动学习的指导下,基于训练好的深度cnn模型的跟踪器可以在降低标记成本的同时实现具有竞争力的跟踪性能。更具体地说,为了确保所选样本的多样性,我们提出了一种基于多帧协作的主动学习方法来选择那些应该标注和需要标注的训练样本。同时,考虑到所选样本的代表性,我们采用基于平均最近邻距离的最近邻鉴别方法来筛选孤立的样本和低质量的样本。因此,基于我们的方法选择的训练样本子集只需要一个给定的预算来保持整个样本集的多样性和代表性。此外,我们采用了一个Tversky损失来改进我们的跟踪器的边界盒估计,这可以确保跟踪器实现更准确的目标状态。大量的实验结果证实,我们的基于主动学习的跟踪器(ALT)在7个最具挑战性的评估基准上,与最先进的跟踪器相比,实现了具有竞争力的跟踪精度和速度。

论文的贡献

  • 我们提出了一种新的主动学习方法来训练样本选择,以训练跟踪器中的深度cnn模型。该方法将在给定的预算下选择最多样化和最具代表性的训练样本,在大大降低标记这些训练样本的同时,确保可接受的跟踪性能的成本。
  • 考虑到视频序列中移动目标的时间关系,我们提出了使用多帧合作策略的主动学习方法来选择这些训练样本,以确保所选样本的多样性。
  • 此外,我们采用基于平均最近邻距离的最近邻识别方法对孤立样本进行筛选,保证所选训练样本的代表性,有效保证训练后的深度cnn模型的鲁棒性。
  • 此外,我们采用Tversky损失来改进所提出的跟踪器的边界盒估计策略,使我们的ALT跟踪器能够获得更准确的目标状态。

在这里插入图片描述

2022

Remote Sensing Object Tracking With Deep Reinforcement Learning Under Occlusion

摘要: 目标跟踪是遥感领域空间地球观测的重要研究方向。虽然现有的基于相关滤波器和基于深度学习(DL)的目标跟踪算法取得了很大的成功,但对于目标遮挡问题仍然不能令人满意。由于背景的复杂变化而造成的遮挡和跟踪镜头的偏差,导致物体信息丢失,从而导致检测的遗漏。传统上,被遮挡下的目标跟踪方法大多采用复杂的网络模型,对被遮挡对象进行重新检测。为了解决这个问题,我们提出了一种新的目标跟踪方法。首先,建立了一个基于深度强化学习(DRL)的动作决策-遮挡处理网络(AD-OHNet),以实现遮挡下目标跟踪的低计算复杂度。其次,采用时空背景、物体外观模型和运动矢量来提供遮挡信息,从而驱动完全遮挡下强化学习的动作,有助于在保持速度的同时提高跟踪的准确性。最后,在吉林-1商业遥感卫星的波哥大、香港和圣地亚哥的三个遥感视频数据集上,对提出的AD-OHNet进行了评估。这些视频数据集都有低空间分辨率、背景杂波和小物体等共同问题。在三个视频数据集上的实验结果验证了该跟踪器的有效性和有效性。

论文的贡献:

  • 首先,采用DRL的框架,在不附加网络结构的情况下进行目标跟踪,以提高算法在遮挡条件下的速度。DRL中的状态和动作参数可以与目标跟踪中的连续帧信息相关联。据我们所知,这是第一次使用DRL的想法来解决目标跟踪中的遮挡问题。
  • 其次,我们提出了一种新的方法,通过在跟踪任务中使用目标遮挡信息来驱动动作,这与传统的逐次跟踪检测方法不同。时间和空间上下文之间的连续帧遥感序列,对象外观模型学习网络,和运动向量从动作参数在强化学习采用提供遮挡信息,显著提高了对象跟踪算法的鲁棒性和精度。
  • 其次,我们提出了一种新的方法,通过在跟踪任务中使用目标遮挡信息来驱动动作,这与传统的逐次跟踪检测方法不同。时间和空间上下文之间的连续帧遥感序列,对象外观模型学习网络,和运动向量从动作参数在强化学习采用提供遮挡信息,显著提高了对象跟踪算法的鲁棒性和精度。
    在这里插入图片描述

2023

Deep Reinforcement Learning for Vision-Based Navigation of UAVs in Avoiding Stationary and Mobile Obstacles

摘要: 无人机(uav),也被称为无人机,近年来有了很大的进步。无人机的使用方式有很多种,包括交通运输、摄影、气候监测和救灾。其原因是它们在所有操作中都具有很高的效率和安全性。虽然无人机的设计力求完美,但它还没有完美无缺。在探测和预防碰撞方面,无人机仍然面临着许多挑战。在此背景下,本文描述了一种方法,开发无人机系统自主操作,不需要人工干预。本研究应用强化学习算法训练无人机,在仅基于图像数据的离散和连续的动作空间中自动避免障碍。本研究的新颖之处在于,利用不同的强化学习技术,对无人机的障碍物探测和躲避的优势、局限性和未来的研究方向进行了综合评估。本研究比较了三种不同的强化学习策略,即深度q网络(DQN)、近端策略优化(PPO)和软行动者评论家(SAC),它们可以帮助避免障碍,包括静止和移动;然而,这些策略在无人机上更为成功。该实验是在AirSim提供的虚拟环境中进行的。使用虚幻引擎4,创建了各种训练和测试场景,以理解和分析无人机的RL算法的行为。根据训练结果可知,SAC的性能优于其他两种算法。PPO是所有算法中最不成功的,这表明策略上的算法在具有动态参与者的广泛三维环境中是无效的。DQN和SAC,两种非策略算法,产生了令人鼓舞的结果。然而,由于其有限的离散作用空间,DQN在狭窄的路径和扭曲方面可能不如SAC有利。关于进一步的发现,当涉及到自主无人机时,DQN和SAC等非策略算法比PPO等非策略算法表现得更有效。这些发现可能对未来开发更安全、更高效的无人机具有实际意义。

在这里插入图片描述

SRL-TR2: A Safe Reinforcement Learning Based TRajectory TRacker Framework

摘要: 本文旨在解决一种基于强化学习方法的自动驾驶车辆的轨迹跟踪控制问题。现有的强化学习方法在现实世界中在安全关键任务上的成功应用有限,主要是由于两个挑战: 1)模拟到真实的转移;2)闭环稳定性和安全问题。在本文中,我们提出了一个演员-评论家风格的框架SRL-TR2,其中基于rl的跟踪跟踪器在安全约束下进行训练,然后部署到全尺寸车辆作为横向控制器。为了提高泛化能力,我们采用了一个轻量级的适配器状态和动作空间对齐(SASA)来建立仿真与现实之间的映射关系。为了解决安全问题,当安全约束不得到满足时,我们利用专家策略来接管控制。因此,我们在培训过程中进行了安全的探索,并提高了政策的稳定性。实验表明,在12 km/h~18 km/h的模拟场景下,在12 km/h~18 km/h的情况下,以平均运行时间小于10ms/步,平均横向误差小于0.1 m完成现场测试。
在这里插入图片描述

Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking

摘要:本文提出了一种新的视觉目标跟踪粒子滤波方法,可以有效地处理遮挡和快速运动。该方法采用混沌局部搜索来模拟不规则运动,与普通的粒子滤波方法相比,该方法需要更少的粒子数量。此外,采用一种新的混沌采样方法将粒子强制施加到具有最大多样性似然函数的特定区域,并引入基于状态空间重建的动态信息直方图来表示连续帧上的运动。最后,提出了一种新的区分遮挡和视野外外观更新的准则。我们提出了数值实验证明,所开发的框架优于其他最先进的方法处理不规则运动和不确定性。根据BOBOT、OTB100、OTB2013和VOT2018的研究结果,与基于深度和强化学习、相关滤波器和暹罗神经网络等方法的传统方法相比,提出的策略更接近真实目标状态,提高了跟踪精度。最后,我们解析地证明了该方法的收敛性。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847801.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试题】风险评估和应急响应的工作流程

风险评估和应急响应是网络安全管理中两个重要的环节。下面分别介绍它们的工作流程: 一、风险评估工作流程: 1.确定评估范围:明确需要评估的信息系统或资产的范围。 2.资产识别:识别并列出所有需要评估的资产,包括硬件…

【自动驾驶】运动底盘状态数据:里程计、IMU、运动学分析、串口通信协议

文章目录 控制器与运动底盘状态数据:里程计、IMU运动学分析与轮子运动学分析公式串口通信控制与反馈通讯协议串口通信反馈上行数据帧解析串口通信控制下行数据帧解析代码实现IMU、里程计数据的获取、解析、计算控制器与运动底盘状态数据:里程计、IMU 控制器需要负责外发底盘…

剑指offer 算法题(搜索二维矩阵)

剑指offer 第二题 去力扣里测试算法 思路一&#xff1a; 直接暴力遍历二维数组。 class Solution { public:bool searchMatrix(vector<vector<int>>& matrix, int target) {for (unsigned int i{ 0 }; i < matrix.size(); i){for (unsigned int j{ 0 };…

ASP.NET Core 6.0 使用 Log4Net 和 Nlog日志中间件

前言 两年前,浅浅的学过 .NET 6,为啥要记录下来,大概是为了以后搭架子留下引线,还有抛砖引玉。 1. 环境准备 下载 建议使用 Visual Studio 2022 开发版 官网的下载地址:Visual Studio 2022 IDE - 适用于软件开发人员的编程工具借助 Visual Studio 设计,具有自动完成…

Word中删除空白页

① 文字后面出现的空白页 把鼠标放在空白页的位置&#xff0c;按住Ctrl Delete即可。 ② 表格后面的空白页 把鼠标放在空白页左侧&#xff0c;直到出现一个空白的箭头&#xff0c;点击一下选中空白页&#xff0c;然后再Ctrl D&#xff0c;打开字体选项卡&#xff0c;在效果中…

智能体合集

海外版coze: 前端代码助手 后端代码助手&#xff1a; 前端代码助手&#xff1a;

【shell脚本速成】函数

文章目录 一、函数1.1、函数介绍1.2、函数定义1.3、函数调用 &#x1f308;你好呀&#xff01;我是 山顶风景独好 &#x1f388;欢迎踏入我的博客世界&#xff0c;能与您在此邂逅&#xff0c;真是缘分使然&#xff01;&#x1f60a; &#x1f338;愿您在此停留的每一刻&#xf…

鸿蒙开发通信与连接:【@ohos.wifiext (WLAN)】

WLAN 说明&#xff1a; 本模块首批接口从API version 8开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 该文档中的接口只供非通用类型产品使用&#xff0c;如路由器等&#xff0c;对于常规类型产品&#xff0c;不应该使用这些接口。 导入模块 …

自动备份SQL Server数据库,试试这4种方法!

各种规模的企业都使用 SQL 数据库来存储数据。因此&#xff0c;备份 SQL Server 数据库对于确保数据安全并在发生灾难时可恢复至关重要。对于 SQL 数据库备份&#xff0c;有多种可行的方法&#xff0c;对于特定组织来说&#xff0c;方法将取决于其具体需求。 SQL Server 备份的…

java:Multiple Bounds--类型变量(TypeVariable)定义的高级用法--<A extends ClassAIfAIfB >

做Java开发工作好多年了。今天偶然翻到 java.lang.TypeVariable的源码&#xff0c;好奇为什么 TypeVariable.getBounds()返回类型是个数组。 一般不都是<T extends Number> 这样用码&#xff1f;T难道还能extends多个类型&#xff1f; 同问&#xff1a;不应该是extend,为…

基于Pytorch框架的深度学习Vision Transformer神经网络蝴蝶分类识别系统源码

第一步&#xff1a;准备数据 6种蝴蝶数据&#xff1a;self.class_indict ["曙凤蝶", "麝凤蝶", "多姿麝凤蝶", "旖凤蝶", "红珠凤蝶", "热斑凤蝶"]&#xff0c;总共有900张图片&#xff0c;每个文件夹单独放一种…

重磅!2024年最新影响因子正式发布,附Excel下载

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 激动人心的时刻终于来了&#xff0c;2024年影响因子已全面发布&#xff01;废话不多说&#xff0c;大家一起来看看最新的发布的结果吧&#xff01; 神刊&#xff1a;CA-A CANCER JOURNA…

go-admin-ui开源后台管理系统华为云部署

1.华为云开通8000与9527端口 2.编译 编译成功 3.发布到远程服务器 4.登陆华为云终端 5.安装Nginx 6.查看服务启动状态 7.添加网站 添加与修改配置www-data 改为 www 自定义日志输出格式 添加网站配置文件go_admin_ui.conf 添加如下内容: location 下的root指向网站文件夹 修…

java实现图片水印添加并自动上传七牛云

图片左下角水印添加 满足需求&#xff1a;可以对不同类型尺寸的照片、图片进行水印的添加&#xff0c;实现尺寸自适应添加水印。 水印效果 代码实现 Controller package com.wlh.zetc.restore.controller;import cn.hutool.core.date.DateUtil; import com.alibaba.nacos.c…

QT(超详细从0开始)

目录 1.2 Qt的优点 2.安装Qt 3.创建项目 4.解读Qt自动生成的代码 ​编辑 5.Qt Designer 6.Qt对象数 7.Qt乱码问题 8.Qt坐标系的认识 9.信号和槽 9.1 connect 9.2 自定义槽函数 9.3 自定义信号 9.4 断开信号链接&#xff08;disconnect&#xff09; 9.5.lambda表…

supOS浅度集成

一、浅度集成介绍 浅度集成是根据项目或者演示要求而做的集成工作&#xff0c;通过接入supOS的单点登录&#xff0c;UI调整&#xff0c;菜单栏的集成&#xff0c;从而达到客户使用supOS平台来使用各个应用的能力。 二、浅度集成的作用 通过较少的研发投入使APP应用浅度融入到…

2024年7月JLPT日语N1真题试卷和答案解析,《Navi日语社》小程序在线答题考试,你的专属考试助手,日语学习神器!

掌握日语&#xff0c;从日语社小程序开始。这款小程序专为日语学习者设计&#xff0c;提供全面的JLPT备考资源&#xff0c;包括日语N1至N5等级考试的历年真题和2024年最新题目。无论你是日语新手还是备考高手&#xff0c;都能在这里找到适合自己的学习路径。 核心功能&#xf…

数据资产在供应链管理中担当核心角色:利用数据驱动,显著提升运营效率,有效降低潜在风险,实现决策优化,为企业的可持续发展奠定坚实基础

一、引言 在当今全球化和数字化的时代&#xff0c;供应链管理已成为企业竞争力的关键要素之一。随着信息技术的高速发展&#xff0c;数据资产在供应链管理中扮演着越来越重要的角色。通过有效地利用数据资产&#xff0c;企业能够显著提升运营效率&#xff0c;降低潜在风险&…

Javase.String类的课后作业

String类的课后作业 1.题目12.题目23.题目34.选择题15.选择题26.选择题37.编程题18.编程题2 1.题目1 指出下列程序运行的结果为&#xff1a; public class Example {String str new String("good");char[] ch {a, b, c};public static void main(String args[]) …

cd 命令特殊路径符 mkdir命令

cd 特殊路径符 cd . 表示当前目录&#xff0c;比如 cd ./Desktop表示切换到当前目录下的Desktop目录内&#xff0c;和 cd Desktop效果一致。cd … 表示上一级目录&#xff0c;比如 cd … 即可切换到上一级目录&#xff0c;cd…/…切换到上二级目录。cd ~ 表示 HOME 目录&#…