【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（5月24日论文合集）

news2025/7/6 23:01:09

文章目录

一、检测相关(7篇)
- 1.1 Learning Remote Sensing Object Detection with Single Point Supervision
- 1.2 Online Open-set Semi-supervised Object Detection via Semi-supervised Outlier Filtering
- 1.3 Generalizable Synthetic Image Detection via Language-guided Contrastive Learning
- 1.4 A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation
- 1.5 ColMix -- A Simple Data Augmentation Framework to Improve Object Detector Performance and Robustness in Aerial Images
- 1.6 Detection of healthy and diseased crops in drone captured images using Deep Learning
- 1.7 nnDetection for Intracranial Aneurysms Detection and Localization

一、检测相关(7篇)

1.1 Learning Remote Sensing Object Detection with Single Point Supervision

学习单点监控的遥感目标检测

论文地址：

https://arxiv.org/pdf/2305.14141.pdf

在这里插入图片描述

点级监督目标检测（PSOD）由于其相对于基于边界框的监督目标检测更低的标注成本而引起了广泛关注。然而，在遥感（RS）图像领域中，复杂场景、密集和动态尺度的目标阻碍了PSOD方法的发展。本文首次尝试实现基于单点监督的RS目标检测，并提出了一个专门针对RS图像的PSOD框架。具体而言，我们设计了一个点标签升级器（PLUG），从单点标签生成伪边界框标签，然后使用伪边界框来监督现有检测器的优化。此外，为了应对RS图像中密集目标的挑战，我们提出了一种稀疏特征引导的语义预测模块，可以通过充分利用稀疏目标的信息线索生成高质量的语义地图。在DOTA数据集上进行的大量消融研究验证了我们方法的有效性。与最先进的基于图像级和点级监督检测方法相比，我们的方法在性能上取得了显著改进，并缩小了PSOD与基于边界框的监督目标检测之间的性能差距。

1.2 Online Open-set Semi-supervised Object Detection via Semi-supervised Outlier Filtering

基于半监督孤立点滤波的在线开集半监督目标检测

论文地址：

https://arxiv.org/abs/2305.13802

1.3 Generalizable Synthetic Image Detection via Language-guided Contrastive Learning

基于语言制导对比学习的泛化合成图像检测

论文地址：

https://arxiv.org/pdf/2305.13800.pdf

在这里插入图片描述
AI生成图像的高度逼真可以归因于合成模型的快速发展，包括生成对抗网络（GAN）和扩散模型（DM）。然而，合成图像的恶意使用，如传播虚假新闻或创建虚假个人资料，引发了人们对图像真实性的重大关切。尽管已经开发了许多用于检测合成图像的取证算法，但它们的性能，特别是泛化能力，仍远远不足以应对日益增多的合成模型。

在这项工作中，我们提出了一种简单而非常有效的合成图像检测方法，通过语言引导对比学习和对检测问题的新形式化。我们首先使用精心设计的文本标签增强训练图像，使我们能够使用联合图像-文本对比学习进行取证特征提取。

此外，我们将合成图像检测形式化为一个识别问题，这与传统的基于分类的方法截然不同。

实验证明，我们提出的基于语言引导的合成检测（LASTED）模型在面对未见过的图像生成模型时具有更好的泛化能力，并以超过最先进竞争对手22.66％的准确率和15.24％的AUC表现出有希望的性能。代码可在https://github.com/HighwayWu/LASTED上获得。

1.4 A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation

一种新的半监督视频异常检测与预测综合基准

论文地址：

https://arxiv.org/pdf/2305.13611.pdf

在这里插入图片描述
半监督视频异常检测（VAD）是智能监控系统中的关键任务。然而，VAD中一种重要类型的异常，即场景相关异常，尚未引起研究人员的关注。此外，目前没有研究探讨异常预测，这是一项更重要的任务，用于防止异常事件的发生。为此，我们提出了一个新的综合数据集，NWPU Campus，包含43个场景，28个类别的异常事件和16小时的视频。目前，它是具有最多场景和异常类别、最长持续时间并考虑了场景相关异常的最大规模的半监督VAD数据集。同时，它也是第一个用于视频异常预测的数据集。我们进一步提出了一种新颖的模型，能够同时检测和预测异常事件。与近年来的7种优秀VAD算法相比，我们的方法在处理场景相关异常检测和异常预测方面表现出色，在上海科技大学、香港中文大学Avenue、印度理工学院Bombay走廊以及新提出的NWPU Campus数据集上均取得了最先进的性能。我们的数据集和代码可在https://campusvad.github.io上获得。

1.5 ColMix – A Simple Data Augmentation Framework to Improve Object Detector Performance and Robustness in Aerial Images

ColMix–一种改进航空影像目标探测器性能和稳健性的简单数据增强框架

论文地址：

https://arxiv.org/pdf/2305.13509.pdf

在这里插入图片描述
在过去的十年中，基于卷积神经网络（CNN）和基于Transformer的目标检测器在各种数据集上取得了高性能。尽管大多数检测文献是在MS COCO等数据集上开发这种能力，但这些检测器仍然在遥感应用中表现出有效性。然而，该领域面临一些挑战，如标注对象数量较少和目标密度较低，这些因素阻碍了整体性能的提升。在这项工作中，我们提出了一种新颖的增强方法，称为拼贴剪贴，用于增加目标密度，无需分割掩码，从而提高检测器的性能。我们证明了拼贴剪贴在精确度和召回率方面优于相关方法（如马赛克增强），并且可以更好地控制目标密度。然而，我们发现拼贴剪贴对于某些超出分布范围的变化（如图像破坏）是脆弱的。为了解决这个问题，我们提出了两种将拼贴剪贴与PixMix增强方法结合的简单方法，并将我们的组合技术称为ColMix。通过广泛的实验证明，采用ColMix可以得到在航空影像数据集上性能优越且对各种图像破坏具有鲁棒性的检测器。

1.6 Detection of healthy and diseased crops in drone captured images using Deep Learning

基于深度学习的无人机捕获图像中健康和病态作物的检测

https://arxiv.org/pdf/2305.13490.pdf

在这里插入图片描述
植物健康和食品安全是密不可分的。人们都担心绿色植物的状态。植物疾病通过干扰植物的正常状态来破坏或改变其重要活动。所提出的方法有助于检测植物疾病。从互联网上收集的数据库经过适当的分离，并对各种植物物种进行识别，以获取一个包含众多植物疾病的测试数据库，用于分析项目的正确性和置信水平。然后，使用训练数据，我们将训练分类器，并以最高可能的准确性进行预测。我们采用卷积神经网络（CNN），它由多个层组成，用于预测。在涉及作物疾病分类和检测的问题中，CNN的性能优于其他技术。它们能够在恶劣的成像条件下处理复杂的挑战。正在利用原型无人机模型对大面积农田进行实时监测，附加了高分辨率摄像头，用于记录植物的照片，这将作为输入用于确定植物的健康状况。

1.7 nnDetection for Intracranial Aneurysms Detection and Localization

神经网络检测用于颅内动脉瘤的检测和定位

https://arxiv.org/ftp/arxiv/papers/2305/2305.13398.pdf

在这里插入图片描述
颅内动脉瘤是一种常见且危及生命的疾病，约影响到普通人口的3.2%。因此，对这些动脉瘤的检测在其管理中起着关键作用。病变检测涉及医学图像中异常的同时定位和分类。在这项特定研究中，我们采用了nnDetection框架，这是一个专门设计用于3D医学目标检测的自配置框架，用于有效地检测和定位动脉瘤的3D坐标。为了捕捉和提取与动脉瘤相关的多样化特征，我们使用了两种模态：TOF-MRA和结构性MRI，这两种模态均来自ADAM数据集。通过使用自由响应接收者操作特性进行评估，我们评估了我们提出的深度学习模型的性能。该模型的权重和TOF-MRA边界框的3D预测可在https://github.com/orouskhani/AneurysmDetection上公开获取。