【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 3 日论文合集)

news2025/1/4 17:33:10

文章目录

  • 一、检测相关(9篇)
    • 1.1 Federated Ensemble YOLOv5 - A Better Generalized Object Detection Algorithm
    • 1.2 Zero-shot Nuclei Detection via Visual-Language Pre-trained Models
    • 1.3 Federated Object Detection for Quality Inspection in Shared Production
    • 1.4 Comparative study of subset selection methods for rapid prototyping of 3D object detection algorithms
    • 1.5 DisPlacing Objects: Improving Dynamic Vehicle Detection via Visual Place Recognition under Adverse Conditions
    • 1.6 Detection-segmentation convolutional neural network for autonomous vehicle perception
    • 1.7 Manga109Dialog A Large-scale Dialogue Dataset for Comics Speaker Detection
    • 1.8 GMM: Delving into Gradient Aware and Model Perceive Depth Mining for Monocular 3D Detection
    • 1.9 Defense against Adversarial Cloud Attack on Remote Sensing Salient Object Detection

一、检测相关(9篇)

1.1 Federated Ensemble YOLOv5 - A Better Generalized Object Detection Algorithm

联邦集成YOLOv5–一种更好的广义目标检测算法

论文地址:

https://arxiv.org/abs/2306.17829

在这里插入图片描述
联邦学习(FL)作为一种隐私保护算法已经获得了显着的吸引力,但联邦学习算法(如联邦平均(FED Avg)或联邦SGD(FED SGD))与集成学习算法的潜在相似之处尚未得到充分探索。本文的目的是研究FL的应用程序的对象检测的方法,以提高泛化能力,并比较其性能对一个集中的训练方法的对象检测算法。具体来说,我们研究了在多个客户端上使用FL训练的YOLOv5模型的性能,并采用了不替换的随机抽样策略,因此每个客户端都持有用于集中训练的相同数据集的一部分。我们的实验结果展示了FL对象检测器的全局模型的卓越效率,在生成准确的边界框为未见的对象,测试集是来自两个不同的客户端的对象的混合物,没有在训练数据集中表示。这些研究结果表明,FL可以从集成算法的角度来看,类似于Bagging和Boosting技术的协同混合。因此,FL不仅可以被视为增强隐私的方法,而且可以被视为增强机器学习模型性能的方法。

1.2 Zero-shot Nuclei Detection via Visual-Language Pre-trained Models

基于视觉语言预训练模型的零射中核检测

论文地址:

https://arxiv.org/abs/2306.17659

在这里插入图片描述
大规模视觉语言预训练模型(VLPM)已经证明了他们在下游的自然场景目标检测中的出色性能。然而,通过VLPM在H&E图像上的zero-shot核检测仍然不足。医学图像和用于预训练的网络来源的文本图像对之间的巨大差距使其成为一项具有挑战性的任务。在本文中,我们试图探索的潜在的对象级VLPM,扎根语言图像预训练(GLIP)模型,zero-shot核检测。具体地,基于VLPM和图像到文本VLPM BLIP的关联绑定特性,设计了一个自动提示设计流水线,避免了经验性的人工提示工程。我们进一步建立了一个自我训练框架,使用自动设计的提示生成初步结果作为伪标签从GLIP和细化预测框迭代的方式。我们的方法实现了显着的性能,无标记的核检测,超过其他比较方法。首先,我们的工作表明,在自然图像-文本对上预训练的VLPM在医疗领域的下游任务中也表现出惊人的潜力。代码将在www.example.com发布https://github.com/wuyongjianCODE/VLPMNuD。

1.3 Federated Object Detection for Quality Inspection in Shared Production

面向共享生产质量检测的联合目标检测

论文地址:

https://arxiv.org/abs/2306.17645

在这里插入图片描述
联邦学习(FL)已经成为一种在不损害数据隐私的情况下训练分散式数据的机器学习模型的有前途的方法。在本文中,我们提出了一种FL算法的质量检测任务中的目标检测使用YOLOv 5的目标检测算法和联邦平均(FedAvg)的FL算法。我们将这种方法应用于制造用例,其中多个工厂/客户端贡献数据,用于训练一个全局对象检测模型,同时保留非IID数据集的数据隐私。我们的实验表明,我们的FL方法在整个客户端的测试数据集上实现了更好的泛化性能,并生成改进的边界框周围的对象相比,使用本地客户端的数据集训练的模型。这项工作展示了FL在制造业的质量检测任务的潜力,并提供了有价值的见解,利用YOLOv 5和FedAvg联邦对象检测的性能和可行性。

1.4 Comparative study of subset selection methods for rapid prototyping of 3D object detection algorithms

三维物体检测算法快速成型子集选择方法的比较研究

论文地址:

https://arxiv.org/abs/2306.17551

在这里插入图片描述
3D中的物体检测是自动驾驶车辆和无人机背景下的一个关键方面。然而,原型检测算法在能量和环境影响方面是耗时和昂贵的。为了解决这些挑战,可以通过在原始训练集的子集上进行训练来检查不同模型的有效性。在本文中,我们提出了一个比较的三种算法,选择这样的子集-随机抽样,随机每类抽样,我们提出的MONSPeC(最大对象数抽样每类)。我们提供了经验证据的优越的有效性的随机每类抽样和MONSPeC基本随机抽样。通过用更有效的算法之一替换随机采样,在子集上获得的结果更有可能转移到整个数据集上的结果。代码可在以下网址获得:https://github.com/vision-agh/monspec。

1.5 DisPlacing Objects: Improving Dynamic Vehicle Detection via Visual Place Recognition under Adverse Conditions

移动物体:在恶劣条件下通过视觉位置识别改进动态车辆检测

论文地址:

https://arxiv.org/abs/2306.17536

在这里插入图片描述
知道你在哪里能帮助你感知周围的物体,特别是在恶劣的天气和光照条件下?在这项工作中,我们调查是否可以利用一个先验的地图,以帮助在一个场景中的动态对象的检测,而不需要一个3D地图或像素级的地图查询对应。我们贡献了一个算法,细化的候选对象的检测的初始集,并产生一个细化的子集的高度准确的检测使用的先验地图。我们首先使用视觉位置识别(VPR)检索一个给定的查询图像的参考地图图像,然后使用二进制分类神经网络,比较查询和映射图像区域,以验证查询检测。一旦我们的分类网络被训练,在大约1000个查询地图图像对,它能够提高车辆检测的性能时,与现有的现成的车辆检测器相结合。我们展示了我们的方法,使用标准的数据集跨两个城市(牛津和苏黎世)的不同设置的训练测试分离的地图查询遍历对。我们进一步强调我们的方法对替代设计选择的性能增益,并表明VPR足以完成任务,消除了精确的地面实况定位的需要。

1.6 Detection-segmentation convolutional neural network for autonomous vehicle perception

用于自主车辆感知的检测-分段卷积神经网络

论文地址:

https://arxiv.org/abs/2306.17485

在这里插入图片描述
目标检测和分割是自主车辆感知系统的两个核心模块。它们应该具有高效率和低延迟,同时降低计算复杂度。目前,最常用的算法是基于深度神经网络,这种算法保证了高效率,但需要高性能的计算平台。在自动驾驶汽车的情况下,即。汽车,还有无人机,需要使用计算能力有限的嵌入式平台,这使得难以满足上述要求。可以通过使用适当的以下方式来实现网络复杂度的降低:架构、表示(降低的数值精度、量化、修剪)和计算平台。在本文中,我们专注于第一个因素-使用所谓的检测分割网络作为感知系统的一个组成部分。我们考虑了分割的可驾驶区域和道路标记的任务,结合所选对象(行人,交通灯和障碍物)的检测。我们比较了文献中描述的三种不同架构的性能:MultiTask V3、HybridNets和YOLOP。我们进行了一个自定义数据集的实验,该数据集包括约500个可驾驶区域和车道标记的图像,以及250个检测到的物体的图像。在分析的三种方法中,MultiTask V3被证明是最好的,实现了99%的mAP_50检测,97%的MIoU可驾驶区域分割,91%的MIoU车道分割,以及124 fps的RTX 3060图形卡。该架构是一个很好的解决方案,嵌入式感知系统的自动驾驶车辆。代码可在以下网址获得:https://github.com/vision-agh/MMAR_2023。

1.7 Manga109Dialog A Large-scale Dialogue Dataset for Comics Speaker Detection

用于漫画说话人检测的大规模对话数据集Manga109Dialog

论文地址:

https://arxiv.org/abs/2306.17469

在这里插入图片描述
不断扩大的电子漫画市场激发了人们对开发分析漫画的自动化方法的兴趣。为了进一步理解漫画,需要一种自动化的方法来将漫画中的文本链接到说这些话的角色。漫画说话人检测的研究具有实际应用价值,如有声读物的自动角色分配、根据人物性格的自动翻译、人物关系和故事的推断等。 为了解决说话人到文本注释不足的问题,我们基于Manga109创建了一个新的注释数据集Manga109Dialog。Manga109Dialog是世界上最大的漫画扬声器注释数据集,包含132,692个扬声器到文本对。我们进一步将我们的数据集划分为不同的水平预测困难,以评估说话人检测方法更合适。与现有的方法主要基于距离,我们提出了一种基于深度学习的方法,使用场景图生成模型。由于漫画的独特功能,我们提高了我们提出的模型的性能,考虑框架阅读顺序。我们使用Manga109Dialog和其他数据集进行了实验。实验结果表明,我们的场景图为基础的方法优于现有的方法,实现了超过75%的预测准确率。

1.8 GMM: Delving into Gradient Aware and Model Perceive Depth Mining for Monocular 3D Detection

GMM:用于单目三维检测的梯度感知和模型感知深度挖掘研究

论文地址:

https://arxiv.org/abs/2306.17450

在这里插入图片描述
深度感知是单眼3D检测任务的关键组成部分,通常涉及不适定问题。鉴于样本挖掘技术在二维物体检测中的成功,我们提出了一种简单而有效的挖掘策略,以提高三维物体检测中的深度感知。具体地,我们引入了一个简单的度量来评估深度预测的质量,它选择了挖掘的样本的模型。此外,我们提出了梯度感知和模型感知挖掘策略(GMM)的深度学习,它利用预测的深度质量,通过简单的挖掘更好的深度学习。GMM是一种通用策略,可以很容易地应用于几种最先进的单眼3D检测器,提高深度预测的准确性。在nuScenes数据集上的大量实验表明,所提出的方法显着提高了3D对象检测的性能,同时优于其他国家的最先进的样本挖掘技术相当大的幅度。在nuScenes基准测试中,GMM在单眼目标检测方面达到了最先进的性能(42.1% mAP和47.3% NDS)。

1.9 Defense against Adversarial Cloud Attack on Remote Sensing Salient Object Detection

遥感显著目标检测中对敌云攻击的防御

论文地址:

https://arxiv.org/abs/2306.17431

在这里插入图片描述
在遥感图像中提取显著目标在多学科交叉研究中具有广泛的应用前景。目前已有的许多深度学习方法被提出用于遥感图像中的显著目标检测(SOD),并取得了显著的效果。然而,最近通过改变原始遥感图像上的几个像素值而生成的对抗性攻击示例可能会导致训练良好的基于深度学习的SOD模型崩溃。与现有的方法添加扰动到原始图像不同,我们提出了联合调整对抗曝光和添加扰动的攻击和约束图像接近多云图像作为对抗云。云是遥感图像中自然存在的一种普遍现象,但基于伪装云的遥感图像对抗攻击和防御研究还不多。此外,我们将DefenseNet设计为对抗性多云图像的可学习预处理,以保持基于深度学习的遥感SOD模型的性能,而无需调整已经部署的深度SOD模型。通过考虑常规和广义对抗实例,所提出的防御网可以在白盒设置中防御所提出的对抗云,在黑盒设置中防御其他攻击方法。从公共遥感SOD数据集(EORSSD)的综合基准测试的实验结果表明,有希望的防御对抗云攻击。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/717532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Raw Socket 之网络层数据获取

目录 简介正常使用tcpdump程序与分析报文理解参考 简介 针对网络包,我们一般的发送接收直接使用的是应用层,此时无法分辨接收为广播包还是单播包,为了能够分辨出接收到的是否为广播包,需要接收数据链路层的数据或者网络层的数据。…

ct.js笔记-加载字体时字体名不能包含中文

这个和Qt很像,在开发过程中尽量避免使用中文。如下: 这个AaJH中文,在加载时: this.nickNameLabel new PIXI.Text(Your text here, ct.styles.get(AaJH中文)); this.addChild(this.nickNameLabel);this.nickNameLabel.x 30; thi…

UE5接入在线直播视频源,如hls(m3u8)格式

文章目录 1.实现目标2.实现过程2.1 VlcMedia插件重编译2.2 UE5接入在线直播2.3 创建材质3.参考资料1.实现目标 通过重编译VlcMedia插件,以支持在线直播视频在UE5中的播放,GIF动图如下: 2.实现过程 本文主要包括插件的重编译、在线直播视频的接入,以及材质的创建三个部分。…

基于Java办公用品管理系统设计实现(源码+lw+部署文档+讲解等)

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

atomic原子操作

当一个程序中的两个线程同时向这个程序里的全局变量增加数时会发生什么? 理论上来说,应该是200000,但是最后结果不是200000。 这是多个线程同时操作一个全局变量引起的错误。 要解决这个错误,用互斥锁即可: 这样就可以…

【计算机视觉】DETR 系列的最新综述!

论文地址: https://arxiv.org/pdf/2306.04670.pdf项目地址: https://github.com/mindgarage-shan/trans_object_detection_surveyTransformer在自然语言处理(NLP)中的惊人表现,让研究人员很兴奋地探索它们在计算机视觉任务中的应用。与其他…

Spark | 性能调优原理与步骤 | 案例讲解

🔥 跟着梁哥打卡一波spark的性能调优~ 文章目录 1、Spark调优原理与步骤2、Spark任务UI监控3、Spark调优案例3.1、资源配置优化3.2、利用缓存减少重复计算3.3、数据倾斜调优3.4、broadcastmap代替join3.5、reduceByKey/aggregateByKey代替groupByKey 1、…

为什么门店需要店务管理系统?店务管理系统的重要性有哪些?

随着经济市场的回暖,实体行业特别是门店都需要更好的营销手段以留住客户、转化客户,因此需要一个好的工具来完成对于店铺经营数据的实时了解和管理,这就需要用到店务经营管理系统。如蚓链数字化店务管理系统具备股东营销系统、收银系统及进销…

Linux5.12 rsync 远程同步

文章目录 计算机系统5G云计算第四章 LINUX rsync 远程同步一、rsync概述二、配置 rsync 服务1.配置rsync源服务器2.发起端 三、发起端配置 rsyncinotify1.修改rsync源服务器配置文件2.调整 inotify 内核参数3.安装 inotify-tools4.在另外一个终端编写触发式同步脚本 计算机系统…

7.4.2 【Linux】特殊设备 loop 挂载 (镜像文件不烧录就挂载使用)

挂载光盘/DVD镜像文件 如此一来我们不需要将这个文件烧录成为光盘或者是 DVD 就能够读取内部的数据了。 创建大文件以制作 loop 设备文件! 创建大型文件 假设我要创建一个空的文件在 /srv/loopdev ,那可以这样做: 将 512 块,每…

爱普生L358打印机墨仓有墨水但墨水指示灯常亮

产品类型:墨仓式多功能一体机 最大处理幅面:A4 涵盖功能:打印/复印/扫描 黑白打印速度:9ipm 耗材类型:分体式墨盒 打印分辨率:57601440dpi 问题描述: 爱普生L358彩…

RK3399平台开发系列讲解(入门篇)为什么需要学习Linux驱动

🚀返回专栏总目录 文章目录 一、为什么需要学习Linux驱动二、如何学习Linux驱动开发三、Linux 驱动学习的难点四、学习资料沉淀、分享、成长,让自己和他人都能有所收获!😄 一、为什么需要学习Linux驱动 学习Linux驱动开发有以下几个重要的原因: 深入理解系统底层:学习L…

【CSS】定位

📝个人主页:爱吃炫迈 💌系列专栏:HTMLCSS 🧑‍💻座右铭:道阻且长,行则将至💗 文章目录 标准流(Normal Flow)元素定位position属性静态定位-static…

(免费分享)基于springboot,vue在线小说系统

本系统功能包括: 普通用户端登录注册,小说的分类,日榜,月榜,年榜, 小说的阅读,分章节,小说的评论,收藏,推荐等等,以 及后台小说的维护&#xff0c…

Linux服务器扩容VG时报错 Couldn‘t create temporary archive name

今天扩容磁盘遇到失败报错。 [rootmysql ~]# vgextend rhel /dev/sdc1 Couldnt create temporary archive name. 原因:磁盘使用100%,无法执行挂载,须预留部分空间出来。解决办法:删掉其中无用文件、log日志继续操作即可。释放空间…

SpringBoot+Vue实现文件上传功能

目录 1.后端代码部分: 2.前端代码部分 3.效果展示 1.后端代码部分: RestController RequestMapping("/file") public class FileController {private final String UPLOAD_PATH "D:/OBS/";//这里写上你需要上传的路径&#xff…

对于大连企业而言如何提升网站的曝光率

对于大连企业而言,提升网站的曝光率是非常重要的,可以通过以下几种方式来实现: 1. 优化网站结构和内容:确保网站的结构清晰,布局合理,并且内容丰富、有吸引力。网站的页面加载速度也要快,以提升…

leetcode 110. 平衡二叉树

2023.7.4 平衡二叉树 ,经典题目 。需要利用到之前求二叉树高度的思路。 先定义一个求高度的函数,然后使用递归的方式判断左子树和右子树的高度差是否小于等于1,下面上代码: class Solution { public:int get_length(TreeNode* cu…

C语言学习(三十二)---动态内存(一)

在昨天的内容中,我们学习有关结构体和联合体在内存中存储的相关问题,由于粗心,有一个代码重复了,感谢这位朋友的提醒: 现在已经对内容进行了修改,感谢朋友们的支持。 今天我们将学习有关动态内存的相关问…

Android Studio 和 Android Gradle 插件的已知问题

Android Studio 的已知问题 渲染 Compose 预览时出错 从 Android Studio Chipmunk 开始,如果您在问题面板中看到 java.lang.NoSuchFieldError: view_tree_saved_state_registry_owner 或 java.lang.ClassNotFoundException: androidx.savedstate.R$id,…