目标检测顶会新成果!20个突破性方法,更高性能,更强理解与分析能力!

news2024/11/24 8:36:57

【目标检测】在近年来的深度学习领域中备受关注,它通过识别和定位图像中的目标对象,提升了模型在图像理解和分析方面的能力。目标检测技术在自动驾驶、安防监控和医疗影像分析等任务中取得了显著成果。其独特的方法和卓越的表现使其成为研究热点之一。

为了帮助大家全面掌握目标检测的方法并寻找创新点,本文总结了最近两年【目标检测】相关的20篇顶会论文的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“目标检测20”即可全部领取

图片

1、Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection

图片

-这篇文章介绍了一种名为LBP(Learning Background Prompts)的新型框架,旨在提升开放词汇表目标检测(Open Vocabulary Object Detection, OVD)的性能。OVD的目标是设计一种能够同时识别基础类别和新类别(即在训练数据中未见过的类别)的最优目标检测器。文章指出,现有的OVD方法在背景解释和模型过拟合方面面临重大挑战,导致关键的背景知识丢失,从而影响检测器的推理性能。

-为了解决这些问题,文章提出了LBP框架,通过学习背景提示(background prompts)来利用隐含的背景知识,从而增强对基础和新类别的检测性能。具体来说,LBP框架由三个模块组成:背景类别特定提示(Background Category-specific Prompt, BCP)、背景目标发现(Background Object Discovery, BOD)和推理概率校正(Inference Probability Rectification, IPR)。BCP模块利用可学习的类别特定上下文来发现并表示从背景提议中估计出的背景潜在类别,从而改善背景解释。BOD模块进一步探索并利用与这些估计出的潜在类别相关的隐含对象知识,有助于减少模型对基础类别的偏见。IPR模块则解决在推理过程中估计的背景类别和新类别之间的概念重叠问题,使模型能够为新类别准确计算概率,显著提升检测器性能。

-文章通过在两个基准数据集OV-COCO和OV-LVIS上的评估,展示了所提出方法相较于现有最先进方法在处理OVD任务上的优越性。此外,文章还进行了消融研究,以评估每个单独模块对整体性能的影响。实验结果表明,BCP、BOD和IPR这三个模块共同作用,显著提升了模型在检测新类别方面的表现,并且通过调整背景解释策略,模型能够更好地区分和识别未知类别的对象。

-文章还探讨了不同超参数的选择对模型性能的影响,包括背景类别扩展的数量、背景损失的阈值以及背景提议的损失权重。这些分析有助于读者理解模型的不同组件是如何协同工作以及如何通过调整参数来优化模型性能的。

-最后,文章总结了LBP框架的主要贡献,并指出了其在实际应用中的潜力。通过学习背景提示,LBP框架不仅提升了对未知类别的检测能力,还增强了模型对多样化场景的适用性,为开放词汇表目标检测领域提供了一种有效的解决方案。

2、Multi-View Attentive Contextualization for Multi-View 3D Object Detection

图片

-这篇文章介绍了一种名为Multi-View Attentive Contextualization(MvACon)的新方法,旨在提升基于查询的多视图3D(MV3D)目标检测中的2D到3D特征提升。MvACon通过一种在表示上密集但计算上稀疏的注意力特征上下文化方案,解决了现有方法在密集注意力提升中未能充分利用高分辨率2D特征或在稀疏注意力提升中3D查询与多尺度2D特征结合不足的问题。

-文章首先概述了基于相机的3D目标检测的重要性,尤其是在自动驾驶和机器人自主性等成本效益高的自主系统中。尽管MV3D目标检测领域取得了显著进展,但现有方法仍存在局限性,尤其是在多视图特征聚合策略和Transformer设计中的计算成本或3D信息意识有限。为了解决这些问题,作者提出了MvACon,它通过聚类注意力操作来上下文化原始特征图,增强了2D到3D特征提升的性能。

-MvACon的核心思想是通过聚类注意力机制来提升2D特征,使其能够更好地与3D空间中的锚点进行交互。在PETR(一种基于视角的解码器和检测器)中,MvACon在特征图输入到解码器之前进行上下文化处理;对于基于编码器-解码器的检测器,如BEVFormer和DFA3D,MvACon则在空间交叉注意力操作中集成了聚类上下文化。实验结果表明,MvACon通过编码更有用的上下文,有效地提高了基于查询的MV3D目标检测器的性能,尤其是在位置、方向和速度预测方面。

-文章还进行了消融研究,探讨了不同上下文方法对检测性能的影响,以及局部上下文和全局聚类上下文之间的关系。实验结果表明,全局聚类上下文在特征编码中发挥了补充作用,显著提高了位置、方向和速度预测的准确性。

-此外,文章还展示了MvACon在NuScenes基准测试中的有效性,使用BEVFormer及其3D变形注意力(DFA3D)变体,以及PETR,显示出一致的检测性能提升。在Waymo-mini基准测试中也观察到了类似的改进。文章通过定性和定量的方式展示了全局聚类上下文如何有效地为MV3D目标检测编码密集的场景级上下文。

-最后,文章总结了MvACon的主要贡献:分析并解决了现有2D到3D特征提升的局限性,提出了一种易于集成的方法来增强MV3D目标检测器的3D表征能力,并通过在具有挑战性的数据集上的性能提升验证了其有效性。作者还感谢了支持这项研究的资金来源,并声明了研究观点和结论仅代表作者自身,并不一定代表相关机构的官方政策或认可。

需要的同学扫码添加我

回复“目标检测20”即可全部领取

图片

3、DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

图片

-这篇文章提出了一个名为DriveWorld的新型4D预训练场景理解框架,旨在提升自动驾驶中的视觉中心化方法。该框架通过一个基于世界模型的方法,从多摄像头驾驶视频中进行时空预训练,以学习一个能够理解四维场景的紧凑表示。

-文章首先指出,尽管基于视觉的自动驾驶因其低成本而受到广泛关注,但现有的视觉中心化预训练方法大多依赖于2D或3D的预训练任务,忽略了自动驾驶作为4D场景理解任务的时间特性。为了解决这一挑战,作者提出了一个基于世界模型的4D表示学习框架,DriveWorld,它能够在时空上进行多摄像头驾驶视频的预训练。

-DriveWorld框架的核心是记忆状态空间模型(Memory State-Space Model),该模型包含动态记忆库(Dynamic Memory Bank)模块和静态场景传播(Static Scene Propagation)模块。动态记忆库模块用于学习时间感知的潜在动态,以预测未来的变更;静态场景传播模块则用于学习空间感知的潜在静态特征,提供全面的场景上下文。此外,文章还引入了一个任务提示(Task Prompt)机制,用于为不同的下游任务解耦任务感知特征。

-在实验部分,作者展示了DriveWorld在各种自动驾驶任务上的承诺结果。当使用OpenScene数据集进行预训练时,DriveWorld在3D目标检测、在线映射、多目标跟踪、运动预测、占用预测和规划等任务上都取得了显著的性能提升。具体来说,与2D ImageNet预训练、3D占用预训练和知识蒸馏算法相比,DriveWorld在3D目标检测的mAP上提高了7.5%,在在线映射的IoU上提高了3.0%,在多目标跟踪的AMOTA上提高了5.0%,在运动预测的minADE上降低了0.1m,在占用预测的IoU上提高了3.0%,在规划的平均L2误差上减少了0.34m。

-文章还进行了消融研究,验证了DriveWorld中记忆状态空间模型(MSSM)模块的有效性。结果表明,与基于RNN的循环状态空间模型(RSSM)相比,MSSM在3D检测性能上有显著提升。此外,通过引入运动感知层归一化(Motion-aware Layer Normalization, MLN)和任务提示,模型在各项感知任务上都取得了进一步的改进。

-最后,文章讨论了DriveWorld的局限性和未来的工作方向。目前,DriveWorld的注释仍然基于激光雷达点云,未来需要探索视觉中心化预训练的自监督学习。此外,DriveWorld的有效性仅在轻量级的ResNet101骨干网络上得到了验证,未来值得考虑扩大数据集和骨干网络的规模。作者希望提出的4D预训练方法能够为自动驾驶基础模型的发展做出贡献。

需要的同学扫码添加我

回复“目标检测20”即可全部领取

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1834498.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面试经典150题

打家劫舍 class Solution { public:int rob(vector<int>& nums) {int n nums.size();if(n 1){return nums[0];}vector<int> dp(n, 0);dp[0] nums[0];//有一间房可以偷//有两间房可以偷if(nums[1] > nums[0]){dp[1] nums[1];}else{dp[1] nums[0];}for …

MySQL----InooDB行级锁、间隙锁

行级锁 行锁&#xff0c;也称为记录锁&#xff0c;顾名思义就是在记录上加的锁。 注意&#xff1a; InnoDB行锁是通过给索引上的索引项加锁来实现的&#xff0c;而不是给表的行记录加锁实现的&#xff0c;这就意味着只有通过索引条件检索数据&#xff0c;InnoDB才使用行级锁…

电商API接口是什么意思?有什么作用?

电商API接口是电子商务领域中一种技术解决方案&#xff0c;它允许不同的软件系统之间进行交互和数据交换。 在电商场景下&#xff0c;电商API接口可以实现的功能非常丰富&#xff0c;例如&#xff1a; 商品管理&#xff1a;获取商品列表、商品详情、搜索商品、上下架商品等&a…

vue页面前端初始化表格数据时报错TypeError: data.reduce is not a function

这是初始化表格数据时报的错 。 [Vue warn]: Invalid prop: type check failed for prop "data". Expected Array, got Object found in---> <ElTable> at packages/table/src/table.vue<List> at src/views/org/List.vue<Catalogue> at src/v…

lombok不起作用排查

1.idea中lombok插件已安装并启用 2.idea中annotation processors已勾选 3.项目中gradle或maven已引入lombok依赖 但提示还是找不到get,set方法。 还需要启用annotationProcessor 重点是annotationProcessor的配置&#xff0c;没有配置这个才是问题出现的关键&#xff01;&…

四川古力未来科技有限公司抖音小店解锁电商新机遇

在数字化浪潮席卷全球的今天&#xff0c;电商行业正以前所未有的速度蓬勃发展。四川古力未来科技有限公司紧跟时代步伐&#xff0c;积极拥抱变革&#xff0c;在抖音平台上开设小店&#xff0c;为品牌发展注入了新的活力。那么&#xff0c;四川古力未来科技有限公司抖音小店究竟…

6.S081——CPU调度部分(Xv6中的进程的状态转换)——xv6源码完全解析系列(11)

0.briefly speaking 时隔9个月&#xff0c;我又回来继续更新Xv6内核源码相关的内容了&#xff0c;上次更新之后经历了3个月的秋招&#xff0c;之后紧接着是实验室的中期检查&#xff0c;之后又是遥遥无期的毕业论文写作和修改&#xff0c;总算到现在有了一些自己的时间来继续做…

Kotlin 实战小记:No-Arg 引用解决 No constructor found的问题

一、问题 新的项目试用一下kotlin, 调用数据库查询数据的时候报了这个问题&#xff1a;org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.executor.ExecutorException: No constructor found in com.neusoft.collect.entity.cm.CmRoom matc…

AMEYA360代理品牌 | 思瑞浦发布高精度12位8通道SAR ADC-TPC502200

聚焦高性能模拟芯片和嵌入式处理器的半导体供应商思瑞浦3PEAK(股票代码&#xff1a;688536)全新推出TPC502200&#xff0c;支持I2C接口的12位8通道SAR ADC。 TPC502200集成了高精度基准源&#xff0c;同时可在极端温度范围(-40C至125C)下稳定工作。TPC502200凭借强大的性能优势…

前端工具篇

在线工具 https://tool.lu/ 程序员工具箱 http://tool.pfan.cn/apitest 配色 https://webkul.github.io/coolhue/ 在线字符串和16进制互转 https://kw360.net/ox2str/ 代码美化截图 https://carbon.now.sh/?bgrgba 菜鸟工具 https://www.jyshare.com/ 文件格式转换 htt…

【Altium】PCB设计中如何设置同一网络的间距规则

【更多软件使用问题请点击亿道电子官方网站】 1、文档目标&#xff1a; 对同一网络的各个元素间设置间距规则 2、应用场景&#xff1a; PCB设计规则中&#xff0c;当对网络设置间距规则时&#xff0c;默认的约束对象是不同的网络之间才生效&#xff0c;在一些特殊情况下&am…

关系模式的规范化设计概述-认识“好”的数据库模式、数据依赖

一、引言 前面学习了关系数据库的基本概念&#xff0c;关系模型的组成要素&#xff0c;关系数据库的标准查询语言SQL 三部分的内容&#xff0c;为了使得关系模式设计能够有一个标准&#xff0c;Codd提出了指导关系模式设计的规范 理论 二、为学生选课数据库添加院系表 1、…

[巨详细]安装HBuilder-X教程

文章目录 下载HBuilder-X点击网址 &#xff0c;打开官网先点击所有产品&#xff0c;再点击HBuilder-X。进入HBuilder-X官网页面点击more&#xff0c;选择适合的版本下载。等待下载打开压缩包&#xff0c;点击HBuilderX.exe选择喜欢的风格关闭该弹窗&#xff0c;选择创建就创建成…

郑州设计资质延续流程:人员社保的审核标准是什么?

郑州设计资质延续流程中&#xff0c;人员社保的审核标准如下&#xff1a; 一、社保缴纳期限 审核标准&#xff1a;人员&#xff08;技术负责人、注册人员等&#xff09;的社保考核期限恢复为3个月。需要提供相关人员至少连续3个月的社保缴纳记录。 二、社保缴纳主体 审核标准…

【Pandas驯化-06】一文搞懂Dataframe中的索引stack、unstack问题

【Pandas驯化-06】一文搞懂Dataframe中的索引stack、unstack问题 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#x1f387; 相关内容文档获取 微信公…

macbook屏幕录制技巧,这2个方法请你收好

在当今数字化时代&#xff0c;屏幕录制成为了一项不可或缺的技能&#xff0c;无论是教学演示、游戏直播&#xff0c;还是软件操作教程&#xff0c;屏幕录制都能帮助我们更直观地传达信息。MacBook作为苹果公司的标志性产品&#xff0c;其屏幕录制功能也备受用户关注。本文将详细…

GeoJson 地图地理信息数据获取

效果图&#xff1a; 获取渠道&#xff1a; 通过阿里数据可视化平台获取通过Vector Maps获取通过geojson来获取 1、通过阿里数据可视化平台获取 2、通过Vector Maps获取 3、通过geojson获取

618数码好物有哪些?热门榜单强势出炉

大家好&#xff01;随着6.18购物狂欢节的来临&#xff0c;我可以明白在面对非常吸引人的商品时&#xff0c;“选择困难症”就上来了。因此&#xff0c;为了帮助大家在这场购物盛事中有方向&#xff0c;我特意结合个人使用体验和市场研究&#xff0c;为大家筛选了几件既具有超高…

【启明智显产品介绍】Model4 工业级HMI芯片详解系列专题(一):芯片性能

Model4 工业级HMI芯片详解系列专题&#xff08;一&#xff09;【芯片性能】 Model4系列工业级MPU是国产自主面向工业应用的RISC-V架构的应用级芯片&#xff0c;内置玄铁64bit RISC-V CPU C906&#xff0c;主频高达600MHz&#xff0c;算力约1380DMIPS。 Model4系列工业级MPU具…

课程设计——基于FPGA的交通红绿灯控制系统(源代码)

摘要&#xff1a; 本课程设计旨在设计一个基于FPGA&#xff08;现场可编程门阵列&#xff09;的交通红绿灯控制系统。该系统模拟了实际道路交叉口的红绿灯工作场景&#xff0c;通过硬件描述语言&#xff08;如Verilog或VHDL&#xff09;编写源代码实现。系统包含三个主要部分&a…