优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位(代码待开源)...

news2024/11/30 12:52:47

关注并星标

从此不迷路

计算机视觉研究院

74f57063c0c1fe9c781fa6e3de095aca.gif

7cf0053fc66393e0ac796f995bf9868c.gif

a1c3ee96f4511273e1acfdf8461bb744.png

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

与基线FCOS(一种单阶段和无锚目标象检测模型)相比,新提出的模型在不同的主干上始终获得大约3 个AP的改进,证明了新方法的简单性和效率。

一、前言

Non keypoint-based的目标检测模型由分类和回归分支组成,由于不同的任务驱动因素,这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。point-based的预测方法,在基于高分类置信点具有高回归质量的假设上,导致错位问题。我们的分析表明,该问题进一步具体由尺度错位和空间错位组成。

研究者的目标是以最小的成本解决这一现象——对head network进行微调,并用一种新的标签分配方法代替。实验表明,与基线FCOS(一种单阶段和无锚目标象检测模型)相比,新提出的模型在不同的主干上始终获得大约3 个AP的改进,证明了新方法的简单性和效率。

二、背景

目标检测是深度学习时代比较发达的研究领域。通常考虑两种不同的任务,分类旨在研究跨多类的不同特征,回归旨在绘制准确的边界框。然而,由于这两个任务之间的巨大特征信息敏感性,TSD【Revisiting the sibling head in object detector】显示存在空间特征错位问题,并损害了基于NMS的模型预测高置信度分类和高质量回归结果的能力。

0d053c422a45eda703c504565277b0d1.png

对于空间错位部分,研究者在同一实例中渲染了分类损失和回归损失的空间分布。如上图所示,两个分布高度错位。具有微小分类损失或回归损失的点具有更好的特征可供这两个分支分别利用。因此,两个任务损失的高度错位分布表明这两个任务不喜欢相同空间位置的特征。

在这些分析下,为了解决尺度特征错位问题,研究者为每个任务设计了一个任务驱动的动态感受野适配器,一个简单但有效的形变卷积模块。为了减轻空间特征错位带来的负面影响,设计了一种标签分配方法,挖掘空间最对齐的样本,以增强模型预测具有高分类分数的可靠回归点的能力。


三、新框架

  •  dynamic receptive filed adaptor

在现代one-stage检测器的head,为了在两个分支上获得相同大小的特征图,来自两个分支的四个卷积操作的每一步共享完全相同的内核大小、striding和padding。每个分支的最终感受野由下式计算:

6d66c70219272dcc1f820466659719fd.png

Rl是每个FPN级别馈送的初始特征图的输入图像上的感受野,f(•)是关于跨四个连续卷积层的感受野的静态计算方法。

值得注意的是,RFA模块仅应用于检测器head的第一步,具有两个单独的形变卷积,以增强每个分支对尺度信息的适应能力,并进一步减轻尺度错位的差异。 它不同于直接将形变卷积应用于主干或neck,而不考虑两个分支的不同感受野。 它也不同于VFNet和RepPoints,它们通过形变卷积合并两个分支的信息。 在我们的例子中,每个分支都放宽了规模不匹配,因为我们根据详细的特征信息使每个分支中的每个特征点具有不同的个体感受野。

形变卷积(Deformable Convolution)原理

形变卷积的实现方法如下图所示:

a31849b0e82e0d4060eb62d3acee254e.png

offset field通过在原图上进行标准卷积操作得到,通道数为2N表示N个2维的偏置量(△x,△y),N表示卷积核的个数即输出特征层的通道数。

形变卷积过程可以描述为:首先在输入feature map上进行标准卷积得到N个2维的偏置量(△x,△y),然后分别对输入feature map上各个点的值进行修正:

设feature map为P,即P ( x , y ) = P ( x + △ x , y + △ y ),当x+△x为分数时,使用双线性插值计算P(x+△x,y+△y)

形成N个feature map,然后使用N个卷积核一一对应进行卷积得到输出。标准卷积与形变卷积的计算效果如下图所示:

281277b089d368cc6e2bbc5f623864d2.png

  •  Aligned Spatial Points Assignment Procedur

给定每个实例Ii的尺度分配结果l∗和l∗中的候选点Cl∗,新框架的任务是进一步挖掘Cl∗中空间最对齐的点。每个候选点有两个指标需要考虑:(1)考虑到两个任务的整体适应度Sf;(2) 由空间上的未对准损失分布引起的未对准度Sm。

57b4de948010eee89c6dd4a717adf0a7.png

5000ef24823f85994b72296e1abb090a.png

使用softmax函数将Lcls和Lreg分别重新分配到相同的可测标准中,这是由softmax函数单调且其输出之和为一的优点给出的。对于未对齐的程度Sm,由于我们发现sigmoid函数可以高效地将变体输入转换为相当统一的输出,因此将其定义如下:

5bdb72796a5715e1c8986af2c2f60e1e.png

四、实验

7899a58c9324bfc3e9d12964cadc54be.png

3ced1891f81414ae2a2dbe69bafa9521.png

COCO数据集上的比较

c54ab0c6c138ac713e97bad3f9655baa.png

c10220310250bf5ca1badfa02e155975.png

空间标签分配的可视化。第一行分别显示了两个任务的输入和损失分布。第二行的绿色十字是正分配点。

© The Ending

转载请联系本公众号获得授权

2fbb2625c0cd183e2c6d250cdd5bb147.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

2d05271d50242e117aee0896ba748a4a.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 改进的YOLOv5:AF-FPN替换金字塔模块提升目标检测精度

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)

  • LCCL网络:相互指导博弈来提升目标检测精度(附源代码)

  • Poly-YOLO:更快,更精确的检测(主要解决Yolov3两大问题,附源代码)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/523311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STL-map容器

作为关联式容器的一种,map 容器存储的都是 pair 对象,也就是用 pair 类模板创建的键值对。其中,各个键值对的键和值可以是任意数据类型,包括 C基本数据类型(int、double 等)、使用结构体或类自定义的类型。…

IDEA中java文件出现黄色的J文件同时maven项目导入了依赖但是idea依赖加不进去的问题记录

IDEA导入项目后依赖jar包没有显示 报错提示尝试的解决方法检查对应的sdkmodule等配置信息开始尝试是不是版本问题,因为对上述maven报错进行查询,好像是因为版本太高导致的,开始下一个低版本进行尝试切换版本即可解决 总结后续出现的BUG 此次环…

Linux基本指令(三)

Linux基本指令 一.data指令1.基本使用2.时间戳 二.cal指令三.find指令四.grep指令五.zip/unzip指令六.tar指令(打包/解包,不打开直接看内容)七.bc指令八.uname指令九.几个重要热键十.关机 一.data指令 1.基本使用 下面不需要记住&#xff0c…

nodejs+Vue+elementui农家乐管理系统系统-住宿-美食-活动报名系统vue

语言 node.js 框架:Express 前端:Vue.js 数据库:mysql 数据库工具:Navicat 开发软件:VScode 目 录 管理员在还可以进行首页、个人中心、农家乐管理、美食信息管理、住宿信息管理、活动信息管理、用户管理、活动报名管理、客房预…

English Learning - L3 作业打卡 Lesson1 Day5 2023.5.9 周二

English Learning - L3 作业打卡 Lesson1 Day5 2023.5.9 周二 引言🍉句1: Fast loud music is popular with many people .成分划分爆破语调 🍉句2: They may say the music is red hot, especially the kind called Dixieland jazz.成分划分爆破语调 &a…

Ae 入门系列之十二:三维合成

在 Ae 中,可以将图层设置为 3D 图层并添加动态的摄像机和灯光,从而制作基于三维空间的动画。 ◆ ◆ ◆ 二维与三维 二维 2D 在一个平面上的内容就是二维。只有上下、左右两个方向,没有前后。即,只有面积,没有体积。 …

FX DocuCentre S2520~~富士施乐 DocuCentre S2520和2022打印机驱动安装

先确定打印机IP 1. 12楼打印机IP 13楼 2楼 192.168.20.251 192.168.20.252 192.168.10.252 2. 下载安装驱动 2520富士施乐 DocuCentre S2520 驱动下载 - 驱动天空 (drvsky.com) 2022富士施乐 DocuCentre SC2022 驱动下载 - 驱动天空 (drvsky.com) 3. 添加驱动配置 安装驱动配…

解决问题,是管理者最了不起的才华

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 小C和小Y是K哥下面的两个主管,都管着10多人的团队,但他们带队伍的风格完全不同。小C名校毕业,理论基础扎实,彼得德鲁克、约翰科特的管理思想&#xff0c…

如何解决过度拟合

数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学,点击下方链接报名: 量化投资速成营(入门课程) Python股票量化投资 Python期货量化投资 Python数字货币量化投资 C语言CTP期货交易系统开…

Ae:合成查看器 - 3D 视图选项

当启用 3D 图层后,合成查看器右下方将出现与 3D 视图相关的按钮与菜单。 草图 3D Draft 3D 启用后,Ae 将使用 GPU 加速来实时显示对 3D 设计所做的更改或更新。这种体验无缝流畅且速度更快,因此可避免在预览时发生延迟,使用任意摄…

Java原型模式详解:克隆人案例【深浅克隆】

前言 在许多情况下,我们需要创建对象的副本,比如在初始化操作比较复杂或者需要大量资源的情况下。在这些情况下,我们可以使用原型模式来避免重复创建对象,提高程序的性能。本文将介绍Java中的原型模式以及如何在实际应用中使用它。…

js中new的含义

👉js中new操作符_js new_焦会理人的博客-CSDN博客 目录 1.什么是new? 2.new经历了什么过程? 3.new的过程分析 1.什么是new? 在JS中,new的作用是通过构造函数来创建一个实例对象(和普通函数不一样,当函数用作构造函…

漏洞扫描与渗透测试的区别

在网络安全领域中,漏洞扫描和渗透测试是两个非常重要的概念。渗透测试和漏洞挖掘的区别在于测试的目的和方法。渗透测试主要是为了发现已知漏洞,而漏洞挖掘主要是为了发现未知漏洞。虽然它们都与漏洞有关,但它们之间还是有一定的区别。那么渗…

机器学习:基于Kmeans聚类算法对银行客户进行分类

机器学习:基于Kmeans聚类算法对银行客户进行分类 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞&#x…

浅析自主、意图与感性

2023年5月3日,在麻省理工技术评论(MIT Technology Review)一场接近一小时的半公开分享会上,Hinton终于有机会比较完整的讲述了他对AI的所有恐惧和担忧:一旦AI在人类灌输的目的中生成了自我动机,那以它的成长…

超级独角兽 Databricks 的崛起之路

在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。 然而,他…

Python虚拟环境的安装和使用

在进行Python项目开发时可能会遇到各种各样的库和模块依赖问题。为了解决这些问题,我们可以使用虚拟环境来隔离项目的依赖。本次将介绍Python原生虚拟环境和Anaconda虚拟环境的安装与使用,并举例说明如何进行虚拟环境配置。 文章目录 Python原生虚拟环境…

华为OD机试真题 Java 实现【不爱施肥的小布】【2023Q2 100分】

一、题目描述 某农村主管理了一大片果园,fields[i]表示不同国林的面积,单位m2,现在要为所有的果林施肥且必须在n天之内完成,否则影响收成。小布是国林的工作人员,他每次选择一片果林进行施肥,且一片国林施…

Python机器学习:Scikit-learn和TensorFlow的应用和模型设计

一、引言 Python在机器学习领域中已经成为非常受欢迎的编程语言。Scikit-learn和TensorFlow是Python中应用最广泛的两个机器学习库,它们提供了丰富的机器学习算法和工具,帮助开发人员轻松地构建和训练机器学习模型。本文将详细介绍Scikit-learn和Tensor…

python+vue体育场馆场地预约系统 django体育器材管理系统3cprm

使用django框架搭建后台服务,使用python开发语言. 使用MySQL作为数据库对数据进行持久化 开发语言:Python 框架:django/flask Python版本:python3.7.7 数据库:mysql 数据库工具:Navicat 开发软件&#xf…