DETR Doesn’t Need Multi-Scale or Locality Design

news2024/11/18 1:32:44

论文名称:PlainDetr
发表时间:ICCV2023
开源代码
作者及组织: Yutong Lin,Yuhui Yuan等,来自西安交大,微软亚洲研究院。

前言

 自Detr以来,后续paper的改进的方向:主要是将归纳偏置重新又引入进Detr结构,比如DINO,ConditionDetr,HybridMatch等。但这与Detr原始简洁的结构设计背道而驰。于是本篇工作旨在保持Detr简洁结构设计上,提高其精度。
  关于DETR相关内容可参考:
   1)Detr
   2)DeformableDetr
   3)ConditionalDetr
   4)DAB-DETR
   5)DN-DETR
   6)DINO

1、方法

 文中首先设计了一个强的Detr的Baseline,在coco上12epoch的mAP=37.2。详细的配置参数如下图:表格中的小trick均来自其余论文。具体是啥就不详细介绍了,感兴趣可参考前言中文献 😏。

在这里插入图片描述

1.1.MIM预训练Backbone

  在目标检测中,MIM已经证实比全监督预训练的性能更好 ,消融实验表明:mim-swin-s比sup-swin-s的mAP从37.2提高到44.6。
 另外,MM中每层特征图中其实都蕴含了归纳偏置,故可以只用一层layer即可,无需FPN或者MultiHeadAttn。如下图,作者采用了©的结构,且实验表明,并没有掉点。
在这里插入图片描述
在这里插入图片描述

1.2.Box-to-Pixel Relative Position Bias

  原始Detr中cross-attention可表示为:
O = S o f t m a x ( Q K T ) V + X \begin{equation} O = Softmax(QK^ {\mathrm{T}} )V+X \end{equation} O=Softmax(QKT)V+X
  本文提出的BoxRPE可表示为:
O = S o f t m a x ( Q K T + B ) V + X \begin{equation} O = Softmax(QK^ {\mathrm{T}} +B)V+X \end{equation} O=Softmax(QKT+B)V+X
  其中,上式中的B的计算流程如下图所示:首先输入是一张图像及pred_box,两个五角星的位置分别表示pred_box的左上角和右下角角点。然后分别从X轴和Y轴对这两个角点进行编码:以 $\delta(x_1) $ 为0点,依次向左向右编码W个相对坐标[-4,7];然后经过MLP并广播得到B。
在这里插入图片描述

1.3. Bounding Box Regression re-param

  在Detr回归中,xywh均进行了归一化,但没有区分大小物体的损失权重:被大物体的损失主导。于是,作者重新编码了回归的范式:

在这里插入图片描述

 其中 l 表示第几层layer, t* 表示模型的gt值 ,然后跟预测框进行loss计算即可。

2、实验

 上述三个trick的消融实验如下图:
在这里插入图片描述

  跟其余方法对比实验:
在这里插入图片描述

思考

  相较于DeformableDetr,省去了MultiHeadAttn这个算子,且只用一层layer,结构变得简洁 。但是在源码中,作者在生成候选框时,其实还是采用了四层,作者说只用一层的话,会掉一个点左右,还需实测一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1515117.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何实现sam(Segment Anything Model)|fastsam模型

sam是2023年提出的一个在图像分割领域的大模型,其具备了对任意现实数据的分割能力,其论文的介绍可以参考 https://hpg123.blog.csdn.net/article/details/131137939,sam的亮点在于提出一种工作模式,同时将多形式的prompt集成到了语…

清华把大模型用于城市规划,回龙观和大红门地区成研究对象

引言:参与式城市规划的新篇章 随着城市化的不断推进,传统的城市规划方法面临着越来越多的挑战。这些方法往往需要大量的时间和人力,且严重依赖于经验丰富的城市规划师。为了应对这些挑战,参与式城市规划应运而生,它强…

短剧在线搜索源码(全网首发)

一个非常哇塞的在线短剧搜索页面,接口已经对接好了,上传源码到服务器解压就能直接用,有能力的可以自己改接口自己写自己的接口 接口文档地址:doc.djcat.sbs 源码下载地址:https://pan.xunlei.com/s/VNstN8C6N3VK1a1k…

《OWASP TOP10漏洞》

0x01 弱口令 产生原因 与个人习惯和安全意识相关,为了避免忘记密码,使用一个非常容易记住 的密码,或者是直接采用系统的默认密码等。 危害 通过弱口令,攻击者可以进入后台修改资料,进入金融系统盗取钱财&#xff0…

【算法与数据结构】队列的实现详解

文章目录 📝队列的概念及结构🌠 队列的顺序实现🌉初始化🌠入队🌉出队🌠获取队列首元素🌉获取队列尾部元素🌠获取队列中有效元素个数🌉 队列是否为空🌠查看队列…

二分查找的理解及应用场景。

一、是什么 在计算机科学中,二分查找算法,也称折半搜索算法,是一种在有序数组中查找某一特定元素的搜索算法 想要应用二分查找法,则这一堆数应有如下特性: 存储在数组中有序排序 搜索过程从数组的中间元素开始&…

【典】dp背包问题(树求方案)

回顾在acw上做过的题 有依赖的背包问题 这一题是与树相关的dp问题,根据父节点与子节点的相连关系,我们用dfs来处理根节点与子树的迭代更新,把每一颗最小单位子树看成一个物品,然后就有点像多重背包(因为有体积限制&…

云计算 3月12号 (PEX)

什么是PXE? PXE,全名Pre-boot Execution Environment,预启动执行环境; 通过网络接口启动计算机,不依赖本地存储设备(如硬盘)或本地已安装的操作系统; 由Intel和Systemsoft公司于199…

【vue在主页中点击主页面如何弹出一个指定某个页面的窗口】

【vue在主页中点击主页面跳转到某个页面的操作完整过程】 1.首先在主页面中加入一个卡槽用于展示弹出的窗口 代码如下&#xff1a; <el-dialog :visible.sync"dialogVisible1" :close-on-click-modal"false" :title"title" class"dial…

关于tcp协议

目录 前言&#xff1a; 一、TCP协议的基本概念&#xff1a; 二、TCP协议的主要特点&#xff1a; 2.1面向连接&#xff1a; 2.2可靠传输&#xff1a; 2.3基于字节流&#xff1a; 三、TCP连接的建立与终止&#xff1a; 3.1连接建立&#xff1a; 3.1.1SYN&#xff1a; 3…

资产管理系统建设方案参考

1系统概述 软件开发全套文档下载、源码下载&#xff1a;软件项目开发全套文档下载_软件开发文档下载-CSDN博客 1.1需求描述 1. 实现公司内部固定资产管理全生命周期管理&#xff0c;包括资产采购、资产入库、资产领用、资产借用、资产归还、资产报废、资产维修、资产调拨等全…

RC522刷卡电路设计及程序

一、RC522刷卡电路组成 基于RC522的刷卡电路如上图所示。该电路组成主要分为三部分&#xff1a; Receiving Circuit&#xff1a;接收电路&#xff0c;接收卡发送的数据。 Filtering Impedence-Transtorm circuit:滤波和阻抗变换电路&#xff0c;抑制高次谐波并优化到读卡器天线…

Python使用lxml解析XML格式化数据

Python使用lxml解析XML格式化数据 1. 效果图2. 源代码参考 方法一&#xff1a;无脑读取文件&#xff0c;遇到有关键词的行再去解析获取值 方法二&#xff1a;利用lxml等库&#xff0c;解析格式化数据&#xff0c;批量获取标签及其值 这篇博客介绍第2种办法&#xff0c;以菜鸟教…

【AI大模型应用开发】【LangChain系列】9. 实用技巧:大模型的流式输出在 OpenAI 和 LangChain 中的使用

大家好&#xff0c;我是同学小张&#xff0c;日常分享AI知识和实战案例欢迎 点赞 关注 &#x1f44f;&#xff0c;持续学习&#xff0c;持续干货输出。v: jasper_8017 一起交流&#x1f4ac;&#xff0c;一起进步&#x1f4aa;。微信公众号也可搜【同学小张】 &#x1f64f; 本…

Linux环境(Ubuntu)上搭建MQTT服务器(EMQX )

目录 概述 1 认识EMQX 1.1 EMQX 简介 1.2 EMQX 版本类型 2 Ubuntu搭建EMQX 平台 2.1 下载和安装 2.1.1 下载 2.1.2 安装 2.2 查看运行端口 3 运行Dashboard 管理控制台 3.1 查看Ubuntu上的防火墙 3.2 运行Dashboard 管理控制台 概述 本文主要介绍EMQX 的一些内容&a…

Vulnhub - DevGuru

希望和各位大佬一起学习&#xff0c;如果文章内容有错请多多指正&#xff0c;谢谢&#xff01; 个人博客链接&#xff1a;CH4SER的个人BLOG – Welcome To Ch4sers Blog DevGuru 靶机下载地址&#xff1a;DevGuru: 1 ~ VulnHub 目录 0x01 信息收集 0x02 Web漏洞利用 - W…

GPT-4.5 Turbo意外曝光,最快明天发布?OpenAI终于要放大招了!

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

什么是信创?什么是信创测评?

信创&#xff0c;全称为信息技术应用创新&#xff0c;我的理解&#xff0c;其核心是知识产权与供应链的自主可控与可持续发展。 我国在经历了无数风雨后&#xff0c;已经浴火重生&#xff0c;国家实力日益强大&#xff0c;人民生活水平也不断提高。然而&#xff0c;我们必须清…

彩虹知识付费模板MangoA全开源包含秒杀/抽奖/社群/推送等功能

二次开发增加以下功能每日秒杀每日签到官方社群多级分销在线抽奖项目投稿 每日秒杀 每日签到 官方社群 多级分销 在线抽奖 项目投稿 下载地址&#xff1a;https://pan.xunlei.com/s/VNstMfOecGliiqew7UIorsOnA1?pwdhywi#

2024年云仓酒庄:店中店增项新模式,开启葡萄酒文化新篇章

2024云仓酒庄&#xff1a;店中店增项新模式&#xff0c;开启葡萄酒文化新篇章 在葡萄酒行业蓬勃发展的今天&#xff0c;云仓酒庄以其独特的经营模式和创新思维&#xff0c;在市场中脱颖而出。2024年&#xff0c;云仓酒庄继续深化其战略布局&#xff0c;不仅在多地开设酒庄实体…