DETR不需要多尺度或局部性设计

news2024/10/6 8:23:03

文章目录

  • DETR Doesn’t Need Multi-Scale or Locality Design
    • 摘要
    • 本文方法
      • Box-to-Pixel Relative Position Bias
      • 其他改进
    • 实验结果

DETR Doesn’t Need Multi-Scale or Locality Design

摘要

提出了一种改进的DETR检测器,使用单尺度特征映射和全局交叉注意计算,没有特定的局部性约束,与之前领先的基于DETR的检测器形成对比,后者将多尺度和局部性的架构归纳偏差重新引入解码器。本文证明了两种简单的技术在平面设计中令人惊讶地有效,以弥补多尺度特征地图和局部性约束的缺乏。
第一个是添加到交叉注意公式中的box到像素相对位置偏差(BoxRPB)术语,它可以很好地指导每个查询关注相应的对象区域,同时还提供编码灵活性。
第二种是基于掩膜图像建模(MIM)的主干预训练,它有助于学习具有细粒度定位能力的表示,并且对于纠正多尺度特征映射上的依赖关系至关重要。
代码地址
在这里插入图片描述

本文方法

在这里插入图片描述
(左):黑色网格表示输入图像。蓝色草图区域表示预测的边界框。我们用红星标记盒子的左上角和右下角。(中):我们的BoxRPB计算沿x轴和y轴的所有位置和两个角之间的偏移量。然后,我们沿着每个轴连接偏移向量形成(∆x1,∆x2)和(∆y1,∆y2),并应用一个独立的MLP来获得相对位置偏差项Bx和By。

(右):我们广播并将Bx加到By中得到二维相对偏差项b,我们将关注值较高的位置涂成红色,否则涂成蓝色。

Box-to-Pixel Relative Position Bias

BoxRPB:对于弥补多尺度特征的缺乏和明确的局部交叉注意计算至关重要。

原始的DETR解码器采用标准的交叉注意计算:
在这里插入图片描述
原始的交叉注意公式通常在普通的DETR框架中关注不相关的图像区域。我们推测,这可能是其精度远低于多尺度和明确局域设计的原因。受视觉变压器架构中像素到像素相对位置偏差成功的启发,我们探索了使用盒到像素相对位置偏差(BoxRPB)进行交叉注意计算:
在这里插入图片描述
B是由盒子和像素之间的几何关系决定的相对位置偏差
一个朴素的BoxRPB实现:采用连续RPB方法来计算4d- box-topixel的相对位置偏差。原始的连续RPB方法通过在相应的二维相对坐标上应用元网络产生每个相对位置构型的偏置项。当将此方法扩展到BoxRPB时,我们使用左上角和右下角来表示一个框,并使用这些角点与图像像素点之间的相对位置作为元网络的输入。
在这里插入图片描述
分解的BoxRPB实现:现在,我们提出一个更有效的BoxRPB实现。与直接计算4d-输入的偏置项不同,我们考虑将偏置计算分解为两项:
在这里插入图片描述
在这里插入图片描述

其他改进

利用了掩蔽图像建模预训练(MIM),显示出更好的局部性
用SimMIM预训练的权重初始化Swin变压器主干,这些权重是在ImageNet上学习的

重新参数化的边界盒回归
我们想要强调的另一个改进是在执行边界框回归时重新参数化边界框。
原始的DETR框架及其大多数变体直接将框中心和大小缩放为[0,1]。由于大目标在损失计算中占主导地位,因此在检测小目标时将面临困难。相反,我们将第l解码器层的盒中心和大小重新参数化为:
在这里插入图片描述

实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/846968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RFID系统数据编码方式仿真实现

RFID 技术简介 射频识别技术(RFID,即,Radio Frequency Identification)是一种非接触自动识别技术,它利用无线通信的方式自动的从目标中读取信息。   典型的RFID射频识别系统包括标签和读写器两部分。   标签是一块集…

学术资源加速

以下为可以加速访问的学术资源地址: github.comgithubusercontent.comgithubassets.comhuggingface.co 编辑 /etc/network_turbo vim /etc/network_turbo 内容格式参考如下: export no_proxylocalhost,127.0.0.1 export http_proxyhttp://127.0.0.…

5,二叉树【p6-p7】

二叉树 5.1二叉树5.1.1例1:用递归和非递归两种方式实现二叉树的先序、中序、后序遍历5.1.1.1递归序的先序、中序、后序遍历先序遍历:中序遍历:后序遍历: 5.1.1.2非递归序的先序、中序、后序遍历先序遍历:中序遍历&…

基于Java+SpringBoot+Vue的时间管理系统设计与实现(源码+LW+部署文档等)

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

Apache Paimon 学习笔记

本博客对应于 B 站尚硅谷教学视频 尚硅谷大数据Apache Paimon教程(流式数据湖平台),为视频对应笔记的相关整理。 1 概述 1.1 简介 Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推…

《深度探索c++对象模型》第七章笔记

非原创,在学习 7 站在对象模型的尖端 On the Cusp of the Object Model 这一章讨论三个著名的C语言扩充性质,它们都会影响CH对象。它们分别是 template、exception handling (EH)和runtime type identification (RTTI) 模版、异常、通过运行…

vite项目中使用@代表根路径

1.配置vite.config.ts import { defineConfig } from vite import vue from vitejs/plugin-vue import path from pathexport default defineConfig({plugins: [vue()],resolve: {alias:{: path.resolve(__dirname, src) }} })2.报错path和__dirname 找不到模块“path”或其相…

K8S系列文章 之 编写自动化部署K8S脚本

介绍 通过ansible脚本shell实现自动化部署k8s基础集群(v1.25.0) 部署结构 1. 通过二进制部署包镜像安装k8s集群、目录etcd节点只支持1-3个节点、最多三个etcd节点 2. 因k8s版本相对较新、需要升级内核来支持后台程序、当前版本只支持Cento7,内核版本(5.19.4-1.el7…

本地构建包含java和maven的镜像

目录 1.前提条件 2.下载 2.1.创建Dockerfile 3.构建镜像 参考文章 1.前提条件 本地环境需要的系统和软件 win10 Docker Desktop Powershell 图1 Win10安装Docker后,直接在Powershell使用Docker命令 有些Developer不习惯win10系统,却想要使用Lin…

使用ResponseBodyAdvice封装统一返回值

目录 ResponseBodyAdvice 接口概述 ResponseBodyAdvice 快速使用 父pom文件 pom文件 ResponseDto MyResponseBodyAdvice DemoController 结果展示 ResponseBodyAdvice 接口概述 在实际项目中,我们经常需要在请求前后进行一些操作,比如&#xf…

Cesium 实战教程 - 三种方式(CZML、nodeTransformations)修改模型节点组件属性(比例、旋转、移动等)

Cesium 实战教程 - 三种方式(CZML、nodeTransformations)修改模型节点组件属性(比例、旋转、移动等) 核心代码完整代码在线示例 关于 Cesium 设置模型组件的动作,之前是通过 CZML articulations 来实现的,…

xAI与GPT-4:探索宇宙真实本质的AI之战

xAI与GPT-4:AI之战 写在前面第一部分推动科学研究提升人机交互引发伦理和社会问题 第二部分模型的进一步优化跨领域合作人机融合 反AI斗士 马斯克进军AI中国的AI产业怎么样AI这把火,还能怎么烧?最后总结 北京时间7月13日凌晨,马斯…

加速手机充电,打开这个小技巧,让充电速度翻倍,快速充满电量

加速手机充电,打开这个小技巧,让充电速度翻倍,快速充满电量 通过打开这个小技巧,我们可以在有限的时间内快速充满手机电量,解决了电量不足的困扰。不再需要长时间等待充电,让我们能够更加便捷地使用手机&a…

微服务监控技术skywalking的部署与使用(亲测无坑)

微服务监控技术skywalking的部署与使用 1. 前期准备2. skywalking安装部署2.1 Java Agent2.2 apache/skywalking-oap-server2.3 apache/skywalking-ui 3. 项目启动4.效果展示 1. 前期准备 注:本篇文章采用docker部署,采用8.2.0版本,版本一定…

vue+Highcharts绘制3D饼图

效果图 一、下载highcharts插件 npm install highcharts 二、main.js全局配置插件 import Highcharts from "highcharts/highcharts"; import highcharts3d from "highcharts/highcharts-3d"; highcharts3d(Highcharts); 三、封装highcharts.vue组件 …

FreeFileSync 12.5 正式发布,文件夹比较与同步软件

导读FreeFileSync 是一款开源软件,适用于 Windows、macOS 和 Linux。FreeFileSync 本质是一个用于文件夹对比和同步的软件,它可以创建和管理所有重要文件的备份副本。FreeFileSync 不是每次都复制每个文件,而是确定源文件夹和目标文件夹之间的…

vue-baidu-map-3x 使用记录

在 Vue3 TypeScript 项目中,为了采用 标签组件 的方式,使用百度地图组件,冲浪发现了一个开源库 ovo,很方便!喜欢的朋友记得帮 原作者 点下 star ~ vue-baidu-map-3xbaidu-map的vue3/vue2版本(支持v2.0、v…

海外ASO优化之如何给应用选择正确的类别

将我们的应用程序放在Apple App Store和Google Play正确的类别中,不仅对按类别浏览应用的用户有帮助,而且能够帮助我们的应用程序获得良好排名。 1、应用程序属于多个类别的解决方案。 需要选择最能描述我们应用程序的类别,检查一下每个类别…

.net几行代码音乐API各排行榜 热搜 入库

对比了几家大厂的音乐API的接口 这家相对规范些 现在开始从零开始 net6敏捷开发对接 入库吧 关键技术工具和思维 1 json 生成类 2 分析类 规划表设计3 sqlsuger codefirst 生成表 4 封装get post 连接5 类映射automapper6 sqlsuger 插入数据 1 json 生成类 宇宙 第 一的…

轻量级低代码平台,快速生成应用程序及不同类型的CRM系统

私有化部署的低代码快速开发平台 无需代码或通过少量代码就可以快速生成应用程序的开发平台。 这套低代码管理后台平台可以支持多种企业应用场景,包括但不限于 OA系统、 CRM系统、 ERP系统、项目管理系统、进销存系统等。无论是懂技术的开发人员还是不懂技术的业务…