DETR解读,将Transformer带入CV

news2025/1/13 15:44:03

论文出处

[2005.12872] End-to-End Object Detection with Transformers (arxiv.org)

一个前置知识

匈牙利算法:来源于二部图匹配,计算最小或最大匹配

算法操作:在n*n的矩阵中

  1. 减去行列最小值,更新矩阵(此时行或者列最少一个0)

  2. 最少的横线来覆盖有0的行列,横线数量等于n结束算法,否则进入循环

  3. 循环操作:取未被横线覆盖的最小值k,所有未被覆盖的数都减去k(这个步骤至少增加一个0),横线的交点加上k,再次画横线判断

匈牙利算法在CV中用于对目标检测结果的匹配,前后帧之间相同目标的匹配,实现框随目标的运动。

具体的在CV任务中匈牙利算法的匹配代价用框中点之间欧式距离, 也可以是IoU(即框之间的重合度)

DETR:Transformer实现的端到端检测算法

模型训练思路

提前用超参数设置一些预测框,然后根据图像标注的信息得知图像中的物体正确的框选。预测框要和真实的那几个框一一对应,例如图中原本只标注了2个框,但是预测了100个,是从100个中选两个对应上。然后匈牙利算法计算匹配损失,反向传播

测试阶段

计算预测框的类别置信度,达到阈值则可以保留

Transformer先编码图像信息,然后解码,自注意力机制学习图像信息

object query查询图像中是否有物体

这里和NLP任务有明显的不同点。即当前输出是不依赖前一个输出,虽然是用decoder但是多目标的检测是可以并行的

具体操作步骤

  1. backbone卷积提取特征,

  2. Encoder,特征结合位置编码,两者相加生成Q,K。做多头注意力。每次编解码都使用位置编码

  3. Decoder:可以看做两层,先query初始为0,object query这两个query是学习anchor特征,两者相加生成Q,K。再加入图像特征(上一层输出再叠加object query为Q,Encoder输出加上位置编码生成K),学习预测物体类别,坐标,预测框信息等

  4. 输出:预测类别的标签,预测框的坐标

再介绍几个改进

Deformable DETR

文章出处:[2010.04159] Deformable DETR: Deformable Transformers for End-to-End Object Detection (arxiv.org)

提出可变注意力,这个改进对DETR来说十分关键。不再做全局注意力,只对关键部份做注意力。不仅仅是解决普通DETR计算量大和收敛慢的问题,做局部的注意力使得模型更能学习到关键特征,而不是无用的信息

在这个模型中,查询的Q还是来自特征提取和位置编码。但是K的查询几个点是由用户指定的,而且点的位置是由网络学习得到的。可以理解为最终值是一个点和图中的几个关键点做多头注意力得到。

先对输入Z分别做位置编码得到查询位置的偏移量和Attention Weight,还要对Z做线性变换得到Value。通过位置偏移量就能得到要查询位置的坐标,进一步去除对应位置的Value

Multi-scale Deformable Attention:

多尺度是为了在不同的尺度都能够学习到特征,大尺度对小物体的特征学习有效,小尺度学习大物体特征有效,使用多个尺度做注意力机制模型学习到更多的东西。先分别提取多张不同尺度的feature map,转换成线性之后连接起来,当做一个token,做注意力

RT-DERT

论文出处:

[2304.08069] DETRs Beat YOLOs on Real-time Object Detection (arxiv.org)

RT DETR的提出使得DETR路线的可用性和落地的可能性更进一步。这篇文章提出的实时端到端目标检测器,出发点就是提高模型训练和推理速度。

作者提到他发现模型执行时间取决于:预测框的数量,score threshold类别阈值,IoU threshold冗余框阈值

于是针对这些问题他做了几点创新:

  1. 只对最小尺度的特征图做可变注意力,其他的尺度做特征融合
  2. 基于IoU的查询选择,提高性能
  3. 推理加速,直接使用前几个decoder的输出

 

AIFI

对于最小尺度的一个特征图做Transformer encoder,以往是多个尺度的特征拉长成一个很长的一维token,这里减少了计算量。而且小尺度的语义特征更加丰富。

CCFM

每个尺寸两两之间都做特征的融合,做上采样或下采样匹配尺寸,最终拼接成一个列表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1417240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# RichTextBox常用属性、方法学习1

1 字体 Font font1 new Font("宋体", 18); richTextBox1.Font font1; Font font2 new Font("宋体", 10, FontStyle.Underline); richTextBox1.SelectionFont font2; 定义字体,可以带2个参数&#…

代码随想录刷题笔记-Day13

1. 二叉树的层序遍历 102. 二叉树的层序遍历https://leetcode.cn/problems/binary-tree-level-order-traversal/层次遍历依靠队列的先进先出特点实现。 解题思路 层序遍历的本质就是对每一个pop出来的处理节点,处理后把他的左右节点放进去。 对于每一层来说&…

菱形打印和十进制ip转二进制

1.菱形打印 用for循环 #!/bin/bashread -p "请输入菱形的大小&#xff1a;" num #打印向上的等腰三角形 for ((i1;i<num;i)) dofor ((jnum-1;j>i;j--))doecho -n " " #打印的是前面的空格donefor ((k1;k<2*i-1;k))doecho -n "*" #打印…

【stm32】hal库学习笔记-FSMC连接TFT_LCD

【stm32】hal库学习笔记-FSMC连接TFT LCD 触摸屏结构与原理 LCD模块接口原理图 LCD 接口连接在 FSMC 总线上面&#xff0c;图中的 T_MISO/T_MOSI/T_PEN/T_SCK/T_CS 连接在 MCU 的 PB2/PF11/PB1/PB0/PC13 上&#xff0c;这些信号用来实现对液晶触摸屏的控制&#xff08;支持电阻…

QT tcp与udp网络通信以及定时器的使用 (7)

QT tcp与udp网络通信以及定时器的使用 文章目录 QT tcp与udp网络通信以及定时器的使用1、QT网络与通信简单介绍2、QT TCP通信1、 服务器的流程2、 客户端的流程3、服务器的编写4、客户端的编写 3、QT UDP通信1、客户端流程2、客户端编写3、UDP广播4、UDP组播 4、定时器的用法1、…

leetcode刷题日志-146LRU缓存

思路&#xff1a;使用hashmap储存key&#xff0c;vaule&#xff0c;使用双向链表以快速查到尾结点&#xff08;待逐出的节点&#xff09;&#xff0c;链表的题一定要在纸上画一下&#xff0c;不然连着连着就不知道连在哪里去了 class LRUCache {public class ListNode {int ke…

【js基础】日期对象的使用,查找、增加、克隆、删除DOM节点,M端事件

文章目录 前言一、日期对象日期对象的作用1.1 实例化1.2 日期对象的方法1.3 时间的格式化1.4 时间戳的使用时间戳是什么js的时间戳 二、DOM的增删改查什么叫做DOM节点2.1 DOM的查找2.2 增加节点2.3 克隆节点和删除节点 三、M端事件3.1 M端是什么&#xff1f; 总结 前言 在 Jav…

你的MiniFilter安全吗?

简介 筛选器管理器 (FltMgr.sys)是Windows系统提供的内核模式驱动程序, 用于实现和公开文件系统筛选器驱动程序中通常所需的功能; 第三方文件系统筛选器开发人员可以使用FltMgr的功能可以更加简单的编写文件过滤驱动, 这种驱动我们通常称为MiniFilter, 下面是MiniFilter的基本…

STM32CubeMX教程31 USB_DEVICE - HID外设_模拟键盘或鼠标

目录 1、准备材料 2、实验目标 3、模拟鼠标实验流程 3.0、前提知识 3.1、CubeMX相关配置 3.1.0、工程基本配置 3.1.1、时钟树配置 3.1.2、外设参数配置 3.1.3、外设中断配置 3.2、生成代码 3.2.0、配置Project Manager页面 3.2.1、设初始化调用流程 3.2.2、外设中…

优选6款前端动画特效分享(附在线演示)

优选6款前端动画特效 其中有CSS动画、canvas动画、js小游戏等等 下方效果图可能不是特别的生动 那么你可以点击在线预览进行查看相应的动画特效 同时也是可以下载该资源的 翻页时钟特效 基于react实现的一款翻页时钟特效 切换时间特效跟比赛切换分数牌相似 以下效果图只能体现…

Gitlab7.14 中文版安装教程

Gitlab7.14 中文版安装教程 注&#xff1a; 本教程由羞涩梦整理同步发布&#xff0c;本人技术分享站点&#xff1a;blog.hukanfa.com转发本文请备注原文链接&#xff0c;本文内容整理日期&#xff1a;2024-01-28csdn 博客名称&#xff1a;五维空间-影子&#xff0c;欢迎关注 …

T05垃圾收集算法与垃圾收集器ParNew CMS

垃圾收集算法与垃圾收集器ParNew & CMS 垃圾收集算法 #### f 分代收集理论 当前虚拟机的垃圾收集都采用分代收集算法。根据对象存活周期不同将内存分为几块&#xff0c;一般将java堆分为新生代和老年代&#xff0c;然后根据各个年代的特点选择不同的垃圾收集算法。 在新…

MySQL-窗口函数 简单易懂

窗口函数 考查知识点&#xff1a; • 如何用窗口函数解决排名问题、Top N问题、前百分之N问题、累计问题、每组内比较问题、连续问题。 什么是窗口函数 窗口函数也叫作OLAP&#xff08;Online Analytical Processing&#xff0c;联机分析处理&#xff09;函数&#xff0c;可…

ESP8266 控制之 : 使用 RingBuffer USART1 和 USART3互传

简介 使用Buffer来避免数据的丢失, 或许你自己在使用串口进行收发时会丢失数据, 现在我们就来简单使用一下RingBuffer创建Rx、Tx的Buffer来避免发送接收丢包或数据丢失问题。 扩展知识 RingBuffer的介绍, 看完大概也就知道了&#xff0c;实在不知道就看看下面的代码 线路连接…

微信小程序开发学习笔记《14》上拉触底事件案例

微信小程序开发学习笔记《14》上拉触底事件案例 博主正在学习微信小程序开发&#xff0c;希望记录自己学习过程同时与广大网友共同学习讨论。建议仔细阅读对应官方文档 一、最终实现效果 实现在加载完这一页之后&#xff0c;刷新之后展示 “数据加载中”&#xff0c;加载完后…

超温报警器电路设计方案汇总

超温报警器电路设计方案&#xff08;一&#xff09; 该超温报警电路由温度采集电路、继电器控制电路、延时电路、秒脉冲信号发生器、计数译码电路、数显电路、报警电路共同构成。下面来详细介绍一下各部分电路的功能。 温度采集电路 温度采集电路由负温度系数的热敏电阻RW、R…

STM32 自学笔记 学习笔记 一

起源&#xff0c;A7,A9,M3&#xff0c;原来弄了A9的TQ2440&#xff0c;结果还得来重新熟悉下32函数JLINK使用SW方式&#xff0c;本来可以下载&#xff0c;但是一根线掉了重新上去&#xff0c;就出各种跟线无关问题&#xff0c;干脆把32断了重新接&#xff0c;结果就成功了&…

服务攻防-开发组件安全JacksonFastJson各版本XStreamCVE环境复现

知识点 1、J2EE-组件Jackson-本地demo&CVE&#xff08;数据处理&#xff09; 2、J2EE-组件FastJson-本地demo&CVE&#xff08;数据处理&#xff09; 3、J2EE-组件XStream-本地demo&CVE&#xff08;数据处理&#xff09; 章节点&#xff1a; 1、目标判断-端口扫描…

【机器学习入门】18种常见的机器学习算法数学公式及解析

机器学习算法基础原理&#xff1a; https://codeknight.blog.csdn.net/article/details/135632808https://codeknight.blog.csdn.net/article/details/135632808 https://codeknight.blog.csdn.net/article/details/135639843https://codeknight.blog.csdn.net/article/detai…

Android 性能优化总结:包体积优化

前言 随着开发不断迭代&#xff0c;App体积越来越大&#xff0c;包大小的增大也会给我们应用带来其他的影响 比如 下载率影响 过大的包体积会影响下载转化率&#xff0c;根据Google Play Store包体积和转化率分析报告显示&#xff0c;平均每增加1M&#xff0c;转化率下降0.2%左…