DINO(ICLR 2023)

news2024/11/24 12:26:14

DINO(ICLR 2023)

DETR with Improved deNoising anchOr box

DINO发展:

Conditional DETR->DAB-DETR(4D,WH修正)

DN-DETR(去噪训练,deNoising 稳定匹配过程)

Deformable DETR(变体1:two-stage,encoder输出经过FFN分类头替换object query,变体2:box迭代细化)

三点改进:

  1. 对比去噪训练
  2. 查询的初始化(decoder的object query的设计)
  3. box的预测

论证了DETR类在大数据集上的可扩展性,使用大backbone大dataset和SOTA比较

img

模型

img

  1. 使用了多尺度特征
  2. query selection:使用encoder的输出帮助decoder确定query
  3. 使用对比去噪训练:pos(正样本)neg(负样本)
  4. 改进box迭代细化(图上没画出来)

Contrastive DeNoising Training

DN:denoising training,稳定匹配

DN两个噪声:原来的DN(xywh)偏移超参数(0~1)λ1(xy)=λ2(wh)=0.4,label的标签反转

在这里插入图片描述

图中, Although both positive and negative examples are 4D anchors that can be represented as points in 4D space, we illustrate them as points in 2D space on concentric squares for simplicity

加了对比( generate two types of CDN queries: positive queries and negative queries ):

λ1<λ2(不是DN-DETR的超参数了)

正样本:落入λ1的算正样本

负样本:λ1~λ2的算负样本

  1. 每一个GT都设计一个正样本和负样本
  2. 会尽量让λ1,λ2贴近,形成hard neg samples
  3. 对于正样本,还是计算f1loss,giou loss focal loss
  4. 对于负样本,类别的最终预测应该是 no object
  5. 保留group

思路:

如果anchor附近本身没有物体,就应该预测成no object,用对比方式更好学习no object

当一个GT周围有多个anchor,模型不好选择哪一个anchor,这会导致下面两个问题:

  1. 当GT周围有多个anchor,anchor预测哪一个GT,模型很难确定,会出现重复预测(匈牙利虽然强制一对一匹配,但还是有限)
  2. anchor和GT离的很远也会被分配过去,实际上这种anchor应该分为no object

验证CDN的有效性 :ATD

为了证明CDN的有效性,我们定义了平均Top - K距离( Average Top-K Distance,ATD ( k ) ,指标),并在matching part使用它来评估锚点离目标GT框的距离。与DETR一样,每个锚对应一个预测,该预测可能与一个GT框或背景匹配。在这里我们只考虑那些与GT box匹配。

N个GT( b0,b2,…,bN-1 )。

img

对于每个 b_{i},我们可以找到它对应的anchor并将其表示为:

img

ai 是decoder的初始anchor,其在匹配期间将最后一个解码器层分配给 bi 之后的精化框。 Then we have:

img

L1norm

小目标上性能好很多

img

Mixed Query Selection

在DETR和DN-DETR中,decoder的query是静态嵌入(embedding),而不需要从单个图像中获取任何编码后特征

Deformable DETR有一个query选择变体(two-stage),它从最后一个encoder后,encoder输出选择前K个encoder特征作为先验,以增强解码器查询
Deformable DETR利用top-K特性(label)不仅应用于位置查询,还应用于内容查询

即decoder输入:

detr:tgt(zero),pos query(embedding)

DINO:tgt(变成embedding), pos query(object query来自encoder topk输出,当前图像有关信息)

mixed query selection方法只增强了具有顶部-k个选择特性的位置查询
并保持内容查询像以前一样的可学习性

img

(a)detr decoder:tgt和object query

(b)deformable detr:加了top k选取,同时作用在 object query 和tgt上

(c)只作用于object query tgt是embedding

Look Forward Twice

img

decoder box head 在辅助loss上修正,第i层之前梯度断掉(虚线)

look forward once:辅助loss只能修改当前层(decoder)的梯度, Deformable DETR 中的 iterative box refinement 可以阻止梯度反向传播来稳定训练

img

img

look forward twice:

**猜想,来自后一层的改进的 box 信息可能更有助于修正其相邻的早期层的box预测。**因此,提出了另一种叫做两次向前看( Look Forward Twice )的方法来执行box更新, 其中第 i 层的参数受到第 i 层和( i + 1)层的损失的影响

Δbi是对上一层输入的bi-1的修正

对上一层bi-1输入加上Δbi得到bi‘(修正的box)

bi(pred)是boxhead给出的预测,来源是bi’-1+Δbi,可以修改本层的decoder和之前的decoder

消融实验

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1037010.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

后端大厂面试-16道面试题

1 java集合类有哪些&#xff1f; List是有序的Collection&#xff0c;使用此接口能够精确的控制每个元素的插入位置&#xff0c;用户能根据索引访问List中元素。常用的实现List的类有LinkedList&#xff0c;ArrayList&#xff0c;Vector&#xff0c;Stack。 ArrayList是容量…

基于同名面片的TLS测站点云配准

1、原理介绍 2、代码介绍 基于C++编写的程序代码如下,其依赖eigen矩阵运算库,在创建工程时包含库目录中使用了相对路径,因此其下载下来直接可以运行,不用单独在设置环境,非常方便。

Java项目:SpringBoot高校宿舍管理系统

作者主页&#xff1a;Java毕设网 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 一、相关文档 宿舍是大学生学习与生活的主要场所之一&#xff0c;宿舍管理是高校学工管理事务中尤为重要的一项。随着我国高校招生规模的进一步扩大&#xff0…

异步回调

Future 设计的初衷&#xff1a;对将来的某个事件的结果进行建模 package com.kuang.future;import com.kuang.pc.C;import java.util.concurrent.CompletableFuture; import java.util.concurrent.ExecutionException; import java.util.concurrent.TimeUnit; import java.uti…

ubuntu | 安装NVIDIA套件:驱动、CUDA、cuDNN

CUDA 查看支持最高的cuda版本 nvidia-smiCUDA Version:12.2 区官网下在12.2.x最新的版本即可CUDA Toolkit Archive | NVIDIA Developer 下载安装 wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run sudo…

《开发实战》16 | 缓存设计:缓存可以锦上添花也可以落井下石

不要把 Redis 当作数据库 Redis 的确具有数据持久化功能&#xff0c;可以实现服务重启后数据不丢失。这一点&#xff0c;很容易让我们误认为 Redis 可以作为高性能的 KV 数据库。Redis 的特点是&#xff0c;处理请求很快&#xff0c;但无法保存超过内存大小的数据。第一&#…

leetcode 22. 括号生成

2023.9.24 看到组合两个字&#xff0c;想到了回溯。 大致思路是将所有可能的组合列出来&#xff0c;通过中止条件筛选掉无效的括号。 第一个中止条件&#xff1a;如果右括号数量大于左括号&#xff0c;那括号肯定无效。 第二个中止条件&#xff1a;当左右括号数量相等&#x…

swiper使用

介绍 Swiper&#xff08;swiper master&#xff09;是一个第三方的库&#xff0c;可以用来实现移动端、pc端的滑动操作。&#xff0c;swiper应用广泛&#xff0c;使用频率仅次于jquery, 轮播图类排名第一&#xff0c;是网页设计师必备技能&#xff0c;众多耳熟能详的品牌在使用…

Keil 无法烧写程序

问题描述&#xff1a; Keil MDK V5.38 按 F8 键无法烧录程序&#xff0c;提示: Error: Flash Download failed - "Cortex-M7", No Algorithm found for: 08000000H - 080013D3H 解决办法&#xff1a; Debug 工具改为&#xff1a;ST-Link Debugger Debug 的 Conne…

mac怎么把两张图片拼在一起

mac怎么把两张图片拼在一起&#xff1f;在如今的生活中&#xff0c;喜欢摄影的朋友们越来越多。拍照已经成为我们的一种习惯&#xff0c;因为当我们遇到美景或迷人的人物时&#xff0c;总是忍不住按下快门&#xff0c;将它们定格。随着时间的推移&#xff0c;我们渐渐发现自己的…

[Java | Web] JavaWeb——JSON与AJAX简介

目录 一、JSON 简介 1、什么是 JSON 2、JSON 的定义和访问 3、JSON 在 JS 中两种常用的转换方法 4、JSON 在 Java 中的使用 5、匿名内部类 二、AJAX 简介 1、什么是 AJAX 2、原生 JS 的 AJAX 请求示例 3、JQuery 中的 AJAX 请求 一、JSON 简介 1、什么是 JSON JSON…

Elasticsearch:什么是向量和向量存储数据库,我们为什么关心?

Elasticsearch 从 7.3 版本开始支持向量搜索。从 8.0 开始支持带有 HNSW 的 ANN 向量搜索。目前 Elasticsearch 已经是全球下载量最多的向量数据库。它允许使用密集向量和向量比较来搜索文档。 矢量搜索在人工智能和机器学习领域有许多重要的应用。 有效存储和检索向量的数据库…

马尔可夫链预测举例——钢琴销售的存贮策略

问题概述 一家钢琴专卖店&#xff0c;根据以往的销售经验&#xff0c;平均每周只能售出一架钢琴&#xff0c;现在经理指定的存贮策略是&#xff0c;每周末检查库存存量&#xff0c;仅当库存量为零时&#xff0c;才订购3架供下周销售&#xff1b;否则就不订购。试估计这种策略下…

Linux环境变量配置说明(配置jdk为例-摘录自尚硅谷技术文档)

配置环境变量的不同方法 Linux的环境变量可在多个文件中配置,如/etc/profile&#xff0c;/etc/profile.d/.sh&#xff0c;~/.bashrc&#xff0c;~/.bash_profile等&#xff0c;下面说明上述几个文件之间的关系和区别。 bash的运行模式可分为login shell和non-login shell。 例…

Zookeeper 集群安装(linux )

1、规划 节点名称安装软件hadoop01jdk1.8 zookeeper3.4.6hadoop02jdk1.8 zookeeper3.4.6hadoop03jdk1.8 zookeeper3.4.62、下载jdk 和 zookeeper 3、上传jdk和zookeeper 到3台机器上解压 目录:/opt/software/ tar -zxvf jdk1.8.0_191.tar.gz tar -zxvf zookeeper-3.4.6…

minikube搭建k8s

环境&#xff1a;centos7&#xff0c;docker18 minikube搭建k8s 说明 minikube是最接近原生kubernetes的本地单机版集群&#xff0c;支持大部分kubernetes功能&#xff0c;用于学习和开发k8s。支持Linux、Windows、Mac 官网安装文档 安装前提 一台物理机或者虚拟机&#x…

钾和钠含量

声明 本文是学习GB-T 397-2022 商品煤质量 炼焦用煤. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了炼焦用商品煤产品质量等级和技术要求、试验方法、检验规则、标识、运输及贮存。 本文件适用于生产、加工、储运、销售、使用…

【GNN论文精读】A Gentle Introduction to Graph Neural Networks

论文地址&#xff1a;A Gentle Introduction to Graph Neural Networks 作者&#xff1a;谷歌的三位大佬 时间&#xff1a;2021年 参考李沐老师的论文讲解课而做的笔记 Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili 目录 1. 前言 2. 什么是图 2.1 图的基本概念 …

9.24周报

文章目录 文献阅读GAN学习总结 文献阅读 题目&#xff1a;Improvement of streamflow simulation by combining physically hydrological model with deep learning methods in data-scarce glacial river basin https://www.sciencedirect.com/science/article/pii/S00221694…