DiffusionDet:Diffusion Model for Object Detection

news2024/11/23 17:20:37

Diffusion Model for Object Detection
一种用于目标检测的扩散模型

  • Motivation
    1、如何使用一种更简单的方法代替可查询的object queries
    2、Bounding box的生成方式过去是三种,第一种为sliding windows、第二种anchor box、第三种object queries,这里其实还有一种当时非常非常火的anchor free
    3、本文提出基于生成的的检测方式,主要在目标检测方面的两大发现

  • Innovation
    1、将目标检测表示为从噪声框到对象框的去噪扩散过程。
    2、发现一随机框相比预设锚点、目标检索的方式不同但同样能实现从候选区域找到目标。
    3、发现二目标检测的特征感知提取任务可以通过生成的方式解决。
    4、图1中C的表述为目标检测表示为从噪声框到目标框的去噪扩散逆向过程

  • Contribution
    1、首次将扩散模型用于目标检测,将目标检测过程定义为一个去噪过程
    2、从噪声框到检测框通过动态框的解耦训练和评估阶段及渐进式细化
    3、在两个数据集上的实验证明了这种检测器的有效性

  • Methodology
    方差时间表控制获取噪声框的过程,通过生成技术从随机噪声框中国预测真实框
    将噪声框从骨干编码器输出的特征图中裁剪感兴趣的区域ROI特征
    将ROI特征发送到解码器预测出没有包含噪声的真实值,从而实现从随机框中预测出真实框
    1、目标检测的几种常见范式
    在这里插入图片描述
    2、扩散模型的去噪方法应用
    3、感知任务的扩散模型:参考采用像素比特扩散模型对图像和视频的全景分割,图像通过编码器进行对输入的数据特征提取表示,解码器将噪声框作为输入后预测分类和框坐标。训练过程种,噪声框是通过向真实值添加高斯噪声来构建的。推理过程种,噪声框是从高斯分布种随机采样得到的。
    4、本文的实现方式:x表示输入图像向量;b表示边框矩阵,c表示类别标签矩阵。
    4.1、通过马尔可夫链逐渐向样本数据添加噪音来定向设计扩散过程的前向传播方法,训练过程通过L2范数学习从目标噪音目标到真实目标过程(这个思路本人认为是非常经典的创新),推理阶段是从噪声图像中重建目标图像数据样本思路,由于扩散迭代所以网络结果如下。
    4.2、网络结构:编码器运行从原始输入图像提取特征,解码器逐步细化来自噪声框的真实框得到结果。
    4.3、图像编码器:从原始输入图像提取高级特征,这一部分基于ResNet、Swin的特征金字塔实现。
    4.4、图像解码器:从一组建议噪声框作为输入选举ROI,并对这些ROI借助Sparse R-CNN的6个级联对应到真实框中。
    4.5、训练过程:先从真实框到噪声框扩散生成,然后训练过程反转将额外的框填充到真实的框。
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/54113e7a56bb4b92b237c307a0afc99e.png
    在这里插入图片描述
    4.6推理过程:从噪声框中寻找目标框的采样实现是通过高斯分布采样框开始逐步预测,第一步是解码器预测分类和坐标,第二步是采用DDIM进一步预测坐标,bbox通过随机框过滤恢复框,然后通过高斯分布采用把新随机框预测。

  • Result
    1、在MS-COCO上和LVIS上验证了它的通用性(once for all)
    在这里插入图片描述

  • Application
    AP表现最佳
    对比了Faster R-CNN、Cascade R-CNN、Sparse R-CNN,未来在多目标跟踪、关键点动作识别。
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    相关评论:https://www.zhihu.com/question/567414823/answer/2767617257

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/43539.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AlphaFold2源码解析(3)--数据预处理

AlphaFold2源码解析(3)–数据预处理 数据预处理整体流程 数据处理入口: feature_dict data_pipeline.process( input_fasta_pathfasta_path,# 输入序列目录 msa_output_dirmsa_output_dir) # MSA序列目录 可能是单体也可能是多聚体 主要调动的API是: …

如何让Java项目兼容更多的客户端设备(二)

如何让Java项目兼容更多的客户端设备(二) ​ ​ 一、Token认证的原理 传统的单体JavaWeb项目通常采用HttpSession保存登陆成功的凭证,但是HttpSession需要浏览器的Cookie机制配合。也就是说Web项目的客户端只能是浏览器,不可以…

torch.nn.functional.grid_sample(F.grid_sample)函数的说明 3D空间中的点向图像投影的易错点

由于二者有一定共通之处,因此放在一篇文章内介绍。 1. 关于torch.nn.functional.grid_sample函数的说明(F.grid_sample) 该函数的作用是在图像/体素空间中采样特征。 1.1 输入和输出: 变量名数据类型默认值含义备注inputTensor-…

训练神经网络的各种优化算法【文末赠书】

正确的优化算法可以成倍地减少训练时间 许多人在训练神经网络时可能会使用优化器,而不知道该方法称为优化。优化器是用于更改神经网络属性(例如权重和学习率)以减少损失的算法或方法。 文章目录梯度下降随机梯度下降小批量梯度下降其它优化算…

C/C++指针之提高篇详解(二)

一、引言 C/C语言中引入了指针,使得程序能够直接访问内存地址,使得很多复杂的操作变得简单,同时也提高了程序的运行效率。指针即是地址,但是地址却是通过指针变量来存储的。这就好比我们的教室,每个教室都有一个房间号…

第3章 Tomcatservlet

1.BS与CS *CS:客户端服务器架构模式 优点:充分利用客户端机器的资源,减轻服务器的负荷 缺点:需要安装;升级维护成本较高 *BS:浏览器服务器架构模式 优点:客户端不需要安装,维护成本…

Zlibrary已死,找了一个替代品,找了一个替代品免费的电子书下载平台...

大家好,我是鸟哥。一个半路出家的程序员。 提到Zlibrary,想必大家都不陌生吧。全球最大的数字图书馆,截止被封前共收录了591万本书,7751万篇文章,并且还在不断的增加中,关键是可以免费下载。 反正我是很熟悉…

Rust之常用集合(二):字符串(String)

开发环境 Windows 10Rust 1.65.0VS Code 1.73.1 项目工程 这里继续沿用上次工程rust-demo 用字符串存储UTF-8编码的文本 我们在之前的章节中讨论了字符串,但现在我们将更深入地研究它们。新的Rust人会因为三个原因而陷入字符串:Rust倾向于暴露可能的错误&#x…

【季报分析】美团:真的很美

11月25日,港股盘后美团发布了2022年第三季度业绩报告。整体来看,财报数据还算不错,毕竟大部分指标都已经超预期,探员利用这两天假期,把美团的这份财报仔细过了一遍,当然探员也把2022年Q1、Q2的数据也进行了…

Linux代码调试----gdb使用介绍

目录 一、简介 二、gdb使用流程: (1)gdb的启动 (2)调试中查看源代码 (3)开始调试 一、简介 GDB 全称“GNU symbolic debugger”,是 Linux 下常用的程序调试器。发展至今&#xff…

[附源码]SSM计算机毕业设计校园超市进销存管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【Node.js】第九章 数据库

目录 1. 数据库的基本概念 1.1 数据库的概念 1.2 数据库的分类 1.3 数据组织结构 2. MySQL使用介绍 2.1 安装MySQL和MySQL Workbench 2.2 MySQL的基本使用 2.3 使用SQL管理数据库 3. 在项目中使用MySQL 3.1 安装和配置MySQL模块 3.2 操作数据 1. 数据库的基本概念…

word怎么转pdf?word转pdf借助pdf软件即可搞定!

我们在办公的时候,会有word转pdf的办公需求,但是很多人都不清楚word转pdf的方法,那么word怎么转pdf呢?其实方法很简单,利用pdf软件来进行word转pdf的操作即可,如今,市面上pdf软件应接不暇&#…

五、Javascript 空间坐标[尺寸、滑动]

一、尺寸 1.视窗尺寸 document.documentElement.clientWidth&#xff1a;视窗宽度document.documentElement.clientHeight&#xff1a;视窗高度 2.各种尺寸 举例&#xff1a;<div id"gao"></div> 前提&#xff1a;var a document.getElementById(g…

多重共线性如何分析?

判断标准 常见的直观判断方法共有四个&#xff0c;如下&#xff1a; &#xff08;1&#xff09;某些自变量的相关系数值较大&#xff08;比如大于0.8&#xff09;等&#xff0c;可以利用pearson相关系数检验法一般是利用解释变量之间的线性相关程度判断&#xff0c;一般标准是…

Java常用类(二)

目录 JDK8之前的日期时间API java.lang.System类 java.util.Date类 两个构造器的使用 两个方法的使用 java.sql.Date类 涉及两个问题&#xff1a; java.text.SimpleDateFormat类 格式化&#xff1a;日期--->字符串 解析&#xff1a;字符串--->日期&#xff08;格…

基于TM的遥感数据的叶面积指数估算解决方案及或取途径

1、背景与技术路线 叶面积指数是重要的植被结构参数&#xff0c;反演叶面积指数是植被遥感的重要研究内容之一&#xff0c;其影响生 态系统的物质和能量循环&#xff0c;成为作物生长、路面过程、水文和生态等模型的输入参数或状态变量。今 年来&#xff0c;对也铭记指数的反演…

Spark系列之Spark的RDD详解

title: Spark系列 第五章 Spark 的RDD详解 5.1 RDD概述 ​ RDD 是 Spark 的基石&#xff0c;是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢&#xff1f; ​ Hadoop的MapReduce是一种基于数据集的工作模式&#xff0c;面向数据&#xff0c;这种工作模式一般是从…

Python_数据容器_集合set

一、集合set的定义 考虑使用集合的场景&#xff0c;通过已经学习的列表、元组、字符串三个数据容器特性来分析&#xff1a; 列表可以修改、支持重复元素且有序 元组、字符串、不可修改、支持重复元素且有序 局限就在于&#xff1a;它们支持重复元素 集合定义语法&#xff1…

KubeVirt with DPDK

发布于2022-11-25 15:52:32阅读 1020 Kubernetes优秀的架构设计&#xff0c;借助multus cni intel userspace cni 可以屏蔽了DPDK底层的复杂&#xff0c;让KubeVirt 支持DPDK变得比较容易。 因为 e2e验证 等原因&#xff0c;KubeVirt社区至今未加入对DPDK支持&#xff0c;本篇…