DETR算法简介

news2024/11/26 8:23:13

DETR方法是一种使用了Transformer的端到端的目标检测方法,也是经典目标检测算法之一,本文将用最少的话,介绍DETR算法的大致思想。之前的方法或多或少的都不要添加一下额外的步骤,进行人为干预,即使是号称端到端的YOLO系列算法,也是会生成大量冗余的框,然后需要最后加上进行非极大值抑制的步骤。

DETR算法的大致步骤如下所示:

 简而言之:首先通过CNN网络提取输出图像特征,然后将特征图展平输入到transformer中进行encoder和decoder,这里transformer通过注意力机制就能够学习到图像的全局特征,。然后输出固定个数的预测框,比如100个,(输出预测框的个数是一个超参数)。将100个输出的预测框和ground truth进行匹配(这里是使用二分图匹配方法,下面再介绍),得到最匹配的n个预测框(n是ground truth的个数),然后在匹配的框中计算检测目标的loss和进行边框的回归。

上述是训练过程,预测过程前面都一样,假设生成的预测框的个数是100个,后面生成100个预测框之后,直接对置信度设置阈值,置信度大于阈值的框作为前景被留下来,剩下的作为背景

更加详细的整体框架图:

那什么是二分图匹配法呢:

首先要了解什么是二分图问题:

举个例子,x,y,z三个工人,执行a,b,c三个任务,三个工人每个都有自己最擅长的部分,这里二分图问题就是解决给工人分配任务,解决任务的效率最高

 上图是根据工人执行任务案例绘制的一个矩阵,这个矩阵叫做损失矩阵,损失矩阵中的值就是损失,比如工人执行具体任务花费的时间。目前有匈牙利算法能够解决这个问题,在scipy这个库中提供了linear_sum_assignment函数来解决这个问题

上述100个预测框和2个ground truth之间匹配的问题,也可以看做是二分图问题,

a,b,c...就可以看做是100个预测框,x,y就可以看做是ground truth

DETR论文中的匹配问题就是通过直接调用匈牙利算法来解决的,匈牙利算法的细节就不介绍了,因为我也不懂,反正这也不是关键的,关键就是了解上述DTER算法的思想。

上述是对DETR算法的简要介绍,主要是介绍算法的框架结构和大致思想,想要深入学习DTER的朋友,建议去看原论文,上述内容如果对您有所帮助,麻烦给我点个赞,谢谢

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1530998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux卸载Zabbix6 Agent v1 v2 简易操作手册

一、Zabbix6 卸载Zabbix Agent v1 要在Linux系统上卸载Zabbix Agent v1(zabbix_agent),您可以使用包管理器执行此操作。以下是针对不同Linux发行版的卸载命令: # 对于基于Debian的系统(如Ubuntu): sudo apt-get remove zabbix-ag…

Java项目实战记录:雷达数据插值

Java项目实战记录:雷达数据插值 业务背景 之前已经实现了雷达数据的解析和雷达数据后端渲染功能,现在又有一个新的需求。之前是将雷达数据点使用GeoTools渲染成PNG的图片,但这个数据返给前端后不能无极缩放,因为它是个栅格图片&…

ArmSoM-Sige RK3588开发板使用手册

Sige7 使用手册,帮助用户了解Sige7的基本使用和需要的准备工作。 当您拿到产品的时候,您需要知道它的型号以及硬件版本,这些信息都可以在板子上的丝印找到。我们会尽可能详细地向您介绍产品的信息。 入门准备​ 在开始使用 ArmSoM-Sige7 之…

matlab空间曲线图形

说明:问题来自CSDN-问答板块,题主提问。 需求:如何用子图命令画出平面y2z,z2y与球面x^2y^2z^25相交的空间曲线图形。需要完整代码和结果的图片。 一、先看效果图 二、代码 % 创建figure figure% 创建二维网格,用于定…

数据结构的概念大合集03(栈)

概念大合集03 1、栈1.1 栈的定义和特点1.2 栈的基础操作1.3 栈的顺序存储1.3.1 顺序栈1.3.2 栈空,栈满,进栈,出栈的基本思想1.3.3 共享栈1.3.3.1 共享栈的4要素 1.4 栈的链式存储1.4.1 链栈的实现1.4.2 链栈的4个要素 1、栈 1.1 栈的定义和特…

酷开系统用电视为居家生活打开精彩窗口|酷开科技|酷开会员|

随着互联网的发展,电视也承载了更多的功能。相比于传统的电视,如今的智能电视屏幕更大、分辨率更高、色彩更加鲜艳,能够呈现出更加逼真的画面效果。当观众观看大屏电视时,仿佛置身于电影大幕的场景之中,感受到更为震撼…

边缘计算+WEB端应用融合:AI行为识别智能监控系统搭建指南 -- 整体介绍(一)

专栏目录 边缘计算WEB端应用融合:AI行为识别智能监控系统搭建指南 – 整体介绍(一) 边缘计算WEB端应用融合:AI行为识别智能监控系统搭建指南 – 边缘设备图像识别及部署(二) 边缘计算WEB端应用融合&#xf…

洛谷_P2404 自然数的拆分问题_python写法

P2404 自然数的拆分问题 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 思路记录: 这道题是一道简单的DFS。 n int(input()) data [0 for _ in range(110)] def dfs(sum, p, cnt):if sum>n:returnif sum n:print(data[0],end)for i in range(1,cnt):print(f{…

centos7安装jdk详细步骤(yum安装与手动安装)

centos7安装jdk详细步骤(yum安装与手动安装) 一、使用yum安装1. 准备工作2. 检查系统是否自带jdk3. 安装jdk 二、手动安装jdk1. 下载上传jdk2. 安装jdk3. 配置环境变量 一、使用yum安装 1. 准备工作 如果你的机器可以联网可以使用此方法 ping www.baidu…

YOLOv7 | 添加GSConv,VoVGSCSP等多种卷积,有效提升目标检测效果,代码改进(超详细)

⭐欢迎大家订阅我的专栏一起学习⭐ 🚀🚀🚀订阅专栏,更新及时查看不迷路🚀🚀🚀 YOLOv5涨点专栏:http://t.csdnimg.cn/QdCj6 YOLOv7专栏: http://t.csdnimg.cn/dy…

51-31 CVPR’24 | VastGaussian,3D高斯大型场景重建

2024 年 2 月,清华大学、华为和中科院联合发布的 VastGaussian 模型,实现了基于 3D Gaussian Splatting 进行大型场景高保真重建和实时渲染。 Abstract 现有基于NeRF大型场景重建方法,往往在视觉质量和渲染速度方面存在局限性。虽然最近 3D…

Git小乌龟安装及使用教程

一、Win7安装git 软件下载地址:git for windows 安装过程直接默认下一步,直到安装结束。 安装结束后重启一下。 安装完成后,在文件夹空白处右键出现以下几个标识,说明安装成功。 二、安装tortoise git(乌龟git&…

flutter 局部view更新,dialog更新进度,dialog更新

局部更新有好几种方法,本次使用的是 StatefulBuilder 定义 customState去更新对话框内容 import package:flutter/cupertino.dart; import package:flutter/material.dart;class ProgressDialog {final BuildContext context;BuildContext? dialogContext;double _…

帮助读者掌握C语言编程基础知识的书籍

帮助读者掌握C语言编程的基础知识,了解如何将人工智能技术应用于自己的编程项目。 人工智能编程(赋能C语言) 作者: 黄箐、廖云燕、曾锦山、邢振昌 ISBN号: 9787302648796 出版日期: 2023-11-01 本书以C…

【linux】环境变量(进程二)

这里写目录标题 命令行参数:环境变量: 命令行参数: 不谈命令行参数就谈环境变量就是耍流氓。 相信我们在C语言阶段都在main函数里见过参数。 例如int main(int argc, char* argv[]) 这是什么东西呢? 话不多说我们直接打印一下看…

Vue2(八):脚手架结构、render函数、ref属性、props配置项、mixin(混入)、插件、scoped样式

一、脚手架结构分析 crlc终止刚刚搭建的vue。 ├── node_modules ├── public │ ├── favicon.ico: 页签图标 │ └── index.html: 主页面 ├── src │ ├── assets: 存放静态资源 │ │ └── logo.png │ │── component: 存放组件 │ │ …

利用WebGL绘制简单几何

利用WebGL绘制最简单的几何图形 一、WebGL简介 WebGL是一种用于在网页上渲染交互式3D和2D图形的JavaScript API。它基于OpenGL ES 2.0,提供了一种在浏览器中使用硬件加速图形的方式。 二、图形系统绘图流程 图形系统的通用绘图流程会包括六个部分: …

python_django网红基地孵化园场地管理系统flask

作为一个管理孵化园的网络系统,数据流量是非常大的,所以系统的设计必须满足使用方便,操作灵活的要求。所以在设计孵化园管理系统管理系统应达到以下目标: (1)界面要美观友好,检索要快捷简易&…

python问题:vscode切换环境,pip安装库网络错误,不使用anaconda安装库

python问题:vscode切换环境,pip安装库网络错误 vscode切换环境pip安装库网络错误 不使用anaconda安装库 记录一下遇见的python问题。 vscode切换环境 在vscode上面的搜索框输入 > select interpreter然后选择需要的环境。 pip安装库网络错误 用…

数据丢失怎么办?不可不知道的3个恢复方法分享!

“作为一名电脑小白,刚买了电脑后我就把所有学习资料都保存在电脑上了,刚刚发现有部分比较重要的数据找不到了,我应该怎么操作才能恢复这些文件呢?” 数据丢失,对于任何个人或企业来说,都是一件令人头疼的事…