多尺度深度特征(下):多尺度特征学习才是目标检测精髓(论文免费下载)...

news2025/1/19 23:23:54

13a9576b7fafcaa5934355a619fac91a.gif

计算机视觉研究院专栏

作者:Edison_G

深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考虑它们之间的关系。

380ac747f87797ba3f5276441997e9c8.png

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文获取|回复”MDFN“获取论文

b4f638f9908d12b190509c199fd51ecb.png

1

前景回顾

如果想详细知道上集我们具体说了多尺度特征的重要性及其发展,请点击下方链接,查阅相关内容:

多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)

057dfc2e85c6e297a04dd4e09cf972bd.jpeg

SSD框架

e29e3c0f315d34f743aab4954676ba1e.jpeg

ASPP网络

8dd117596a673bd18fe2dcde22fdc2a6.jpeg

Cascaded

我们“计算机视觉研究院”还分享了更多与目标检测相关的干货及实践内容,有兴趣的同学可以查看历史消息,也可以从下方部分链接中进入:

  • CVPR21小样本检测:蒸馏&上下文助力小样本检测(代码已开源)

  • ICCV 2021:炼丹师的福音,训练更快收敛的绝佳方案(附源代码)

  • ICCV2021目标检测:用图特征金字塔提升精度(附论文下载)

  • Pad-YoloV5:在便携终端上实时检测不再是难题

  • 高斯YoloV3目标检测(文中供源码链接)

  • Yolo轻量级网络,超轻算法在各硬件可实现工业级检测效果(附源代码)

  • 不再只有Yolo,现在轻量级检测网络层出不穷(框架解析及部署实践)

2

新框架

那我们现在接着上一期的继续说多尺度深度特征学习。

955b2803df2e3b50601e2cc54c1caf93.png

上一期我们得出的结论是:浅层和深层的特征对于目标识别和定位起着必不可少的作用。为了有效地利用检测到的特征信息,应考虑另一约束条件,以防止特征被改变或覆盖。

新框架提出了一种创新的目标检测器,它利用在高级层中学习到的深层特征。与较早层产生的特征相比,深层特征更擅长表达语义和上下文信息。所提出的深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个目标和局部上下文,还考虑它们之间的关系。MDFN通过将信息平方和立方初始模块引入高层来有效地检测目标,它采用参数共享来提高计算效率。

efc27e7a33afc6f928ac6add18eac9a7.png

MDFN通过集成多边界框、多尺度和多层次技术提供多尺度目标检测器。尽管MDFN采用了一个具有相对较小基础网络(VGG-16)的简单框架,但与具有更深或极宽的宏观层次结构的具有更强特征提取能力的那些相比,它获得了更好或具有竞争力的检测结果。所提出的技术在KITTI、PASCAL VOC和COCO数据集上进行了广泛的评估,在KITTI上取得了最佳结果,在PASCAL VOC和COCO上取得了领先的性能。这项研究表明,深层特征提供了突出的语义信息和各种上下文内容,这有助于其在检测小目标或被遮挡目标方面的卓越性能。此外,MDFN 模型计算效率高,在精度和速度之间取得了很好的平衡。

Deep feature learning inception modules

05d3831c97d70a65d5fff6052007f90d.png

深度特征学习初始模块捕获来自基础网络的直接输出。新框架的基本初始模块通过激活多尺度感受野来充分利用深度特征图。在每个模块中,通过1×1过滤直接利用来自前一层的输出特征信息。然后进行3×3、5×5和7×7过滤以激活特征图上的各种感受野,从而在相应的输入图像上捕获不同范围的场景。 

研究者在实践中仅使用1×1和3×3滤波器实现多尺度滤波,以尽量减少参数数量。为高层构建了两种类型的幂运算初始模块:一种是信息方初始模块,另一种是信息立方初始模块,如上图所示。通过为不同的过滤器分配权重来构建这两个模块:在以下等式中给出:

95b8b6c7fca468a4474e19804b2bfe67.png

上表达式实际上可以分别通过以下信息平方和三次运算来近似。

02909ff8f1d816754d0958cd281739da.png

Parameter Sharing:

通过共享参数,可以有效地实现所提出的信息平方和立方初始模块。例如,通过从5×5单元的第一个3×3过滤器中提取输出并将其与3×3过滤单元的并行输出连接起来,在3×3和5×5过滤单元之间共享参数。然后,3×3过滤操作的输出通道数量隐式加倍,而过滤器集仅使用一次,如上图(b)中的红色箭头所示。这种参数共享可以进一步用于cubic inception模块,如上图(c)所示。3×3滤波操作的输出分别来自3×3、5×5和7×7滤波单元,如上图(c)中三个红色箭头所示。同样,5×5滤波操作的输出分别来自5×5和7×7滤波单元,如两个绿色箭头所示。

Multi-Scale object detection scheme

在新框架模型中,给每个给定位置k个边界框,计算c类分数和每个边界框四个顶点相对于默认边界框的四个偏移量。最终,为特征图内的每个位置提供了总共k(c + 4)个过滤器。因此,每个尺寸为m×n的特征图的输出数量应为k(c + 4)mn。已证实,使用各种默认的框形状将有助于为单发网络预测框的任务,从而提高了目标定位和分类的准确性。 研究者采用这种多边界框技术作为多尺度方案的第一个属性。

41cf071ce8c82c3f50fb4e240cac101d.png

深度特征学习起始模块被应用在四个连续的高级层单元中。这四个层单元将其输出深度特征直接传输到最终预测层,这将信息传输完全缩短。 

从训练的角度来看,这些缩短的连接使网络的输入和输出彼此更接近,这有益于模型的训练。高级层和最终预测层之间的直接连接缓解了梯度消失的问题,并增强了特征传播。另一方面,四个高级层单元的序列通过语义和上下文信息获取两种方式最大化了深度特征提取和表示的能力。首先,它使后三个高层从先前的较低层获取上下文信息。其次,同一级别的层可以提供不同范围的上下文信息,以及可以在当前层输出中自然构建的更精确的语义表达。这个过程是多尺度方案的第二个特性。

研究者使用多尺度过滤器来激活各种大小的感受野,以增强语义和上下文信息的提取。要注意的另一个方面是要素图的大小。在大多数网络中,特征图的大小会随着深度的增加而逐渐减小。这考虑到系统的内存有限以及功能的比例不变。因此,由于其输入特征图的分辨率比在较早的层中产生的分辨率小得多,因此在网络深处接受的多尺度滤波器将具有较少的计算负担。这抵消了滤波操作增加带来的计算负担。这是拟议的多尺度方案的第三个特性。

Layer structure of deep inception module

eb766dab1d726ad0b0ccd0f06f9a54f7.png

提出了两种深度特征学习网络体系结构,分别成为MDFN-I1和MDFN-I2. 它们都具有四个high-level deep feature Inception单元。 

3

实验及可视化

Average precision(%) on KITTI validation set

c2fea623e237ff6e3176494098de51af.png

226b40c3e62725764107744cf8a0b964.png

010feab660d71a0385cedd070d65e90f.png

from left to right, represent the results from SSD, MDFN-I1 and MDFN-I2

PASCAL VOC2007 test detection results

e8bb22b824918714ad78ef96a03b48b0.png

Detection results on COCO test-dev

4bee45c01511a7a47a41c9a233d8a862.png

819ecf68b39c726d4199d9b2fb1d4962.png

从上往下分别是SSD、MDFN-I1和MDFN-I2检测结果

基于作者提出的框架,在pytorch框架中实现了作者的基本思想,在COCO数据集中简单训练,最终结果比SSD结果好一点,具体效果如下:

© THE END 

转载请联系本公众号获得授权

5eab3eb7109abe65e057d807dfbbb157.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

e4c536bb35b36d3b47fb3ec453a64372.jpeg

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

源代码|关注回复“最佳检测”获取

 往期推荐 

🔗

  • 多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)

  • ICCV2021目标检测:用图特征金字塔提升精度(附论文下载)

  • CVPR21小样本检测:蒸馏&上下文助力小样本检测(代码已开源)

  • 半监督辅助目标检测:自训练+数据增强提升精度(附源码下载)

  • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)

  • 目标检测新框架CBNet | 多Backbone网络结构用于目标检测(附源码下载)

  • CVPR21最佳检测:不再是方方正正的目标检测输出(附源码)

  • Sparse R-CNN:稀疏框架,端到端的目标检测(附源码)

  • 利用TRansformer进行端到端的目标检测及跟踪(附源代码)

  • 细粒度特征提取和定位用于目标检测(附论文下载)

  • 特别小的目标检测识别(附论文下载)

  • 目标检测 | 基于统计自适应线性回归的目标尺寸预测

  • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/523217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL- 存储引擎

MySQL体系结构 连接层 最上层是一些客户端和链接服务,包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于 TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程 池的概念,为通过认证安全接入的客户端…

通过自动装箱和拆箱解释所定义基础数据类型和其对应封装类的区别

文章目录 前言一、拆装箱的实质二、拓展1.数值超过128的Integer装箱2.Java内存分配 前言 在刷软中的时候涉及到了值传递和地址传递传参的区别,其中提到不管是将基础数据类型的变量传值给对象数据类型的变量还是反过来都属于值传递,究其原因就是期间发生了…

【本地模式】第一个Mapreduce程序-wordcount

【本地模式】:也就是在windows环境下通过hadoop-client相关jar包进行开发的,我们只需要通过本地自己写好MapReduce程序即可在本地运行。 一个Maprduce程序主要包括三部分:Mapper类、Reducer类、执行类。 map阶段:将每一行单词提…

XShell远程连接

xshell 是一个强大的安全终端模拟软件,它支持SSH1,SSH2以及microsoft windows 平台的TELNET协议。xshell通过互联网到远程主机的安全连接。 xshell可以在windows界面下来访问远程终端不同系统下的服务器,从而比较好的达到远程控制终端的目的。 步骤一 …

MySQL- 索引

索引是帮助MySQL高效获取数据的数据结构(有序)。在数据之外, 数据库系统还维护着满足特定查找算法的数据结构, 这些数据结构以某种方式引用数据, 这样就可以在这些数据结构上实现高级查找算法, 这种数据结构就是索引。 索引结构 MySQL的索引是在存储层实现的, 不同的存储引擎有…

网友总结:面试超过一个小时,通过概率更低;面试时长在半小时以内,通过概率更高!...

面试时长跟通过概率有关系吗? 一位网友分享了自己的求职感想: 面试过程越长,差不多一个小时或者超过一个小时,问得越详细,通过的可能性越低。因为问得越细,说明这个公司越挑,需要候选人匹配度越…

【C++ 入坑指南】(05)数据类型

文章目录 一、整型sizeof 关键字 二、实型(浮点型)三、字符型四、字符串型4.1 C 风格字符串4.2 C 引入的 string 类类型 五、布尔类型(bool)六、类型转换6.1 静态转换(Static Cast)6.2 动态转换&#xff08…

软考A计划-真题-分类精讲汇总-第六章(软件工程)

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

阿里云服务器安装宝塔Linux面板教程图解

使用阿里云服务器安装宝塔面板教程,阿里云服务器网以CentOS操作系统为例,安装宝塔Linux面板,先远程连接到云服务器,然后执行宝塔面板安装命令,系统会自动安装宝塔面板,安装完成后会返回面板地址、账号和密码…

【mongoDB】mongodb权限验证 || mongodb重启 || mongodb常用命令

mongodb版本号 6.0 前言 mongoDB刚开始无需密码登录mongoDB有3默认数据库,分别为: admin 超级用户,能对所有数据库操作,执行管理员命令config 分片集群配置的数据库local 分片集群锁信息的集合test 这个数据库一般是隐式创建的&…

新书出版了(文末送书)

大家好,我是麦哥。 最近一位好友的新书出版了,由衷的替他开心,赶紧来支持一波。 新书长这样 这本书的作者是前中兴高级工程师,某知名培训机构的教学总监,现于某研究所担任重要的研发工作,我喜欢叫他彭老师。…

路径规划算法:基于蚁狮优化的路径规划算法- 附代码

路径规划算法:基于蚁狮优化的路径规划算法- 附代码 文章目录 路径规划算法:基于蚁狮优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法蚁狮…

路径规划算法:基于蝗虫优化的路径规划算法- 附代码

路径规划算法:基于蝗虫优化的路径规划算法- 附代码 文章目录 路径规划算法:基于蝗虫优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法蝗虫…

Python爬虫之美丽的汤——BeautifulSoup

本文概要 本篇文章主要介绍利用Python爬虫之美丽的汤——BeautifulSoup,适合练习爬虫基础同学,文中描述和代码示例很详细,干货满满,感兴趣的小伙伴快来一起学习吧! 是不是以为今天要教大家怎么做饭?确实&…

MATLAB图像处理:图像分割、特征提取和目标识别的应用和优化

MATLAB图像处理:图像分割、特征提取和目标识别的应用和优化 作为一种常用的图像处理工具,MATLAB在图像分割、特征提取和目标识别等方面具有广泛的应用。本文将详细介绍这三个方面的应用和优化。 第一章:图像分割 图像分割是将一幅图像划分成…

阿里云服务器安装宝塔面板教程图解(超详细)

使用阿里云服务器安装宝塔面板教程,阿里云服务器网以CentOS操作系统为例,安装宝塔Linux面板,先远程连接到云服务器,然后执行宝塔面板安装命令,系统会自动安装宝塔面板,安装完成后会返回面板地址、账号和密码…

Django如何把SQLite数据库转换为Mysql数据库

大部分新手刚学Django开发的时候默认用的都是SQLite数据库,上线部署的时候,大多用的却是Mysql。那么我们应该如何把数据库从SQLite迁移转换成Mysql呢? 之前我们默认使用的是SQLite数据库,我们开发完成之后,里面有许多数…

『python爬虫』20. 用协程爬取一本小说(保姆级图文)

目录 1. 分析目标网站1.1 寻找所有章节信息1.2 寻找章节内容 2. 爬虫思路获取得到的信息首先要同步协程获取所有章节标题和cid写入异步任务然后根据章节标题和cid获取章节内容 3. 完整实现代码总结 欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』…

linux命令文本命令之~~~ sort ~~ tr ~~cut ~~ uniq ~~split~~~paste~~eval

目录 一. sort命令二. uniq 命令三. tr命令四. cut命令五 . split六. paste 合并文件内容的列七. eval命令 一. sort命令 以行为单位对文件内容进行排序,也将他根据不同的数据类型来排序 比较原则是从首字符向后,依次按ASCII码进行比较,最后…

龟兔赛跑,环形链表解题思路:用兔子的速度,龟的智慧,和链表的结构,解决力扣难题

本篇博客会讲解力扣“141. 环形链表”的解题思路,这是题目链接。 审题 先来审题: 以下是输出示例: 以下是提示: 以下是进阶: 思路 本题有一种非常巧妙的解法:快慢指针法,又称龟兔赛跑法…