深度学习基础——SSD目标检测

news2025/1/11 20:06:53

SSD网络介绍

使用多个特征图作为特征预测层。

SSD (Single Shot MultiBox Detector)于2016年提出。当网络输入为300×300大小时,在VOC2007测试集上达到74.3%的mAP;当输入是512×512大小时,达到了76.9%的mAP
 

SSD_Backbone部分介绍

不变的部分

特征提取网络沿用了VGG-16(网络结构如图所示)的Conv5_3层之前的所有结构

改变的部分

将VGG-16的第5个池化层(pool_5)从2×2,步长2改为3×3,步长1(修改后的pool_5特征图的大小不变)
将VGG-16的两个全连接层(FC6 & FC7)改为两个卷积层(Conv6 & Conv7)
增加了4个卷积层

        随着网络层数的加深,提取到的特征信息抽象程度也随之加大,高层语义信息中小目标物体的特征信息会减少,因此,如图所示,网络选择用较大的特征图检测较小的目标物体,用语义信息丰富的特征图检测较大的物体。选取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2的特征图作为预测特征层,从而实现针对不同大小物体的目标检测。

 

不同大小特征图检测不同大小目标的物体 

        左图中“猫”相较与“狗”的特征较小,所以对于“猫”这类尺寸较小的物体的检测来说选用浅层特征图,“狗”这类尺寸较大的物体用高层、含语义信息丰富的特征图来检测。
 

默认框生成机制

        类似于Faster R-CNN网络中的锚框(Anchor)生成机制用来检测图片中的目标物体,SSD中有默认框(Default Box)生成机制。在每个预测特征层的每个cell上都会生成默认框。

        左图为默认框生成效果的简单示例,黄色点为当前cell的中心点,蓝框的宽高比为1:3和3:1、绿框的宽高比为1:2和2:1、红框的宽高比为1:1
 

默认框尺寸的计算公式如下所示: 

 

式中sk为当前预测层的默认框的尺寸,smin为默认框最小尺寸,smax为默认框最大尺寸,作为网络超参数设置。m为预测特征层的数量,在SSD300网络中m为6。
默认框宽高比有1:1、1:2、2:1、1:3、3:1共5种设置,不同比例下的宽、高计算公式如下所示:

 

 式中wak、hak分别为第k个预测特征层在比例ar下对应的宽、高。对于宽高比为1:1的默认框,其对应的尺寸除了当前预测特征层的默认框尺寸sk之外,还有sk' = √(SkSk+1)

在SSD_VGG16官方源代码中默认框的设置如下表所示:

        默认框中心坐标点设置过程如下图所示。将当前特征图进行坐标遍历,图中黄色点为当前遍历到的特征图坐标点,将该点的横纵坐标值各加0.5,再分别对整个原图尺寸进行归一化操作,即得到cell相对于原图的中心坐标点,也是默认框的中心坐标点,图中绿色点为当前像素(cell)的中心坐标点。

 以计算中心坐标点的y轴坐标值为例:

  • 先将当前层特征图的高网格点化
  • 再加0.5的偏移值
  • 再乘以特征图上一步对应在原图上的跨度
  • 最后除以原图的高
  • 得到相对于原图的中心点

 正负样本匹配

正负样本选取准则:

  • 选择与Ground Truth交并比最大的默认框所对应的IOU值;
  • 将与当前标注信息中的每个Ground Truth交并比最大的默认框所对应的IOU值设为2,即选为正样本。若不进行这一步,将会有Ground Truth未匹配到默认框;
  • 将与Ground Truth交并比大于0.5的默认框也设为正样本。

假设当前5个默认框与3个真值的交并比如下:

(1)选择与GT0框交并比最大的默认框的索引值记为idx
(2)将idx所对应的IOU值置为2.0
(3)将与GT交并比大于0.5的默认框均置为正样本

SSD的损失函数

 总损失函数计算公式如下所示,式中L(·)为总损失函数,N为被选取出来的默认框的个数,包括正样本和负样本,参数a为1

 坐标回归损失函数如下所示:

式中l为预测的坐标偏移量,g为默认框与Ground Truth框d的坐标偏移量。分别为中心点坐标cx、cy的偏移损失分别为宽度w和高度h的缩放损失。计算坐标回归损失的时候只计算正样本的回归损失。
类别损失函数如下所示:


 

预测器的实现

        3×3卷积核实现类别分数预测以及坐标偏移量回归。对于每个预测特征层上的每个位置,会有k个默认框,对每个默认框进行预测,所以输出大小为:

m × n × k × (C+4)

        其中, m,n为当前特征预测层的宽高,k为预测特征层每个位置上产生的默认框的个数,c为加上背景后的类别数,4为边界框坐标(x, y,  OMEGA, h)回归参数的个数.

        定义MobileNetV2的反向残差结构(反向残差结构如下图所示,(a)为残差结构,(b)为反向残差结构)

反向残差结构

  • 先通过一个1x 1的普通卷积将h × w × d大小的特征图升维得到h×w× td大小的特征图,t对应代码中的扩展因子(expand _ratio)参数
  • 再通过3×3的深度方向的卷积(Depthwise Convolution)操作,所得到的特征图大小为

  • 最后通过1× 1的点卷积(Pointwise Convolution)降维,此时使用的激活函数不是ReLU6激活函数,而是线性激活函数反向残差结构中只有当步距(stride=1),且输入与输出特征维度相同时,会有和残差结构中的shortcut连接

当扩展因子为1时,反向残差结构第一层没有1×1的普通卷积。

        下图为MobileNetV2网络结构示意图,图中t为扩展因子,c为输出特征图深度,n为反向残差块重复次数,s为每个反向残差层中第一个反向残差块的步距

 Focal Loss损失函数

其中α,为平衡正负样本因子,y为平衡难例因子
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1462371.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

H5移动端文件预览pdf

H5移动端文件预览pdf 需求:H5页面嵌入浙政钉,需要文件预览Pdf。 试用了多个插件,踩了很多坑,如果小伙伴有类似填坑经历,并成功解决,感谢留言指点!!! 先讲最终方案&#x…

C++从入门到精通 第十三章(认识STL)

写在前面: 本系列专栏主要介绍C的相关知识,思路以下面的参考链接教程为主,大部分笔记也出自该教程,笔者的原创部分主要在示例代码的注释部分。除了参考下面的链接教程以外,笔者还参考了其它的一些C教材(比…

做过的卷子如何转换成空白卷子?3种还原方法分享

做过的卷子如何转换成空白卷子?在日常学习中,将做过的卷子转换成空白卷子具有极大的实用性。通过使用扫描工具,可以迅速将已完成的卷子恢复成空白状态,为后续的复习或练习提供便利。这种转换不仅省去了重新寻找或制作新卷子的麻烦…

Javascript中var和let之间的区别

文章目录 一.变量提升(声)二.let和var的区别 区别: 1、var有变量提升,而let没有; 2、let不允许在相同的作用域下重复声明,而var允许; 3、let没有暂时性死区问题; 4、let创建的全局变量没有给window设置对应…

腾讯云宝塔Linux安装Mysql5.7

一、下载官方mysql包 wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm二、安装mysql包 rpm -ivh mysql-community-release-el7-5.noarch.rpm三、安装mysql yum install mysql-community-server -y四、启动数据库 systemctl start mysqld.service…

2023 re:Invent 用 PartyRock 10 分钟构建你的 AI 应用

前言 一年一度的亚马逊云科技的 re:Invent 可谓是全球云计算、科技圈的狂欢,每次都能带来一些最前沿的方向标,这次也不例外。在看完一些 keynote 和介绍之后,我也去亲自体验了一些最近发布的内容。其中让我感受最深刻的无疑是 PartyRock 了。…

无人机的视频图传技术

在操控无人机时,视频图传技术显得尤为关键。通过这项技术,无人机的摄像头所捕捉的画面能实时回传至遥控器,使操作者全面掌握无人机的拍摄情况。同时,无人机图传技术也是衡量无人机性能的重要标准,它关乎飞行距离与时间…

Python format函数

在Python编程中,format()函数是一个非常重要且常用的字符串格式化方法,用于将各种数据类型插入到字符串中,并指定其格式。这个函数可以动态地生成各种格式的字符串,包括文本、数字、日期等。本文将深入探讨Python中的format()函数…

openAI:人工智能领域的领军者

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、openAI创始人二、openAI的发展历程三、openAI的股权架构四、Sam Altman的离开 一、openAI创始人 openAI由埃隆马斯克、Sam Altman、Greg Brockman三位创始人于…

【智能车入门:pcb版】(蓝牙遥控、超声波避障、红外循迹)

实现最简单的蓝牙遥控、超声波避障、红外循迹) 总览项目获取 本篇是对 上一篇博客的改进,上一篇博客使用面包板,看起来很乱,春节结束之后嘉立创免费打板恢复,板子到了之后进行焊接测试,相较于使用面包板&a…

数据结构-拓扑排序

介绍 介绍拓扑排序之前,首先要先引入一个名词,即AOV网: 如果有一项工程,它的完成需要多个活动组成,将活动看做结点,活动间的联系看做图的边,那么这样一个表示工程活动的有向图(活动…

【软考高项】【教材知识梳理】- 15 - 第15章 - 项目风险管理

一、基本问题 1:按照可预测性,风险分哪三类? (1)已知风险:如项目目标不明确, 过分乐观的进度计划, 设计或施工变更和材料价格波动等。(2)可预测风险&#xff…

电脑黑屏什么都不显示怎么办 电脑开机黑屏不显示任何东西的4种解决办法

相信有很多网友都有经历电脑开机黑屏不显示任何东西,找了很多方法都没处理好,其实关于这个的问题,首先还是要了解清楚开机黑屏的原因,才能够对症下药,下面大家可以跟小编一起来看看怎么解决吧 电脑开机黑屏不显示任何…

【设计模式】使用适配器模式做补偿设计

文章目录 1.概述2.两种适配器模式2.1.类适配器2.2.对象适配器 3.总结 1.概述 适配器模式是一种结构型设计模式,它提供了一个中间层,通过这个中间层,客户端可以使用统一的接口与具有不同接口的类进行交互,也就是说,将一…

Chromium的下载地址

Chromium的下载地址: Download Chromiumhttps://www.chromium.org/getting-involved/download-chromium/ https://commondatastorage.googleapis.com/chromium-browser-snapshots/index.html?prefixWin_x64/https://commondatastorage.googleapis.com/chromium-br…

[设计模式Java实现附plantuml源码~行为型]协调多个对象之间的交互——中介者模式

前言: 为什么之前写过Golang 版的设计模式,还在重新写Java 版? 答:因为对于我而言,当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言,更适合用于学习设计模式。 为什么类图要附上uml 因为很…

linux CentOs 安装docker 推荐生产环境使用

目录 1. 在CentOs上安装docker所需的系统环境 2. 卸载旧版本 2.1 查看是否已安装docker 2.2 卸载已安装的docker 3. 安装方式 3.1 使用rpm存储库安装(推荐使用该方法) 3.2 从包中安装 4. 开始docker 1. 在CentOs上安装docker所需的系统环境 需要以下CentOS版本之一的维…

基于JAVA的人事管理系统 开源项目

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 管理员功能模块2.2 普通员工功能模块2.3 答辩文案 三、系统展示四、核心代码4.1 查询职称4.2 新增留言回复4.3 工资申请4.4 工资审核4.5 员工请假 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的人…

STM32-开发板介绍

市面的开发板有很多,博主有幸了解到一款集成度较高的开发板,朗峰STM32F103RCT6,知名度不高,性价比很高,这是目前唯一一款集成了大量传感器和功能模块的高集成度开发板。 巨大的优势在于,传感器和功能模块的…

高效社区:数字孪生在智慧社区中的应用与实践

随着科技的快速发展,数字孪生技术在智慧社区建设中扮演着越来越重要的角色。数字孪生技术通过建立物理空间与数字空间的交互映射关系,实现对社区设施、环境、服务等智能化管理和服务,为未来社区的发展提供了新的动力。本文将探讨数字孪生在智…