《昇思25天学习打卡营第14天|SSD目标检测》

news2025/1/11 2:21:25

SSD(Single Shot MultiBox Detector)是一种用于目标检测的深度学习算法。它的设计旨在同时检测多个对象,并确定它们在图像中的位置和类别。与其他目标检测算法相比,SSD具有速度快和精度高的特点,在实时检测应用中非常受欢迎。

SSD(Single Shot MultiBox Detector)目标检测算法通过一个前向传递过程完成对象检测和边界框预测。它的设计使其能够在保持高精度的同时实现实时检测。实现过程:

1. 基础网络(Base Network)

基础网络通常采用预训练的卷积神经网络(如VGG16或ResNet),用来提取图像的高层次特征。在SSD中,这个基础网络的最后一个全连接层被去掉,取而代之的是一系列卷积层。

SD采用VGG16作为基础模型,然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。SSD的网络结构如图所示。上面是SSD模型,下面是YOLO模型,可以明显看到SSD利用了多尺度的特征图做检测。

SSD-2

两种单阶段目标检测算法的比较:
SSD先通过卷积不断进行特征提取,在需要检测物体的网络,直接通过一个3 ×× 3卷积得到输出,卷积的通道数由anchor数量和类别数量决定,具体为(anchor数量*(类别数量+4))。
SSD对比了YOLO系列目标检测方法,不同的是SSD通过卷积得到最后的边界框,而YOLO对最后的输出采用全连接的形式得到一维向量,对向量进行拆解得到最终的检测框。

SSD的网络结构主要分为以下几个部分:

SSD-3

  • VGG16 Base Layer VGG16 基础层

  • Extra Feature Layer 额外特征层

  • Detection Layer 检测层

  • NMS 网络管理系统

  • Anchor 锚

Backbone Layer 骨干层 

SSD-4

输入图像经过预处理后大小固定为300×300,首先经过backbone,本案例中使用的是VGG16网络的前13个卷积层,然后分别将VGG16的全连接层fc6和fc7转换成3 ×× 3卷积层block6和1 ×× 1卷积层block7,进一步提取特征。 在block6中,使用了空洞数为6的空洞卷积,其padding也为6,这样做同样也是为了增加感受野的同时保持参数量与特征图尺寸的不变。

Extra Feature Layer 额外特征层 

在VGG16的基础上,SSD进一步增加了4个深度卷积层,用于提取更高层的语义信息:

SSD-5

block8-11,用于更高语义信息的提取。block8的通道数为512,而block9、block10与block11的通道数都为256。从block7到block11,这5个卷积后输出特征图的尺寸依次为19×19、10×10、5×5、3×3和1×1。为了降低参数量,使用了1×1卷积先降低通道数为该层输出通道数的一半,再利用3×3卷积进行特征提取。

Anchor 锚 

SSD采用了PriorBox来进行区域生成。将固定大小宽高的PriorBox作为先验的感兴趣区域,利用一个阶段完成能够分类与回归。设计大量的密集的PriorBox保证了对整幅图像的每个地方都有检测。PriorBox位置的表示形式是以中心点坐标和框的宽、高(cx,cy,w,h)来表示的,同时都转换成百分比的形式。 PriorBox生成规则: SSD由6个特征层来检测目标,在不同特征层上,PriorBox的尺寸scale大小是不一样的,最低层的scale=0.1,最高层的scale=0.95,其他层的计算公式如下:

SSD-6

在某个特征层上其scale一定,那么会设置不同长宽比ratio的PriorBox,其长和宽的计算公式如下:

SSD-7

在ratio=1的时候,还会根据该特征层和下一个特征层计算一个特定scale的PriorBox(长宽比ratio=1),计算公式如下:

SSD-8

每个特征层的每个点都会以上述规则生成PriorBox,(cx,cy)由当前点的中心点来确定,由此每个特征层都生成大量密集的PriorBox,如下图:

SSD-9

SSD使用了第4、7、8、9、10和11这6个卷积层得到的特征图,这6个特征图尺寸越来越小,而其对应的感受野越来越大。6个特征图上的每一个点分别对应4、6、6、6、4、4个PriorBox。某个特征图上的一个点根据下采样率可以得到在原图的坐标,以该坐标为中心生成4个或6个不同大小的PriorBox,然后利用特征图的特征去预测每一个PriorBox对应类别与位置的预测量。例如:第8个卷积层得到的特征图大小为10×10×512,每个点对应6个PriorBox,一共有600个PriorBox。定义MultiBox类,生成多个预测框。

Detection Layer 检测层 

SSD-10

SSD模型一共有6个预测特征图,对于其中一个尺寸为m*n,通道为p的预测特征图,假设其每个像素点会产生k个anchor,每个anchor会对应c个类别和4个回归偏移量,使用(4+c)k个尺寸为3x3,通道为p的卷积核对该预测特征图进行卷积操作,得到尺寸为m*n,通道为(4+c)m*k的输出特征图,它包含了预测特征图上所产生的每个anchor的回归偏移量和各类别概率分数。所以对于尺寸为m*n的预测特征图,总共会产生(4+c)k*m*n个结果。cls分支的输出通道数为k*class_num,loc分支的输出通道数为k*4。

2. 多尺度特征图(Multi-scale Feature Maps)

SSD在基础网络的顶部添加了多个卷积层,以生成不同尺度的特征图。每个特征图对应不同大小的感受野,能够检测不同大小的目标。通常,SSD会使用基础网络的最后几个层和新增的几个卷积层作为特征图。

3. 默认框(Default Boxes)

在每个特征图上的每个位置,SSD生成多个默认框(也称为锚框),这些框有不同的尺度和长宽比,覆盖各种可能的目标形状和大小。默认框的数量和配置可以根据特定应用进行调整。

4. 卷积预测(Convolutional Predictors)

SSD在每个特征图上应用两个卷积层,一个用于分类预测,一个用于边界框回归。

  • 分类预测(Classification Prediction): 对每个默认框,SSD预测其包含特定类别对象的概率。这一步使用一个1x1卷积层,对每个默认框生成C个类别得分(其中C是类别总数)。

  • 边界框回归(Bounding Box Regression): 对每个默认框,SSD预测其相对于默认框的位移和缩放。这一步使用另一个1x1卷积层,对每个默认框生成4个回归参数(分别表示中心点的x、y偏移量和宽度、高度的缩放)。

5. 损失函数(Loss Function)

SSD的损失函数包括两部分:分类损失和回归损失。

  • 分类损失(Classification Loss): 使用交叉熵损失(Cross-Entropy Loss),衡量每个默认框的类别预测与真实类别之间的差异。

  • 回归损失(Regression Loss): 使用平滑L1损失(Smooth L1 Loss),衡量每个默认框的预测边界框与真实边界框之间的差异。

SSD算法的目标函数分为两部分:计算相应的预选框与目标类别的置信度误差(confidence loss, conf)以及相应的位置误差(locatization loss, loc):

SSD-11

其中:
N 是先验框的正样本数量;
c 为类别置信度预测值;
l 为先验框的所对应边界框的位置预测值;
g 为ground truth的位置参数
α 用以调整confidence loss和location loss之间的比例,默认为1。

对于位置损失函数

针对所有的正样本,采用 Smooth L1 Loss, 位置信息都是 encode 之后的位置信息。

SSD-12

对于置信度损失函数

置信度损失是多类置信度(c)上的softmax损失。

SSD-13

总损失函数是分类损失和回归损失的加权和。

6. 匹配策略(Matching Strategy)

在训练过程中,SSD将每个真实边界框与一个或多个默认框匹配,确保每个目标至少有一个高质量的匹配。具体匹配策略如下:

  • 如果默认框与某个真实边界框的IoU(Intersection over Union)超过0.5,则认为该默认框为正样本。
  • 如果某个真实边界框没有与任何默认框的IoU超过0.5,则选择与其IoU最高的默认框作为正样本。

7. 非极大值抑制(Non-Maximum Suppression, NMS)

在推理过程中,为了减少重复检测,SSD使用非极大值抑制(NMS)来保留每个类别得分最高的边界框,并去除重叠的、得分较低的框。具体步骤如下:

  • 对于每个类别,将所有预测框按照得分从高到低排序。
  • 选择得分最高的框,删除所有与其IoU超过某个阈值的框。
  • 重复上述步骤,直到所有框都被处理完。

8. 最终检测结果

经过非极大值抑制处理后,SSD输出最终的检测结果,包括目标类别和相应的边界框。

9. 评估

自定义eval_net()类对训练好的模型进行评估,调用了上述定义的SsdInferWithDecoder类返回预测的坐标及标签,然后分别计算了在不同的IoU阈值、area和maxDets设置下的Average Precision(AP)和Average Recall(AR)。使用COCOMetrics类计算mAP。模型在测试集上的评估指标如下。

精确率(AP)和召回率(AR)的解释

  • TP:IoU>设定的阈值的检测框数量(同一Ground Truth只计算一次)。

  • FP:IoU<=设定的阈值的检测框,或者是检测到同一个GT的多余检测框的数量。

  • FN:没有检测到的GT的数量。

精确率(AP)和召回率(AR)的公式

  • 精确率(Average Precision,AP):
    准确率(平均精度,AP):

    SSD-15

    精确率是将正样本预测正确的结果与正样本预测的结果和预测错误的结果的和的比值,主要反映出预测结果错误率。

  • 召回率(Average Recall,AR):

    SSD-16

    召回率是正样本预测正确的结果与正样本预测正确的结果和正样本预测错误的和的比值,主要反映出来的是预测结果中的漏检率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921717.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python 代码设计贪吃蛇

代码&#xff1a; # -*- codeing utf-8 -*- import tkinter as tk import random from tkinter import messageboxclass Snake:def __init__(self, master):self.master masterself.master.title("Snake")# 创建画布self.canvas tk.Canvas(self.master, width400,…

Centos忘记密码,重置root密码

Centos忘记密码&#xff0c;重置root密码 操作环境&#xff1a;Centos7.6 1、选择包含rescue的选项&#xff0c;按e进入编辑模式 首先&#xff0c;我们需要重启系统&#xff0c;进入开机引导菜单界面。在这里&#xff0c;我们可以看到系统的内核版本和启动参数等信息。我们需…

期权专题12:期权保证金和期权盈亏

目录 1. 期权保证金 1.1 计算逻辑 1.2 代码复现 1.3 实际案例 2. 期权盈亏 2.1 价格走势 2.2 计算公式 2.2.1 卖出期权 2.2.2 买入期权 免责声明&#xff1a;本文由作者参考相关资料&#xff0c;并结合自身实践和思考独立完成&#xff0c;对全文内容的准确性、完整性或…

龙迅#LT8644EX适用于HDMI2.0 4进4出矩阵应用,分辨率最高支持4K60HZ!

1. 概述 LT8644EX是一款 1616 数字交叉点开关&#xff0c;具有 16 个差分 CML 兼容输入和 16 个差分 CML 输出。该LT8644EX针对每个端口的数据速率高达 6 Gbps 的不归零 &#xff08;NRZ&#xff09; 信令进行了优化。每个端口都提供可编程的输入均衡电平和可编程输出摆幅。…

10个Python函数参数进阶用法及代码优化

目录 1. 默认参数值&#xff1a;让函数更加灵活 2. 关键字参数&#xff1a;清晰的调用方式 3. *args&#xff1a;拥抱不确定数量的位置参数 4. **kwargs&#xff1a;处理不确定数量的关键字参数 5. 参数解包&#xff1a;简化多参数的传递 6. 命名关键字参数&#xff1a;限…

【第31章】MyBatis-Plus之注解配置

文章目录 前言一、注解介绍二、注解列表总结 前言 本文详细介绍了 MyBatisPlus 注解的用法及属性&#xff0c;提供了源码链接以便深入理解。欢迎通过下方链接查看注解类的源码。 Mybatis-Plus Annotation 源码 一、注解介绍 Mybatis-Plus注解统一存放在com.baomidou.mybatis…

PS 2024【最新】中文白嫖版!,安装教程,图文步骤

文章目录 软件介绍软件下载安装步骤 软件介绍 Photoshop&#xff0c;简称“PS” Adobe Photoshop&#xff0c;简称“PS”&#xff0c;是由Adobe Systems开发和发行的图像处理软件。Photoshop主要处理以像素所构成的数字图像。使用其众多的编修与绘图工具&#xff0c;可以有效地…

python调用阿里云汇率接口

整体请求流程 介绍&#xff1a; 本次解析通过阿里云云市场的云服务来实现程序中对货币汇率实时监控&#xff0c;首先需要准备选择一家可以提供汇率查询的商品。 https://market.aliyun.com/apimarket/detail/cmapi00065831#skuyuncode5983100001 步骤1: 选择商品 如图点击…

洁净室行业“”尘埃粒子计数器原理及品牌选型

尘埃粒子计数器原理 尘埃粒子计数器是一种基于激光粒子检测技术的精密仪器&#xff0c;用于测量洁净环境中单位体积内尘埃粒子的数量和粒径分布。其工作原理基于光散射现象&#xff1a;当空气中的微粒在激光束的照射下&#xff0c;会发生散射&#xff0c;散射光的强度与微粒的…

年薪60w的前端阿里P7专家,顶尖的技术人才,只因做到了这几点

全方位讲解前端主流框架Recat、Vue在项目中的应用、解析核心源码以及内存机制、核心技术点、架构设计思想等。从根源解决开发难题。 移动端App开发专题 了解移动端适配常见难点、学习Dart语法&#xff0c;掌握控件、布局、动画、操作手势、传感器、线程网络以及交互等核心技能。…

服务攻防——中间件Jboss

文章目录 一、Jboss简介二、Jboss渗透2.1 JBoss 5.x/6.x 反序列化漏洞&#xff08;CVE-2017-12149&#xff09;2.2 JBoss JMXInvokerServlet 反序列化漏洞&#xff08;CVE-2015-7501&#xff09;2.3 JBossMQ JMS 反序列化漏洞&#xff08;CVE-2017-7504&#xff09;2.4 Adminis…

elasticsearch源码分析-04集群状态发布

集群状态发布 cluster模块封装了在集群层面执行的任务&#xff0c;如集群健康、集群级元信息管理、分片分配给节点、节点管理等。集群任务执行之后可能会产生新的集群状态&#xff0c;如果产生新的集群状态主节点会将集群状态广播给其他节点。 集群状态封装在clusterState中&…

5款文案生成神器,自动一键生成原创文案

文案在我们的生活中随处可见&#xff0c;好的文案内容不仅可以为企业带来销售转化&#xff0c;而且还能提升品牌的影响力&#xff0c;因此文案的重要性可想而知&#xff0c;对于文案创作者来说&#xff0c;写作好的文案不是轻松容易的事&#xff0c;但如果把这个任务交给文案生…

【低照度图像增强系列(8)】URetinex-Net算法详解与代码实现(2022|CVPR)

前言 ☀️ 在低照度场景下进行目标检测任务&#xff0c;常存在图像RGB特征信息少、提取特征困难、目标识别和定位精度低等问题&#xff0c;给检测带来一定的难度。 &#x1f33b;使用图像增强模块对原始图像进行画质提升&#xff0c;恢复各类图像信息&#xff0c;再使用目标检…

手机也能玩转AI影像?荣耀200系列带来手机人像摄影新升级

智能手机在影像技术上的革新从未停歇&#xff0c;荣耀200系列系统的全新升级&#xff0c;为用户带来了更加丰富和便捷的拍摄体验。AI技术的融入&#xff0c;让摄影变得更加智能&#xff0c;简化了编辑过程&#xff0c;使得每个用户都能成为专业的摄影师。 一、AI消除功能&#…

差旅费控平台选型抓住这五点,选的好用的才舒心!

市场竞争从增量机会转为存量博弈&#xff0c;起决定作用的是造就和增强公司的核心竞争力&#xff0c;以精细化管理做足降本增效的“基本功”成为众多企业谋划发展的关键词。 当下企业差旅服务已经初步完成数字化升级&#xff0c;线上预订&#xff0c;灵活支付&#xff0c;统一结…

Linux系统编程-进程间通信(IPC)常用方式详解

进程间通信&#xff08;IPC&#xff0c;Inter-Process Communication&#xff09;是指在操作系统中&#xff0c;不同进程之间进行数据交换和信息传递的机制。这种通信允许正在运行的多个进程能够相互协作、共享数据或者进行同步操作&#xff0c;以实现更复杂的任务和功能。Linu…

国外UI设计赏析—汽车行业

国外汽车网页设计界面往往展现出几个显著的优点&#xff0c;这些优点不仅提升了用户体验&#xff0c;还增强了品牌形象与产品吸引力。首先&#xff0c;它们注重界面设计的直观性与互动性&#xff0c;通过高清大图、动态效果以及简洁明了的布局&#xff0c;让用户能够一目了然地…

王老师 linux c++ 通信架构 笔记(一)linux虚拟机的安装

&#xff08;0&#xff09;本门课程会涉及很多知识。在此集中记录&#xff0c;做笔记&#xff0c;也可能加入别的专栏。 &#xff08;1&#xff09; vmware 15 的下载和密钥上网查找。 ubuntu - 16 - 04 的版本才 800 M &#xff0c;来 csdn 找镜像 下载。 &#xff08;2&#…

动态sql 单选变多选

实体类 添加数组存储值 private ArrayList tssjfjList; <!-- <if test"tssjfj ! null and tssjfj ! ">and tssjfj #{tssjfj}</if>--><if test"tssjfjList ! null and tssjfjList.size() > 0">AND tssjfj IN<fo…