目标检测——PP-PicoDet算法解读

news2025/1/18 9:10:18

PP-YOLO系列,均是基于百度自研PaddlePaddle深度学习框架发布的算法,2020年基于YOLOv3改进发布PP-YOLO,2021年发布PP-YOLOv2和移动端检测算法PP-PicoDet,2022年发布PP-YOLOE和PP-YOLOE-R。由于均是一个系列,所以放一起解读,方便对比前后改进地方。


PP-YOLO系列算法解读:

  • PP-YOLO算法解读
  • PP-YOLOv2算法解读
  • PP-PicoDet算法解读
  • PP-YOLOE算法解读
  • PP-YOLOE-R算法解读

YOLO系列算法解读:

  • YOLOv1通俗易懂版解读
  • SSD算法解读
  • YOLOv2算法解读
  • YOLOv3算法解读
  • YOLOv4算法解读
  • YOLOv5算法解读

文章目录

  • 1、算法概述
  • 2、PP-PicoDet细节
    • 2.1 Better Backbone
    • 2.2 CSPPAN and Detector Head
    • 2.3 Label Assignment Strategy and Loss
    • 2.4 Other Strategies
  • 3、实验
    • 3.1 消融实验
    • 3.2 与其他检测算法对比


PP-PicoDet(2021.11.1)

论文:PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices
作者:Guanghua Yu, Qinyao Chang, Wenyu Lv, Chang Xu, Cheng Cui, Wei Ji, Qingqing Dang, Kaipeng Deng, Guanzhong Wang, Yuning Du, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
链接:https://arxiv.org/abs/2111.00902
代码:https://github.com/PaddlePaddle/PaddleDetection


1、算法概述

从论文标题可以看出来,该算法主要是针对移动端设备提出来的,所以该算法特点是模型小推理速度快。本文中,作者致力于研究目标检测的关键优化和神经网络架构选择,以提高准确性和推理速度。作者研究了无锚框策略在轻量级目标检测模型中的适用性,并且增强了主干结构,设计了颈部轻量化结构,提高了网络的特征提取能力。改进了标签分配策略和损失函数,使训练更加稳定和高效。通过这些优化,作者建立了一个新的实时目标检测器系列,名为PP-PicoDet,它在移动设备的目标检测上实现了卓越的性能。与其他流行的模型相比,该模型在准确性和延迟之间实现了更好的权衡。只有0.99M个参数的PicoDet-S实现了30.6%的mAP,与YOLOX-Nano相比,mAP值提高了4.8%,同时将移动CPU推理延迟降低了55%;与NanoDet相比,mAP提高了7.1%。当输入大小为320时,它在移动ARM CPU上达到123 FPS(使用Paddle Lite时为150 FPS)。仅使用330万个参数的PicoDet-L实现了40.9%的mAP, mAP提高了3.7%,比YOLOv5s快44%。在COCO数据集上的表现为:
在这里插入图片描述
PP-PicoDet的贡献如下:

  • 1、neck中改进PAN结构,采用CSP-PAN,用1x1卷积减少参数的情况下提升了特征提取能力,用5x5的深度可分离卷积(depthwise separable convolution)替换了3x3的可分离卷积,提升了感受野的大小。
  • 2、采用SimOTA动态标签分配策略,对部分计算细节进行优化。具体来说,使用了变焦损失(VFL)的加权求和与GIoU loss来计算成本矩阵,在不损害效率的前提下提高了准确性。
  • 3、提出了基于ShuffleNetV2改进的Enhanced ShuffleNet(ESNet),性能比原版ShuffleNetV2好。
  • 4、提出一种改进的单次神经网络检测架构搜索(NAS)流水线,自动查找最优的架构进行目标检测。

2、PP-PicoDet细节

PP-PicoDet网络结构图如下所示:
Backbone:基于shuffleNetV2改进,ESNet,输出C3,C4,C5特征图进入neck;
Neck:CSP-PAN,接受C3,C4,C5输入,输出P3,P4,P5,P6;
在这里插入图片描述

2.1 Better Backbone

手工设计的backbone: 基于之前的经验,作者发现ShuffleNetV2在移动端设备上比其他网络更强大,为了进一步提高ShuffleNetV2的性能,作者遵循了PPLCNet的一些方法优化网络结构,构建新的骨干网络,即Enhanced ShuffleNet(ESNet)。ESNet主要由ES Block组成,其结构如下:
在这里插入图片描述
神经网络结构搜索: 作者首次提出了单次搜索目标探测器的方法。配备了用于分类的高性能主干的对象检测器可能不是最优的,因为分类和检测是两个不同的任务。所以作者不是搜索更好的分类器,而是直接在检测数据集上训练和搜索检测超级网络(the detection supernet),这可以节省大量的计算量并优化检测任务而不是优化分类任务。该框架包括两个步骤:(1)在检测数据集上训练单次超级网络;(2)在训练好的超级网络上使用进化算法(EA)进行架构搜索。为了方便起见,作者在这里简单地使用通道搜索主干网。具体来说,作者提供了灵活的比率选项来选择不同的通道比率。比如:[0.5, 0.675, 0.75, 0.875, 1]。

2.2 CSPPAN and Detector Head

本文使用PAN结构获得多层次特征图,使用CSP结构进行相邻特征图之间的特征拼接和融合。具体的使用用1x1卷积减少参数的情况下提升了特征提取能力,用5x5的深度可分离卷积提升感受野大小。具体参考上图CSP-PAN结构图。
在detector head部分,作者也使用5x5的深度可分离卷积提升感受野大小,不像YOLOX解耦了回归分支和分类分支,PP-PicoDet没有将两者解耦,获得的性能相同。

2.3 Label Assignment Strategy and Loss

作者采用了SimOTA动态分配标签策略(和YOLOX一样),SimOTA首先通过中心先验确定候选区域,然后计算预测框和候选区域中gt框的IoU,最后通过对每个gt框的n个最大IoU求和得到参数k。成本矩阵(The cost matrix)是通过直接计算所有预测框的损失与候选区域内的gt框得到的。原始的SimOTA是CEloss和IoUloss加权求和得到成本矩阵。为了使SimOTA中的代价与目标函数保持一致,作者使用Varifocal损失和GIoU损失的加权和作为成本矩阵。公式为:
在这里插入图片描述
实验中λ设置为6
在检测头中,对于分类任务,作者利用Varifocal损失将分类预测和质量预测结合起来;对于回归任务,作者利用GIoU损失和Distribution Focal Loss,公式如下:
在这里插入图片描述

2.4 Other Strategies

激活函数: 作者将检测算法中的激活函数从ReLU替换为H-Swish,在保持推理时间不变的情况下,性能显著提高。
学习率下降策略: 采用Cosine learning rate decay,余弦学习率平稳下降,在batchsize比较大时,有利于训练过程。
数据增强: 过多的数据增强往往会增加正则化效果,使训练更难以收敛。所以在这项工作中,作者只使用随机翻转、随机裁剪和多尺度调整来进行训练中的数据增强。


3、实验

在COCO-2017 training集上训练,在COCO-2017 test-dev集上评估。

3.1 消融实验

关于改进措施的消融实验,如下表所示:
在这里插入图片描述
Base模型为与NanoDet相似的基础模型,主干采用ShuffleNetV2-1x,颈部采用无卷积的PAN,Loss采用标准GFL损失,标签分配策略采用ATSS。所有激活函数都使用LeakyRelu。得到的mAP(0.5:0.95)为25.3%。可以看到PAN经过改进变成CSP-PAN后,性能提升很大。

3.2 与其他检测算法对比

与其他先进检测算法对比,作者使用NCNN库进行延迟测试,并为PP-PicoDet模型添加了Paddle Lite推理延迟,实验结果如下所示:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1530210.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AutoSAR配置与实践(深入篇)10.3 CANTP 传输流程和通信示例

AutoSAR配置与实践(深入篇)10.3 CANTP 通信示例 CANTP 通信示例一、诊断传输流程1.1上位机请求流程1.2 ECU反馈流程二、CANTP 通信示例2.1 通信交互详解CANTP 通信示例 ->返回总目录<- 一、诊断传输流程 1.1上位机请求流程 Step 1. Tester(诊断上位机)通过物理总线…

线程,你真的懂了吗?

大家都知道的是线程其实分为的是内核级线程和用户级线程&#xff0c;这几天在看线程的时候&#xff0c;突然有一种感觉不太明白的地方&#xff0c;那就是linux中pthread.h这个库中的线程到底是用户级还是内核级&#xff0c;后来在网上也搜了很多的例子。我自我认为是看不懂的&a…

科技助力高质量发展:新质生产力的崛起与企业数字化转型

引言 随着科技的飞速发展&#xff0c;我们正逐渐步入数字化智能时代&#xff0c;这个时代不仅为企业带来了无限的机遇&#xff0c;也让其面对前所未有的挑战。在这个快速变革的时代&#xff0c;企业必须不断调整自己的经营策略&#xff0c;适应数字化转型的浪潮&#xff0c;以…

阿里云部署MySQL、Redis、RocketMQ、Nacos集群

文章目录 &#x1f50a;博主介绍&#x1f964;本文内容MySQL集群配置云服务器选购CPU选择内存选择云盘选择ESSD AutoPL云盘块存储性能&#xff08;ESSD&#xff09; 镜像选择带宽选择密码配置注意事项 搭建宝塔面板方便管理云服务器云服务器的安全组安装docker和docker-compose…

MyBatis记录

目录 什么是MyBatis MyBatis的优点和缺点 #{}和${}的区别 Mybatis是如何进行分页的&#xff0c;分页插件的原理 Mybatis是如何将sql执行结果封装为目标对象并返回的 MyBatis实现一对一有几种方式 Mybatis设计模式 什么是MyBatis &#xff08;1&#xff09;Mybatis是一个…

Unbuntu20.04 git push和pull相关问题

文章目录 Unbuntu20.04 git push和pull使用&#xff11;&#xff0e;下载[Git工具包](https://git-scm.com/downloads)&#xff12;&#xff0e;建立本地仓库&#xff13;&#xff0e;将本地仓库与github远程仓库关联&#xff14;&#xff0e;将本地仓库文件上传到github远程仓…

Tcl学习笔记(一)——环境搭建及基本语法

一、Tcl简介 TCL&#xff08;Tool Command Language&#xff0c;即工具命令语言&#xff09;是一种解释执行的脚本语言。所谓解释执行语言&#xff0c;是指其不需要通过编译和联结&#xff0c;而是直接对每条语句进行顺序解释、执行。 TCL包含语言和工具库&#xff0c;TCL语言主…

Modbus TCP转Profinet网关如何实现Modbus主站与多设备通讯

在工业控制领域中&#xff0c;Modbus TCP转Profinet网关&#xff08;XD-ETHPN20&#xff09;扮演着连接不同设备间通讯的重要角色。当将Modbus主站与十几台服务器进行通讯时&#xff0c;通过modbus tcp转profinet网关&#xff08;XD-ETHPN20&#xff09;设备将不同协议间的数据…

【YOLOv5改进系列(2)】高效涨点----Wise-IoU详细解读及使用Wise-IoU(WIOU)替换CIOU

WIOU损失函数替换 &#x1f680;&#x1f680;&#x1f680;前言一、1️⃣ Wise-IoU解读---基于动态非单调聚焦机制的边界框损失1.1 &#x1f393; 介绍1.2 ✨WIOU解决的问题1.3 ⭐️论文实验结果1.4 &#x1f3af;论文方法1.4.1☀️Wise-IoU v11.4.2☀️Wise-IoU v21.4.3☀️…

PySpark案例实战

一、前言介绍 二、基础准备 # 导包 from pyspark import SparkConf,SparkContext #创建SparkConf类对象 confSparkConf().setMaster("local[*]").setAppName("test_spark_app") #基于SparkXConf类对象创建SparkContext对象 scSparkContext(confconf) #打印…

在线播放视频网站源码系统 带完整的安装代码包以及搭建教程

在线播放视频网站源码系统的开发&#xff0c;源于对当前视频市场的深入洞察和用户需求的精准把握。随着视频内容的爆炸式增长&#xff0c;用户对视频播放的需求也日益多样化。他们希望能够随时随地观看自己感兴趣的视频内容&#xff0c;同时还希望能够在观看过程中享受到流畅、…

Go语言学习13-常见软件架构的实现

Go语言学习13-常见软件架构的实现 架构模式 An architectural pattern is a general, reusable solution to a commonly occurring problem in software architectural within a given context. ——wikipedia Pipe-Filter 架构 Pipe-Filter 模式 非常适合于数据处理及数据分…

【理解机器学习算法】之分类问题的模型评估(ROC-AUC)

ROC曲线&#xff08;接收者操作特性曲线&#xff09;和AUC&#xff08;曲线下面积&#xff09;是在不同阈值设置下&#xff0c;用于分类问题的性能度量工具。下面是它们所代表的含义以及使用方法&#xff1a; ROC曲线 代表含义&#xff1a;ROC曲线是一个图形化的表示&#xf…

UE5拷贝复制快捷键修改Ctrl+w

UE5默认修改了原来的Ctrl w的快捷键方式&#xff0c;改成Ctrl D 非常不习惯 其实可以在编辑器中进行修改快捷键的 位置在 Editor Preferences &#xff0c;搜索 Duplicate&#xff0c; 在其中的command selection中&#xff0c;修改 按键为Ctrl w 如图所示&#xff1b; …

[蓝桥杯 2023 省 B] 飞机降落(暴搜DFS+贪心)

总结&#xff1a;为什么你看到题想不出来怎么写呢&#xff0c;我想不到这道题还会用到dfs的思想&#xff0c;顶多能知道可能会有贪心&#xff0c;还是得多做题。 这道题让我想起来导弹拦截和借教室&#xff0c;记得有空做做&#xff01;&#xff01;不要研究难题&#xff0c;把…

图书馆管理系统 1.架构项目以及加搭建项目

项目架构图 技术栈 后端 开发语言&#xff1a;java 开发环境&#xff1a;jdk11.0.12 开发工具&#xff1a;IntelliJ IDEA 2022.2.4 项目管理工具&#xff1a;maven 集成框架&#xff1a;springboot 权限控制框架&#xff1a;springSecurity 数据库&#xff1a;mysql 数据库框架…

R语言:microeco:一个用于微生物群落生态学数据挖掘的R包,第八:trans_func class

# 生态学研究人员通常对微生物群落的功能特征感兴趣&#xff0c;因为功能或代谢数据对于解释微生物群落的结构和动态以及推断其潜在机制是强有力的。 # 由于宏基因组测序复杂且昂贵&#xff0c;利用扩增子测序数据预测功能谱是一个很好的选择。 # 有几个软件经常用于此目标&…

【python】Anaconda安装后打不开jupyter notebook(网页不自动跳出)

文章目录 一、遇到的问题&#xff1a;jupyter notebook网页不自动跳出&#xff08;一&#xff09;输入jupyter notebook命令&#xff08;二&#xff09;手动打开网页 二、解决办法&#xff1a;指定浏览器&#xff08;一&#xff09;找文件 jupyter_notebook_config.py&#xff…

Cookie、Session、Token详解及基于JWT的Token实现的用户登陆身份认证

目录 前置知识 Cookie 什么是Cookie Cookie的作用 Cookie的声命周期 Session 什么是Session 服务集群下Session存在的问题 集群模式下Session无法共享问题的解决 Cookie和Session的对比 Token 什么是Token 为什么产生Token 基于JWT的Token认证机制 Token的优势 …

JavaScript初学心得

JavaScript JavaScript原名是livescript&#xff0c;是由美国网景开发的一种用于对网页操作的脚本语言 网页操作&#xff08;图片切换&#xff09; 脚本语言&#xff08;不需要编译 sql,html,css,javascript,由某种解释器直接可以运行&#xff09; livescript也是面向对象的…