旋转目标检测【1】如何设计深度学习模型

news2024/10/6 5:58:56

前言

平常的目标检测是平行的矩形框,“方方正正”的;但对于一些特殊场景(遥感),需要倾斜的框,才能更好贴近物体,旋转目标检测来啦~

一、如何定义旋转框

常见的水平框参数表达方式为(x,y,w,h),四个参数分别表示水平框中心的横纵坐标、宽度以及高度。常用的YOLOv5也是用这边表示方式的。

旋转框参数表示目前有两种:

  1. 五参数表示法 (𝑥,𝑦,ℎ,𝑤,𝜃),它在原来基础上添加多了一个角度𝜃,表示框的旋转情况。
  2. 八参数表示法量(𝑥1,𝑦1,𝑥2,𝑦2,𝑥3,𝑦3,𝑥4,𝑦4),分别表示框的四个顶点。

1.1 五参数表示法 (𝑥,𝑦,ℎ,𝑤,𝜃)

五参数旋转框表示法相比水平框多了旋转角度的信息,边界框参数可由一个5d向量(𝑥,𝑦,ℎ,𝑤,𝜃)确定,其中:

(𝑥,𝑦) 为待检测目标最小外接矩形的中心

ℎ 为该外接矩形的高

𝑤 为该外接矩形的宽

𝜃 为该外接矩形的高与x轴所呈角度

常见的五参数表示法根据角度周期的不同可分为

  • Opencv定义法
  • 长边定义法

  • opencv法中,将与x轴成锐角的矩形边视为高,此时𝜃的取值范围为[0,𝜋⁄2),在此种定义法中,当旋转角度跨越𝜋⁄2时,定义的宽和高将进行互换,网络的回归目标也将发生突变,影响网络的收敛。
  • 针对这个问题,长边法将矩形框的长边定义为高,矩形框的短边定义为宽,此时𝜃的取值范围为[0,𝜋)。长边法能够有效的避免宽和高的互换问题。(推荐长边法

注意:五参数表示法对边界框形状进行了限制,任何形状的边界框均表示成矩形。

1.2 八参数表示法量(𝑥1,𝑦1,𝑥2,𝑦2,𝑥3,𝑦3,𝑥4,𝑦4)

八参数表示法中并没有直接表示角度值,而是利用有序四边形四个角坐标的方式表达旋转框,也叫有序四边形定义法

旋转边界框可以由一个8d向量(𝑥1, 𝑦1, 𝑥2, 𝑦2, 𝑥3, 𝑦3, 𝑥4, 𝑦4)唯一确定,其中(𝑥𝑛, 𝑦𝑛)表示边界框四个顶点的坐标

 旋转框基于一个最小的外接矩形,并将左边的点看作起始点,逆时针对外接矩形相交的四个点依次表达:

优点:这种表示方法的灵活性高,边框形状可以表示为任意四边形。

缺点:但是其需要回归的参数较多,计算复杂度较高,并且四个顶点之间不存在显著的区分关系,可能需要额外的后处理算法确定顶点的顺序。

各种表示方法待改进地方:

  • 长边表示法中角度在边界值0°和180°会重合,但此时数值上却相差180,由于角度的周期性问题而导致损失值,影响了角度的预测精度。
  • Opencv表示法不仅会在边界值由于角度的周期性问题产生突变,旋转框的宽和高也会在边界处发生交换,由此产生边的交换问题进而导致旋转框角度和形状预测都会受到影响产生突变。
  • 有序四边形定义法虽然可以以设定的起始点进行表示,但是同样在临界处起始点容易发生位移现象,从而产生突变影响最终四边形的预测。

二、如何设计深度学习模型

2.1 模型损失函数

如果采用五参数表示法 (𝑥,𝑦,ℎ,𝑤,𝜃),那么我们重点考虑𝜃角度,如何衡量计算损失函数,有两种思路:

  • 𝜃角度,采用分类思路,把角度划分为180个类别,每间隔一个度,划分为一个类别;所用的损失函数,可以用交叉熵损失
  • 𝜃角度,采用回归思路,把角度值先转为弧度值,然后对弧度值进行映射(sin、cos等函数),制作为标签;然后损失函数,可以用L1(绝对值损失)或L2(均方差损失)

这样会存在问题吗,当前有一些问啦,后面再解释原理和方案,还结合具体的案例。

如果采用八参数表示法量(𝑥1,𝑦1,𝑥2,𝑦2,𝑥3,𝑦3,𝑥4,𝑦4),那么我们可以直接四个边框顶点坐标进行回归,然后损失函数,可以用L1(绝对值损失)或L2(均方差损失)

这样会存在问题吗,也是会的,后面再解释原理和方案。

2.2 模型结构

目标检测通常分为单阶段(YOLO、FCOS)和两阶段(R-CNN、Faster R-CNN)。

这里以单阶段YOLO为示例,看看是如何设计模型结构的,来自百度的PP-YOLOE-R

论文名称:PP-YOLOE-R: An Efficient Anchor-Free Rotated Object Detector

论文地址:https://arxiv.org/abs/2211.02386

 它是采用五参数表示法 (𝑥,𝑦,ℎ,𝑤,𝜃),在检测头的分支中,添加多一个分支进行角度𝜃预测。

后面再详细解释,这篇文章先作入门啦~

后面介绍在YOLOv5、FOCS、R-CNN等基础上实现旋律目标检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/515877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PMP项目管理-[第九章]资源管理

资源管理知识体系: 规划资源管理: 估算活动资源: 获取资源: 建设团队: 管理团队: 9.1 规划资源管理 定义:定义如何估算、获取、管理和利用团队以及实物资源的过程 作用:根据项目类型…

Azure Data Lake Storage Gen2 简介

Azure Data Lake Storage Gen2 基于 Azure Blob 存储构建,是一套用于大数据分析的功能。 Azure Data Lake Storage Gen1 和 Azure Blob Storage 的功能在 Data Lake Storage Gen2 中组合在一起。例如,Data Lake Storage Gen2 提供规模、文件级安全性和文…

Cesium入门之三:隐藏Cesium初始化页面小部件的两种方法

上一级我们实现了第一个三维地球,但是在这个页面上有很多小部件,我们不想让其显示,应该如何设置呢?这一节我们通过两种方式来隐藏小部件 方法1:通过js代码实现 在js代码中,通过在new Cesium.Viewer(conta…

算法之路--直接插入排序算法

在介绍插入排序算法之前,先举证一个我们都熟悉不过的例子即可理解插入排序。我们在打牌的时候,由于每次抽到的牌大小不一,为了在出牌时了解自己手里都还剩什么牌型,所以每次对抽到的新牌都会做一个排序,怎么比较呢&…

AWS 中的另外一种远程工具 AWS Session Manager

作者:SRE运维博客 博客地址:https://www.cnsre.cn/ 文章地址:https://www.cnsre.cn/posts/230129126154/ 相关话题:https://www.cnsre.cn/tags/aws/ 背景需求 因为项目的安全性。为了避免项目的服务器暴露在公网中。很多时候我们…

设计原则之【迪米特法则】,非礼勿近

文章目录 一、什么是迪米特法则1、理解迪米特法则2、如何理解“高内聚、松耦合”? 二、实例1、实例12、实例2 一、什么是迪米特法则 迪米特原则(Law of Demeter LoD)是指一个对象应该对其他对象保持最少的了解,又叫最少知道原则&…

支付系统设计三:渠道网关设计01-总览

文章目录 前言一、开发框架二、E-R图三、管理后台配置四、运行时执行流程五、屏蔽渠道差异总结 前言 在《支付系统设计一:支付系统产品化》文章中,我们知道支付渠道网关主要具有以下功能: 统一支付出口,提供丰富的支付工具原子能…

详解:扫雷游戏的实现

扫雷游戏的实现 设置雷排查雷标记雷打印棋盘初始化棋盘获得雷的个数扩展区域test.c的实现meni.c的实现meni.h的实现 铁汁们,今天给大家分享一篇扫雷游戏的实现,来吧,开造⛳️ 1.需要存储雷的信息,创建二维数组来存储数据信息&…

gateway的使用

什么是Spring Cloud Gateway 网关作为流量的入口,常用的功能包括路由转发,权限校验,限流等。 Spring Cloud Gateway 是Spring Cloud官方推出的第二代网关框架,定位于取代 Netflix Zuul。相比 Zuul 来说,Spring Cloud …

第1章 量化设计与分析基础

1.1 引言 如今一台价格不足500美元的手机,性能便堪比1993年世界上最快的售价5000万美元的计算机,这种快速发展既得益于计算机制造技术的发展,也得益于计算机设计的创新。 纵观计算机发展的历史,技术一直在稳定地提升&#xff0c…

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文章目录 主要解决什么问题采用什么方法实验分析与结果消融实验Commonsense ReasoningSymbolic Reasoning 问题与展望 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 主要解决什么问题 大语言模型越来越大,效果越来越好。但是在一些具有…

Sui Builder House首尔站|主网上线后首次亮相

Sui Builder House提供与全球Sui构建者会面、合作并学习Sui平台前沿技术的机会。Sui基金会计划将于2023年在全球12个城市举办Sui Builder House。截止目前,已成功在美国丹佛市、越南胡志明市和中国香港举办三场Builder House活动。 Sui Builder House首尔站将于6月…

【D435i深度相机YOLO V5结合实现目标检测】

【D435i深度相机YOLO V5结合实现目标检测】 1. 前言2 分析2.1 关于yolo部分2.2 关于获取三维坐标的部分2.3 关于文件结构部分 3. 代码 1. 前言 参考:Ubutntu下使用realsense d435i(三):使用yolo v5测量目标物中心点三维坐标 欢迎大…

满意度指标- NPS 的ABtest(公式推导)

👉A 组的NPS如下 👉B 组的NPS如下 (下标为1,均为A组的样本数据;下标为2,均为B组的样本数据) 要验证A\B两组的NPS差异是否显著,可通过假设检验。 一、假设检验前置准备 1. 选择…

FastDFS理论与Java程序的对接(图片,文件上传)

目录 fastdfs概述Java程序对接fastDFSpom配置java启动类注解yaml文件配置controller类service类 fastdfs概述 什么是分布式文件系统? 是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机与节点相连。 通俗来讲: 传统…

【medini analyze 软件介绍】

medini analyze 软件介绍 简介主要功能(功能安全范畴)1、HARA2、建模3、FMEA & FMEDA4、FTA*这里只是笔者根据汽车功能安全分析经验简单列举了medini analyze的部分功能,完整的功能介绍请参考ANSYS官网* 简介 medini analyze是一款专业的…

怎么把pdf文件压缩到最小?四招快速压缩!

怎么把pdf文件压缩到最小?平常我们要压缩一个文件,一般都知道该如何操作。系统中自带了压缩工具,只需右键点击需要压缩的对象并选择"压缩"选项即可完成操作。然而,很多人也会发现,尽管大部分的文件都可以通过…

网络安全公司Dragos披露网络安全事件

工业网络安全公司 Dragos 披露了它所称的“网络安全事件”,此前一个已知的网络犯罪团伙试图突破其防御并渗透到内部网络以加密设备。 虽然 Dragos 表示威胁行为者没有破坏其网络或网络安全平台,但他们可以访问公司的 SharePoint 云服务和合同管理系统。…

05-HTML-图片标签

<img> 标签&#xff1a;src 属性是必需的。它规定图像的 URL。 绝对 URL - 指向另一个网站&#xff08;比如 src"http://www.example.com/image.gif"&#xff09;相对 URL - 指向网站内的一个文件&#xff08;比如 src"image.gif"&#xff09; <…

网络层最重要的协议—IP协议

网络层最重要的协议—IP协议 IP协议格式解决IP地址不够用问题的三种方法方法一: 动态分配IP地址方法二: NAT网络地址转换方法三: IPv6(根本上解决IP不够用的问题)小结&#xff1a; IP协议之地址管理主机号/网络号子网掩码特殊IP IP协议格式 4位版本&#xff1a;此处取4或64位首…