YOLO V1中关于bounding boxs的部分要点

news2024/9/24 1:16:44

YOLO的核心原理预览

在这里插入图片描述

  • YOLO将输入的图片resize成448 x 448,并且为 S x S(S = 7)个grid,如果物体的中心落入该grid中,那么该grid就需要负责检测该物体。
  • 一次性输出所检测到的目标信息,包括类别位置

  • 对于每一个网格(grid),都会预测出B个bounding boxes(B=2),这个bounding boxes有5个量,分别是物体的中心位置(x,y)和它的高(h)和宽(w),以及这次预测的置信度(confidence score)。

  • Bounding Box指矩形框的中心 (x,y),矩形框的宽高(w,h)以及置信度c,这5个值的范围在0和1之间,通过Sigmoid函数来实现。

    矩形框中心 (x,y)的含义:每个Bounding Box相对于grid cell的偏移值,范围0~1

    矩形框的宽高 (w,h)的含义: 每个Bounding Box的宽高相对于整个图像的大小,范围0~1

  • 要注意:每个grid产生两个bounding boxs,如下左图中狗的中心点对应两个黄色框,以及自行车后轮外面的图像中心点对应的两个红色框,其中狗的中心点对应的两个bounding boxs(黄色),相对于自行车后轮外面的图像中心点对应的两个bounding boxs(红色)尺寸是不一样的,也说明bounding boxs的尺寸是根据目标自适应的:

  • 每个框还要负责预测这个框中的物体是什么类别的,共预测C个类。
    在这里插入图片描述

  • 综上,S×S 个网格,每个网格要预测 B个bounding box ,还要预测 C 个类。网络输出就是一个 S × S × (5×B+C)。(S x S个网格,每个网格都有B个预测框,每个框又有5个参数(矩形框的中心 (x,y),矩形框的宽高(w,h)以及置信度c,这5个值的范围在0和1之间),再加上每个网格都有C个预测类,默认C=20,即可以将物体检测为20个类别)

  • 图像中包含物体对象的Bounding Box数量远远小于不包含物体的Bounding Box数量,因此若两者的权重相等,那么计算的损失函数会偏向于给出背景的结果。Yolo1算法论文设置包含物体的Bounding Box的权重为5,不包含的Bounding Box的权重为0。

    包含物体和不包含物体的权重分别记为:

    Yolo算法把定位和检测目标看成是一个回归问题,因此对于所有的输出变量,我们都使用和平方误差表示损失函数。

    每个grid cell包含了2个Bounding Box和1个条件类概率,grid cell结构和损失函数如下图:

其中:

 表示第i个grid cell的第j个Bounding Box是否包含物体对象,若包含,则等于1;若不包含,则等于0。

表示第i个grid cell是否包含物体对象,若包含,则等于1;若不包含,则等于0。

对于不同大小的Bounding Box,小的Bounding Box对于偏差的容忍度更低,比如千万富翁丢失1000块钱与普通家庭丢失1000块钱的意义不一样。为了缓和这个问题,我们对Bounding Box的宽和高取平方根。如下图:

YOLO-V1的网络架构:


输入图像大小: 448×448×3

过程中的参数含义:


损失函数:


①涉及的预测的位置参数值与对应的损失函数描述:
x, y, w, h :
对应的损失函数要尽量减小预测值与真实值之间的差距。
函数公式中 x, y 是使用 平方差值 来描述,而对于 w, h 使用了根号,是为了检测小物体时候,减小偏移量小的时候对于小物体的的敏感度。


损失函数中的系数,是相应的权重。

②关于置信度的损失函数(与类别有关):
平方置信度与真实值之间的差异(分为不同的情况讨论:前景(要检测的物体)、背景(无目标处))

③分类相关的损失函数:交叉熵损失函数
 

非极大值抑制:


只取出保留 IOU 数值最大的框。
YOLO-V1小结
YOLO-V1 整体网络架构简单,检测速度快。
网络中,每个 cell 只预测一个类别,若物体的位置重合时,检测困难。
每个点只有两个候选框,小物体考虑的少。

如何定位目标物体的grid cell和Bounding Box

我们知道了损失函数如何计算,yolo算法预测每个grid cell的Bounding Box?训练阶段,我们需要知道物体的实际grid cell和Bounding Box。

如何定位?若目标物体的中心点在某一个grid cell,则该目标物体属于这一个grid cell,然后以整个图像宽高为尺度,计算该物体所在grid cell的宽高。如下图的红框grid cell标记的狗:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1201804.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

聚力未来!云起无垠成为光合组织成员单位

近日,云起无垠正式加入海光产业生态合作组织(简称“光合组织”)。云起无垠将与光合组织联合打造安全、好用、开放的产品与解决方案,满足企业的安全检测需求,帮助企业解决业务系统上线前的安全检测和修复问题。 图1 光合…

2016Outlook邮箱启动提示找不到文件Outlook.pst

2016Outlook邮箱启动提示找不到文件Outlook.pst 故障现象 Outlook邮箱启动提示找不到文件Outlook.pst 故障截图 故障原因 数据文件损坏 解决方案: 1、开始 –>运行–>输入cmd,或win键R–>输入cmd 2、命令行下,使用cd命令切换到…

vue前端项目配置

目录 背景: 0.参考文档 0.1介绍 | Vue CLI (vuejs.org)(官方文档) 0.2【vue-cli5 bug】npm run build自动编译两次??? - 掘金 (juejin.cn) 0.3vendor.js文本过大 0.4vue性能优化 0.5启动项目一直是生产环境 0.6process.env&#x…

c++分割路径的字符串,得到 目录 文件名 扩展名

简单的做一个c小代码片的记录 c分割了图片的 路径字符串&#xff0c;得到 目录 文件名 扩展名 #include <iostream> using namespace std;int main() {std::string path "E:\\set1_seg\\32.jpg";//index:"\\"在字符串中的位置int index path.find…

GPT Store上线 OpenAI 的「iPhone时刻」这回真来了

OpenAI首届全球开发者大会上&#xff0c;Sam Altman再次给AI行业扔了一系列重磅炸弹。GPT-4 Turbo、GPT Store和定制化的GPT在大会上发布&#xff0c;OpenAI的生态体系初具雏形。 GPT模型刚升级了不到24小时&#xff0c;高能网友就开始用它的定制化功能创造了各种有趣的应用。…

索引下推(ICP)是什么意思?如何理解?

目录 1. 索引下推概述 2. 索引下推举例 3. ICP 的主要作用 1. 索引下推概述 ICP 全称 Index Condition Pushdown&#xff0c;是MySQL5.6之后的一个新特性&#xff0c;它是一种在存储引擎层使用索引过滤数据的一种优化方式。 2. 索引下推举例 下面是数据库的一张 employee…

AI图像生成模型LCMs: 四个步骤就能快速生成高质量图像的新方法

在最新的AI模型和研究领域&#xff0c;一种名为Latent Consistency Models&#xff08;LCMs&#xff09;的新技术正迅速推动文本到图像人工智能的发展。与传统的Latent Diffusion Models(LDMs)相比&#xff0c;LCMs在生成详细且富有创意的图像方面同样出色&#xff0c;但仅需1-…

关系查询处理和查询优化

关系数据库系统的查询处理 4 个阶段 查询分析查询检查【此时的完整性检查是初步的、静态的检查】查询优化【分为代数优化、物理优化】查询执行 关系数据库系统的查询优化 查询优化的优点不仅在于用户不必考虑如何最好地表达查询以获得较高地效率&#xff0c;而且在于系统可…

酷柚易汛ERP - 其他收支明细表操作指南

1、应用场景 其他收支明细表统计一段时期内其他收入单、其他支出单的收支项目、收入/支出及往来单位信息。 2、主要操作 打开【资金】-【其他收支明细表】&#xff1a;

【毕业论文】基于微信小程序的植物分类实践教学系统的设计与实现

基于微信小程序的植物分类实践教学系统的设计与实现https://download.csdn.net/download/No_Name_Cao_Ni_Mei/88519758 基于微信小程序的植物分类实践教学系统的设计与实现 Design and Implementation of Plant Classification Practical Teaching System based on WeChat Mini…

酷柚易汛ERP- 备份与恢复操作指南

1、应用场景 该界面只有管理员才会显示&#xff0c;对已有数据的账套进行备份与恢复。 2、操作指南 2.1 开始备份 对当前系统内的所有数据进行备份&#xff0c;备份成功后当前数据则保存至当前服务器上&#xff0c;同时也会在列表内新增一条当前操作的备份文件记录 2.2 上传…

利用uni-app 开发的iOS app 发布到App Store全流程

1.0.3 20200927 更新官方对应用审核流程的状态。 注&#xff1a;最新审核后续将同步社区另一篇记录 AppStore 审核被拒原因记录及解决措施 &#xff1a;苹果开发上架常见问题 | appuploader使用教程 1.0.2 20200925 新增首次驳回拒绝邮件解决措施。 1.0.1 20200922 首次…

GaussDB SQL基础语法示例-循环语句

目录 一、前言 二、GaussDB数据库总的循环语句 三、GaussDB中常用循环语句&#xff08;语法 示例&#xff09; 1、LOOP循环语句 2、WHILE … LOOP 循环语句 3、FOR … LOOP循环语句&#xff08;integer变量&#xff09; 4、FORALL循环语句&#xff08;批量查询&#xf…

Vue基于html2canvas和jspdf生成pdf文件,解决jspdf中文乱码及自动换行等问题

在做项目时有这么一个需求&#xff0c;需要将当前页面指定区域的内容导出pdf到本地。借助了两个插件分别是html2canvas.js和pdf.js来实现。使用过程中遇到的问题及解决方法 解决一些问题&#xff1a; 导出按A4纸大小排列预留页面边距的问题内容过多自动分页的问题直接使用jsp…

Outlook无法打印邮件

Outlook无法打印邮件 故障现象 Outlook选择文件无法打印&#xff0c;提示“除非选定某个项目&#xff0c;否则无法打印&#xff0c;请选定某个项目&#xff0c;然后再试” 故障截图 故障原因 此目录配置文件异常C:\Users\"用户名"\AppData\Roaming\Microsoft\Out…

el-upload上传附件预览只能上传一个,上传玩没有+号

el-upload上传附件预览只能上传一个&#xff0c;上传玩没有号 一、效果图二、主要代码 一、效果图 二、主要代码 实现原理是通过控制css显隐hideUpload 字段 <template><div id"uploadOne"><!-- 预览附件上传一个 --><el-upload:class"{ h…

TikTok数字艺术:短视频背后的视觉盛宴

在当今数字时代&#xff0c;社交媒体平台已经成为创意表达和文化传播的重要场所之一。其中&#xff0c;以短视频为代表的形式在TikTok这一平台上崭露头角&#xff0c;为创作者和观众提供了一个数字艺术的舞台。 本文将深入探讨TikTok数字艺术的独特之处&#xff0c;剖析短视频…

FAN73832MX 350mA-650mA 高压600V 能驱动MOSFET和IGBT 半桥栅极驱动IC

FAN73832MX是一款半桥、栅极驱动 IC&#xff0c;带关断和可编程死区时间控制功能&#xff0c;能驱动 MOSFET 和 IGBT&#xff0c;工作电压高达 600 V。飞兆的高压工艺和共模噪声消除技术可使高侧驱动器在高 dv/dt 噪声环境下稳定运行。先进的电平转换电路允许高侧驱动器的工作偏…

万界星空科技智能管理系统低代码平台

低代码平台正成为企业数字化基础设施的重要一环&#xff0c;越来越多的企业为了可持续的数字化建设&#xff0c;开始启用低代码平台&#xff0c;其选型除了平台易用性、应用搭建能力外&#xff0c;也关注与第三方平台的集成性&#xff0c;及厂商对行业knowhow的积累、品牌口碑及…

Vatee万腾科技决策力的未来展望:Vatee数字化创新新高度

在当今快速发展的科技时代&#xff0c;Vatee万腾以其卓越的科技决策力&#xff0c;不断开创数字化创新的新高度。 Vatee万腾一直被视为数字化创新的先锋。通过不断拓展科技边界&#xff0c;Vatee万腾致力于引领数字化创新的方向。其科技决策力在预测市场趋势、分析大数据、应用…