YOLO的学习

news2024/11/15 21:03:01

如何评价Alexey Bochkovskiy团队提出的YoloV7? - 知乎 

1, Selective Search,RCNN和FasterRCNN

机器视觉(CV) 超简指南 选择性搜索 Selective Search_哔哩哔哩_bilibili 

【精读RCNN】03选择性搜索,selective search_哔哩哔哩_bilibili 

3.selective search算法_哔哩哔哩_bilibili 

1.1Faster RCNN理论合集_哔哩哔哩_bilibili

https://blog.csdn.net/qq_37541097/category_9394276.html

目标检测mAP计算以及coco评价标准_哔哩哔哩_bilibili

目标检测(1)-Selective Search - 知乎 

Object Detection - handong1587 

BEV - handong1587 

李立宗cv的个人空间-李立宗cv个人主页-哔哩哔哩视频 

一文读懂Faster RCNN - 知乎 

Selective Search for Object Recognition 

selective search的策略是,既然是不知道尺度是怎样的,那我们就尽可能遍历所有的尺度好了,但是不同于暴力穷举,我们可以先得到小尺度的区域,然后一次次合并得到大的尺寸就好了,这样也符合人类的视觉认知。既然特征很多,那就把我们知道的特征都用上,但是同时也要照顾下计算复杂度,不然和穷举法也没啥区别了。最后还要做的是能够对每个区域进行排序,这样你想要多少个候选我就产生多少个,不然总是产生那么多你也用不完不是吗?好了这就是整篇文章的思路了,那我们一点点去看。 

 

 

 

Region Proposal Networks 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

边框回归

42 锚框【动手学深度学习v2】_哔哩哔哩_bilibili 

【精读RCNN】05边框回归,bounding box regression_哔哩哔哩_bilibili

 

边框回归(Bounding Box Regression)详解_南有乔木NTU的博客-CSDN博客_bounding box regression

【边框回归】边框回归(Bounding Box Regression)详解 - 知乎 

【目标检测】什么是边框回归 - 简书 

目标检测anchor based 边框回归(Bounding Boxes Regression)策略总结 - 知乎 

【目标检测】RoI Pooling及其改进 - 简书 

【目标检测】不同结构的感受野对CNN网络的影响_牧世的博客-CSDN博客 

目标检测中的 Anchor 是什么?新手应该如何搞懂 Anchor? - 知乎 

《目标检测》系列之三:目标检测Anchor的What/Where/When/Why/How - 知乎 

怎么回归呢,能不能直接回归呢?比如上图中cat的框左上角坐标为(100,60),右下角坐标为(600,640),能不能直接学习回归到这两个坐标上呢,答案当然是不能的,不然也不至于兜兜转转。主要原因在我们信息提取使用的是CNN卷积,卷积具有平移不变性和旋转不变性。

 

如上图,这里默认CNN提取特征为两只猫的特征是一样的,边框回归同函数求解一样,输入一个值,给出一个解,现在输入两个相同的特征,输出的坐标值应该是一样的,无法满足输出两个坐标框的要求,那怎样基于两个相同的特征输出相同的值,怎么对应到两个坐标上呢?通过相对坐标,相对于候选框。候选框的位置和大小不一样所以对应的相对坐标的位置和大小也就不一样了,完美解决了基于相同特征虽然输出相同的值,但是最后回归到不同位置和长宽的问题。

怎么基于候选框学习相对坐标?faster RCNN中,基于anchor框先做中心点的平移再做长宽的缩放。坐标乘以宽高是为了以平移的比例来计算,而宽高使用指数形式是为了保证缩放比例为正数。 

 

 

 

 

 

 

 

 

 

 

2,SSD

 

睿智的目标检测3——SSD算法预测部分源码详解(亲测可用)_Bubbliiiing的博客-CSDN博客_ssd预测过程

科普:什么是SSD目标检测网络(Bubbliiiing 深度学习 教程)_哔哩哔哩_bilibili

损失函数解读 之 Focal Loss_一颗小树x的博客-CSDN博客_focal loss

 

  1. SSD是一种非常优秀的one-stage方法,one-stage算法就是目标检测和分类是同时完成的,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快。
  2. 但是均匀的密集采样的一个重要缺点是训练比较困难,这主要是因为正样本与负样本(背景)极其不均衡(参见Focal Loss),导致模型准确度稍低。
  3. SSD的英文全名是Single Shot MultiBox Detector,Single shot说明SSD算法属于one-stage方法,MultiBox说明SSD算法基于多框预测。
  4. 多次卷积后大目标的特征保存的更好,小目标特征会消失,需要在比较靠前的层提取小目标特征
  5. 我们选择其中的[‘block4’, ‘block7’, ‘block8’, ‘block9’, ‘block10’, ‘block11’]。
    这里我们放出论文中的网络结构层。
    在这里插入图片描述
  6. feat_layers=[‘block4’, ‘block7’, ‘block8’, ‘block9’, ‘block10’, ‘block11’]。

  7. feat_shapes=[(38, 38), (19, 19), (10, 10), (5, 5), (3, 3), (1, 1)]。

2、为什么要抛弃anchor,做anchor free
1)Anchor的设置需要手动去设计(长宽比,尺度大小,以及anchor的数量),对不同数据集也需要不同的设计,相当麻烦。
2)Anchor的匹配机制使得极端尺度(特别大和特别小的object)被匹配到的频率相对于大小适中的object被匹配到的频率更低,DNN在学习的时候不太容易学习好这些极端样本。
3)Anchor的庞大数量使得存在严重的不平衡问题,这里就涉及到一个采样的过程,实际上,类似于Focal loss的策略并不稳定,而且采样中有很多坑。
4)Anchor数量巨多,需要每一个都进行IOU计算,耗费巨大的算力,降低了效率。
3、anchor free 的方向
最早可以追溯到YOLO算法,这应该是最早的anchor-free模型,而最近的anchor-free方法主要分为 基于密集预测 和 基于关键点估计两种。
4、anchor free 的局限性
 目前paper 为了达到更好看的结果,在实验上隐藏了一些细节或者有一些不公平的比较(比如骨干网络使用hourglass 对比别人的resnet等)。
5、anchor free 工程推荐
由于YOLOV5的推出,主要了解anchor free 的思想,工程应用主要可以尝试:
1)centerNet(object as point 的版本)
2)extremeNet(将回归边界框改为极值点)
目标检测算法——anchor free_TigerZ*的博客-CSDN博客_anchor free

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/196077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

win10系统安装

系统安装 文章目录系统安装1.工具下载2.制作启动盘3. win 10镜像下载4.进入PE系统1.工具下载 需要准备一个至少16 GB的U盘,工具下载链接 U盘:https://share.weiyun.com/aHhPh16e 迅雷:https://dl.xunlei.com/ win 10 镜像链接&#xff1a…

大咖说·计算讲谈社|当我们在谈目标时,究竟在谈什么?

本讲内容,节选自阿里巴巴研究员吴翰清(道哥)面向团队的内部讲话,经删减整理后,作为【计算讲谈社】第十六讲公开分享。 讲师介绍 吴翰清(道哥):阿里巴巴研究员,阿里巴巴、…

33复杂美,上链不复杂

“链上复杂美,上链不复杂。” 33复杂美座落在美丽的西子湖畔:杭州,并在上海、南京、宁波、海南皆有设立分部。公司员工超过100人,70%为技术人员,吸引了来自甲骨文、阿里等优秀人才加盟。复杂美为浙江省区块链技术应用协…

windows 编译telegram桌面客户端

目的 主要是为了研究一下人家的软件架构。 步骤 前置条件 梯子至少10G硬盘空间 安装第三方应用 请更新至最新版。 GITCmakePython3visual studio 2022Qt Visual Studio Tools: Open Extensions -> Manage Extensions Go to Online tab Search for Qt Install Qt Visu…

系统学习Python——2D绘图库Matplotlib:绘图函数matplotlib.pyplot.plot

分类目录:《系统学习Python》总目录 matplotlib.pyplot是Matplotlib的基于状态的接口。它提供了一种隐式的、类似MATLAB的绘图方式。它还会在您的屏幕上打开图形,并充当图形GUI管理器。 语法 matplotlib.pyplot.plot(*args, scalexTrue, scaleyTrue , …

威联通NAS共享文件夹挂载到linux服务器下

威联通虚机中centos挂载共享文件夹设置方法 1、登录到QTS。 2、控制台–>Win/Mac/NFS选项,在Linux NFS中开启NFS v3或NFSv4服务。 3、设置文件夹权限: 控制台–>共享文件夹中,找到需要共享的文件夹,编辑文件夹权限。 选…

Golang数据竟态

本文以一个简单事例的多种解决方案作为引子&#xff0c;用结构体Demo来总结各种并发读写的情况 一个数据竟态的case package mainimport ("fmt""testing""time" )func Test(t *testing.T) {fmt.Print("getNum(): ")for i : 0; i <…

「Python|场景案例」如何将多个视频合并成多个子画面并排的单个视频?

本文主要介绍如何将多个视频画面合并到一个视频中&#xff0c;使得合成后的视频画面是原视频的并排画面。 文章目录场景描述准备工作处理步骤源代码处理效果展示场景描述 在某些音视频剪辑的场景下我们希望一个视频画面显示多个子画面&#xff0c;比如&#xff1a; 乐器演奏视…

【MySQL】数据库概述

文章目录1、数据库1.1 数据库作用1.2 数据库的相关概念1.3 数据库与数据库管理系统的关系2、MySQL3、RDBMS与非RDBMS3.1 关系型数据库(RDBMS)3.2 非关系型数据库(非RDBMS)3.2.1 键值型数据库3.2.2 文档型数据库3.2.3 搜索引擎数据库3.2.4 列式数据库3.2.5 图形数据库4、关系型数…

基于微信小程序的短视频管理系统

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端框架&#xff1a;VUE 数据库&#xff1a;MySQL5.7 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是 目录 一、项目简介 二…

推荐一个跨平台支持Word, Excel, CSV, Email等30多种格式的操作库

更多开源项目请查看&#xff1a;一个专注推荐.Net开源项目的榜单 在我们日常项目开发中&#xff0c;经常需要解析操作文档&#xff0c;比如Office文档、Email文件、PDF、Xml、图片、Mp3等音频文件&#xff0c;操作Office、PDF文件我们需要用到IFilter&#xff0c;操作文本、图片…

【C++】引用与指针

专栏放在【C知识总结】&#xff0c;会持续更新&#xff0c;期待支持&#x1f339;引用引用的概念在C中&#xff0c;引用的本质其实就是给一个已经存在的变量”起别名“。也就是说&#xff0c;引用与它所引用的对象共用一块空间。&#xff08;同一块空间的多个名字&#xff09;就…

【搭建 mybatis 开发环境】

搭建 mybatis 开发环境 环境准备 创建数据库 创建maven 工程 pom文件&#xff1a;添加打包方式为jar 以及 mybatis 和 mysql 依赖 环境搭建 编写实体类 User.java&#xff1a;属性&#xff0c;生成get 和 set 方法 以及 toString方法 创建 IUserDao 接口&#xff0c;操作…

java进阶—一篇文章搞懂set 集合 及其底层实现

上节我们知道了List 下的两大 子类 ArrayList 跟 linkedList ArrayList 数组结构 查询快&#xff0c;增删慢 LinkedList 链表结构 查询慢&#xff0c;增删快 来看看我们今天的主角: Set Set 是 不可重复的&#xff0c;其底下也有两大子接口&#xff1a; HashSet&#xff1…

我用Python轻松玩转ChatGPT的聊天机器人和AI画画

ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型&#xff0c;一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话&#xff0c;还能根据聊天的上下文进行互动&#xff0c;真正像人类一样来聊天交流&#xff0c;甚…

分享112个图片切换,总有一款适合您

分享112个图片切换&#xff0c;总有一款适合您 下面是文件的名字&#xff0c;我放了一些图片&#xff0c;文章里不是所有的图主要是放不下...&#xff0c; 112个图片切换下载链接&#xff1a;https://pan.baidu.com/s/1Q6DzF8wIQ9rXwFjydI6_kw?pwdktxr 提取码&#xff1a;kt…

Leetcode.1145 二叉树着色游戏

题目链接 Leetcode.1145 二叉树着色游戏 Rating &#xff1a; 1741 题目描述 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中&#xff0c;给出二叉树的根节点 root&#xff0c;树上总共有 n个节点&#xff0c;且 n为奇数&#xff0c;其中每个节点上的值从 1到 n各不相…

关于“智能出价“的一些探索和实践

背景在移动数字广告营销的整个链路中&#xff0c;主要有三个主体&#xff0c;分别是媒体、adx和dsp.对于一个adx系统&#xff0c;主要有两个功能&#xff0c;分别是&#xff1a;向下对接媒体&#xff1a;汇聚下游的媒体广告流量向上对接dsp(广告主)&#xff1a;将媒体流量卖给上…

【C语言】看了这篇文章,如果你还不会文件操作的话,我把这篇文章给吃了(doge)

&#x1f6a9;write in front&#x1f6a9; &#x1f50e;大家好&#xff0c;我是謓泽&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f3c5;2021年度博客之星物联网与嵌入式开发TOP5&#xff5…

MyBatis注解CRUD执行流程剖析

MyBatis Study Notes Day03 结果映射ResultMap 引入resultMap–MyBatis中最强大的元素 数据库字段名&#xff1a;&#xff1a; 实体类字段名&#xff1a; public class User {private int id;private String name;private String password;如上所示&#xff0c;当sql的字段…