跟李沐学AI：目标检测的常用算法

跟李沐学AI：目标检测的常用算法

news2026/2/14 18:29:53

区域神经网络R-CNN

使用启发式搜索算法来选择锚框 -> 使用预训练模型来对每个锚框抽取特征 -> 训练一个SVM对类别进行分类 -> 训练一个线性回归模型来预测边缘框偏移

锚框大小不一，如何将不同的锚框统一为一个batch? -> 兴趣区域池化层

兴趣区域(RoI)池化层

给定一个锚框，将锚框均匀分割为n x m块，输出每块中的最大值。因此不管锚框多大，总是输出nm个值。

让每个锚框都可以变为一个形状相同的mini-batch。

Fast RCNN

与原本的RCNN相比，Fast R-CNN用来提取特征的卷积神经网络的输入是整个图像，而不是各个提议区域。Fast RCNN首先使用CNN对整个图片抽取特征得到feature map。

再将使用启发式搜索算法在原图片画出的锚框映射到feature map中。

随后使用Rol池化层对每个锚框生成固定长度的特征。

最后使用全连接层进行分类预测和偏移预测。

Faster R-CNN

使用一个区域提议网络来替代启发式搜索以得到更好的锚框。区域提议网络先粗糙地画出锚框，再将结果输入主网络。

二元类别预测用于预测当前锚框是否是一个高质量地锚框。边界框预测用于计算锚框和边缘框地偏差。

Mask R-CNN

如果有像素级别的标号，使用FCN来利用这些信息。

R-CNN总结

R-CNN是最早也是最有名一类地基于锚框和CNN地目标检测算法。

Fast/Faster R-CNN持续提升性能。

Fasster R-CNN和Mask R-CNN是在追求高精度场景下地常用算法。

单发多框检测SSD(Single Shot Detection)

对每个像素，生成以它为中心的多个锚框。具体方法与上一节相同。

SSD模型

基本网络用于从输入图像中提取特征，因此它可以使用深度卷积神经网络。单发多框检测论文中选用了在分类层之前截断的VGG现在也常用ResNet替代。我们可以设计基础网络，使它输出的高和宽较大。这样一来，基于该特征图生成的锚框数量较多，可以用来检测尺寸较小的目标。

接下来的每个多尺度特征块将上一层提供的特征图的高和宽缩小（如减半），并使特征图中每个单元在输入图像上的感受野变得更广阔。

由于接近顶部的多尺度特征图较小，但具有较大的感受野，它们适合检测较少但较大的物体。底部则可以拟合小物体。

简而言之，通过多尺度特征块，单发多框检测生成不同大小的锚框，并通过预测边界框的类别和偏移量来检测大小不同的目标，因此这是一个多尺度目标检测模型。

SSD总结

SSD通过单神经网络检测模型

以每个像素为中心产生多个锚框

在多个段的输出上进行多尺度的检测

YOLO

SSD中的锚框大量重叠，因此浪费了很多计算。YOLO将图片平均分成SxS个锚框，如果一个标注的边界框的中心点落在某个锚框内，则该锚框负责预测这个边界框。每个锚框预测B个边缘框。边界框的预测包括中心点相对于网格左上角的偏移量(x, y)，以及边界框的宽(w)和高(h)相对于整个图像的比例。边界框的预测包括中心点相对于网格左上角的偏移量(x, y)，以及边界框的宽(w)和高(h)相对于整个图像的比例。每个网格还预测C个类别概率，C是所有可能类别的数量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2046126.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

界面优化 - QSS

界面优化 - QSS

目录 1、背景介绍 2、基本语法 3、QSS 设置方式 3.1 指定控件样式设置代码示例: 子元素受到影响 3.2 全局样式设置代码示例: 使用全局样式代码示例: 样式的层叠特性代码示例: 样式的优先级 3.3 从文件加载样式表代码示例: 从文件加载全局样式 3.4 使用 Qt Desi…

阅读更多...

最新UI六零导航系统源码 | 多模版全开源

最新UI六零导航系统源码 | 多模版全开源

六零导航页 (LyLme Spage) 致力于简洁高效无广告的上网导航和搜索入口，支持后台添加链接、自定义搜索引擎，沉淀最具价值链接，全站无商业推广，简约而不简单。使用PHPMySql，增加后台管理多模板选择，支持在…

阅读更多...

MySQL基础练习题46-每位经理的下属员工数量

MySQL基础练习题46-每位经理的下属员工数量

目录题目准备数据分析数据总结题目我们将至少有一个其他员工需要向他汇报的员工，视为一个经理。返回需要听取汇报的所有经理的 ID、名称、直接向该经理汇报的员工人数，以及这些员工的平均年龄，其中该平均年龄需要四舍五入到最接近…

阅读更多...

【网络】IP分片与路径MTU发现

【网络】IP分片与路径MTU发现

目录 MTU值 IP分片与重组路径MTU发现路径MTU发现原理个人主页：东洛的克莱斯韦克-CSDN博客相关文章：【网络】从零认识IPv4-CSDN博客 MTU值由于物理层的硬件限制，为了使网络性能最优，在数据链路层会有一个MTU值&#xff0…

阅读更多...

算法【Java】—— 双指针算法

算法【Java】—— 双指针算法

双指针算法常见的双指针有对撞指针，快慢指针以及前后指针（这个前后指针是指两个指针都是从从一个方向出发，去往另一个方法，也可以认为是小学学习过的两车并行，我也会叫做同向指针），在前后指针…

阅读更多...

Python3网络爬虫开发实战（10）模拟登录（需补充账号池的构建）

Python3网络爬虫开发实战（10）模拟登录（需补充账号池的构建）

文章目录一、基于 Cookie 的模拟登录二、基于 JWT 模拟登入三、账号池四、基于 Cookie 模拟登录爬取实战五、基于JWT 的模拟登录爬取实战六、构建账号池很多情况下，网站的一些数据需要登录才能查看，如果需要爬取这部分的数据，就需要实现模拟…

阅读更多...

KNN图像识别实例--手写数字识别

KNN图像识别实例--手写数字识别

目录前言一、导入库二、导入图像并处理 1.导入图像 2.提取出图像中的数字 3.将列表转换成数组 4.获取特征数据集 5.获取标签数据三、使用KNN模型 1.创建KNN模型并训练 2.KNN模型出厂前测试 3.使用测试集对KNN模型进行测试四、传入单个图像，使用该模…

阅读更多...

叉车高位盲区显示器无线摄像头免打孔视线遮挡的解决方案

叉车高位盲区显示器无线摄像头免打孔视线遮挡的解决方案

叉车作业货叉叉货时，货叉升降无法看清位置，特别是仓储的堆高车，司机把头探出去才勉强可以靠经验找准方位！一个不小心就可能叉歪了，使货物倾斜、跌落等等，从而发生事故！如何将隐患扼杀&#xff0…

阅读更多...

【JAVA入门】Day21 - 时间类

【JAVA入门】Day21 - 时间类

【JAVA入门】Day21 - 时间类文章目录【JAVA入门】Day21 - 时间类一、JDK7前的时间相关类1.1 Date1.2 SimpleDateFormat1.3 Calendar 二、JDK8新增的时间相关类2.1 Date 相关类2.1.1 ZoneId 时区2.1.2 Instant 时间戳2.1.3 ZoneDateTime 带时区的时间 2.2 DateTimeFormat 相关…

阅读更多...

刷题DAY7

刷题DAY7

三个数的排序题目：输入三个整数x，y，z，请把这三个数由小到大输出输入：输入数据包含3个整数x，y，z，分别用逗号隔开输出：输出由小到大排序后的结果，用空格隔…

阅读更多...

O2OA开发知识-后端代理/接口脚本编写也能像前端一样用上debugger

O2OA开发知识-后端代理/接口脚本编写也能像前端一样用上debugger

在o2oa开发平台中，后端代理或者接口的脚本编写也能像前端一样用上debugger，这是来自藕粉社区用户的宝贵技术支持。感谢藕粉社区论坛用户提供的技术分享！tzengsh_BTstthttps://www.o2oa.net/forum/space-uid-4410.html 论坛地址&#xff1a…

阅读更多...

【Kubernetes】k8s集群图形化管理工具之rancher

【Kubernetes】k8s集群图形化管理工具之rancher

目录一.Rancher概述 1.Rancher简介 2.Rancher与k8s的关系及区别 3.Rancher具有的优势二.Rancher的安装部署 1.实验准备 2.安装 rancher 3.rancher的浏览器使用一.Rancher概述 1.Rancher简介 Rancher 是一个开源的企业级多集群 Kubernetes 管理平台，实…

阅读更多...

2024年高教社杯数学建模国赛A题思路解析+代码+论文

2024年高教社杯数学建模国赛A题思路解析+代码+论文

2024年高教社杯全国大学生数学建模竞赛（以下简称国赛）将于9月5日晚6时正式开始。下文包含：2024国赛思路解析、国赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛 C君将会第一时间发布选题建议、所有题目的思路解析、相…

阅读更多...

Axure：引领智慧时代的数据可视化原型设计先锋

Axure：引领智慧时代的数据可视化原型设计先锋

在数字化转型的浪潮中，智慧农业、智慧城市、智慧社区、智慧水务等概念如雨后春笋般涌现，它们不仅重塑了我们的生活空间，也对数据可视化提出了前所未有的要求。作为原型设计领域的佼佼者，Axure RP凭借其强大的交互设计能力和直观的…

阅读更多...

关于Nachi机器人自动运行上电条件

关于Nachi机器人自动运行上电条件

Nachi 机器人有两种控制柜，分别为 FD 控制柜和 CFD 控制柜。对于 FD 控制器，执行以下操作。 1.旋转控制柜钥匙，使其对准标注位置①。 2.旋转示教器旋钮至下图所示位置。然后依次单击绿色按钮与白色按钮，机器人上电运行。对于…

阅读更多...

2025大数据毕业设计/计算机毕业设计创新必过选题（建议收藏）

2025大数据毕业设计/计算机毕业设计创新必过选题（建议收藏）

一、大数据题目项目架构模式： 1、数据Python爬虫：selenium、requests、DrissionPage等爬虫框架 2、hadoop、Spark、Flink（PyFlink）数据分析【可vmvare虚拟机可windwos电脑】 3、springboot、vue.js前后分离构建系统主体 4、…

阅读更多...

排序篇——递归实现快速排序(hoare版-挖坑法-前后指针版)

排序篇——递归实现快速排序(hoare版-挖坑法-前后指针版)

目录前言一、key？ 二、思路及代码实现 1.hoare版 2.挖坑法 3.前后指针版本总结前言快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法。它会选出一个基准值(key)，把它放到正确的位置(排序之后的位置)。提示：以下是本篇…

阅读更多...

c语言学习，tolower ()函数分析

c语言学习，tolower ()函数分析

1：tolower() 函数说明： 检查参数c，为大写字母返回对应的小写字母 2：函数原型： int toascii(int c) 3：函数参数： 参数c，为检测整数 4：返回值： 返回转换的小…

阅读更多...

【Python】生成二维迷宫的算法

【Python】生成二维迷宫的算法

前言哈里最近因为一个小插曲打算写一个设计迷宫的算法。为了锻炼脑力，特地没有上网搜索而是自己摸索出一个迷宫设计算法。概述 1、需求哈里准备实现下图的迷宫。 2、分析可以看到，图里凡是x和y坐标为单数时，总是白色。于是哈里得到下…

阅读更多...

二分查找专题（总）

二分查找专题（总）

1、经典二分查找模板 int search(vector<int>& nums, int target) {int right nums.size() - 1;int left 0;while(left < right){int mid (left right)/2;if(nums[mid] > target){right mid-1;}else if(nums[mid] < target){left mid1;}else {return…

阅读更多...

推荐文章

最新文章