GPT理解的CV:基于Yolov5的半监督目标检测

news2024/12/22 17:55:11

关注并星标

从此不迷路

计算机视觉研究院

a18ba0f9f54ff2a9a0497ef5a9f0fead.gif

0e354e020a54e3e0b07814b9daa63b20.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

主要贡献是提出了一种名为“Efficient Teacher”的半监督目标检测算法。与传统的监督学习算法不同,Efficient Teacher利用无标签数据进行训练,并且在训练过程中使用了半监督学习的方法。这种方法可以有效地利用无标签数据,减少过拟合的风险,并且可以提高模型的泛化能力。

注意:本文主要是GPT解读,如有差异请在留言指出!

01

bf2ba918ca02f0f34c779a37f88e5fd9.png

概要

5ddf377ceafc3d229035ea7a23007677.png

半监督目标检测(SSOD)已经成功地提高了R-CNN系列和无锚检测器的性能。然而,一级基于锚的检测器缺乏生成高质量或灵活伪标签的结构,导致SSOD中存在严重的不一致性问题。在今天分享中,提出了一个高效的教师框架,用于可扩展和有效的基于单阶段锚的SSOD训练,该框架由密集检测器、伪标签分配器和Epoch适配器组成。Dense Detector是一个基线模型,它以YOLOv5为灵感,使用密集采样技术扩展了RetinaNet。高效教师框架引入了一种新的伪标签分配机制,称为伪标签分配器,它更精细地利用了密集检测器中的伪标签。

Epoch Adaptor是一种为密集探测器提供稳定高效的端到端SSOD训练计划的方法。伪标签分配器防止了在师生相互学习机制期间由大量低质量伪标签引起的可能干扰密集检测器的偏差的发生,并且Epoch适配器利用域和分布自适应来允许密集检测器学习全局分布的一致特征,使得训练与标记数据的比例无关。我们的实验表明,高效教师框架在VOC、COCO标准和COCO附加方面取得了最先进的结果,使用的FLOP比以前的方法更少。据我们所知,这是将SSOD应用于YOLOv5的第一次尝试。

02

c03dee11d7a3f6761de2bea042346d7d.png

新框架

0ce0410fa58a482e49623318649e12d9.png

高效教师(Efficient Teacher)是一种新颖高效的半监督目标检测框架,它显著提高了基于单级锚点的检测器的性能。该框架基于师生相互学习的方法,如下图所示,灵感来自以前的工作。提出的伪标签分配器方法根据伪标签的得分将其分为可靠和不确定的伪标签,其中可靠的伪标签用于默认监督训练,不确定的用于指导软损失学生模型的训练。Epoch-Adaptor方法通过在标记数据和未标记数据之间进行域自适应,并计算每个历元中伪标签的阈值,来加速收敛。在整个培训过程中,教师模型采用指数移动平均(EMA)技术进行更新。

86b5b6008134984b6354ab9463828f6d.png

比较RetinaNet和检测聚类器的伪指标分布图,发现:

(a)RetinaNet使用了更少的输入数据,产生了更高的分辨率,暗色表示分数较低;
(b)检测聚类器利用更多的输入数据,根据物体特征和分类结果产生了更强健和更密集的反应。

10d37c92a338b56fc4e92f4f4aef7b1e.png

伪标签过滤是 SSOD 中常用的一种方法,阈值设置太低会产生错误的伪标签,而阈值设置太高则可能排除可靠的伪标签,从而导致分配不佳,进而影响网络训练的效果。为了解决这个问题,我们提出了伪标签分配器方法,该方法根据高低阈值将伪标签分为可靠和不可靠的类别,分别为目标 L 提高单目标 SSOD 中伪标签的质量。

f9217e666f5c8fafc012594141017b62.png

Main epoch 表示整个训练期间不中断,并且在执行期间没有任何新权重的加载。有效教师的训练策略:(a)在标记数据上进行监督训练,然后在未标记数据上进行基于标记的 SSOD 训练;(b)在标记数据上进行监督训练,并在未标记数据上进行基于标记的 SSOD 训练以外的额外基于标记的 SSOD 训练;(c)在标记数据和未标记数据上进行端到端训练,并使用适应域和分布的 Epoch 适配器以改进收敛和特征分布。

507baf2d6e80294793fa056029dca527.png

03

7410414042d2d744cce4e6b04faef024.png

实验

0f4bcede807e0543ea94c5455a58475b.png

7a8a91b273eca95680a59f901626f85e.png

Experimental results on COCO-standard (AP50:95)

cda25f4432963fb8d3e7ab599b3f3efc.png

PASCAL-VOC的实验结果。†表示使用ImageNet预训练骨干来初始化高效教师

© THE END 

转载请联系本公众号获得授权

0f1ffe6d4c1b6c983c633d9fd21e17d7.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

05fe822d553d955dd1df119b56381636.png

 往期推荐 

🔗

  • 改进的YOLO:AF-FPN替换金字塔模块提升目标检测精度

  • FastestDet:比yolov5更快!更强!全新设计的超实时Anchor-free目标检测算法(附源代码下载)

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/542970.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10人面试9个答错?鹅厂T12详解MySQL加锁机制

👉腾小云导读 鹅厂有一道关于「数据库锁」的面试题。我们发现其实很多 DBA (数据库管理员,Database administrator)包括工作好几年的 DBA 都答得不太好。这说明 MySQL 锁的机制其实还是比较复杂,值得深入研究。本文对3…

探索Vue的组件世界-实现Vue插件

一个好的框架满足几大设计原则: 开闭原则:对修改源码关闭,对功能扩展开放 vue作为一个优秀的组件框架:满足开闭原则,提供良好的插件机制,以提供三方来扩展功能 Mixin模式 Vue.mixin(mixin) 全局注册的m…

嵌入式 QT 定时器与计时器

目录 1、定时器 2、计时器 2.1 QTime 时间转换成字符串函数 3、QT 获取日期,时间,星期 4、综合应用 定时器是用来处理周期性事件的一种对象,类似于硬件定时器。例如设置一个定时器的定时周期为 1000 毫 秒,那么每 1000 毫秒就会…

现在的00后,真是卷死了呀,辞职信准备好了·····

都说00后躺平了,但是有一说一,该卷的还是卷。这不,三月份春招我们公司来了个00后,工作没两年,跳槽到我们公司起薪23K,都快接近我了。 后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了…

Kali-linux使用社会工程学工具包(SET)

社会工程学工具包(SET)是一个开源的、Python驱动的社会工程学渗透测试工具。这套工具包由David Kenned设计,而且已经成为业界部署实施社会工程学攻击的标准。SET利用人们的好奇心、信任、贪婪及一些愚蠢的错误,攻击人们自身存在的…

python使用海龟turtle实现绘制汉字、中文

一、实现要求 使用python中的turtle库绘制指定汉字、中文 二、实现思路 1、要想实现汉字的绘制,首先需要知道汉字的笔画坐标,汉字的笔画坐标在网上有,需要使用爬虫技术抓取到指定汉字的笔画坐标信息 2、根据汉字的笔画坐标信息,使…

基于Kubernetes的电商平台部署:实现高可用、弹性伸缩与容器化管理

▲ 点击上方"DevOps和k8s全栈技术"关注公众号 背景:电商平台的高可用性和可伸缩性是保证用户体验和业务发展的重要因素。Kubernetes(K8s)作为一个容器编排平台,可以提供强大的容器管理和自动化部署能力,使得…

人手一个 Midjourney,StableStudio 重磅开源!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 上个月 19 号,Stability AI 开源大语言模型 StableLM,模型的 Alpha 版本有 30 亿和 70 亿参数,并支持商用。 过去仅一个月,Stability AI 再次…

鉴权管理系统(JWT技术架构)——SpringBoot2+Vue2(一定惊喜满满,万字长文)

初衷: 一直不太理解整个前后端的鉴权,跨域等问题,抽空两个晚上整理出万字文章,也是对于自己的一个交代,现在共享出来,希望大家也能受益,将使用过程在这里一一详述,还是多说一句&…

简述 JavaScript 中 prototype

简述 JavaScript 中 prototype 这篇笔记主要捋一下这么几个概念: JS 的继承构造函数new 的作用及简易实现__proto__ & prototype同样的方法,class 和 prototype 中分别是怎么实现的 基础概念 JS 是通过 prototype chaining 实现继承的语言&#…

linux(缓冲区学习)

目录: 1.对进程是如何和这个进程打开文件进行关联的总结 2.标准输出和标准错误都是往显示器上打印--有何区别 3.缓冲区 --------------------------------------------------------------------------------------------------------------------------- 1.对进程是…

双模齐下,提质增效:知微携手CODING共创BizDevOps体系新篇章

为了提升工作和管理效率,工具建设是许多企业不得不面对的现实,然而在工具建设落地过程中,往往存在一系列的问题。如不同组织、部门之间互不相通,各自为政,工具流程与实际工作所需不符,导致工具建设的结果是…

做实大模型的产业价值,度小满深耕“NLP+金融”

2023年的五月,称得上一句AI之夏。 大模型层出不穷、扎堆发布。 这一轮由大模型推动的AI热潮中, NLP(自然语言处理)技术与金融落地场景的结合备受期待。金融行业是数字化、智能化的先行者,也是大模型技术落地的最佳领域…

chatgpt赋能Python-python3h怎么操作

Python3 SEO操作指南 Python3语言已成为计算机编程领域的标准和主要工具之一。SEO(Search Engine Optimization)是一种促进网站在搜索引擎结果中排名的技术。Python3也可以用来执行SEO操作,本文将介绍如何使用Python3进行SEO操作&#xff0c…

替换字符串的关键字KeywordProcessor

【小白从小学Python、C、Java】 【等级考试500强双证书考研】 【Python-数据分析】 替换字符串的关键字 KeywordProcessor [太阳]选择题 以下说法错误的一项是: from flashtext import KeywordProcessor myKP KeywordProcessor() myKP.add_keyword(English, Math) …

别在碳排放问题上大搞双重标准!

* * * 原创:刘教链 * * * 隔夜比特币从26.5k一线奋力跃升,回升至27.5k一线。 最近美国有些人又要对比特币的碳排放搞双重标准了。说的是比特币挖矿烧掉了多少多少电力,折合多少多少碳排放,因此应当加征多少多少排放税&#xff0c…

springboot+java电影院售票订票选座推荐系统554c6

主页是注册,登录,搜索。 用户在注册之前可以进行搜索查询现在上映的和即将上映的影片信息,但是不能在线购票。购票需注册登录之后方可。 用户可以修改自己注册后的账户信息,注册成功后直接登录。退出网页后,取消登录信…

ChatGPT APP来了,还可以直接订阅Plus账号,操作流程都这篇里面

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 OpenAI宣布推出聊天机器人ChatGPT的APP,目前已上架苹果App Store&#xf…

三十八、流控效果、热点数据限流、熔断降级、push到配置中心nacos

1、流控效果 流控效果是指请求达到流控阈值时应该采取的措施,包括三种: 快速失败:达到阈值后,新的请求会被立即拒绝并抛出FlowException异常。是默认的处理方式。 warm up:预热模式,对超出阈值的请求同样是…

OpenAI的巨额捐款背后,马斯克到底捐了多少?

来源:Techcrunch 作者:Mark Harris 编译:巴比特 自 2018 年 2 月退出 OpenAI 董事会以来,埃隆马斯克(Elon Musk)一直对 OpenAI 深感失望,这已不是什么秘密,最终他在一封公开信中呼吁…