论文速读:通过目标感知双分支蒸馏进行跨域目标检测(CVPR2022)

news2025/1/15 20:33:41

原文标题:Cross Domain Object Detection by Target-Perceived Dual Branch Distillation

中文标题:通过目标感知双分支蒸馏进行跨域目标检测

论文地址: https://arxiv.org/abs/2205.01291

代码地址: GitHub - Feobi1999/TDD

这篇文章是由中科院深圳先进研究院、商汤科技研究院、北航等机构发布的

1、摘要

跨域目标检测是一项现实且具有挑战性的任务。由于数据分布的大幅偏移和目标域数据缺乏详细的标注信息,跨域目标检测性能往往不尽人意。为了解决这个问题,作者提出了一种新颖的目标感知双分支蒸馏(TDD)框架。通过将源域和目标域的检测分支集成在统一的师生学习方案中,可以有效地减少域漂移,并产生可靠的监督。首先在两个域之间引入一个不同的目标提案感知器,它通过迭代交叉注意来促使目标感知上下文,自适应增强源检测器对目标图像中的目标的感知能力。随后设计了一种简洁的双分支自蒸馏策略用于模型训练,该策略可以通过两个分支的自蒸馏逐步集成来自不同领域互补对象的知识。最后对跨域目标检测中的许多广泛使用的场景进行了广泛的实验,结果表明,作者的 TDD 在所有基准测试中都显著优于最先进的方法。

2Introduction

2.1、跨域目标检测面临的挑战和困难

在先进的深度神经网络的帮助下,目标检测取得了显著的成功;然而在自动驾驶和移动机器人等现实应用中,它仍然面临挑战;由于天气、照明、物体外观等各种条件,数据差异往往很大。 因此近年来,跨域目标检测受到了广泛的关注;这个问题有两个难点。首先,目标检测更容易受到域漂移的影响;其主要原因是目标检测侧重于实例级预测,对各种图像风格和内容的目标变化更为敏感。其次,目标标注信息的获取成本和劳动强度较高,导致在新领域中缺乏对目标有监督式判别。这两者都不可避免地降低了目标域的检测性能。

2.2、现有方法的瓶颈和局限

近年来,人们提出了几种跨域目标检测方法;遗憾的是它们大多集中在域漂移或标签上的缺陷,这限制了它们在跨域目标检测中的能力。例如,领域自适应domain adaption方法提出通过对抗性训练来减少领域漂移;在这种对抗设计中,除了模型优化不稳定外,网络的识别能力也受到限制;如下图1所示,基于对抗性的GPA往往会对目标域特征显著的区域产生错误的预测。半监督方法UBT缺乏对雾中物体的感知,而基于对抗性的GPA试图识别雾中的物体,但给出了一些错误的预测,例如第一排是摩托车,第二排是人。作者的方法可以更准确地预测边界框和物体类别。

基于自训练的方法从半监督学习的角度研究问题,并提出通过标签蒸馏生成伪对象监督。通过这种方式,许多先进的半监督方法可以转移到这个任务中。然而这些方法往往不足以处理复杂的领域转移,像UBT这样的半监督方法很难感知目标域中的目标,因此这两种解在跨域目标检测中都不能令人满意。

2.3、本文提出的方法

在此基础上,作者提出了一种新的目标感知双分支蒸馏(TDD)框架,该框架可以在简洁的双分支检测网络中通过对象感知和知识蒸馏有效地解决领域转移和标签缺陷问题。具体来说,该的网络由一个源自适应分支(source-adaptive branch)和一个类目标分支(target-like branch)组成,这两个分支都被精心设计以面向目标来减少域转移。对于源自适应分支,作者引入了一个独特的目标提案感知器(distinct Target Proposal Perceiver),它利用迭代交叉注意力(iterative cross-attention)来发现每个提案的目标域上下文;它可以自适应增强源分支以感知目标域图像中的对象。对于类目标分支,将源域的图像转换为类目标域的图像,通过使用这些已标注的图像训练该分支,可以可靠地学习目标域的判别性目标知识。最后,作者设计了一种简明的双分支自蒸馏网络训练策略,这是一个定制的mean-teacher风格框架,用于从源自适应分支和类目标分支生成目标域图像的伪标签注释。通过以上精心设计的三个训练步骤,即联合域预训练跨域蒸馏双教师提炼,我们可以逐步整合来自不同领域的互补目标知识,以促进跨领域目标的检测。

2.4、本文贡献

综上所述,本文有以下贡献。首先,作者开发了一种新颖的目标感知双分支蒸馏(TDD)框架,该框架利用两个不同的检测分支通过统一的师生学习方式来解决域漂移和标签缺陷问题。其次,作者引入了一个智能目标提案感知器模块,它可以通过提案上下文中的交叉注意转换器自适应地引导源检测分支感知目标域对象。最后,作者对许多广泛使用的基准进行了广泛的实验,本文的 TDD 大大优于最先进的方法。

3、Related Work

3.1、目标检测

目标检测(Object detection)是计算机视觉的基本任务之一。近年来,在深度神经网络强大的表示能力的推动下,目标检测取得了良好的性能。以往的工作大致可分为两级和单级探测器。最近,一些基于无锚(anchor-free)和transformer的方法也在检测任务中脱颖而出。

3.2、跨域目标检测(Cross domain object detection)

首先,有研究提出图像和实例层域分类器,通过对抗学习的方式实现特征对齐。在此基础上,有研究分别针对局部特征和全局特征实施强-弱对齐策略(strong-weak alignment strategy)。有研究采用多级域特征对齐(multi level domain feature alignment)。也有研究在多标签分类模型的帮助下,利用图像级和实例级预测之间的分类一致性。还有研究提出了一种中心感知特征对齐(center-aware feature alignment)方法,允许判别器聚焦于来自目标区域的特征。其他一些研究在对抗性学习阶段增加了额外的限制或者强调处理前景和背景特征的不同策略。

另一种主流方法致力于解决目标域标注不准确的问题。有研究使用目标域中的原始标记数据和经过精炼改进的机器生成伪标签来重新训练目标检测器。有研究从半监督学习的角度出发,并将目标之间的关系融入师生模块一致性成本的度量中。也有研究提出了一种同时利用类源(source-like)图像和类目标(target-like)图像的跨域蒸馏(cross-domain distillation)方法,它采用软标签和实例选择的方法来解决Mean-Teacher中的模型偏差;与之不同的是,作者的方法提出了一个双分支框架和一个跨领域感知器,用于师生相互学习。

3.3、半监督目标检测(Semi-supervised object detection)

当训练集只有一部分注释时,半监督目标检测试图解决这个问题。在此背景下,有研究提出了一种基于一致性的方法,强制输入图像及其翻转版本之间保持预测一致性。有研究使用少量已标注的数据预先训练检测器,并在未标注数据上生成伪标签来微调预训练检测器。有研究提出了采用强增强和弱增强来改进平均教师法,通过EMA训练可以得到更准确的伪标签。这些方法由于数据集相似,可以很容易地应用于跨域目标检测问题,但它们没有考虑到数据域之间的差异性,这不可避免地限制了它们的检测性能。

4、Proposed Methods

4.1、Overview

如下图所示,作者提出了一个新的目标感知双分支蒸馏框架(TDD),它同时解决了跨域目标检测任务中域漂移和缺乏标注信息的问题。

首先,作者从输入图像的角度介绍了一个风格迁移(Style Transfer)模块,它用于将源域图像转换为类似目标域的样式,从而可以通过这种类似目标域的迁移域来弥合领域差距。此外,由于类目标域图像继承了相应源域图像的标签注释,因此可以在类目标域中用作额外的目标监督。在本文中主要使用一种简洁有效的傅立叶变换方法作为该模块。

其次,从模型体系架构的角度设计了一种新型的双分支检测网络。通过这种设计,可以有效地从不同的领域提取互补的目标知识,从而提高目标图像上的目标检测性能。该网络由一个共享权重的提案提取器(proposal extractor)和两个单独的检测分支组成;前者允许构造所有图像的域不变特征空间,用于域泛化;而后者保留了每幅图像的域特定目标特征,用于域区分;具体两个检测分支分别是源自适应(Source-Adaptive,SA)分支和类目标(Target-Like,TL)分支;作者使用源域图像的提案来训练SA分支,同时用类目标域图像的提案来训练TL分支;此外,将真实目标域图像的提案发送到两个分支中,以便从源域和类目标域学习对象知识。但是源域可能与目标域有很大不同,在这种情况下,如果没有任何面向目标域的引导,就无法在 SA 分支中准确地检测到目标域图像的提案。为了解决这个问题,作者设计了一种新颖的目标提案感知器(Target Proposal Perceiver),它巧妙地在两个分支中的提案特征之间使用迭代交叉注意;在这种情况下,作者利用TL分支的上下文提案作为指导,可以有效地指导SA分支感知目标域中的目标提案。

最后,作者从有监督的角度介绍了一种简洁的双分支自蒸馏方法。如前所述,目标域中的所有图像都没有任何标注信息,因此在目标域产生可靠的监督是至关重要的。由于双分支网络可以从SA和TL分支的协同合作中构造出每个目标域图像的鉴别伪标签,为了有效地利用这些伪标签,自蒸馏是基于师生相互学习的,它可以在训练过程中动态调整教师分支,逐步提高两个分支的目标域监督。

5、Conclusion

在这项工作中,作者提出了一个新的目标感知双分支蒸馏框架。通过目标建议感知器和双分支自蒸馏过程,共同解决了跨域目标检测中的域移位和标记不足问题。最后在多个基准上进行了广泛的实验,结果清楚地表明本文的TDD超越了现有的最先进的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2219256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用多块AMD GPU通过Megatron-DeepSpeed进行大型语言模型的预训练

Pre-training a large language model with Megatron-DeepSpeed on multiple AMD GPUs 2024年1月24日,作者:Douglas Jia 在这篇博客中,我们将向你展示如何使用Megatron-DeepSpeed框架在多块AMD GPU上预训练GPT-3模型。我们还将展示如何使用你…

5、JavaScript(二) 对象+DOM

17.对象 1、对象:⽤来存储多个数据的 是由多个键值对/key value对组成的 ⽤来描述⼀个事物的 相当于多个变量的集合 2、格式 :{key:value,key:value} 键/值对 属性名:属性值 3、对象的属性值是不限制数据类型的,甚至还可以是对…

常用的字符集(ASCII、GBK)

目录 1.ASCII字符集 2.各版本的字符集 3. GBK字符集在计算机中的存储规则 4. 总结 1.ASCII字符集 计算机中最小的存储单元是一个字节,一个字节8bit 0-127 一共是128个 2.各版本的字符集 只需要掌握GBK和Unicode两个字符集。GBK是简体中文window操作系统默认使…

85.【C语言】数据结构之顺序表的中间插入和删除及遍历查找

目录 3.操作顺序表 1.分析中间插入函数 函数的参数 代码示例 图片分析 main.c部分改为 在SeqList.h添加SLInsert函数的声明 运行结果 2.分析中间删除函数 函数的参数 代码示例 图片分析 main.c部分改为 在SeqList.h添加SLErase函数的声明 运行结果 承接84.【C语…

Atlas800昇腾服务器(型号:3000)—YOLO全系列NPU推理【检测】(五)

服务器配置如下: CPU/NPU:鲲鹏 CPU(ARM64)A300I pro推理卡 系统:Kylin V10 SP1【下载链接】【安装链接】 驱动与固件版本版本: Ascend-hdk-310p-npu-driver_23.0.1_linux-aarch64.run【下载链接】 Ascend-…

spring boot实现不停机更新

主要实现思路:发布新的应用程序(与原端口不同),启动成功后,将原端口进行优雅关闭,同时将应用程序端口动态切换至原端口 application.yml server:port: 8000shutdown: graceful DatapickCliApplication package com.zy.datapickcli;import org.springframework.boot.SpringAp…

保研考研机试攻略:python笔记(1)

🐨🐨🐨宝子们好呀 ~ 我来更新欠大家的python笔记了,从这一篇开始我们来学下python,当然,如果只是想应对机试并且应试语言以C和C为主,那么大家对python了解一点就好,重点可以看高分篇…

pikachu靶场CSRF-get测试报告

目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、抓包使用burp生成csrf脚本 四、源代码分析 五、结论 一、测试环境 1、系统环境 渗透机:本机(127.0.0.1) 靶 机:本机(127.0.0.1) 2、使用工具/软件 Burp sui…

【Trick】在vscode上配置copilot时,输出端出现Invalid copilot token: missing token: 403

今天心血来潮想要给vscode配置一个copilot,正好上学期在github上通过教育邮箱实现了学生认证,可以免费使用copilot服务(bushi)。 首先是按照官网(Getting code suggestions in your IDE with GitHub Copilot - GitHub…

机器学习与金融风控项目篇-day01-风控业务

一. 整体项目介绍 1.风控业务和风控报表 零售金融产品相关的指标风控建模流程 2.特征工程 特征构造特征筛选 3.评分卡模型构建 逻辑回归集成学习 XGBoost LightGBM模型评估 4.样本不均衡问题/异常点检测 二. 信贷与风控介绍 信贷业务 信贷业务,就是贷款业务&#x…

桃子叶片病害分类检测数据集(猫脸码客 第221期)

桃子叶片病害分类检测数据集 一、引言 桃子作为世界上广泛种植的果树之一,其叶片的健康状况直接关系到果实的产量和品质。然而,桃子叶片易受多种病害的侵袭,这些病害不仅影响叶片的光合作用,还可能导致果实减产、品质下降&#…

XPM_CDC_SYNC_RST

免责声明:本文所提供的信息和内容仅供参考。作者对本文内容的准确性、完整性、及时性或适用性不作任何明示或暗示的保证。在任何情况下,作者不对因使用本文内容而导致的任何直接或间接损失承担责任,包括但不限于数据丢失、业务中断或其他经济…

基于SSM的医院药品管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

Axure垂直菜单展开与折叠

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! 课程主题:Axure垂直菜单展开与折叠 主要内容:垂直菜单单击实现展开/折叠,点击各菜单项显示选中效果 应用场景:后台菜单设…

靠卡车赚钱,小马智行等待Robotaxi的春天

文|刘俊宏 编|王一粟 继文远知行之后,又一家L4无人驾驶公司也准备上市。 10月18日,无人驾驶服务商小马智行向美国SEC(证券交易委员会)提交了招股书。继百度、Waymo、特斯拉之后,根据招股书的…

【EPLAN 2.9】清理Data文件夹的小工具

背景: 随着EPLAN不断使用“C:\Users\Public\EPLAN\Data”文件夹会越来越大(EPLAN2.9部件管理中删除部件不会去删除文件夹内相关资源文件),本工具在于清理文件夹内未被EPLAN关联的宏、图片、文档。仅支持EPLAN 2.9 代码&#xff…

[环境配置]macOS上怎么查看vscode的commit id

macOS的commit id和windows上有点不一样,windows可以在帮助-关于查看 macOS则需要再左边第一个查看

(AtCoder Beginner Contest 375)C - Spiral Rotation

(AtCoder Beginner Contest 375)C - Spiral Rotation 题目大意 给定二维数组 a [ n ] [ n ] , n m o d 2 0 a[n][n],n \mod 20 a[n][n],nmod20 执行 i 1 , 2 , . . . i1,2,... i1,2,... n / 2 n/2 n/2 操作 每次操作对于 ∀ x , y ∈ [ i , n 1 − …

使用 JAX 进行 LLM 分布式监督微调

LLM distributed supervised fine-tuning with JAX — ROCm Blogs (amd.com) 24年1月25日,Douglas Jia 发布在AMD ROCm 博客上的文章。 在这篇文章中,我们回顾了使用 JAX 对基于双向编码器表示(BERT)的大型语言模型(LL…

bash之基本运算符

一.算术运算符 vim test.sh #!/bin/basha10 b20valexpr $a $b echo "a b : $val"valexpr $a - $b echo "a - b : $val"valexpr $a \* $b echo "a * b : $val"valexpr $b / $a echo "b / a : $val"valexpr $b % $a echo "b % a …