论文速读:简化目标检测的无源域适应-有效的自我训练策略和性能洞察(ECCV2024)

news2024/11/8 10:38:38

中文标题:简化目标检测的无源域适应:有效的自我训练策略和性能洞察

原文标题:Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights

此篇文章为论文速读,具体论文精读可以看这一篇:ECCV2024新鲜出炉!简化无源域适应的目标检测-有效的自我训练策略和性能洞察-CSDN博客文章浏览阅读441次。在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。https://blog.csdn.net/m0_63294504/article/details/143504736

1Abstract

本文重点关注计算机视觉中目标检测的无源域适应。这项任务非常具有挑战性并且具有很大的实际意义,因为获取每个新领域的带注释数据集的成本很高。最近的研究针对无源目标检测(SFOD)提出了各种各样的解决方案,其中大多数是具有不同特征对齐、正则化和伪标签选择策略的师生架构的变体。我们的工作研究了在几种适应场景中与更复杂的 SFOD 方法相比更简单的方法及其性能。我们强调了检测器主干中批量归一化层的重要性,并表明仅调整批量统计数据就能使模型成为 SFOD 的强大基线。我们在无源设置中针对 Mean Teacher 提出具有强弱增强(strong-weak augmentation)的简单扩展,即无源无偏教师 (SF-UT),并表明它实际上优于以前的大多数 SFOD 方法。此外我们还展示了一种更简单的策略,即在一组固定的伪标签上进行训练,可以实现与更复杂的师生相互学习相似的性能,提高计算效率的同时并减轻师生崩溃的主要问题。我们使用(Foggy)Cityscapes、Sim10k 和 KITTI 等基准驱动数据集对多项适应任务进行了实验,与 SFOD 的最新技术相比,在 Cityscapes→FoggyCityscapes 上实现了 4.7% AP50 的显著改进。

2、Introduction

2.1、无源域适应的定义与价值

领域适应旨在将从源领域获取的知识转移到具有一定相关性但数据分布不同的目标领域,其特征是领域转移。无源域适应 (SFDA) 解决了一个更具挑战性的场景,即只能访问来自源域的预训练模型和来自目标域的未标记数据。这与标准的无监督域适应 (UDA) 形成鲜明对比,后者可以使用标记的源数据。在难以获得目标域数据标签,以及由于隐私问题、存储限制或部署约束而限制源数据使用的情况下,SFDA变得特别有价值。我们关注的是无源目标检测(source - free Object Detection, SFOD),其目的是在不访问源数据的情况下,将在源域上训练的检测器适应于未标记的目标域。

2.2、目标检测

目标检测是在图像中同时定位和分类多个目标的任务,是计算机视觉的一个主要领域,具有许多实际应用。虽然基于深度学习的目标检测器近年来取得了显著的成功,但它们的性能在存在域转移的情况下往往会出现显著的下降。目标检测的领域适应明显比分类更具挑战性,因为它不仅需要准确的分类,还需要精确的定位。为了应对这一挑战,人们提出了各种无监督域适应的方法来解决目标检测任务(UDAOD)。

2.3、无源域适应目标检测

尽管具有实际意义,但 SFOD 受到的关注相对较少。当存在显著的域转移并且源数据不可访问时,该任务变得特别艰巨,阻止了域转移的显式减少。大多数提出的 SFOD 方法采用 Mean Teacher (MT) 框架,在置信伪标签上进行自我训练。Mean Teacher 最初是为半监督学习(semi-supervised learning,SSL)引入的,是 temporal ensembling 的一种变体,其中知识从教师网络提取到学生网络。学生从教师那里接收伪标签,并通过标准的基于梯度的学习进行更新,而老师则通过先前学生权重的指数移动平均值(EMA)逐渐更新。这种方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。在完全无标签的师生架构训练中,一个主要问题是教师和学生在训练过程中的崩溃。具体来说,每当教师在目标域的表现开始下降时,就会导致学生的进一步下降,进而导致两个网络中的表现崩溃。为了缓解这一挑战,有研究将教师更新的周期增加到2500步(没有指定更新速率,也没有指定如何设置更新周期)。PETS 建议教师和学生定期交换,并增加一名更新较慢的教师,以有效防止灾难性崩溃;然而,这增加了整个体系结构的复杂性,并且需要根据经验设置交换周期。

2.4、本文提出的方法

在这项工作中,我们证明了与前面提到的更复杂的 SFOD 方法相比,一种更简单的 SFOD 方法的有效性。首先,我们强调批量归一化(BN)层的重要性,使用更现代的主干 VGG16-BN(带有 BN 层)而不是之前工作中使用的 VGG16 来展示它们对适应的影响。具体来说,仅通过调整未标记目标训练数据的批量统计数据(一种称为 AdaBN 的技术)被证明是 SFOD 的强大基线。其次,我们提出将无偏见教师(UT)直接扩展到无源设置,称为无源无偏见教师(SF-UT)。最后,我们探索了 SFOD 自我训练策略的各种配置(见图 1)。这包括不同的教师 EMA 更新率、弱强增强的使用以及批量统计数据的适应。我们研究了教师更新率 α 的极端情况,范围从 α = 0(相当于仅使用未标记数据的伪标签训练(Pseudo-Label training)的无源版本,SF-PL)到 α = 1(对应于固定的教师,即在源训练模型产生的固定初始伪标签集上进行训练)。当 SF-PL 与弱强增强相结合时,它相当于 FixMatch的无源版本 (SF-FM) 。对于后者 α = 1 的情况(即固定伪标签),我们将它们分别称为Fixed SF-PL 和Fixed SF-FM,分别用于有和没有弱强增强的情况。我们证明了 AdaBN + Fixed SF-FM 方法,使用由预先使用 AdaBN 适应目标域的源模型生成的固定初始伪标签,其效果几乎与适用于源的成熟的 Unbiased Teacher 一样有效(本文SF-UT)。我们提出的方法 AdaBN + Fixed SF-FM 具有稳定训练的优点,因为它在教师和学生之间没有反馈循环,同时实现了类似的良好性能。

图1:具有不同教师更新率α和使用弱-强增强的SFOD的无源平均教师配置概述。α = 0(即教师=学生)的极端情况分别对应于(无源)Pseudo-Label 和FixMatch。α = 1可以表示为将教师冻结并在一组固定的伪标签上进行训练。令人惊讶的是,AdaBN之后的固定伪标签训练产生的效果与更复杂的师生相互学习相似,并对最先进的SFOD方法提出了挑战。

2.5、本文贡献

1我们强调了批归一化层的重要性,并证明了批统计适应无源目标检测任务的有效性。

2我们介绍了一个无源扩展的无偏教师(SF-UT)。

3我们提出了一种新颖的轻量级策略,将AdaBN与使用弱-强增强的一组固定伪标签的训练相结合(AdaBN + Fixed SF-FixMatch)。

4我们在三种 SFOD 适应场景中进行了实验:恶劣天气适应(Cityscapes→Foggy-Cityscapes)、跨摄像机适应(KITTI→Cityscapes)和合成到真实的适应(SIM10k→Cityscapes)。与更复杂的最先进 SFOD 方法相比,我们证明了 SF-UT 具有优越或接近的性能。此外,简单的AdaBN+Fixed SF-FixMatch策略也取得了有竞争力的结果,并避免了师生方法中常见的崩溃。

3、Related work

3.1、UDA for Object Detection (UDAOD)

1)领域自适应的目的是将学习到的知识从源领域转移到目标领域。在无监督域自适应(Unsupervised Domain Adaptation,UDA)中,源域中有标记的数据可用,目标域中只有未标记的样本可用。大多数UDA方法共享的主要原则是在对源数据联合执行有监督训练的同时显式地减少域移位。域差异的减少可以通过匹配源和目标的特征分布、最优传输或通过核学习或域对抗训练来学习域不变特征来实现。

2)在用于目标检测任务(UDAOD)的 UDA 中,一种流行的方法是通过域对抗训练在图像或实例级别对齐源域和目标域之间的特征,包括 DA-Faster 、SW-Faster、SSA-DA、ICR-CCR、SGA-S、ATF、MeGACDA 和 CST-DA。还研究了在目标域上使用伪标签的方法。例如,NL 设计了一种用于目标检测的鲁棒噪声训练方案,该方案在从目标域获取具有噪声的边界框和标签作为伪真实值进行训练。MTOR、UMT 和 AT 采用 Mean Teacher (MT) 架构。SAPNet利用了注意力机制来关注最具区别性的特征。

3.2、Source-Free Object Detection (SFOD)

无源目标检测(SFOD)由于无法在没有源域数据的情况下显式地减少域差异而具有挑战性。最近,已经提出了几种方法来解决这个问题。由于只有未标记的目标数据可用,他们采用对目标样本进行伪标签的自我训练策略。SED 采用自熵下降策略获得合适的伪标签置信阈值。HCL 探索了基于记忆的学习,针对实例区分和类别区分提出了历史对比学习方法。最近的方法基于 Mean Teacher 范式,并结合各种附加对齐、伪标签选择或正则化策略。SOAP  使用对抗性学习,通过用特定领域的噪声扰乱目标图像来转移检测器。同样,LODS 通过增强每个目标域图像的风格,并利用原始图像与增强图像之间的风格程度差异来指导自适应,从而学习域转移。A2SFOD 提出了一种分四个阶段的方法,根据方差标准对目标数据进行划分,并通过对抗性训练对其特征进行对齐。IRG 使用图卷积网络增加了基于学习实例关系的图引导约束损失。ESOD 使用熵最小化来寻找最优置信阈值。在RPL 中,MT 架构利用了类别感知的伪标签自适应阈值和定位感知的伪标签分配策略。Chen等人为空间对比损失项中使用的低置信度提案引入了第二个置信度阈值。最后,PETS 通过定期交换教师和学生,以及增加一个更新较慢的动态教师来稳定训练,解决了师生相互学习崩溃的问题。

3.3、Self-training

1对置信伪标签(PL)进行自我训练是半监督学习(SSL)中的一种有效技术。对未标记数据的置信预测会被当作伪标签,并添加到下一轮训练的标记数据中。FixMatch 提出利用弱-强增强,并使用来自弱增强输入的得到伪标签作为强增强输入的监督目标。

2Mean Teacher (MT)是 temporal ensembling 的变体,其中知识通过一致性损失或伪标签策略从教师网络中提取到学生网络中。学生通过标准的梯度学习进行更新,而教师通过先前学生权重的指数移动平均值(EMA)逐渐更新,从而得到先前学生迭代的集合。该方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。与之前维持保持EMA 的工作不同,权重 EMA 允许更短的更新周期,因为预测每个周期仅更改一次,而权重每一步都会更改。

3Unbiased Teacher (UT)提出了一种弱-强增强的Mean Teacher算法,用于半监督目标检测。经过一个纯源训练阶段后,教师接受弱增强的目标数据输入,生成伪标签来训练接受强增强输入的学生。 Adaptive Teacher 将UT扩展到无监督域自适应,此外它采用了对抗性学习,在学生网络中结合了一个鉴别器来对齐两个领域的图像级特征。

4、Benchmark results

在本节中,我们将本文提出的 SF-UT 与 UDAOD 和 SFOD 的各种最先进的方法进行比较。三个适应任务的结果显示在表 3、表 4 和表 5 中。我们还根据论文和可用代码指出了每种方法的主干。请注意对于 VGG16 主干,作者并不总是指出 BN 的存在。

在所有比较的 SFOD 方法中,SF-UT 在 Cityscapes→Foggy 上表现出最好的性能,mAP 为 45.0%,大大优于之前最先进的 RPL。这部分归功于 VGG16-BN 主干网的优越性。因此,我们还对之前方法中使用的 VGG16 主干进行了实验。在这种情况下,SF-UT 达到 39.2 mAP,仍然接近最先进的水平。然而SF-UT 要简单得多,并且不包含其他更复杂方法中使用的正则化、对齐或伪标签增强技术。

5、Conclusion

在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。此外,我们引入了一种简单的策略,包括在批量统计适应(AdaBN + fixed SF-FM)之后对一组固定的伪标签进行强增强训练,也产生了令人满意的性能,并显著减轻了自训练中的崩溃问题。 总的来说,我们展示了如何以更简单的方法超越以前复杂得多的SFOD方法。

许多现代架构,如ConvNeXt或Transformers,都支持GroupNorm或LayerNorm。据我们所知,GN和LN层对域适应的适应尚未被探索,并且是一个有趣的研究视角。作为未来工作的一部分,我们还考虑评估各种不同的骨干和检测器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235752.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小白入门学习计算机辅助工具--Git和Github

虽然平时大家都有听过Github,但这实际上要分为Git和Github,我们可以简单理解为前者是用于本地,后者是远程端。下面我们来看看一些基本的操作。 Github创建仓库 让我们先从Github开始,点击右边的绿色按钮new进入创建库界面&#x…

【C++】哈希表封装 unordered_map 和 unordered_set 的实现过程

C语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现List使用及其模拟实现容器适配器Stack与QueuePriori…

攀拓(PAT)- 程序设计(乙级)2024年春季考试

题目来源:https://pintia.cn/market/item/1767454903977603072 B-1 题目要求 2024 这个数字,可以由 n n n个互不相同的正偶数和 m m m个互不相同的正奇数组合出来吗?本题就请你回答这个问题。 输入格式: 输入在一行中给出一个…

STM32 BootLoader 刷新项目 (九) 跳转指定地址-命令0x55

STM32 BootLoader 刷新项目 (九) 跳转指定地址-命令0x55 前面我们讲述了几种BootLoader中的命令,包括获取软件版本号、获取帮助、获取芯片ID、读取Flash保护Level。 下面我们来介绍一下BootLoader中最重要的功能之一—跳转!就像BootLoader词汇中的Boot…

VTK知识学习(2)-环境搭建

1、c方案 1.1下载源码编译 官网获取源码。 利用Cmake进行项目构建。 里面要根据实际使用的情况配置相关的模块哟,这个得你自行研究下了。 CMAKEINSTALLPREFIX--这个选项的值表示VTK的安装路径,默认的路径是C:/Program Files/VTK。该选项的值可不作更…

Chrome(谷歌浏览器中文版)下载安装(Windows 11)

目录 Chrome_10_30工具下载安装 Chrome_10_30 工具 系统:Windows 11 下载 官网:https://chrome.google-zh.com/,点击立即下载 下载完成(已经下过一遍所以点了取消) 安装 解压,打开安装包 点击下一步…

如何在算家云搭建Aatrox-Bert-VITS2(音频生成)

一、模型介绍 ‌ Aatrox - Bert -VITS2 模型是一种基于深度学习的语音合成系统,结合了 BERT 的预训练能力和 VITS2 的微调技术,旨在实现高质量的个性化语音合成。 二、模型搭建流程 1. 创建容器实例 进入算家云的“应用社区”,点击搜索找到…

232转485模块测试

概述 常用的PLC一般会有两个左右的232口,以及两个左右的485口,CAN口等,但是PLC一般控制的设备可能会有很多,会超出通讯口的数量,此时我们一般会采用一个口接多个设备,这种情况下要注意干扰等因素&#xff0…

静态数组类型无法用“=“给整个静态数组赋值

基础知识: 什么是静态数组类型? 在 C 中,静态数组是一种在编译时大小固定的数组。这意味着一旦声明,静态数组的大小就不能改变。 ------ 你可以声明一个静态数组并选择性地初始化它: int arr[10]; // 声明一个包…

使用 Python 调用云 API 实现批量共享自定义镜像

本文介绍如何通过 Python SDK 调用 API 接口,通过子用户批量共享云服务器自定义镜像。若您具备类似需求,或想了解如何使用 SDK,可参考本文进行操作。 前提条件 已创建子用户,并已具备云服务器及云 API 所有权限。 创建子用户请…

【旷视科技-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

GISBox VS ArcGIS:分别适用于大型和小型项目的两款GIS软件

在现代地理信息系统(GIS)领域,有许多大家耳熟能详的GIS软件。它们各自具有独特的优势,适用于不同的行业需求和使用场景。在众多企业和开发者面前,如何选择合适的 GIS 软件成为了一个值得深入思考的问题。今天&#xff…

【Spring】Spring Web MVC基础入门~(含大量例子)

阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 一:什么是Spring Web MVC 1:Servlet 2:总结 二:MVC …

数组类算法【leetcode】

704. 二分查找 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 二分查找 用于有序数组中,没有重复的数组。…

24/11/7 算法笔记 PCA主成分分析

假如我们的数据集是n维的,共有m个数据(x,x,...,x)。我们希望将这m个数据的维度从n维降到k维,希望这m个k维的数据集尽可能的代表原始数据集。我们知道数据从n维降到k维肯定会有损失,但是我们希望损失尽可能的小。那么如何让这k维的数据尽可能表…

wxWidgets布局管理及XRC界面使用解惑

wxWidgets布局,通常就是wxBoxSizer,当然还有别的Sizer,就像Qt中的Layout一样,各种布局管理类。只是如今的wxWidgets尚未发展起来,一般其他的你用的比较少,因为这个最简单,最容易布局&#xff0c…

【开源免费】基于SpringBoot+Vue.JS医院管理系统(JAVA毕业设计)

博主说明:本文项目编号 T 062 ,文末自助获取源码 \color{red}{T062,文末自助获取源码} T062,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

【循环引用及格式化输出】

垃圾回收机制 当一个值在内存中直接引用跟间接引用的量为0时,(即这个值没有任何入口可以找到它)那么这个值就会被清空回收♻️,释放内存空间; 列表在内存中的存储方式 1)引用计数的两种方式 x "ea…

31.7K+ Star!AgentGPT:一个在浏览器中运行的Agent

AgentGPT 简介 AgentGPT[1] 是一个可以让你在浏览器中组装、配置和部署自主AI代理的项目。你可以为你的自定义AI命名,并让它去实现任何你想象中目标。它将尝试通过思考要执行的任务、执行它们并从结果中学习来达成目标。 项目特点 主要特点 自主AI代理:用户可以自定义AI并赋…

【大模型】通过Crew AI 公司的崛起之路学习 AI Agents 的用法

AI 技术的迅猛发展正以前所未有的速度重塑商业格局,而 AI Agents,作为新一代的智能自动化工具,正逐步成为创新型公司的核心力量。在本文中,我们将探讨如何利用 AI Agents 构建一家 AI 驱动的公司,并详细了解 Crew AI 创…