​TPAMI 2023 | 无监督域适应语义分割新视角:统一图像和特征层次的对齐

news2025/1/24 17:23:14

e25b54b0e83f4e9cfdd782b4ddfef215.gif

©PaperWeekly 原创 · 作者 | 陈超奇

单位 | 香港大学

研究方向 | 迁移学习

ae5f60607a0e10fa0e5e657aeea124e5.png

论文标题:

I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic Segmentation

论文链接:

https://arxiv.org/abs/2301.01149(预印版)

https://ieeexplore.ieee.org/abstract/document/9984933/(IEEE TPAMI版)

4ad9c04edeab19f06179dff0b320e537.png

摘要

本文研究用于语义分割任务的无监督域自适应 (UDA)算法。我们观察到图像低层统计量和高层语义中的域差异显著地影响目标域上的分割性能。因此,解决这个问题的一个关键是同时执行图像级别和特征级别的域适应。然而,已有的文献中缺乏这种统一的结构,特别是针对语义分割任务。

本文提出了一种新颖的用于语义分割的 UDA 框架,它将图像级别和特征级别自适应统一起来。具体而言,针对图像级别的域偏移,我们提出了全局光度对齐模块和全局纹理对齐模块,以图像级属性对齐源域和目标域中的图像。对于特征级别的域偏移,我们通过将来自两个域的像素特征投影到源域的特征流形上来执行全局流形对齐;并且我们通过面向类别的三元损失正则化源域中的类别中心,并在增强的目标域图像上执行目标域一致性正则化。

实验结果表明,我们的方案明显优于以前的方法。例如,在 GTA5→Cityscapes 这一经典任务中使用 Deeplab V3+ 作为主干网络,我们提出的方法超过了先前最好的方法 8 个点,在 mIoU 方面达到了 58.2%。

9f12e50afde1dcecea3a1abf6eff5d14.png

背景

尽管现有的语义分割模型在深度神经网络浪潮中的性能得到了显著提高,但训练语义分割模型通常需要大量带有像素级注释的图像,这个收集过程既费力又耗时。无监督域适应(UDA)用于语义分割是避免数据注释问题的一种替代方法:通过共同利用来自不同源数据集(两个数据集的标签空间必须兼容)的带标签图像,从未标注的目标数据集中学习一个性能良好的模型。

然而,不同数据集之间存在域偏移。最明显的差异是与颜色、纹理甚至光照条件有关的低级图像统计数据。这些差异可以通过图像级适应来部分缓解。然而,不同数据集之间还存在物体级别的差异,如物体姿态和空间分布,这导致了不同的特征分布。所有这些域偏移都对语义分割模型的最终性能产生了不利影响。因此,对于无监督域适应语义分割,学习能够克服图像级和特征级域偏移的特征表示至关重要。

域偏移的原因在以前的研究中得到了广泛的研究。一般而言,主要原因可以分为图像级别的域转移和特征级别的域转移。图像级别的域转移是指成像条件的差异,例如相机成像管道中的照明和设置。它们影响图像的整体外观,对特征级别的分布产生微妙的影响。

现有的解决图像级别域转移的工作通常基于图像级别风格转换,这利用了深度模型,如生成模型或图像到图像转换模型 [1],或傅里叶变换 [2]。我们将这些方法称为图像级别适应方法。这些方法已经证明了通过转移图像风格或对齐特征分布可以使两个域更加接近。然而,生成方法通常需要计算昂贵的训练过程,其不稳定性是众所周知的。生成模型还容易出现模式坍塌,使得生成特征的范围异常小。另一方面,基于傅里叶变换的方法 [2] 产生的风格转换图像质量较差。

我们观察到以前的域自适应语义分割研究主要集中在图像级别的域对齐 [3],通常与采用更完整的流程的最近研究 [4,5] 相比,其最终分割性能较差。这样的最近研究进一步表明,用图像级别的域对齐图像替换原始源域图像可以进一步提高特征级别适应技术的最终性能。这表明前述的图像级别适应方法只能部分缓解域差异,特征级别的对齐仍然需要额外的图像转换模块来提升性能。因此,在图像级别自适应后仍需要进行特征级别自适应。

对于特征级别的自适应,以前的研究中常用的做法是采用对抗性方法 [5, 6],即在训练鉴别器无法区分源域和目标域特征的情况下认为两个域的特征已经对齐。但是,对抗性方法往往会生成一些狭窄的特征分布,以欺骗鉴别器。当不同的图像共享相似的特征分布时,训练模型的泛化性能会变差。

另一方面,为了进行类别级别的特征自适应,一些现有方法使用在源域中计算的类别锚点来对齐两个域 [7, 8],这可以被视为对类别级别特征分布施加硬约束的方法。该方法忽略了不同类别之间的特征距离,而在源域中具有类似特征分布的类别在目标域中仍可能具有类似的特征分布,在目标域没有监督信号的情况下,会导致错误的伪标签。我们的实验表明,通过调整类间和类内特征距离的相对大小,对类别级别特征分布施加软正则化可以提高模型的性能。

根据以上分析,仅进行图像级别适应或特征级别适应均无法充分解决域转移问题。此外,现有的面向语义分割的 UDA 工作缺乏统一的方法来最小化域转移。因此,我们从两个角度来解决问题,并提出了一种新颖而高效的流程,将图像级别和特征级别的适应统一起来。对于图像级别的域转移,我们提出了两种新颖且无需训练的图像级别操作,称为全局光度对齐和全局纹理对齐,以将源域中的图像适应到目标域。

然而,仅进行图像级别适应不能保证特征空间中的域对齐。因此,我们设计了一个全局流形对齐模块,用一组原子表示源域特征流形,源域和目标域的任何像素特征都可以投影到这个流形上。通过最小化输入特征和流形之间的投影误差,所有源域和目标域特征都对齐到同一个流形上。

为了进行类别级别的特征自适应,我们还引入了两种类别级别特征分布正则化方法:提出了一种面向源域的类别导向三元组损失来通过扩大类间和类内特征距离之间的间隔来软化规范化类别中心。该方法仅应用于源域,因为测量类间和类内距离需要可靠的注释,这些注释仅存在于源域中。

应用于目标域的类别级别特征自适应方法是自监督一致性正则化。该正则化使增强的目标图像的预测与相应的未增强图像的伪标签保持一致,从而强制相似语义内容的类别标签在目标域中保持一致。通过同时从所有角度解决域转移问题,实验结果表明,我们提出的方法能够显著提高性能。

217beb3fc94b235827319b8c081e81eb.png

方法描述

d2f86325d6d0063eaebf88e0d7a90b83.png

如图所示,我们的方法流程可以分为两个阶段:一是图像级适应,二是特征级适应(多次循环迭代)。首先,我们利用两个域之间的光度差异,将源域图像与目标域图像进行粗略的适应,以最小化图像级别的域偏移,同时将目标域的高频分布也随机地转移到源域图像中;然后,我们通过将两个域的像素特征与粗略适应模型生成的特征流形对齐,来执行特征级别的适应,而不考虑其类别;最后,我们对类间中心距离和类内特征变化施加软约束,以规范类别级别的特征分布。

2.1 图像级适应

全局光度对齐(Global Photometric Alignment):由于全局域偏移主要与低级图像属性有关,我们的工作中提出了全局光度对齐方法,将目标域的低级图像属性转移到源域图像中。观察到在不同场景中,图像的空间亮度分布可能非常复杂。还需要注意的是,直接操作 RGB 通道可能会导致严重的伪影和假颜色。相比之下,a 和 b 色彩通道的空间色彩分布总是具有类似的钟形直方图。

因此,我们对亮度和颜色采用不同的处理方式:我们通过仅在颜色通道 a 和 b 上执行经典的直方图匹配,而在亮度通道 L 上运用 gamma 校准的方式将源域图像与目标域参考图像进行匹配,以避免引入常见的直方图匹配结果中的伪影。下图展示了全局光度对齐的具体流程:(a)输入源域图像和(b)随机选择的目标域图像在(c)Lab通道上对齐,生成(d)对齐后的图像。

7433d1705d03cf874620a01739f9799d.png

2.2 特征级适应

全局纹理对齐(Global Texture Alignment):根据先前的研究表明,基于 CNN 的模型对高频信息敏感。我们观察到,合成图像与现实世界图像相比,具有不同且通常更强的高频信息,这会影响我们的模型在目标域中的泛化性能。尽管所提出的 GPA 模块对齐了图像的全局光度属性,并保持了源域数据集的多样性,但它并没有对齐高频纹理。

为了缓解这个问题,我们提出了一个全局纹理对齐模块作为辅助数据增强方案。这个想法很简单:我们修改源域中随机图像子集的高频分量,使每个图像中的分布与相应的参考图像更一致,而参考图像是从目标域中抽样的。该过程在图 1 中进行了说明。

具体而言,我们的方法可以分为四个步骤:(1)在源域图像上应用双边滤波器过滤高频纹理但保留图像结构,(2)在滤波后的源域图像和原始目标域图像上分别应用拉普拉斯算子获取它们的高频分量,(3)获取上述拉普拉斯算子响应的直方图,(4)用最小化直方图对齐损失来优化双边滤波器参数:

1cd6a2317d2c2743eb4b0dcd7fdb0176.png

全局流形对齐(Global Manifold Alignment):诸如局部线性嵌入(LLE)和Isomap等方法通常用于描述流形,但它们对基于梯度反向传播的训练来说计算成本太高。在这里,我们使用 K - 均值算法简化计算。由于 LLE 使用分段线性模型来逼近高维特征流形,K - 均值可以被视为流形的分段常数逼近。通过 K - 均值获得的每个质心都是局部区域的常数逼近。

通过用一组代表性特征向量逼近流形,我们可以进一步对齐源域和目标域的特征。我们提出的全局流形对齐的动机很简单:最小化源域投影误差使特征流形更加平滑,最小化目标域投影误差减小了源域和目标域特征分布之间的距离(即改善了对齐)。具体而言,我们采用注意力机制来计算原子向量的线性系数。流形投影误差和重构特征向量可以使用以下方程计算,

af6513b2f919197c65388f947d2d69da.png

类别三元组损失:尽管前述的 GPA 和 GMA 模块在一定程度上可以学习到域不变特征,但之前训练中使用的损失函数并未明确地控制类别特征分布,而且一些类别敏感的域偏移被忽视了。不同类别的像素特征自然地分布不均匀,有些类别中心彼此靠近。

为了解决这个问题,我们提出了一个面向类别的三元组损失,旨在将像素特征进一步靠近所属类别的中心,同时远离其他类别中心。请注意,为了使面向类别三元组损失的计算变得实际可行,我们有意引入了类别中心。如果我们在没有类别中心的情况下使用传统的三元组损失,我们需要存储所有像素对之间的距离,这会导致巨大的 GPU 内存负担。具体公式如下:

fe7ebb25dac207a830d65740486f7242.png

78b54572a9ba2ed27c79c210fede9c6a.png

目标域一致性正则化:在源域中,我们提出的面向类别的三元组损失对类别特征进行了正则化,其中用了真实类别标签。然而,在目标域中没有具有真实标签的数据,监督信号较弱。一致性正则化是许多最近最先进的自监督学习算法的重要组成部分,它利用无标签数据,依赖于这样一个假设:当输入是同一图像的扰动版本时,模型应该输出相同的预测标签。受此启发,我们提出了一种目标域一致性正则化方法,具体公式如下:

10708d1bb71a2048d3ef6f761f88b1e5.png

使用经过训练的上一次迭代的模型而不是本次迭代正在训练的模型生成伪标签至关重要。这是因为本次迭代模型仍在训练过程中,且不稳定。由本次迭代模型生成的带波动的伪标签将对训练过程产生灾难性影响。实验结果表明,这种一致性正则化方法简单而有效。它强化了目标域中的监督信号,并提高了最终性能。

da7e9fdd28e7783434e4558cf355689d.png

实验结果

Table 1 和 Table 2 分别展示了在两个主流 UDA 分割任务上的结果,可以观察到我们的方法显著优于之前的方案。

043a71bb55f82f5dc7963c4652bf6399.png

d125d1866c85ff48d9b1a5a028d1734c.png

下图定性比较我们的方法与 CAG [16] 在 GTA5→Cityscapes 任务上的表现。具体来说,(a)输入图像,(b)CAG [7],(c)我们的方法,(d)标签。

7a445f84a3a5653c1807dc13e0355daa.png

下图展示了全局光度对齐(GPA)模块的定性分析。(a)输入图像,(b)参考图像,(c)BDL-GAN [5],(d)傅立叶适应 [2],(e)全局光度对齐。

f84ee3144ac57399cfd474b5a6862c19.png

outside_default.png

参考文献

outside_default.png

[1] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

[2] Yang Y, Soatto S. Fda: Fourier domain adaptation for semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4085-4095.

[3] Wu Z, Han X, Lin Y L, et al. Dcan: Dual channel-wise alignment networks for unsupervised scene adaptation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 518-534.

[4] Pan F, Shin I, Rameau F, et al. Unsupervised intra-domain adaptation for semantic segmentation through self-supervision[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 3764-3773.

[5] Li Y, Yuan L, Vasconcelos N. Bidirectional learning for domain adaptation of semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6936-6945.

[6] Wang H, Shen T, Zhang W, et al. Classes matter: A fine-grained adversarial approach to cross-domain semantic segmentation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIV. Cham: Springer International Publishing, 2020: 642-659.

[7] Zhang Q, Zhang J, Liu W, et al. Category anchor-guided unsupervised domain adaptation for semantic segmentation[J]. Advances in neural information processing systems, 2019, 32.

[8] Wang Z, Yu M, Wei Y, et al. Differential treatment for stuff and things: A simple unsupervised domain adaptation method for semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12635-12644.

更多阅读

938fbf00b19a428bd499b23c2d99e85a.png

be0f795d3322b8d479bea05820389169.png

d1bc5927f18d37181700e72e5e797710.png

d8ceb6cc438275f594f3c89a72bd286d.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

e4db7977c4c1470f4415fba67c9029ce.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

62995a1424198885c9ca6d7cc580c93e.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/513350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

了解微服务技术栈

在了解微服务技术栈之前,我们先通过图片去了解微服务技术的类别。 微服务技术体系 技术栈模块图 微服务技术对比 服务框架 用JAVA技术开发微服务,比较主流的选择有:Spring Cloud 和 Dubbo。 Spring Cloud是在Spring基础上构建的,…

机器学习之朴素贝叶斯二、情感分析实践

目录标题 一、什么是朴素贝叶斯?二、利用朴素贝叶斯进行情感分析1. 数据类别说明2. 什么是词袋模型3. 数据展示4. 利用词袋模型进行词表构建5. 到了这一步,我们的前期工作都已经准备好了,有了样本的向量化数据,开始进行 朴素贝叶斯…

2023年北京.NET线下技术沙龙来了!大咖分享,还有精品好礼等你

MASA技术团队来北京啦! 为了与北京的.NET开发者们更深入的交流学习,我们将在北京市举办一场.NET线下技术沙龙。同时也是希望通过举办这样的线下沙龙,让更多的.NET开发者了解我们,加入.NET开源技术生态,向更多的.NET开…

SpringCloud-服务间通信OpenFeignRibbon

服务间通信&OpenFeign&Ribbon 一、服务间通信1.创建两个服务并注册到服务中心1.1.服务添加相关依赖1.2.编写配置文件application.yml1.3.入口类加上注解启动Eureka Client 2.Product服务中提供调用方法3.User服务中使用RestTemplate调用 二、负载均衡及Ribbon组件1.负载…

《三》包管理工具

包管理工具 npm: npm:Node Package Manager,Node 包管理器,目前已经不仅仅作为 Node 的包管理工具,也作为前端的包管理工具来管理包。 npm 管理的包是存放在一个名为 registry 的仓库中的,发布一个包时是…

AI歌手——超简单一键运用ACE Studio来训练模拟真人唱歌

目录 1.安装ACE Studio 2.打开ACE Studio 3.导入midi或音频 4.调试音频 5.调整人物音色音高 6.调整歌词 7.自动添加呼吸​编辑 8.成品演示(周杰伦の稻香——鲤阮) 1.安装ACE Studio 安装地址 ACE Studio | Create Limitless Vocals with AI (t…

如何用AI画56个民族的女孩!

大家好,我是菜鸟哥! 目前在带领600多个小伙伴一起玩AI!Chatgpt现在是最火最出圈的产品,而一旦文字和图像,声音,视频结合可以演化出很多很多的需求。前面我们公众号已经分享了很多很多关于chatgpt的使用和技…

大势智慧软硬件技术答疑第二期

1. 编辑模型视图为什么是空的呢?工程这里也选了obj数据位置。 答:CtrlT选择下瓦块就可以,或者点这个图标。 2. 支持编辑DSM 生成正射吗? 答:重建大师,模方,和dasview均支持直接生产正射和DSM&a…

idea-properties文件编码为iso-8859-1修改为utf-8

一、现状 idea中properties文件编码为iso-8859-1并且为灰色不可修改 二、修改成utf-8 command,打开preferences 如下图操作即可

机器学习——logit正则化

机器学习——logit正则化 文章目录 机器学习——logit正则化[toc]1 logit模型正则化2 logit回归求解器2.1 ℓ 1 \ell_1 ℓ1​和 ℓ 2 \ell_2 ℓ2​正则化2.2 e l a s t i c − n e t elastic-net elastic−net正则化 1 logit模型正则化 logit模型能实现分类,识别…

励志长篇小说《周兴和》书连载之四 屋漏偏遇连天雨

屋漏偏遇连天雨 周兴和的母亲就死于那个寒冷的冬天。 她死时是1969年农历正月十八的早晨。 这时,周兴和的大女儿刚出生40多天。 母亲的病其实已经拖了好长时间了。刚开始她还能起床给一家人做饭,干点轻微的家务事。渐渐地,她开始不能吞食东…

如何成为年薪70万的全栈开发和测试人员?必备技能一网打尽

目录 引言 什么是全栈开发人员? 为什么需要全栈开发人员? 成为Full Stack Developer所需的技能组合 什么是软件栈? LAMP栈 MERN是基于JavaScript的技术的集合: Full Stack Developer的职责 技术的准备 一、测试基础 二…

面试官常问的音视频技术点!

一、前言: 今天继续给大家分享最近星球上的星友音视频面试题目,希望对大家有用! 下面是具体面试问的问题: 二、面试题目: 1、请说下H264的两种形态: Annex B格式:这种格式常用于网络流媒体传输…

yum源下载,及安装本地rpm包

yum源下载: yumdownloader rpm包名 如 :要下载 关于 pcre2-devel的包, 发现需要 依赖: Downloading packages: (1/4): pcre2-10.23-2.el7.x86_64.rpm | 20…

架构师备战(一)-软考如何备考

我要备战的是系统架构设计师,那么软考有哪些可供我们选择的考试呢。 1、软考能考哪些 我们知道,软考的体系结构有很多,比如初级的程序员,中级的软件设计师,高级的系统架构师等。具体有哪些,大概有如下这些…

华硕ROG STRIX B760-G GAMING WIFI小吹雪D5评测:最能超的小主板 轻松提升14%

一、前言:华硕推出新版B760-G小吹雪主板 加入DDR5内存支持 和以往的每一代规格一样,DDR5内存上市初期的表现并不如人意,频率是高了,但延迟也高了,导致性能提升一般般。 经过一两年的演进,DDR5内存的时序延迟…

港联证券|熊市牛市出现的原因?出现时应该怎么办?

熊市和牛市是股市专业术语,都指的是股市的一种形式。那么熊市牛市出现的原因?出现时应该怎么办?下面就由港联证券为大家进行分析: 熊市牛市出现的原因? 熊市出现原因: 1、市场利空消息出现 比如公司业绩…

【Spring框架全系列】SpringBoot配置日志文件

🍧🍧哈喽,大家好,我是小浪。那么上篇博客我们学习了SpringBoot配置文件的相关操作,本篇博客我们将学习一个新的知识点,SpringBoot日志文件。🖥🖥 📲目录 一、日志是什么…

Git概念介绍,常用命令与工作流程整理 配图

首先附一张Git的cheat sheet 作为开始,方便查阅:https://education.github.com/git-cheat-sheet-education.pdf Git简介 Git大家肯定都不陌生了,象征性地再介绍一下:Git是一个版本控制系统,换句话说,它可…

TypeError: makedirs() got an unexpected keyword argument ‘exist_ok‘

背景: 自己在使用pyinstaller打包一个基于pyqt5的gan网络手写数字生成的项目的时候,打包过程中出现这个错误导致打包失败。 图示: 问题分析: 复制这个错误在百度上搜看到很多答案说是python版本的原因。2.7版本的python不支持…