域泛化（Domain Generalization）

news2025/7/13 4:50:49

仓库：https://github.com/jindongwang/transferlearning
综述：https://arxiv.org/pdf/2103.03097、https://arxiv.org/pdf/2103.02503

1.问题及解决方案

出发点：需要解决domain shift、out-of-distribution (OOD)问题
解决方案：绕过OOD数据问题的一个简单解决方案是从目标域收集一些数据，以适应源域训练的模型。缺点是难以收集目标域数据（在交通场景语义分割中，在所有可能的天气条件下收集捕获所有不同场景的数据是不可行的）。为了克服域偏移问题以及缺乏目标数据，引入了域泛化（DG）。具体而言，DG的目标是使用来自单个或多个相关但不同的源域的数据来学习模型，使模型能够很好地推广到任何OOD目标域。

2.Domain Generalization

域泛化 (Domain Generalization, DG) 它研究的问题是从若干个具有不同数据分布的数据集（领域）中学习一个泛化能力强的模型，以便在未知 (Unseen) 的测试集上取得较好的效果。包含了很多方法比如：domain alignment, meta-learning, data augmentation, or ensemble learning

域泛化问题与域自适应 (Domain Adaptation，DA)最大的不同：DA在训练中，源域和目标域数据均能访问（无监督DA中则只有无标记的目标域数据）；而在DG问题中，我们只能访问若干个用于训练的源域数据，测试数据是不能访问的。毫无疑问，DG是比DA更具有挑战性和实用性的场景：毕竟我们都喜欢“一次训练、到处应用”的足够泛化的机器学习模型。

域泛化与迁移学习的区别在于是否使用了目标数据。在TL中，新的下游任务的模型微调需要目标数据，而在DG中，我们假设无法访问目标数据，因此更多地关注模型泛化。

在这里插入图片描述

2.1 数据集

VLCS和Office-31是两个在迁移学习和领域泛化任务中常用的数据集，前者主要是视角与环境的
VLCS数据集包含Pascal VOC 2007（V）、LabelMe（L）、Caltech 101（C）和SUN09（S）。Office-31数据集包含了来自三个不同领域的图像数据，这三个领域分别是：Amazon（在线电商图片）、Webcam（网络摄像头拍摄的低解析度图片）和DSLR（单反相机拍摄的高解析度图片）

在这里插入图片描述

2.2 Evaluation

DG算法的评估通常遵循leave-one- domain-out的规则：给定一个包含至少两个不同域的数据集，其中一个或多个域被用作模型训练的源域，而其余域被视为目标域；模型选择包括三种方法：Training-domain validation，Leave-one-domain-out validation，Test-domain validation