领域自适应是与机器学习和转移学习相关的领域。 当我们的目标是从源数据分布中学习在不同(但相关)的目标数据分布上的良好性能模型时,就会出现这种情况。 例如,常见垃圾邮件过滤问题的任务之一在于使模型从一个用户(源分发)适应到接收显着不同的电子邮件(目标分发)的新模型。 注意,当有多个源分发可用时,该问题被称为多源域自适应。
综述文章
领域自适应理解
迁移学习(Transfer Learning)的一种,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,使其在该空间中的距离尽可能近。于是在特征空间中对source domain训练的目标函数,就可以迁移到target domain上,提高target domain上的准确率。
源域(source domain):与测试样本不同的领域,但是有丰富的监督信息
目标域(target domain):测试样本所在的领域,无标签或者只有少量标签
源域和目标域往往属于同一类任务,但是分布不同。
假设要选择某一区域的颜色信息作为图像特征,上图红线表示source dataset的颜色信息值分布,蓝线表示target dataset的颜色信息值分布,很明显对于这一特征来讲,两个域的数据本来就是有shift的。而这个shift导致我们evaluate这个模型的时候准确率会大大降低,那么这个区域的颜色信息就不适合选择特征。
既然这个特征不合适,那我们就换特征。领域自适应旨在利用各种的feature transformation手段,学习一个域间不变的特征表达(特征自适应),基于这一特征,我们可以更好地同时对两个域的数据进行分类。
四、多源领域自适应
大多数领域自适应的方法只关注一个源领域和一个目标领域。但现实生活中可用的源域也并非只有一个,这也就出现了多源领域自适应的问题。
多源领域适应 (MDA) 是一个强大的扩展,它可以从不同分布的多个源收集标记数据。(实际中,被标签的数据集(源域)可能不止一个哦,这就诞生了 多源域领域自适应,MDA。)
五、三种不同的领域自适应方法
样本自适应:其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器。(适用于源于和目标域分布差异小的情况)
理解:就是在源域中有一些样本与目标域的样本相似,在训练源域中的样本的时候乘以一个权重,即与目标域越相似,则该权重越大
特征自适应:其基本思想是学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。(适用于对源域和目标域有一定差异的情况)
理解:通过一个映射使源域样本与目标样本调整到同一个特征空间
模型自适应:其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路,一是直接建立模型,但是在模型中加入“domain间距离近”的约束,二是采用迭代的方法,渐进地对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。(适用于源域和目标域差异比较大的情况)
理解:在无监督的自适应中,使用衡量源域和目标域数据的距离的数学公式作为LOSS进行训练,使得距离缩小。
六、小样本学习
小样本学习:在小样本学习中假设目标域中数据更加有限,其中包括有标签和无标签的数据。在某些极端的情况下,目标域中没有预先提供的数据样本,也就变成了域泛化研究的问题。小样本学习变体:零样本学习(zero-shot learning)、单样本学习(one-shot learning)、贝叶斯规划学习(Bayesian Program Learning,BPL)、短资源学习(low source learning)和域泛化(domain generalization)
————————————————
版权声明:本文为CSDN博主「lihe2021」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lihe4151021/article/details/123763606
参考:
https://www.cnblogs.com/Jason66661010/p/13565283.html
https://blog.csdn.net/weixin_42555985/article/details/105086552
https://blog.csdn.net/qq_38157877/article/details/85678879
https://blog.csdn.net/u014546828/article/details/110426961
https://baike.baidu.com/item/%E9%A2%86%E5%9F%9F%E8%87%AA%E9%80%82%E5%BA%94/22778550?fr=aladdin