[迁移学习]域自适应

news2024/9/27 17:32:32

一、定义

        1.源域和目标域

        源域(Source)和目标域(Target)之间不同但存在联系(different but related)。迁移学习的人物是从源域学习到知识并使其在目标域中取得较好的成绩。

        迁移学习可以分为正迁移(postive transfer)和负迁移(negtive transfer),划分依据是迁移学习的效果好坏。

        2.迁移学习的优势

        ①缺乏大量(已标注)数据或计算资源

        ②需要快速训练个性化模型

        ③冷启动服务(例如一个新用户的产品推荐,可以依赖用户关联来做)

二、相关符号

        域(Domain)D:{(x_i,y_i)}^N_{i=1}\sim P(x,y)

                源域(Source Domain):D_s,目标域(Target Domain):D_t

        任务(Task)y=f(x)

        条件:需要满足以下两个条件之一才是迁移学习:

                ①域不同:P(x,y)\neq Q(x,y)

                ②任务不同:T_S \neq T_t

三、迁移学习

        1.域不同

        P(x,y) \neq Q(x,y)进行贝叶斯展开后:P(x,y)=P(y|x)P(x)

        如果P(y|x)相同,其具有不同的边缘分布(marginal distribution):

                x_s \sim P_s(X),x_t\sim P_t(X)\rightarrow P_s(X) \neq P_t(X)

        如果P(x)相同,其具有不同的条件分布(conditional distribution):

                P_s(y|x) \neq P_t(y|x)

         2.损失函数

        经验风险最小化(ERM):f^*=argmin_f \frac{1}{m}\sum _{i=1}^m L(f(x_i),y_i);其中 L 为损失函数

        上述公式是一般机器学习使用的迭代公式,在迁移学习中,一般通过在后面加入一个迁移正则化表达式(Transfer regularization),可以表示如下:

                f^*=argmin_f \frac{1}{m}\sum _{i=1}^m L(f(x_i),y_i) + \lambda R(x_i,y_i);其中 R 即为需要学习的参数,一般分以下几种情况对 R 进行学习:

                ①D'_s\subseteq D_s(子集),可得P(x,y) \approx Q(x,y),这种情况下不需要R

                ②R可以写作Distance(D_s,D_t)Separability(D_s,D_t)

                ③当两个任务相似时(f_s \approx f_t),可以跳过R的优化

        上述三种学习方法分别对应:

                ①Instance-based TL:基于实例,需要选择一部分样本使其接近目标域,这种方法现在使用比较少,其具体可分为以下几种做法:

                        1.Instance selection:设计一个实例选择器,从源域中筛选出和目标域接近的数据,并改变其权重(增加分得好的样本的权重,减少分得不好的样本权重)。其由一个实例选择器(Instance Selector)f和一个性能评估器(Performance Evaluator)g组成,按照下图循环执行。总体思路接近强化学习

                         2.Instance reweighting:使用这种方法的前提是D'_s \subseteq D_s,且P_s(x) \neq P_t(x)P(y|x)相同。此时,代价函数将被改写为:

                                \theta^*_t=argmax_\theta \int _x P_t(x) \sum_{y \in Y}P_t(y|x)logP(y|x;\theta)dx,化简后可得

                                \theta^*_t \approx argmax_\theta \frac{1}{N_s}\sum^{N_s}_{i=1}\frac{P_t(x_i^S)}{P_s(x_i^S)}logP(y_i^S|x_i^S;\theta)

                ②Feature-based TL:基于特征,将迁移正则项R显式表示并使之最小化,一般为两个域之间的距离。可以根据源域和目标域的类型分为两类:同类特征空间(例如源域和目标域均为图片),异类特征空间(例如源域和目标域一种是文字,一种是图片)

                         这种方法的前提是源域和目标域之间存在一些通用特征(common features),我们需要做的是将源域和目标域变换到同一特征空间中并缩小其距离。可以分为两种做法:

                        1.显式距离(Explicit distance)R=Distance(D_s,D_t);空间距离,即使用一些数学工具来度量两个域之间的距离。常见的有以下几种:

                                ①基于Kernel:MMD、KL散度、Cosine相似度

                                ②基于几何:流式核(GFK)、协方差、漂移对齐、黎曼流形

                                其中使用最多的是MMD(最大矩阵差异),详见第四章

                        2.隐式距离(Implicit distance)R=Separability(D_s,D_t);可分性,在无法选择空间距离的情况下进行,一般使用对抗网络GAN来实现。

                        3.两者结合(explict+implicit dist):例如MMD-AAE网络、DAAN网络。

                ③Parameter-based TL:基于参数,复用源域上训练好的模型。代表方法为预训练。

四、MMD

        1.定义

        MMD,即最大矩阵差异。是一个用来度量域之间差异的值,其可以定义为将x和y分别映射到P和Q两个数据分布上(x \sim P,y \sim Q),f为一个可以将x映射到希尔伯特空间H的函数,MMD计算的是两个域映射后之间期望的最大差异,其数学公式可以写作:

        MMD(P,Q,F) = sup E_P [f(x)]-E_Q[f(y)]

        而实际计算时候往往进行有限的随机采样获取一些数据,再计算这些数据的均值差异,这些均值差异中最大的即为MMD,一般写作:

        MMD(P,Q,F)=sup E_P[\frac{1}{m}\sum_{i=1}^mf(x_i)-\frac{1}{n}\sum^n_{j=1}f(y_j)]

        基于统计学,当MMD的值非常接近0时,可以认为两个域之间的分布近似相等(即打成域对齐的目标)

        2.分类

                ①Marginal dist

                这种方法是用MMD衡量两个域之间分布的差异,原公式

                Distance(D_s,D_t)\approx MMD(P,Q,F) = sup E_P [f(x)]-E_Q[f(y)]经过一定的计算可以写作:tr(A^TXMX^TA),式中X=[X_s,X_t]\in R^{d\times(m+n)},A \in R^{(m+n)\times(n+m)},其核形式可以记作:tr(KM),其中

                 该方法通常被称为:TCA(Transfer Component Analysis)-迁移成分分析

                         min\, tr(KM)-\lambda\, tr(K)

                 从上图可以看到,两个域经过PCA(主成分分析)后分布并不相等,但是讲过TCA处理后分布趋于一致。

                ②conditional dist

                该方式的公式可以写作:Distance(D_s,D_t)\approx MMD(P_s(y|x),P_t(y|x),f)

                化简后可以得:Distance(D_s,D_t)=\sum_{c=1}^C tr(A^TXM_cX^TA),可以看出和上面的TCA公式结构相似,区别在于式中的M_c代表类别,相当于将TCA加入类别中。

                 通过变换,可以得到一种叫JDA(Joint Distribution Adaptation)的方法,写作:

                        min \sum^C_{c=0} tr(A^TXM_cX^TA)+\lambda ||A||^2

                JDA相较于TCA而言,拥有更好的性能和更短的分布距离。同时由于JDA能进行迭代,可以更好的学习分布间的差异。

                ③dynamic dist

                这种方法可以缩写为DDA,其相当于将TCA和JDA使用一个通用公式写出,可以写作:

                 当\mu=1时,式子可以写作:tr(A^TXMX^TA),即为TCA

                当\mu=0.5时,式子可以写作:tr(A^TXM_cX^TA),即为JDA

                 该方法的难点在于如何评价参数\mu,一般在用A-distance的估计方法。具体做法可以写作:

                        d_A(D_s,D_t)=2(1-2\epsilon (h));其中h为线性分类器,\epsilon (h)h的错误

                然后可以用上式来估计\hat{\mu}\approx 1-\frac{d_M}{d_M+\sum_{c=1}^Cdc};其中d_M=d_A(D_s,D_t)是边缘分布,d_c=d_A(D_s^{(c)},D_t^{(c)})是条件分布。

        3.MMD在深度学习中的应用

        上述的TCA、JDA、DDA均可采用Deep domain confusion(DDC)或Dynamic distribution adaptation network(DDAN)的方法加入神经网络,改进后的网络结构如下:

                

        网络的损失函数为:L=L_c(x_i,y_i)+\lambda \cdot Distance(D_s,D_t);式中的Distance可以是TCA、JDA、DDA。可以通过随机梯度下降进行学习。是一种端到端的学习方式。

五、迁移学习的热门方向

         1.Low-resource learing:在仅有少量标签数据的情况下进行训练。即自训练

         2.Safe transfer:防止继承公开模型的漏洞而被针对性攻击

         3.Domain adaptation:域自适应

         4.Domain generalization:域泛化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/637446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有哪些好用抠图软件?这几种抠图工具简单又高效

有什么好用的抠图软件呢?通过抠图技术将不同的元素组合在一起,创造出独特的艺术效果。我们日常中也会经常需要进行照片抠图,如拍出的照片背景不满意,想要抠出图片中的人物放到新的背景中,这些都是需要进行抠图才能够完…

微服务_Hystrix

在每个服务中引用该组件,监控当前组件。可被GateWay、Fegin集成。简介 作用:防止服务雪崩 Hystrix是一个由Netflix开源的容错框架,它主要用于分布式系统中的服务间通信。Hystrix通过在调用服务的过程中添加各种容错机制,来保护系…

hbuilderX uni-app 自定义快捷键无效、无法生效解决方法(附:好用的常用的快捷键自定义代码片段)

在最后加上 ,"override": true 才能让原有默认的快捷键被覆盖 好用的常用的快捷键自定义代码片段 [//打开快捷键设置{"key": "altshiftk","command": "workbench.action.openGlobalKeybindings","override": tr…

信息专业求职个人简历最新版

信息专业求职个人简历最新版1 个人信息 _ 性 别: 男 婚姻状况: 已婚 民 族: 汉族 户 籍: 江苏-宜兴 年 龄: 34 现所在地: 江苏-宜兴 身 高: 175cm 希望地区: 江苏-常州、 江苏-…

微软发布自己的 Linux 发行版:Azure Linux

导读在内部使用两年并自 2022 年 10 月起以公共预览版运行后,微软终于在日前正式公开发布了其 Azure Linux 的发行版。 在内部使用两年并自 2022 年 10 月起以公共预览版运行后,微软终于在日前正式公开发布了其 Azure Linux 的发行版。 微软 Azure Lin…

二叉树的层序遍历以及队列的实现

思维导图: 一,什么是层序遍历 层序遍历,顾名思义就是一层一层的遍历。比如我的这棵二叉树: 如果使用层序遍历的话它的结果就会是这样的: 1->5->9->7->10->13->8,这就是一层一层的遍历,一…

SciencePub学术 | 计算机类重点SCIEI征稿中

SciencePub学术 刊源推荐: 计算机类重点SCI&EI征稿中!影响因子高,对国人非常友好。信息如下,录满为止: 一、期刊概况: 计算机类重点SCI&EI 📌【期刊简介】IF:7.5-8.0,JCR…

IDEA 关闭 SonarLint 自动扫描

进入Settings → 搜索 SonarLint → 将Automatically trigger analysis取消勾选 即可。

Unity入门2——Unity工作原理

一、工具栏 文件操作:新建工程,新建场景,工程打包等等 编辑操作:对象编辑操作相关,工程设置,引擎设置相关 资源操作:基本等同于 Project 窗口中右键相关功能 对象操作:基本等同于 Hi…

151-B-DC24V、252-B-AC220V气压控制方向阀

151-B-DC24V、252-B-AC220V、332-B-DC24V、453-B-AC220V、232-B-AC110V、351-B-DC24V、431-B-DC12V、253-B-DC24V气动电磁阀体积小,流量大,外形美观,性能可靠.使用寿命长.适用于机电一体化领域.有多重规格和产品颜色可选择,规格G1/8、G1/4、G3/8、G1/2、电控方式&am…

干洗店洗护软件,洗鞋店软件,洗鞋店小程序,

干洗店洗护软件,洗鞋店软件,洗鞋店小程序,水洗标打印标签打印,上门取送,拍照上传,多门店多网点,用户端,骑手端,门店端,网点端。具有以下非常强大的功能和优势…

亚马逊美国站 儿童珠宝首饰CPC认证 ASTM F2923标准CPSIA检测报告

为什么越来越多人爱送珠宝给宝宝? 1、有人说每个小孩子都是来自神的恩典,他们就像父母最珍贵的珠宝值得用一生的时间去呵护与珍藏。 2、西班牙人认为,儿童珠宝作为他们的第一份礼物,会庇佑孩子们未来过上非常幸福,繁荣而成功的…

算法模板(5):数学(4):其他数学

线性代数 高斯消元 ( O ( n 3 ) ) (O(n^3)) (O(n3)) 883. 高斯消元解线性方程组 步骤&#xff1a;枚举每一列&#xff1a;找到绝对值最大的一行&#xff0c;将改行换到最上面&#xff0c;将该行第一个数变成1&#xff0c;将下面所有行的第c列变成0. #include<cstdio>…

年薪80万程序员被鄙视,不如二本教书老师…

“程序员好还是老师好&#xff1f;” 这个问题一直困扰着许多网友&#xff0c;毕竟这两个工作都是让人羡慕的。 程序员普遍收入高&#xff0c;有挑战性&#xff1b;老师是个铁饭碗&#xff0c;休假日多&#xff0c;还有退休金。 也有程序员曾经发帖&#xff0c;表示自己现在…

Go-fastdfs 任意文件上传(CVE-2023-1800)

ZoomEye搜索"go-fastdfs" sjqzhang go-fastdfs 是一个开源分布式文件系统&#xff0c;专为存储和共享大文件而设计。 它是用 Go 编写的&#xff0c;由开发者 sjqzhang 在 GitHub 上维护。 在 sjqzhang go-fastdfs 1.4.3 之前发现了一个被归类为严重的漏洞。 受此问题…

保姆级攻略!Elsevier期刊投稿教程,手把手操作建议收藏!

目前所投的期刊绝大多数为Elsevier旗下的期刊&#xff0c;如Acta、JAC、MSEA、JMST等&#xff0c;以JAC为例。以下分享逐步投稿操作流程&#xff1a;&#xff08;以一本Elsevier旗下期刊为例&#xff09; 0. 进入期刊投稿主页&#xff0c;一般打开期刊主页&#xff0c;点击【S…

Python+ffmpeg实现视频录制功能

UI自动化通常是在无人值守特别是非工作时间执行&#xff0c;但是因为网络、产品性能、产品不稳定&#xff08;偶现缺陷&#xff09;等问题导致UI自动化失败&#xff0c;第二天分析失败原因时有的失败情况从报告中并不能分析出失败的具体原因&#xff08;即使有截图&#xff09;…

图书推荐|大数据从业人人必备的Excel大数据处理分析

《Excel大数据处理&分析》为活页式新形态教材&#xff0c;介绍了Excel 2016的数据表基本操作、数据输入、数据获取、数据排序、数据筛选、分类汇总、公式与函数、日期和时间函数、数学和统计函数、查找和引用函数、数据透视表、图表的可视化分析、宏和VBA、数据分析工具的应…

导轨安装DIN11 IPO EM系列模拟信号隔离放大器转换器4-20mA/0-10V/0-75mV/0-100mV/0-±10V

概述&#xff1a; 导轨安装DIN11 IPO EM系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要电量隔离测控的行业。该模块内部嵌入了一个高效微功率的电源&#xff0…

NLP学习笔记八-RNN文本自动生成

NLP学习笔记八-RNN文本自动生成 RNN文本自动生成的原理&#xff1a; 结合下面一张图&#xff0c;我们讲一下RNN文本自动生成的原理&#xff0c;RNN文本自动生成其实从一种简单意义上来说&#xff0c;就是做的分类任务&#xff0c;为什么这门说呢&#xff1f; 如下图&#xff0…