论文阅读笔记(三)——有监督解耦+信息瓶颈

news2024/11/19 2:35:08

论文信息

《Disentangled Information Bottleneck》
论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/17120
代码地址:GitHub - PanZiqiAI/disentangled-information-bottleneck

@inproceedings{pan2021disentangled,
title={Disentangled information bottleneck},
author={Pan, Ziqi and Niu, Li and Zhang, Jianfu and Zhang, Liqing},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={35},
number={10},
pages={9285–9293},
year={2021}
}

内容理解

摘要

信息瓶颈(Information Bottleneck,IB)方法是一种从源随机变量中提取与预测目标随机变量相关的信息的技术,通常通过优化平衡压缩项和预测项的IB拉格朗日量(IB Lagrangian)来实现。然而,IB拉格朗日量很难优化,需要对拉格朗日乘子的调整值进行多次试验。此外,我们还表明,在优化IB Lagrangian的过程中,随着压缩的增强,预测性能会严格下降。在本文中,我们从监督解纠缠的角度实现了IB方法。具体来说,我们引入了解纠缠信息瓶颈(DisenIB),它能最大限度地压缩源而不损失目标预测性能(最大压缩)。理论和实验结果表明,我们的方法在最大压缩方面是一致的,并且在泛化、对抗性攻击的鲁棒性、分布外检测和监督解纠缠方面表现良好。

引言

信息压缩重要的是决定数据的哪些方面应该保留,哪些方面应该丢弃。

IB就提供了应对这个问题的原则,它压缩源随机变量去保留与目标随机变量的相关信息,并同时丢弃所有的不相关信息。研究还表明,IB能够很好的产生广义的表示(表征学习)。

给定两个随机变量X,Y,IB旨在压缩X到一个瓶颈随机变量T,该变量保留了和预测值Y相关的信息。即,探索一个概率映射 q ( T ∣ X ) q(T|X) q(TX),使得 I ( X ; T ) I(X;T) I(X;T)受到约束,同时 I ( T ; Y ) I(T;Y) I(T;Y)被最大化:
arg max ⁡ T ∈ Δ I ( T ; Y ) ,   s . t .   I ( X ; T ) ≤ r \begin{equation} \argmax_{T \in \Delta} I(T;Y), \ s.t. \ I(X;T) \leq r \end{equation} TΔargmaxI(T;Y), s.t. I(X;T)r
其中 r 限制了压缩水平。

在实践中为了避免非线性约束,可以通过最小化所谓的IB拉格朗日量来优化Eq(1):
L I B [ q ( T ∣ X ) ; β ] = − I ( T ; Y ) + β I ( X ; T ) \begin{equation} \mathcal{L}_{IB}[q(T|X);\beta] = -I(T;Y) + \beta I(X;T) \end{equation} LIB[q(TX);β]=I(T;Y)+βI(X;T)
其中, β ∈ [ 0 , 1 ] \beta \in [0, 1] β[0,1]是控制平衡的拉格朗日参数。

最小化Eq(2)会存在下列问题:

  • 很难得到期望的压缩水平r。有工作认为 β \beta β跟压缩水平没有关系,需要对不同的 β \beta β值做多次优化才能达到特定的压缩水平。
  • 压缩不可避免地降低了预测性能。

作者期望:

  • 在X压缩为T的过程中从Y中提取最小有效部分,即最大程度的压缩X而不减少 I ( T ; Y ) I(T;Y) I(T;Y),即最大压缩。
  • 消除对多次优化的需求,探索一种通过单一优化实现最大压缩的方法

有监督解纠缠解决了识别互补数据方面并在监督下将其彼此分离的问题。类似地,在IB方法中,必须将Y-relevant和Y-irrelevant的数据方面分开。这启发了作者从监督解纠缠的角度来实现IB方法,因此提出的解纠缠信息瓶颈(Disentangled Information Bottleneck,DisenIB)。据所知,该工作是第一个将IB方法与监督解纠缠联系起来的。贡献:

  • 研究了IB拉格朗日中的权衡,表明平衡压缩和预测项只能降低预测性能,因此无法实现最大压缩。
  • 提出了IB的一个变体,即纠缠信息瓶颈(DisenIB),它被证明在最大压缩上是一致的。具体来说,DisenIB消除了对多次优化的需求,并通过一次优化实现了一致的最大压缩。
  • 通过实验结果,证明了这篇文章的理论陈述是正确的,并表明DisenIB在泛化、对抗性攻击的鲁棒性和分布外数据检测以及监督解纠缠方面表现良好。

方法

IB Lagrangian中压缩项与预测项的权衡

IB Lagrangian中存在的压缩项与预测项之间的权衡问题。具体而言,通过优化IB拉格朗日量获得的压缩和预测目标的最优解始终低于通过独立优化每个目标获得的最优解:
在这里插入图片描述
结果表明IB Lagrangian最优解是随着压缩程度 β \beta β的增大而严格下降的,即,压缩只能降低预测性能,这是不希望发生的。

最大压缩的一致性

由于上述权衡,优化IB Lagrangian不能实现最大压缩。期望探索一种能够进行最大压缩的方法。此外,这篇文章还希望消除对多重优化的需求。也就是说,希望探索一种通过单一优化一致地执行最大压缩的方法,这被称为最大压缩的一致性属性。

首先考虑最大压缩的情况,即 I ( X ; Y ) = H ( Y ) I(X;Y)=H(Y) I(X;Y)=H(Y)。根据互信息(Mutual Information,MI)的基本性质,可以知道当 I ( T ; Y ) = H ( Y ) I(T;Y)=H(Y) I(T;Y)=H(Y)时表示没有预测损失的情况。
根据信息处理不等式和MI的基本性质可知在无损预测的情况下,有:
H ( Y ) = I ( T ; Y ) ⩽ I ( X ; T ) ⩽ H ( X ) \begin{equation} H(Y)=I(T ; Y) \leqslant I(X ; T) \leqslant H(X) \end{equation} H(Y)=I(T;Y)I(X;T)H(X)
则在最大压缩的情况下有:
I ( X ; T ) = I ( T ; Y ) = H ( Y ) \begin{equation} I(X ; T)=I(T ; Y)=H(Y) \end{equation} I(X;T)=I(T;Y)=H(Y)
因此,最大压缩一致性的形式定义如下:
在这里插入图片描述
满足 I ( X ; T ) = I ( T ; Y ) = H ( Y ) I(X ; T)=I(T ; Y)=H(Y) I(X;T)=I(T;Y)=H(Y)涉及的精确信息量的控制,即将 I ( X ; T ) I(X;T) I(X;T) I ( T ; Y ) I(T;Y) I(T;Y)都精确约束在 H ( Y ) H(Y) H(Y)

Disentangled IB(DisenIB)

将Y中的相关信息编码为T,不相关信息编码为S,则要最小化的目标函数如下:
L DisenIB  [ q ( S ∣ X ) ,   q ( T ∣ X ) ] = − I ( T ; Y ) − I ( X ; S , Y ) + I ( S ; T ) \begin{equation} \mathcal{L}_{\text {DisenIB }}[q(S \mid X),\ q(T \mid X)] = -I(T ; Y)-I(X ; S, Y)+I(S ; T) \end{equation} LDisenIB [q(SX), q(TX)]=I(T;Y)I(X;S,Y)+I(S;T)
具体来说:

  • 通过最大化 I ( X ; S , Y ) I(X;S,Y) I(X;S,Y),来鼓励(S, Y)来表示X的整体信息,使得S至少覆盖了Y-irrelevant部分的数据信息。
  • 通过最大化 I ( T ; Y ) I(T;Y) I(T;Y),来鼓励T能准确的解码Y,这样T至少涵盖了Y-relevant部分的数据信息。
  • 通过最小化 I ( S ; T ) I(S;T) I(S;T)来迫使S与T分离,消除他们之间重叠的信息,从而收紧边界,使得T中包含与Y相关的信息,S中包含与Y不相关的信息。

具体实施细节

根据推导可知,最小化 − I ( T ; Y ) − I ( X ; S , Y ) -I(T ; Y)-I(X ; S, Y) I(T;Y)I(X;S,Y)等于:
min ⁡ q , p , r E p data  ( x ) E p data  ( y ∣ x ) [ − E q ( t ∣ x ) log ⁡ p ( y ∣ t ) − E q ( s ∣ x ) log ⁡ r ( x ∣ s , y ) ] \begin{equation} \min _{q, p, r} \mathbb{E}_{p_{\text {data }}(x)} \mathbb{E}_{p_{\text {data }}(y \mid x)}\left[-\mathbb{E}_{q(t \mid x)} \log p(y \mid t)-\mathbb{E}_{q(s \mid x)} \log r(x \mid s, y)\right] \end{equation} q,p,rminEpdata (x)Epdata (yx)[Eq(tx)logp(yt)Eq(sx)logr(xs,y)]

首先,概率映射 q ( t ∣ x ) q(t|x) q(tx) q ( s ∣ x ) q(s|x) q(sx)有两个编码器参数化: E t : X → R K E_t:\mathcal{X} \rightarrow \mathbb{R}^K Et:XRK E s : X → R K E_s:\mathcal{X} \rightarrow \mathbb{R}^K Es:XRK ,其中 E t E_t Et E s E_s Es分别被用来产生瓶颈表示 t(relevant)和 s(irrelevant),K是瓶颈表示的维度。因为在确定性的场景中(即,t是x的确定性函数),互信息 I ( X ; T ) I(X;T) I(X;T)是分段常数,难以通过梯度回传进行优化,所以引入高斯噪声 N ( 0 , σ 1 2 I ) \mathcal{N}\left(\mathbf{0}, \sigma_1^2 \mathbf{I}\right) N(0,σ12I)使得 E t E_t Et E s E_s Es是随机的,重新参数化技巧去产生t和s:
t ∼ E t ( x ) + N ( 0 , σ 1 2 I ) s ∼ E s ( x ) + N ( 0 , σ 2 2 I ) t \sim E_{\mathrm{t}}(x)+\mathcal{N}\left(\mathbf{0}, \sigma_1^2 \mathbf{I}\right) \\ s \sim E_{\mathrm{s}}(x)+\mathcal{N}\left(\mathbf{0}, \sigma_2^2 \mathbf{I}\right) tEt(x)+N(0,σ12I)sEs(x)+N(0,σ22I)

变分近似通过解码器来参数化: D : R K → R ∣ Y ∣ D: \mathbb{R}^K \rightarrow \mathbb{R}^{|\mathcal{Y}|} D:RKRY,产生可能结果是y的概率。在分类任务中,很容易发现 − E p data  ( y ∣ x ) E q ( t ∣ x ) log ⁡ p ( y ∣ t ) -\mathbb{E}_{p_{\text {data }}(y \mid x)} \mathbb{E}_{q(t \mid x)} \log p(y \mid t) Epdata (yx)Eq(tx)logp(yt)就是CrossEntropy Loss(交叉熵损失):
L C E ( D ( E t ( x ) ) , y ) = − log ⁡ D ( E t ( x ) ) y \begin{equation} \mathcal{L}_{\mathrm{CE}}\left(D\left(E_{\mathrm{t}}(x)\right), y\right)=-\log D\left(E_{\mathrm{t}}(x)\right)_y \end{equation} LCE(D(Et(x)),y)=logD(Et(x))y

即最大化 I ( T ; Y ) I(T;Y) I(T;Y)在分类任务中即对应着最小化相应的交叉熵损失,回归任务中可以考虑L1和MSE。

对于最大化 I ( X ; S , Y ) I(X;S,Y) I(X;S,Y),考虑一个重构器: R : R K × Y → X R: \mathbb{R}^K \times \mathcal{Y} \rightarrow \mathcal{X} R:RK×YX,接收concat的(s, t)作为输入,并产生相应的重构。所以重构损失可以用作 − E p data  ( y ∣ x ) E q ( s ∣ x ) log ⁡ r ( x ∣ s ,   y ) -\mathbb{E}_{p_{\text {data }}(y \mid x)} \mathbb{E}_{q(s \mid x)} \log r(x \mid s,\ y) Epdata (yx)Eq(sx)logr(xs, y)
L recon  ( R ( E s ( x ) , y ) , x ) = ∥ R ( E s ( x ) , y ) − x ∥ 2 2 \begin{equation} \mathcal{L}_{\text {recon }}\left(R\left(E_{\mathrm{s}}(x), y\right), x\right)=\left\|R\left(E_{\mathrm{s}}(x), y\right)-x\right\|_2^2 \end{equation} Lrecon (R(Es(x),y),x)=R(Es(x),y)x22
最小化 I ( S ; T ) I(S;T) I(S;T),可以通过鉴别器d和对抗性训练来实现:
min ⁡ q max ⁡ d E q ( s ) q ( t ) log ⁡ d ( s , t ) + E q ( s , t ) log ⁡ ( 1 − d ( s , t ) ) \begin{equation} \min _q \max _d \mathbb{E}_{q(s) q(t)} \log d(s, t)+\mathbb{E}_{q(s, t)} \log (1-d(s, t)) \end{equation} qmindmaxEq(s)q(t)logd(s,t)+Eq(s,t)log(1d(s,t))
其中,鉴别器d通过 W : R 2 K → R W: \mathbb{R}^{2 K} \rightarrow \mathbb{R} W:R2KR来参数化,接收concat的(s, t)作为输入,并产生相应的概率估计,输入是来自 q ( s , t ) q(s, t) q(s,t)而不是来自 q ( s ) q ( t ) q(s)q(t) q(s)q(t)的概率。首先从联合分布 q ( s , t ) q(s, t) q(s,t)中有效地进行采样,方法是首先从数据集中均匀随机地对 x x x进行采样,然后从 q ( s , t ∣ x ) q(s, t|x) q(s,tx)中进行采样,然后通过沿批轴从联合分布 q ( s ) q ( t ) q(s)q(t) q(s)q(t)中打乱样本,从边际分布 q ( s ) q ( t ) q(s)q(t) q(s)q(t)的乘积中抽样。

对应的大致框架如下:
在这里插入图片描述
伪代码如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/563019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3与vue2共存环境搭建

1、全局安装vue2 npm install vue-cli -g2、自行在任意位置创建一个文件夹,局部安装vue3 npm初始化 npm initnpm初始化 提示: 初始化后 出现文件package.json 如果没有初始化 会报错,且文件夹中不会新增内容 3、局部安装vue3 npm install …

一名优秀的黑客,具备的有哪些特质

想要成为网络hacker黑客?十个必会的特质 一、基本的计算机知识 把它列为第一条,相信很多人肯定会觉得不以为然,其实掌握必要的计算机知识对黑客入门非常重要。这些包括:计算机硬件的组成、操作系统的安装、Windows批处理命令、命…

LeetCode_DFS_困难_1377.T 秒后青蛙的位置

目录 1.题目2.思路3.代码实现(Java) 1.题目 给你一棵由 n 个顶点组成的无向树,顶点编号从 1 到 n。青蛙从 顶点 1 开始起跳。规则如下: 在一秒内,青蛙从它所在的当前顶点跳到另一个未访问过的顶点(如果它…

apt remove purge的区别 删除包的同时删除配置文件

1、apt remove purge的区别 查看 man apt apt remove:删除软件包,不删除配置文件。这么做的目的是将来再次安装这个包时 原来的配置文件会自动加载供使用。也可以避免误删除包,配置文件还在的话,重新安装一次软件包就可以恢复到…

亚马逊云科技出海日6月9日盛夏盛启

向全球价值链上游奋进 中国企业增强国际竞争力的关键,是努力朝全球价值链上游奋进,发力技术出海。中国的出海新机遇,背后曾是疫情在全球按下数字互联和数字化升级的快进键,跨境电商、在线社交、移动支付、数字服务等数字经济迎来…

Spring 学习总结(37)—— 了解什么是单体的模块化,Spring Modulith 入门实践

1、介绍 模块化单体是一种架构风格,代码是根据模块的概念构成的。 对于许多组织而言,模块化单体可能是一个很好的选择。 它有助于保持一定程度的独立性,这有助于我们在需要的时候轻松过渡到微服务架构。Spring Modulith 是 Spring 的一个实验项目,可用于构建模块化单体应用…

《消息队列高手课》课程笔记(一)

消息生态系统全景图 为什么需要消息队列? 异步处理 大多数程序员在面试中,应该都问过或被问过一个经典却没有标准答案的问题:如何设计一个秒杀系统? 这个问题可以有一百个版本的合理答案,但大多数答案中都离不开消息…

马蹄集oj赛(第五次)

目录 围栏木桩 某农场有一个由按编号排列的根木桩构成的首尾不相连的围栏。现要在这个围栏中选取一些木桩,按照原有的编号次序排列之后,这些木桩高度成一个升序序列。 大厨小码哥 附庸的附庸 最长子段和 旅费 纸带 暧昧团 上楼梯 上楼梯2 采蜜 围栏…

Spring 学习总结(36)—— Spring 状态机优雅实践

1、什么是状态机 1.1 什么是状态 先来解释什么是“状态”( State )。现实事物是有不同状态的,例如一个自动门,就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机,也就是被描述的事物的状态的数量是有限个,例如自动门的状态就是两个 open 和 closed 。 状…

Mybatisplus真实高效批量插入附容错机制

文章目录 概要优化技术细节小结 概要 提示:mybatisplus自带真实批量插入 在mybatisplus已知常用批量插入为继承Iservice里的saveBatch方法和saveOrUpdateBatch方法, 进入源码可知,此两种方法的插入均为单条插入,如图: 其中可看出&#xff0…

果汁脱色树脂,制糖行业脱色,医药行业脱色

具有控制孔径的大孔强碱性Ⅰ型阴特种脱色用离子交换树脂 Tulsimer A-722是一款具有便于颜色和有机物去除的控制孔径的,专门开发的大孔强碱性Ⅰ型阴离子交换树脂。 Tulsimer A-722 (氯型)专门应用于糖浆脱色。 Tulsimer A-722由于其本身…

字节真的是宇宙尽头吗?

身边在字节的朋友很多人抱怨很卷,但卷到何种程度?很多人没有直观感受。某乎上一个问题(在字节跳动工作是怎样的?)点赞排名第一的回答生动的解释了字节的卷。 租房的舍友在字节工作。 舍友主卧,我次卧。 合租两个月了,我没见过舍友长什么样。…

Python实现ACO蚁群优化算法优化Catboost回归模型(CatBoostRegressor算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 蚁群优化算法(Ant Colony Optimization, ACO)是一种源于大自然生物世界的新的仿生进化算法&#xff0c…

Bark(Suno AI) 搭建及使用

前言 Bark 是由Suno AI创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。 1: 环境 win10 rtx 3060TI bark 下载地址 https://github.com/sun…

Jenkins配置Powershell脚本,通过脚本控制开发/测试服务器

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:无尽的折腾后,终于又回到了起点,工控,我来了 !序言 因为需要在Windows上编译和部署程序,因此需要借助PowerShell的脚本力量完成这些事情。 目标…

3年工作经验裸辞,有点后悔了

2019年毕业,现在有3年的软件测试工作经验,刚毕业前半年在一家知名上市公司,后面则进入一家传统行业公司待到现在2年半。 由于看不到技术成长以及其他原因,上上周辞职了,目前交接中,下个月中旬就得离开了&a…

Call for Papers丨第十七届全国知识图谱与语义计算大会,AI Open联合征稿

第十七届全国知识图谱与语义计算大会(CCKS 2023)征稿中,并与《AI Open》开展联合征稿,征稿截止日期为2023年6月2日。 全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing&#x…

推荐一个AI导航网站 - 收录的都是热门AI工具

AI导航 | AI工具 | AI之旅导航是只收录最新最实用AI工具的人工智能导航网站 最近半年使用了大量的AI人工智能工具,收藏夹已经收藏不过来了。 所以搭建这个导航网站,管理所有收藏的热门AI网站,同时像大家分享, 网站没有任何广告…

esp32 下蓝牙播放音乐歌词的获得

以esp32 或者esp8266 作为蓝牙音乐接收端是可以获取到歌词的。 走了不少弯路,这方面还是资料有缺失,其实这是很简单的事情。 使用了A2DP这个库,GitHub - pschatzmann/ESP32-A2DP: A Simple ESP32 Bluetooth A2DP Library (to implement a M…

微信外h5跳转小程序3中方式

1.转短链接跳转小程序(支持微信内外) 目前限制50wc次 先转短链接 文档:获取scheme码 | 微信开放文档 2.微信公众号h5内跳转小程序(支持微信内) 微信公众号h5页面跳转微信小程序_程序007的博客-CSDN博客 3.使用云函…