论文研读 Disentangled Information Bottleneck

news2025/1/11 6:54:46

解耦信息瓶颈

摘要: 信息瓶颈方法是一种从源随机变量中提取与预测目标随机变量相关的信息的技术,通常通过优化平衡压缩和预测项的IB拉格朗日乘子f来实现,然而拉格朗日乘子很难优化,需要多次实验来调整拉格朗日乘子的值,此外我们还证明了随着压缩强度的增大 预测性会严重降低,本文从监督解纠缠的角度来实现信信息瓶颈的方法,DisenIB 旨在保证目标与测性能不损失的前提下,最大化的压缩性信息源大量的理论和实验证明,我们的方法在最大压缩方面是一致性的,并且在泛化性能 对抗性攻击的鲁棒性  、分布外检测和监督解耦方面表现出色。

最大压缩方面是一致性的:最大化压缩源数据的同时,保持了目标预测性能的一致性,即在不损失预测性能的前提下实现最大压缩。

问题提出: 什么是信息瓶颈? 信息瓶颈的意义是什么?

信息瓶颈技术是一种基于信息论原理的方法,旨在从源随机变量中提取与目标随机变量预测相关的最小信息集合。它通过优化信息瓶颈的拉格朗日量(IB Lagrangian)来实现,这个拉格朗日量在压缩和预测项之间取得了平衡。简而言之,信息瓶颈技术试图在减少信息量的同时,保持或提高预测的准确性。

信息瓶颈提取出的信息   是从源随机变量中提取的,提取的约束是保持或者提高预测的准确性的前提下,减少信息量,即  用少量的信息实现最好的预测。

意义与应用:数据压缩(找到最优的中间表示)、特征选择(选择最具代表性的特征子集),和模型压缩(减少模型的复杂性和参数量)

1  introduction 

压缩是机器学习中 普遍存在的任务,为了提高计算效率过度参数化的网络使用剪枝进行压缩,机器可以讲复杂的数据转化为可以泛化的压缩表示,确定数据的哪些方面可以保留,哪些方面可以舍弃是很重要的,信息瓶颈理论提供了一种原则性的方法来解决这个问题,它压缩源随机变量以保留与预测目标随机变量相关的信息,最近的研究表明,信息瓶颈的方法可以产生具有很好泛化性能的表征,并且有望解释神经网络的学习行为,给定随机变量X,Y 他们的联合概率分布是p_{^{data}}(X,Y )

T)信息瓶颈的方法旨在压缩信息X到一个瓶颈随机变量T 并且保持与预测随机变量的信息,也就是说寻找一个概率映射q(T|X) 使得互信息I(X;T)受限的同时最大化I(T;Y),这可以表述为一个约束优化问题

       可以通过最小化拉格朗日量来解决这个问题:

 最小化拉格朗日乘子遇到了很多问题   。。。。

我i们期望从X中提取出Y的最小充分表示,T,最大化压缩X 而不丢失互信息I(T;Y) 在本文其余部分称为最大压缩, 这种i情况不能通过最小化拉格朗日乘子来实现,因为压缩总要 减少 互信息I(T;Y) 此外 我们期待消除对多次优化的需要,并且探索 通过单个优化实现最大压缩一致的方法,我们一开始意识到监督解纠缠和信息瓶颈背后的思想密切相关,监督解纠缠解决的问题是  识别 互补的数据方面,并且通过监督学习的方式将他们解开,在信息瓶颈的方法中的 必须分离与Y相关和不相关的数据方面,这启发我们从监督解耦的角度来实现信息瓶颈的方法,据我们所知我们是第一个在信息瓶颈和解耦学习方面建立联系的研究,我们的贡献有下面三个方面:

•我们研究了IB拉格朗日量中的权衡,表明平衡压缩和预测项只会降低预测性能,因此无法实现最大压缩。

•我们提出了IB的一个变体,即解纠缠信息瓶颈(DisenIB),它被证明在最大压缩上是一致的。具体来说,DisenIB消除了多次优化的需要,并通过单个优化一致性执行最大压缩。

•通过实验结果,我们证明了我们的理论陈述,并表明DisenIB在概括(Shamir, Sabato, and Tishby 2010)、对抗性攻击的鲁棒性(Alemi et al. 2017)和分布外数据检测(Alemi, Fischer, and Dillon 2018)以及监督解缠方面表现良好

2 方法

在本节中,我们首先研究了IB拉格朗日量中涉及的权衡,表明平衡压缩和预测项只会降低预测性能,因此无法实现最大压缩。然后,我们介绍了我们提出的最大压缩一致的DisenIB。

2.1 IB拉格朗日权衡

我们首先证明了优化IB拉格朗日会导致不可避免的权衡。具体来说,通过优化IB拉格朗日量得到的压缩目标和预测目标的最优解始终不如单独优化每个目标得到的最优解。这可以用定理1(见补充证明)来正式表述:

 2.2一致性

由于上述权衡,优化IB拉格朗日量无法实现最大压缩。期望探索一种能够执行最大压缩的方法。此外,我们还希望消除对多重优化的需求。也就是说,我们期望探索一种通过单个优化始终如一地执行最大压缩的方法,这被称为最大压缩的一致性属性。。。。。。

2.3 Disentangled IB

我们介绍了我们的方法在最大压缩方面是一致的,在认识到信息瓶颈和解耦之间的关系后,我们从监督解耦分类角度实现信息瓶颈,我们引入另一个变量S  作为 与T 互补的方面表示  T  表示的是从X中提取出的能够预测Y的最小信息量  S 可以简单理解为 冗余无关信息。

 具体来说,我们鼓励(S, Y)通过最大化I (X;S, Y),使得S至少涵盖了与Y无关的数据方面的信息。我们鼓励Y可以通过最大化I (T;Y),使得T至少涵盖了Y相关数据方面的信息。因此,存储在S和T中的信息量都是下界的。在这种情况下,通过最小化I (S;T)消除了它们之间的重叠信息,从而收紧了两个边界,使确切的信息保持相关。此外,通过优化LDisenIB可以一致地实现最大压缩,如下定理2所示(见补充证明):

定理2 LDisenIB在最大压缩上是一致的。

我们推导出I (T;Y)的变分近似;Y)和I (X;S, Y)项 通过引入变分概率映射p (y|t)和R (x|s, y),可处理的变分下界可表示为

最小化I (S;T) = DKL [q (S, T)‖q (S) q (T)]项是难以处理的,因为q (S, T)和q (S) q (T)都涉及具有大量组分的混合物。然而,我们观察到,由于马尔可夫链s↔x↔t (Kim and Mnih 2018),我们可以有效地从联合分布q (s, t)中抽样,首先从数据集中均匀随机抽样x,然后从q (s, t|x) = q (s|x) q (t|x)抽样。我们还可以通过沿着批轴对联合分布q (s, t)中的样本进行洗牌,从边际分布q (s) q (t)的乘积中进行抽样(Belghazi et al. 2018)。然后,我们使用密度比率技巧通过引入一个判别器d来估计其输入是来自q (s, t)而不是来自q (s) q (t)的样本的概率。对抗训练是用来训练鉴别器的

当达到纳什均衡Nash equilibrium时,q (s, t) = q (s) q (t),从而使它们的互信息I (S; T )项最小

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1661537.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《黑暗之魂》系列迎来打折:魂三标准版半价134,豪华版199

《黑暗之魂》系列游戏降价促销,现在是购买的好时机!想必喜欢挑战和探索的玩家们对这个消息会特别感兴趣。让我们来看看具体的折扣信息吧! 首先是《黑暗之魂:重制版》,原价198元,现价仅为99元!这…

这份走心的母亲节礼物清单,请查收!

老舍在《我的母亲》中写道:“人,活到八九十岁,有母亲在,便可以多少还有点孩子气。失了慈母便像花插在瓶子里,虽然还有色有香,却失去了根。有母亲的人,心里是安定的。”母亲,对我们每…

【17-Ⅰ】Head First Java 学习笔记

HeadFirst Java 本人有C语言基础,通过阅读Java廖雪峰网站,简单速成了java,但对其中一些入门概念有所疏漏,阅读本书以弥补。 第一章 Java入门 第二章 面向对象 第三章 变量 第四章 方法操作实例变量 第五章 程序实战 第六章 Java…

做好员工行为管理与监督,低门槛构建办公远程管理体系

在企业的日常办公环节,商用远程控制方案起到的作用是多层次的:它既可以作为远程办公的核心工具,也可以作为企业办公远程管理的必要手段,同时也广泛应用在企业内部日常的技术支持,以及关键设备的重点运维。 更加重要的…

【漫画版】指挥官的排序战术:快速排序算法解密

作者介绍:10年大厂数据\经营分析经验,现任字节跳动数据部门负责人。 会一些的技术:数据分析、算法、SQL、大数据相关、python,欢迎探讨交流 欢迎加入社区:码上找工作 作者专栏每日更新: LeetCode解锁1000题…

7. 链路日志打印实现设计

前言 在前面的文章中,我们已经实现了一个Starter包,能够在使用RestTemplate作为客户端请求工具时,记录调用链路信息。在本文,将实现Jaeger框架下的链路日志打印,也就是提供一个io.jaegertracing.spi.Reporter来将Span…

idea运行SpringBoot项目爆红提示出现:Java HotSpot(TM) 64-Bit Server VM warning...让我来看看~

在运行SpringBoot项目的时候,发现总有这个警告提示出现,有点强迫症真的每次运行项目都很难受啊!那么今天便来解决这个问题! 先来看一下提示内容:Java HotSpot(TM) 64-Bit Server VM warning: Options -Xverify:none an…

kaldi学习参考

HMM模型 https://www.cnblogs.com/baixf-xyz/p/16777438.htmlhttps://www.cnblogs.com/baixf-xyz/p/16777438.htmlGMM-HMM 基于GMM-HMM的语音识别系统https://www.cnblogs.com/baixf-xyz/p/16777439.html https://www.cnblogs.com/baixf-xyz/p/16777426.htmlhttps://www.cnbl…

Tomcat中服务启动失败,如何查看启动失败日志?

1. 查看 localhost.log 这个日志文件通常包含有关特定 web 应用的详细错误信息。运行以下命令查看 localhost.log 中的错误: sudo tail -n 100 /opt/tomcat/latest/logs/localhost.YYYY-MM-DD.log请替换 YYYY-MM-DD 为当前日期,或选择最近的日志文件日…

官宣:vAsterNOS正式发布!开放网络操作系统免费试用!

近期,vAsterNOS(设备模拟器)正式发布,可以满足用户快速了解 AsterNOS、体验实际操作、搭建模拟网络的需求,可运行在GNS3、EVE-NG等网络虚拟软件中。 AsterNOS 网络操作系统是星融元为人工智能、机器学习、高性能计算、…

AI换脸原理(3)——人脸对齐介绍

人脸对齐简介 人脸对齐其实包含两个步骤:人脸关键点检测、人脸对齐,英文术语有facial landmark和face alignment,主要用于精确标识眉毛、眼睛、鼻子、嘴巴以及人脸轮廓等特征部位。不同数据集对于关键点的数量有不同的设定,最少的是标记5个关键点,通常包括两只眼睛的瞳孔…

springboot-aop-学习笔记

什么是AOP? AOP英文全称:Aspect Oriented Programming(面向切面编程、面向方面编程),其实说白了,就是 需要 某个通用的方法时,可以创建一个模板,模板里面就有这些通用的方法&#xf…

mysql 其他类型转换为BIT

看官网说明,BIT没什么特殊之处。但实际操作却不能将任何其他类型字段转为BIT,下面两个都报语法错误 CAST(column AS BIT(1)) AS aa , CAST(column AS BIT) AS bb, BIT value则模式是VARBINARY b1 as cc, -- cc为VARBINARY类型 下面是《高性能MySQL(第四版)》中关于BIT类型的…

JDK不同版本里中国夏令时时间

什么是夏令时? 夏令时,(Daylight Saving Time:DST),也叫夏时制,又称“日光节约时制”和“夏令时间”,是一种为节约能源而人为规定地方时间的制度,在这一制度实行期间所采…

物业收费管理小程序源码搭建/部署/上线/运营/售后/更新

一款基于FastAdminUniApp开发的一款物业收费管理小程序。包含房产管理、收费标准、家属管理、抄表管理、在线缴费、业主公告、统计报表、业主投票、可视化大屏等功能。为物业量身打造的小区收费管理系统,贴合物业工作场景,轻松提高物业费用收缴率&#x…

代码随想录算法训练营第六十天| LeetCode647. 回文子串 、516.最长回文子序列

一、LeetCode647. 回文子串 题目链接/文章讲解/视频讲解:https://programmercarl.com/0647.%E5%9B%9E%E6%96%87%E5%AD%90%E4%B8%B2.html 状态:已解决 1.思路 这道题我只想出来了暴力解法,动规解法并没有想出来。根据视频讲解才把它想出来。…

MT8370_联发科MTK8370(Genio 510)芯片性能规格参数

MT8370芯片是一款利用超高效的6nm制程工艺打造的边缘AI平台,具有强大的性能和功能。这款芯片集成了六核CPU(2x2.2 GHz Arm Cortex-A78 & 4x2.0 GHz Arm Cortex-A55)、Arm Mali-G57 MC2 GPU、集成的APU(AI处理器)和DSP,以及一个HEVC编码加速引擎&…

zip file is empty

从下找到报错的jar包。展开这个jar包,看下是否正常,正常的是能够展开看到一些文件夹以及里面的类,如下:如果不正常,就删除这个jar包,同时找到这个jar包在本地maven仓库的地址,也删除掉&#xff…

鸿蒙内核源码分析(文件句柄篇) | 你为什么叫句柄

句柄 | handle int open(const char* pathname,int flags); ssize_t read(int fd, void *buf, size_t count); ssize_t write(int fd, const void *buf, size_t count); int close(int fd);只要写过应用程序代码操作过文件不会陌生这几个函数,文件操作的几个关键步骤嘛,跟把大…

ssrf漏洞学习——基础知识

一、SSRF是什么? SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。 一般情况下,SSRF攻击的目标是从外网无法访问的内部系统。(正是因为它是由服务端发起的,所以它能…