由Deep InfoMax开始对比学习

news2025/1/17 9:02:45

作者:KON 来源:投稿
编辑:学姐

作者介绍:Kon
擅长是自然语言处理、推荐系统,爱好是cv;著有cv相关专利一篇,西安交通大学软件专业本硕。

1.前言

本次给大家带来的是发表在「ICLR2019」上的一篇文章:「LEARNING DEEP REPRESENTATIONS BY MUTUAL INFORMATION ESTIMATION AND MAXIMIZATION。」

「这篇文章是对比学习的开山之作之一」,为对比学习提供了理论支撑,指导了后来人如何正确选择合适的对比函数损失。截至完稿,该论文的引用为1299。

本文只讨论该paper的核心部分,也就是理论推导部分,「它解释了我们如何通过最大化互信息来达成我们对比学习的目的」。虽然这篇文章主要讨论的是CV上的对比学习,但该理论是通用于所有深度学习框架的范式,把它扩展到图表示、NLP等其它领域也是合适的。

虽然这篇文章非常的经典+硬核,但遗憾的是,原论文并没有给出各公式的详细推导。如果数学功底不够扎实,读起来往往颇为费劲。本文将给出该paper有关理论详细推导+详细解释,一步步带大家理解。

2.什么是对比学习?

对比学习是一种自监督学习方法,用于在没有标签的情况下,通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。

让我们从一个简单的例子开始

假设你有两个苹果和一个梨,即使没有人告诉你它们是什么,你仍可能会意识到,与苹果相比,这两只梨子看起来很相似。仅仅通过识别它们之间的异同,我们的大脑就可以了解我们的世界中物体的高阶特征。

目前主流的深度学习是「通过对输入拟合label来达到学习目的的」,但实际情况中,可能根本没有那么多label可言。在上述例子中,并没有谁来告诉我们label,我们仍然能够学到大量的信息。基于此启发,对比学习的概念应运而生。

3.数学准备

在开始我们的推导之前,我们需要先明确几个后续推到会使用到的概念:

KL散度:

KL散度是用来衡量两个分布差异的度量,它是顺序敏感的,D(X|Y)与D(Y|X)是不同的。

互信息:

互信息描述了两个分布共有信息的度量,它是顺序不敏感的,I(X;Y)与I(Y;X)是一样的。很容易可以看到,这两个度量都可用来衡量两分布之相似性。那么,它们之间有没有关系呢?

「答案是有的,推导如下」

原来X与Y的互信息,就等于X与Y之联合分布与X Y边缘分布之乘积。

共轭函数:

这里的sup代表上确界,即最小上界。使上述上确界有限,即差值在f之定义域有上界的所有y构成了共轭函数的定义域。共轭函数是我们后续推导的剪刀,帮助我们把目标函数剪成我们想要的样子。

4.如何最大化互信息?

对比学习是一种无监督学习,其目的是衡量两个输入的相似性。大家应该可以发现,这不恰巧与互信息的定义一致吗?那么,我们「可以使用互信息来当作我们的Loss函数吗?」

答案当然是「可以」。但难度也是显而易见的,我们有的只是样本,不知道分布具体的表达式。不知道具体的表达式就无法算得互信息的具体数值,便无法进行反向传播更新参数。

其实我们不一定非要求得互信息的解析解。长久以来的经验告诉我们,在实际应用中,数值解往往就够了。在F-GAN严格推导和证明了所有散度的下确界都由某个生成函数f与某个共轭函数g决定,于是我们借用F-GAN中的思想,希望用逼近的方法让互信息成为我们的损失函数。

由于所有散度都可归纳于一般的F-散度,为了更泛化的结果,我们不止对KL散度进行推导,将上述共轭函数带入,我们对F-散度进行推导:

「这里t为f的输出,g为f的共轭函数。通过共轭函数这把剪刀,我们把f散度求解问题变成了求解两分布下T(x)与g(T(x))期望之最大值问题,把一个抽象的问题具体化了。」

于是,当F散度为KL散度时,使用上述推导结果,很容易就可以得到:

在本文中,作者借用MINE(Mutual Information Neural Estimation)的结论。MINE中使用的是Donsker-Varadhan Estimator(DV representation of KL divergence),该estimator是互信息的一个下界。DV estimatorF-GAN导出的散度解析解作了一丢丢小改动,代入KL散度便得到:

这里的epsilon为我们的encoder编码器,也就是神经网络;Tclassifier分类器,也就是最后的FC层或回归头。终于,原来那么抽象的问题,现在只要令两批样本(如,一张在沙漠的波斯猫图片和一张在草地上大橘图片)的期望尽可能大,那么就能尽可能提高互信息的下限,就可以通过曲线救国的方法,最大化两批样本MI。

这个过程中,神经网络学到的就是两批样本的通用信息,如猫咪眼睛的样子、猫咪的爪子、猫咪的四肢等,噪音信息(如不同背景,沙漠、草地 etc.)等被忽略。

至此,原来无法解决的问题便解决了,对比学习打下了坚实的理论基础。再回头看一眼本文实际代码中的Global InfomaxLoss函数,其中正样本来自联合分布,负样本来自边缘分布之积,是不是就非常清晰了呢?

关注下方《学姐带你玩AI》🚀🚀🚀

回复“对比学习

免费获取论文原文PDF+代码数据集

 码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/398475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10Wqps评论中台,如何架构?B站是这么做的!!!

说在前面 在尼恩的(50)读者社群中,经常遇到一个 非常、非常高频的一个面试题,但是很不好回答,类似如下: 千万级数据,如何做系统架构?亿级数据,如何做系统架构&#xff1…

阿里云服务器使用教程:使用xshell、xFtp工具连接阿里云服务器(Centos7)并修改Centos7的yum源为阿里镜像源

目录 1、下载并安装xshell、xFtp 2、远程连接阿里云服务器 3、 修改Centos7的yum源为阿里镜像源 1、下载并安装xshell、xFtp XShell可以在Windows界面下来访问远端不同系统下的服务器,从而比较好的达到远程控制终端的目的。它支持 RLOGIN、SFTP、SERIAL、TELNET、…

STM32中断分组配置NVIC_PriorityGroup,移植操作系统需需注意NVIC_PriorityGroup_4

一、先说明中断分组的由来中断优先级分组表:优先级分组抢占优先级响应优先级bit[7:4] 分配情况备注NVIC_PriorityGroup_0取值:0取值:0~150:40bit抢占优先级、4bit响应优先级NVIC_PriorityGroup_1取值:0~1取值:0~71:31b…

关于热力图展示大量数据点耗时导致浏览器崩溃问题及解决方案

目录 问题描述 问题分析 解决方案 问题描述: Web前端在地图上加载空间数据库里存储的地块中心点时因为数据点太多从而导致页面崩溃。Mybatis查询大量数据时,耗时时间更长是主要原因。8万多条数据,数据库查询最慢0.6s, Mybatis查询结果需要…

【可信平台】开证问题汇总--1.无采购入库记录,2.箱码无产出记录

这里面的问题主要有两类, 批号无采购入库记录箱码无产出记录批号无采购入库记录 第一个问题,以批号 W200263242022100600018 为例。 MES里入库明细里能查到可信平台集成报错: 入库数量>采购数量 再看下入库明细里的情况: 可信平台集成提示物料库存不存在。(没有入库记…

【LeetCode】剑指 Offer(19)

目录 题目:剑指 Offer 36. 二叉搜索树与双向链表 - 力扣(Leetcode) 题目的接口: 解题思路: 代码: 过啦!!! 写在最后: 题目:剑指 Offer 36. …

JUC并发编程共享模型之管程(三)(上)

三 共享模型之管程&#xff08;上&#xff09; 4.1 共享问题 问题发现 Slf4j public class ShareTest01 {static int count 0;public static void main(String[] args) throws InterruptedException {Thread t1 new Thread(() -> {for(int i 0; i < 5000; i){count…

jvm理解

1.堆栈 JVM运行字节码时&#xff0c;所有的操作基本都是围绕两种数据结构&#xff0c;一种是堆栈&#xff08;本质是栈结构&#xff09;&#xff0c;还有一种是队列&#xff0c;如果JVM执行某条指令时&#xff0c;该指令需要对数据进行操作&#xff0c;那么被操作的数据在指令…

macos ncnn 安装踩坑记录···

安装真麻烦踩了无数坑&#xff0c;官方给的安装教程&#xff1a;macos安装ncnn, 安装过程老是报错&#xff0c;记录一下卡的比较久的&#xff0c;网上也不好找资料的错. 我的电脑&#xff1a; 1. 使用homebrew 的时候失败fatal: not in a git directory Error: Command failed…

用Python帮老叔选出好基金,大赚一笔,老叔专门提着茅台登门道谢

我有个老叔很喜欢买基金&#xff0c;因为不想被割韭菜&#xff0c;所以啥群都没进&#xff0c;全部自己精挑细选。 看着他的一个本子密密麻麻地写了一大堆东西&#xff0c;全是基金的数据分析&#xff0c;一大把年纪了挺不容易的&#xff0c;于是就决定帮他一把。 在跟他详谈…

合作伙伴确定过程

下销售单的时候&#xff0c;会由Sold—to Party&#xff08;售达方&#xff09;来下单。定单会有不同的Ship—to Party&#xff08;送达方&#xff09;。发票会走到被称为Bill—to Party&#xff08;收票方&#xff09;的一方&#xff0c;还有一方Payer&#xff08;付款方&…

GDAL python教程基础篇(1)——用OGR写入矢量数据

上一篇博客介绍了如何使用OGR读取矢量数据&#xff0c;那么怎么用OGR写入呢&#xff0c;下面就让我们一起学习怎么写入数据吧。 1.创建新文件 在写入数据之前我们首先需要确定写入对象&#xff0c;也就是先创建一个可供写入数据的对象。 创建对象使用driver.CreateDataSource…

4. STM32 OLED及keil调试简介

常用程序调试方法•串口调试&#xff1a;通过串口通信&#xff0c;将调试信息发送到电脑端&#xff0c;电脑使用串口助手显示调试信息•显示屏调试&#xff1a;直接将显示屏连接到单片机&#xff0c;将调试信息打印在显示屏上•Keil调试模式&#xff1a;借助Keil软件的调试模式…

Java基础面试题(一)

Java基础面试题 一、面向对象和集合专题 1. 面向对象和面向过程的区别 面向过程&#xff1a;是分析解决问题的步骤&#xff0c;然后用函数把这些步骤一步一步地实现&#xff0c;然后在使用的时候一一调用则可。性能较高&#xff0c;所以单片机、嵌入式开发等一般采用面向过程…

项目执行差,你应该如何推进解决?(万千项目)

在日常工作中&#xff0c;项目成员可能存在以下问题&#xff1a;1、沟通能力不足。团队成员之间不主动反馈沟通导致问题堆积影响项目进度&#xff1b;2、执行力不足。成员推一下动一下&#xff0c;不主动积极执行工作任务&#xff1b;3、技术能力不不足。一写代码全是bug&#…

使用 Wall 搭建个人照片墙和视频墙

下载 Github:https://github.com/super-tongyao/wall 国内仓库&#xff08;不推荐&#xff0c;只做加速访问&#xff0c;无编译包和发行版&#xff0c;以github仓库为准&#xff09;&#xff1a;https://gitee.com/Super_TongYao/wall 推荐github仓库&#xff0c;下载最新版…

小米把不干活的同事都裁了,给了n+2,留下的人年终奖才1个多月工资,工作压力还变大了,太冤了,还不如被裁!...

被裁一定是不幸&#xff0c;留下一定是幸运吗&#xff1f;也未必&#xff0c;来看看这位网友的爆料&#xff1a;我同学21届校招进小米&#xff0c;今年年前躲过了裁员&#xff0c;不干活的同事都被裁了&#xff0c;给了n2。但发年终奖时&#xff0c;他才拿了不到2个月工资&…

Nginx服务优化措施与配置防盗链

目录 一.优化Nginx的相关措施 二.隐藏/查看版本号 三.修改用户与组 四.设置缓存时间 五.日志切割脚本 六.设置连接超时控制连接访问时间 七.开启多进程 八.配置网页压缩 九.配置防盗链 1.配置web源主机&#xff08;192.168.79.210 www.zhuo.com&#xff09; 1.1 安装…

CentOS 7 安装 mysql 5.7 最新版本

最近学习 mysql 菜鸟教程 &#xff0c;在 CentOS 7 上&#xff0c;教程里安装 wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm &#xff0c;el7-5 一定是比较旧的版本了&#xff0c;但是到哪里可以找到最新的版本呢&#xff1f;当然是官网和官方仓库 &a…

JS - var / let / const 区别

var &#xff1a;变量提升&#xff0c;定义的变量都会被提升到该作用域的最顶部&#xff0c;变量也可以在声明之前使用 let &#xff1a;块级作用域&#xff0c;不能重复定义const &#xff1a;块级作用域&#xff0c;不能重复定义&#xff0c;定义常量不能被修改&#xff1b;虽…