对比学习论文综述总结

news2024/12/23 23:03:10

第一阶段:百花齐放(18-19中)

有InstDisc(Instance Discrimination)、CPC、CMC代表工作。在这个阶段方法模型都还没有统一,目标函数也没有统一,代理任务也没有统一,所以说是一个百花齐放的时代

1 判别式代理任务---个体判别任务

1.1 Inst Dict---一个编码器+一个memory bank

《Unsupervised Feature Learning via Non-Parametric Instance Discrimination

通过无参数的实例判别任务进行无监督特征学习

研究动机:通过观察分类结果,发现相似的类别分数高,不相似的类别分数低,认为原因不是因为标签不同而是因为相似类别的个体长得就是很相似。通过这一现象,提出了个体判别这个代理任务任务目标是,把每张图片都看做一个类别,目标是能够学习一种特征从而把每张图片都区分开。

方法:通过对比学习训练网络,对于个体判别任务,正样本即这个图片本身或经过数据增量,负样本是数据集中其他图片(即memory bank中随机抽取数据)。把所有负样本特征存放在 memory bank 中,每次minibatch的数据特征更换上一次memory bank中的特征。还有一些其他巧妙的设计,如proximal Regularization:为模型的训练增加了一个约束,从而可以使memory bank 中的特征进行动量式的更新;超参数的设定也被MoCo所严格执行。

主要贡献提出了个体判别任务(Instance Discrimination)代理任务;使用这个代理任务和NCE Loss做对比学习;提出了memory bank这种类似于字典的数据结构存储大量负样本;并提出了如何对特征进行动量的更新

1.2 Inva Spread---一个编码器

《Unsupervised Embedding Learning via Invariant and Spreading Instance Feature》

通过不变和扩展实例特征进行无监督嵌入式学习

Invariant和spreading,即:相似物体的特征应该保持不变性,不相似物体的特征应该尽可能分散

可以被理解成是 SimCLR 的前身。没有使用大量的数据结构去存储大量负样本,它的正负样本来源于同一个minibatch,(可使得)只使用一个编码器进行端到端的学习。

代理任务也是选取了个体判别这个任务。正负样本选取:图片x1的正样本是x1经过数据增强后的图片,负样本是其他剩下的所有图片,包括原始的图片以及经过数据增强后的图片。

主要贡献:不需要使用大量的数据结构去存储大量负样本;正负样本来源于一个batch:使用一个编码器进行端到端的学习。

2 生成式代理任务---预测、多模态

2.1 CPC---预测未来  一个编码器+一个自回归模型

《Representation Learning with Contrastive Predictive Coding》

利用对比预测编码进行表征学习----预测型代理任务

正负样本的定义:正样本是未来的输入通过编码器后得到的未来时刻的特征输出,这相当于做的预测是 query,而真正未来时刻的输出是由输入决定,也就是说它们相对于预测来说是正样本负样本的定义很广泛,如,可以任意选取输入通过编码器得到输出,则对于当前的预测时不相似的。

2.2 CMC--多模态  两个或多个编码器

《Contrastive Multiview Coding》--- 对比多视图编码  

摘要:核心观点是一个物体的很多个视角都可以被当做正样本。因为我们人观察这个世界是通过很多个传感器的,比如我们的眼睛和我们的耳朵,这些都充当着不同的传感器来给我们大脑提供不同的信号,每一个视角都有可能是带有噪声且不完整的,但是最重要的那些信息其实是在所有的这些视角中间共享的,如基础的物理定律、几何形状、语音信息这些都是共享的。比如一只狗,他可以被我们眼睛看见,也可以被耳朵听到,也可以被感受到。因为作者提出我们想学一个很强大的特征,具有视角的不变性,即不管你给我看哪个视角,到底是看到了一只狗,还是听到了狗叫声,我都能判断出这是一只狗。所以CMC这篇文章就是想增大这个互信息,如果能学到一种特征,可以抓到所有视角下的这个关键因素,那这个特征就很好了。

正负样本定义:一个物体的多个视角都可以当做其正样本,包括四个视角:原始图像、图像对应的深度信息(每个物体离观察者到底有多远)、surface normal、这个物体的分割图像。随机挑一个其他图片,该图片属于一个不配对的视角作为负样本。需使用两个或多个编码器。

总结

从第一阶段可以看到:它们使用的代理任务是不一样的,有个体判别,有预测未来,还有多视角多模态;它们使用的目标函数也不尽相同,有 NCE,有infoNCE,还有NCE的其它变体;它们使用的模型也都不一样,比如说invariant spread用了一个编码器;Inst Disc用一个编码器和memory bank;cpc有一个编码器,还有一个自回归模型;cmc可能有两个甚至多个编码器;它们做的任务从图像到视频到音频到文字到强化学习,非常的丰富多彩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot结合element-ui实现增删改查,附前端完整代码

实现功能 前端完整代码 后端接口 登录,注册,查询所有用户,根据用户名模糊查询,添加用户,更新用户,删除用户 前端 注册,登录,退出,用户增删改查,导航栏&#…

关于单行文本input和多行文本textarea唤起自动完成功能

若不要自动完成功能,则增加 autocomplete"off" 属性到控件或窗体中,默认 autocomplete"on" 处于开启状态。 实测过程中,单行文本可以有自动完成功能,多行文本无论如何实验都不行。查了查资料,MDN…

算法提高-线段树

线段树 线段树和树状数组线段树的五个操作单点修改(不需要懒标记)要求的答案就是我们要维护的属性,不需要维护其他的属性帮助我们获得答案要求的答案还需要其他属性去维护 区间修改(需要懒标记,pushdown)有…

小爱同学今日起开启邀请测试, 小米Al 大模型团队整装待发

在小米雷军年度演讲中,小米宣布未来将在技术研发上投入超过200亿元人民币,并预计在2023年达到这一目标。除此之外,雷军还强调了5G技术在小米发展中的重要性,称其为必要标准,并预测小米将进入世界前十的位置。 雷军还透…

配置 yum/dnf 置您的系统以使用默认存储库

题目 给系统配置默认存储库,要求如下: YUM 的 两 个 存 储 库 的 地 址 分 别 是 : ftp://host.domain8.rhce.cc/dvd/BaseOS ftp://host.domain8.rhce.cc/dvd/AppStream vim /etc/yum.repos.d/redhat.repo [base] namebase baseurlftp:/…

釉面陶瓷器皿SOR/2016-175标准上架亚马逊加拿大站

亲爱的釉面陶瓷器皿和玻璃器皿制造商和卖家,亚马逊加拿大站将执行SOR/2016-175法规。这是一份新的法规,规定了含有铅和镉的釉面陶瓷器和玻璃器皿需要满足的要求。让我们一起来看一看,为什么要实行SOR/2016-175法规?这是一个保护消…

Unity游戏源码分享-中国象棋Unity5.6版本

Unity游戏源码分享-中国象棋Unity5.6版本 项目地址: https://download.csdn.net/download/Highning0007/88215699

linux系统服务学习(一)Linux高级命令扩展

文章目录 Linux高级命令(扩展)一、find命令1、find命令作用2、基本语法3、*星号通配符4、根据文件修改时间搜索文件☆ 聊一下Windows中的文件时间概念?☆ 使用stat命令获取文件的最后修改时间☆ 创建文件时设置修改时间以及修改文件的修改时间…

母牛的故事

一、题目 有一头母牛,它每年年初生一头小母牛。每头小母牛从第四个年头开始,每年年初也生一头小母牛。请编程实现在第n年的时候,共有多少头母牛? Input 输入数据由多个测试实例组成,每个测试实例占一行,包…

11 个 Python 编码习惯

让你成为糟糕程序员的 11 个 Python 编码习惯 简介 Python 因其简洁性和可读性而备受推崇,但即使是最有经验的程序员也可能会陷入影响代码质量的习惯中。 在本博客中,我们将探讨 10 种常见的编码习惯,它们会降低您作为 Python 程序员的效率。…

深入探析设计模式:工厂模式的三种姿态

深入探析设计模式:工厂模式的三种姿态 1. 简单工厂模式1.1 概念1.2 案例1.3 优缺点 2. 抽象工厂模式2.1 概念2.2 案例:跨品牌手机生产2.3 优缺点 3. 超级工厂模式3.1 概念3.2 案例:动物园游览3.3 优缺点 4. 总结 欢迎阅读本文,今天…

windows10和linux18.04中配置mmhuman3d

分类:动作捕捉 github地址:https://github.com/open-mmlab/mmhuman3d 所需环境: Windows10,CUDA11.6,conda 4.13.0,Visual Studio 2017; Ubuntu18.04,conda22.9.0,CUDA11…

人工智能能够通过所有[创造力测试]

沃顿商学院教授Ethan Mollick emollick 分享了三篇新的实验性论文,证明了AI在实际情境中的创造力。 https://www.oneusefulthing.org/p/automating-creativity “GPT-4 现在在替代用途测试中击败了 91% 的人类,在托伦斯创造性思维测试中击败了 99% 的人类…

每天一道leetcode:1466. 重新规划路线(图论中等广度优先遍历)

今日份题目: n 座城市,从 0 到 n-1 编号,其间共有 n-1 条路线。因此,要想在两座不同城市之间旅行只有唯一一条路线可供选择(路线网形成一颗树)。去年,交通运输部决定重新规划路线,以…

网络安全专业术语英文缩写对照表

因在阅读文献过程中经常遇到各种专业缩写,所以把各种缩写总结了一下。 因能力有限,错误在所难免,欢迎进行纠错与补充:https://github.com/piaolin/CSAbbr 渗透相关 缩写全称解释备注XSSCross Site Script Attack跨站脚本攻击为…

前端食堂技术周刊第 94 期:TS 5.2 RC、从零实现 RSC、Redux 迁移至 ESM 之旅、HTML 满汉全席

美味值:🌟🌟🌟🌟🌟 口味:葡茉美式 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 大家好,我是童欧巴。欢迎来到前端食堂技术周刊,我们先来看下…

揭秘国产操作系统的黄金测试利器:探索开源测试工具的神秘世界

揭秘国产操作系统的黄金测试利器:探索开源测试工具的神秘世界 文章目录 1.前言2.国产操作系统现状的深度解析3.国产操作系统的质量保障神器(开源测试工具)4.开源测试工具的重要性5.国产操作系统如何利用开源测试工具进行黄金测试6.国产操作系统的开源测试工具整合方…

python安装第三方包时报错:...\lib\site-packages\pip\_vendor\urllib3\response.py...

安装redis第三方包: pip install redis报错现象: 解决方法:使用以下命令可成功安装 pip install redis -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

IT运维:使用数据分析平台监控深信服防火墙

概述 深信服防火墙自身监控可以满足绝大部分需求,比如哪个应用占了最大带宽,哪个用户访问了哪些网站?这里我们为什么使用鸿鹄呢?因为我们要的是数据的处理和分析,比如某个用户在某个事件都做了哪些行为,这个…

OpenCV图像处理——轮廓检测

目录 图像的轮廓查找轮廓绘制轮廓 轮廓的特征轮廓面积轮廓周长轮廓近似凸包边界矩形最小外接圆椭圆拟合直线拟合 图像的矩特征矩的概念图像中的矩特征 图像的轮廓 查找轮廓 binary,contours,hierarchycv.findContours(img,mode,method)绘制轮廓 cv.drawContours(img,coutours…