【学习笔记】计算机视觉对比学习综述

news2025/1/11 14:11:29

计算机视觉对比学习综述

  • 前言
  • 百花齐放
    • InstDisc
    • InvaSpread
    • CPC
    • CMC
  • CV双雄
    • MoCo
    • SimCLR
    • MoCo v2
    • SimCLR v2
    • SwAV
  • 不用负样本
    • BYOL
    • SimSiam
  • Transformer
    • MoCo v3
    • DINO
  • 总结
  • 参考链接

前言

本篇对比学习综述内容来自于沐神对比学习串讲视频以及其中所提到的论文和博客,对应的链接详见第六节。本篇博客所涉及的对比学习内容均应用在CV领域,算是到21年为止比较全面的对比学习综述内容讲解。对比学习作为一种自监督学习方法,其在CV领域的发展也印证着自监督学习的发展,科研工作者也在一步步揭开自监督学习的神秘面纱,通过构建不同的代理任务,采用不同的模型架构,来极力挖掘自监督学习的潜力。相信通过本篇博客的学习,你能够对对比学习有着更深刻的认识,万变不离其宗,当你领悟到对比学习的本质,你就能


百花齐放

InstDisc

InstDisc文章设计了一个全新的代理任务——个体判别任务,并提出了memory bank方法,即记忆库,该方法在MoCo这篇文章中反复被比较,如果说MoCo是一个里程碑式的工作,那么InstDisc就是巨人的肩膀,MoCo正是站在这个肩膀上进行优化的。下面对这篇工作进行简单的介绍。
image.png
上图是监督学习对图片的识别结果,可以看到排名前列的都是和豹子相似的动物,这并不是因为这些动物的标签和豹子相近,而是图片本身就很相近。作者根据这个观察,提出了个体判别任务。
在这里插入图片描述

整个工作流程如上图所示。首先通过一个卷积神经网络将所有图片编码成128维度的特征,并且希望这些特征能够尽可能分开,因为对于个体判别任务来说,每个图片就是一个单独的类,不同图片的特征属于不同类。由于采用对比学习的方法,需要构建大量负样本,因此所有特征存在记忆库中作为负样本采样使用。每次训练时,采样K个负样本用于计算与正样本之间的NCE损失,并更新网络。网络更新完重新编码正样本的特征,替换记忆库中旧的特征,如此反复进行模型更新,记忆库的更新,以达到让每张图片的特征区分开的目的。
此外,InstDisc中也在训练中加入了约束,让特征能够动量式更新。

InvaSpread

image.png
这篇工作就是MoCo中进行比较的端到端执行的方法,即在一个mini-batch中挑选正负样本,而不采用记忆库存储。InvaSpread的核心思想是说,对于相似的图片,其通过编码的特征应该是相近的,而不相似的图片编码得到的特征应该是远离的。它同样采用了个体判别的代理任务。
image.png
上图是整个训练流程。首先对于输入的mini-batch中的图片进行数据增强,比如256张图片,经过增强得到256张增强图片,这样对于一张图片,就有一个正样本,和510个负样本,然后将这些样本输入到同一个编码器中得到表征,通过对比损失来更新参数。
通过上面的描述我们可以看到,端到端学习的特点在于共享同一个编码器,没有采用格外的数据结构来存储编码好的特征。但是这也是模型性能没有那么突出的原因,mini-batch的样本个数有限,文中最多仅支持256个样本,学习到特征较少,性能提升没有那么明显。

CPC

在代理任务上也可以做文章。除了判别式的代理任务,还有生成式的代理任务。CPC这篇工作采用的就是生成式的代理任务,流程如下所示:
image.png
对于任意的音频、文本序列或者图像块,都可以以时序的方式输入到模型中,这里的模型可以是LSTM这样的时序模型,通过处理得到表征,采用t时刻最后一层输出用于预测后面序列,后面 t~t+4 时刻的输入得到的表征都可以作为正样本,而负样本可以是任意其它时刻输入得到的表征。

CMC

CMC工作的核心在于学习所有视角的互信息,它认为像眼睛、耳朵、皮肤等一系列传感器所感知的信息是一致且共享的,比如对于一只狗,你可以看到它、听到它或者感受到它,这些信息都指向这只狗。如果能够将这些所有传感器的信息整合起来,那么将会学习到特别强大的特征。image.png
整体流程如上图所示,输入的是一个图像的多个视角信息,包括原始图像,图像对应的深度信息,表面法线信息和语义分割信息,通过不同的编码器编码得到特征,并互为正样本,其余的任何不配对的视角都是负样本,与这些绿色的正样本特征远离。
这篇工作思想很简单,和个体判别任务类似,只不过是多个视角多张图片作为正样本,但是它展示了对比学习的灵活性,只要你脑洞大开,就可以联想到多模态场景,一张图片和其对应的文本的编码可以作为正样本,其余都是负样本,只不过可能需要多个编码器进行编码,计算代价比较高。

上面多个编码器的gap已经被解决了,由于Transformer架构的通用性和可扩展性,多模态的数据可以都使用同一个Transformer进行编码,极 大程度上降低了计算代价。

CV双雄

MoCo

MoCo的主要贡献是将之前的对比学习方法都总结为字典查询问题,提出了队列和动量编码器,得到又大又一致的字典。
image.png
MoCo方法本质上是对InstDisc的改进,但是其简单有效,证明了CV中无监督特征学习也能比有监督特征学习的预训练模型性能要好,这是具有里程碑意义的。
从写作上来看,MoCo明显要比一般的套路要高一筹,它并不是先介绍对比学习,阐述别的工作的不足,提出创新点,而是从无监督学习在CV和NLP领域的差异入手,然后归纳之前对比学习方法的本质,将问题升华了,也提升了整个工作的格局。

SimCLR

SimCLR这篇工作可以看做是对InvaSpread的改进,整体流程如下:
image.png
对于mini-batch大小为n的输入,分别通过两个数据增强的方式得到增强后的 x ~ i \tilde{x}_i x~i x ~ j \tilde{x}_j x~j,然后输入到相同的编码器中(比如res50)得到各自的表征,之后就是SimCLR与InvaSpread最为不同的地方,它将得到的表征又输入到共享的非线性MLP中,得到降维的特征,然后进行正负样本的判别,这样的简单操作能够将模型的性能提升多大10个点,并且在下游任务上,SIMCLR并不使用MLP,目的是和其它工作对齐,也证实其在无监督预训练部分的优越性。
当然SimCLR还有很多细节的trick,其贡献可以总结如下:

  1. 大量的数据增强。
  2. 编码器后添加非线性变换的MLP。
  3. 更大的batch-size。

MoCo v2

MoCo v2这篇工作就是在原先MoCo的基础上加上了SimCLR的trick,即MLP,数据增强,余弦学习率和更长的训练次数。其效果如下表所示:
image.png
可以看到其性能提升还是很明显的,尤其是非线性MLP层的加入,直接提升了6个点。接下来是与SimCLR的对比:
在这里插入图片描述

可以看到无论是200个epoch还是更大的训练epoch,MoCo v2都要更胜一筹,并且大大降低了显存和时间上的成本。
image.png

SimCLR v2

恰如其标题,大的自监督模型是好的半监督学习者。因此SimCLR v2这篇工作的核心是在说如何做半监督的学习。其工作流程如下:
image.png
首先在大规模无标签数据集上进行预训练,然后将预训练好的模型在少量的监督数据上微调,最后在无标注的数据上基于特定任务进行自学习。
对于这篇工作,本文主要关注其从v1升级到v2的部分。分成三个点:

  1. 更大的模型,无监督训练会更好。
  2. 两层的MLP层。
  3. 采用动量编码器。

SwAV

SwAV这篇工作将对比学习和聚类结合在一起,因为聚类的思想和对比学习的目标和做法都很相近。
image.png
上图是SwAV方法与之前对比学习方法的对比。前面部分的操作相同,对于输入的x,进行两次数据增强,再输入到编码器中得到编码的特征。之前的对比学习方法直接将得到的特征进行比较,但是在SwAV中,编码后的特征还要和聚类的中心进行点乘,其中,,表示聚类中心的个数。 得到的结果即是预测的分类,最后与真实的聚类结果进行比较。
SwAV结合聚类方法的优势如下:

  1. 之前的对比学习方法需要与上万个负样本进行对比,如ImageNet有128万个样本,那么每个样本本质上就需要和128个负样本进行对比,但是聚类后,只需要和很少的聚类中心进行比较(本文是3000个),大大降低了计算成本。
  2. 聚类中心具有明确的语义含义,之前的对比学习方法过于随机,可能部分正样本也被当做负样本,并且抽取的类别不均衡。

image.png
通过上图可以看出,SwAV的性能已经和监督训练的性能没有明显差异。基本上达到了ImageNet上对比学习的天花板。
上面的故事虽然很精彩,但是对SwAV性能有着大幅提升的是采用了Multi-crop。之前的对比学习方法采用了两个crop,但是这样采样的crop重叠部分很多,学习的只是全局的特征。Multi-crop加入了学习局部特征的部分,即在采样两个crop的基础上,加入了随机采取四个小crop的操作,为了不增加更多的计算成本,作者也减小了前两个crop的大小。比如之前是采样两个224224的crop,现在是采样两个160160的crop和4个96*96的crop。
在这里插入图片描述

Multi-crop效果显著,它已经不只只是SwAV上的一个trick,而是一个通用的方法,应用在之前的对比学习方法上也能有显著的提升。

不用负样本

BYOL

BYOL这篇工作开创了对比学习的先河,不用负样本就可以很好的学习,而不会出现模型坍塌等问题。它的核心思想是利用一个视角的信息来预测另一个视角的信息。
image.png
整体流程如上图所示,前面的步骤和正常的对比学习流程一致,都是先数据增强,通过编码器得到特征,然后经过MLP得到映射,上面紫色部分相当于query的编码器,通过梯度更新,下面相当于key的编码器,通过动量更新。与之前工作不同,得到映射后的query还要经过一层映射得到预测,用于预测,将配对的问题转化为了预测的问题。
这种训练方式模型不坍塌,可能的原因在于BN操作。一个有道理的结论是说,BN让整个min-batch中的数据发生了泄露,其他样本变成了隐式的负样本,类似于SwAV和聚类中的对比,这里相当于是和mini-batch的平均图片进行了对比。
但是这样的结论就大大降低了BYOL的创新性,因为BYOL的卖点就在于不用负样本进行对比,但是上面的结论显然打脸了。于是BYOL的团队又写了篇工作进行回应,即 BYOL works even without batch statistics。详尽的实验过程如下表所示:
image.png
通过SimCLR最后一个结果可以发现,当编码器和projector都没有用BN时,SimCLR也失败了,隐式负样本的说法不攻自破。因此最后的结论是,BN能提升模型的稳健性,并且如果模型初始化很好,没有BN也能学得很好。

SimSiam

通过上述相关内容的描述,可以看到对比学习加入的trick越来越多,性能也越来越好。SimSiam这篇工作来自何恺明团队,它将对比学习的工作化繁为简,即不需要负样本,也不需要大的batch-size,也不需要动量编码器,就能取得很好的效果。
image.png
image.png
整体的流程和伪代码如上所示,可以看到方法真的是非常简单。就是数据增强,然后将增强的两个图片输入到相同的编码器得到表征,接着就是得到二者互相预测的loss反向传播更新参数。SimSiam和其它工作的对比如下图所示:
在这里插入图片描述

可以看到SimSiam和BYOL几乎一模一样,只不过没有采用动量编码器。在ImageNet的表现和其它模型的对比如下表所示:
image.png
可以看到MoCo v2在长时间训练下表现最好,这也间接印证了动量编码器的优势。下表是在下游任务上训练的结果:
image.png
可以看到MoCo v2和SimSiam表现最好。

Transformer

MoCo v3

MoCo v3的工作核心在于如何解决ViT自监督训练的不稳定性。它并没有什么创新性的工作,但是却展示了自监督学习很多有意思的部分。它的核心算法如下伪代码所示:
image.png
可以看到,MoCo v2相当于是MoCo v2和SimSiam的合体。只不过把模型的骨干网络换成了ViT。ViT在训练时有一个问题,如下图所示:
image.png
随着batch-size的增大,模型的波动也随着增大,并且性能也在逐渐降低。作者通过观察梯度发现,ViT的第一层,即将token编码为embedding时会在波动时产生大的变化,因此作者就将这一层直接冻结,结果就解决了这个问题。

DINO

DINO工作本质上是BYOL工作的延续。其流程如下图所示:
image.png
它的优势在于融合了Transformer,其它部分基本上和BYOL一致。在伪代码上也和MoCo v3几乎相同,只是在损失函数上有所区分:
image.png

总结

在这里插入图片描述

以上工作可以总结为一张图。所以对比学习的发展从大的方向上分为四个阶段,第一阶段百花齐放,所有工作都在摸索如何使用对比学习,如何定义代理任务,如何设计损失函数。紧接着这些工作就根据负样本存储方式分为了两个主流方法,一个是基于记忆库的MoCo方法,另一个是基于端到端的SimCLR算法,二者称为CV双雄。第三阶段以BYOL为首,其发现对比学习无需负样本也能进行,样本通过不同视图的各自预测,就能实现自己和自己比较,从而学习到特征。最后阶段当然是ViT的出现,改变了对比学习的backbone,Transformer架构的优越性得以体现,这个阶段没有创新性的工作,只是替换了模型架构,就实现了很好的性能。
总而言之,对比学习本质上是一种自监督学习方法,其特征学习的核心还是在于代理任务的构建,无论是个体判别,还是多视图预测,亦或是生成,这些都是不同的任务,才是特征学习的核心部分。而其它的trick,包括memory bank,非线性MLP,都是为了帮助完成代理任务的。所以在我看来,对比学习和MAE,BERT,GPT这些预训练模型的本质相同,越好、越复杂的预训练任务,在越大的数据集上,往往能学习到更为丰富的特征。

参考链接

https://www.bilibili.com/video/BV19S4y1M7hm
https://openaccess.thecvf.com/content_cvpr_2018/papers/Wu_Unsupervised_Feature_Learning_CVPR_2018_paper.pdf
https://openaccess.thecvf.com/content_CVPR_2019/papers/Ye_Unsupervised_Embedding_Learning_via_Invariant_and_Spreading_Instance_Feature_CVPR_2019_paper.pdf
https://arxiv.org/pdf/1807.03748.pdf?fbclid=IwAR2G_jEkb54YSIvN0uY7JbW9kfhogUq9KhKrmHuXPi34KYOE8L5LD1RGPTo
https://arxiv.org/pdf/1906.05849.pdf
https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf
http://proceedings.mlr.press/v119/chen20j/chen20j.pdf
https://arxiv.org/pdf/2003.04297.pdf
https://proceedings.neurips.cc/paper/2020/file/fcbc95ccdd551da181207c0c1400c655-Paper.pdf
https://proceedings.neurips.cc/paper_files/paper/2020/file/70feb62b69f16e0238f741fab228fec2-Paper.pdf
https://proceedings.neurips.cc/paper_files/paper/2020/file/f3ada80d5c4ee70142b17b8192b2958e-Paper.pdf
https://arxiv.org/pdf/2010.10241.pdf
https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.pdf
https://arxiv.org/pdf/2104.02057.pdf
https://openaccess.thecvf.com/content/ICCV2021/papers/Caron_Emerging_Properties_in_Self-Supervised_Vision_Transformers_ICCV_2021_paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/945584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux学习之权限

在学习Linux权限之前,我们先理解一下关于Linux内核与shell外壳之间的关系: shell命令以及运行原理 Linux严格意义上说的是一个操作系统,我们称之为“核心(kernel)“ ,但我们一般用户,不能直接使…

Redis笔记——(狂神说)

Nosql概述 为什么要用NoSql? 1、单机mysql的年代:90年代,网站访问量小,很多使用静态网页html写的,服务器没压力。 当时瓶颈是:1)数据量太大一个机器放不下。2)数据的索引(BTree),一个机器内存也…

Kotlin判断null比较let布尔值Boolean

Kotlin判断null比较let布尔值Boolean class MyData {val count: Int? 2023val number: Int? null }fun main(args: Array<String>) {val data MyData()val year 2022if (data.count ! null) {if (data.count > year) {println("data.count ! null")}}…

【STM32】学习笔记(OLED)-江科大

调试方式 OLED简介 硬件电路 驱动函数 OLED.H #ifndef __OLED_H #define __OLED_Hvoid OLED_Init(void); void OLED_Clear(void); void OLED_ShowChar(uint8_t Line, uint8_t Column, char Char); void OLED_ShowString(uint8_t Line, uint8_t Column, char *String); void OL…

项目进度与实施计划汇报实践样例模板

一、IT项目实施步骤 项目启动 项目启动 项目启动 项 项目启动 | 需求调研 | 解决方案设计与系统实现 | UAT测试与培训 | 上线与运维支持

【LeetCode题目详解】第八章 贪心算法 part05 435. 无重叠区间 763.划分字母区间 56. 合并区间 (day36补)

本文章代码以c为例&#xff01; 一、力扣第435题&#xff1a;无重叠区间 题目&#xff1a; 给定一个区间的集合 intervals &#xff0c;其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量&#xff0c;使剩余区间互不重叠 。 示例 1: 输入: intervals [[1,…

SpringMVC-学习笔记

文章目录 1.概述1.1 SpringMVC快速入门 2. 请求2.1 加载控制2.2 请求的映射路径2.3 get和post请求发送2.4 五种请求参数种类2.5 传递JSON数据2.6 日期类型参数传递 3.响应3.1 响应格式 4.REST风格4.1 介绍4.2 RESTful快速入门4.3 简化操作 1.概述 SpringMVC是一个基于Java的Web…

day-04 基于UDP的服务器端/客户端

一.理解UDP &#xff08;一&#xff09;UDP套接字的特点 UDP套接字具有以下特点&#xff1a; 无连接性&#xff1a;UDP是一种无连接的协议&#xff0c;这意味着在发送数据之前&#xff0c;不需要在发送方和接收方之间建立连接。每个UDP数据包都是独立的&#xff0c;它们可以独…

【HSPCIE仿真】输入网表文件(4)常用分析

常用分析 1. 概述2. 直流初始化和工作点分析2.1 电路初始化(.ic)2.2 初始状态语句初始条件语句.IC 和.DCVOLT节点电压设置语句.NODESET 2.2 直流工作点分析(.op)基本语法示例 2.3 直流扫描分析 (.dc)基本语法示例 2.4 其他类型的直流分析 3. 瞬态分析(.TRAN)基本语法示例 4. 其…

CTFhub-文件上传-前端验证

burp 抓包 --> 重发--> 查看源代码 用 GodZilla 生成木马 文件名为 1.php.jsp 上传-->抓包-->改包 (删掉 .jpg) --> 点击 放行 木马文件位置为&#xff1a;http://challenge-f0531d0c27641130.sandbox.ctfhub.com:10800/upload/1.php 用 蚁剑连接 ctfhub{4743b…

【pyqt5界面化工具开发-7】窗口开发-菜单栏窗口QMainWindow

目录 0x00 前言&#xff1a; 一、调用父类的菜单 二、添加菜单内选项 0x00 前言&#xff1a; QWedget 控件和窗口的父类&#xff0c;自由度高(什么都东西都没有)&#xff0c;没有划分菜单、工具栏、状态栏、主窗口 等区域 QMainWindow 是 QWwidget 的子类&#xff0c;包含菜…

【AI】数学基础——高数(函数微分部分)

参考&#xff1a;https://www.bilibili.com/video/BV1mM411r7ko?p1&vd_source260d5bbbf395fd4a9b3e978c7abde437 唐宇迪&#xff1a;机器学习数学基础 文章目录 1.1 函数1.1.1 函数分类1.1.2 常见函数指/对数函数分段函数原函数&反函数sigmod函数Relu函数(非负函数)复…

dvwa文件上传通关及代码分析

文章目录 low等级medium等级high等级Impossible等级 low等级 查看源码&#xff1a; <?phpif( isset( $_POST[ Upload ] ) ) {// Where are we going to be writing to?$target_path DVWA_WEB_PAGE_TO_ROOT . "hackable/uploads/";$target_path . basename( …

uni-search-bar 实现搜索框自动获取焦点

<!-- 基本用法 --> <uni-search-bar confirm"search" input"input" ></uni-search-bar>查看源代码show:true, showSync&#xff1a;true, 都改为true 即可实现

The Cherno——OpenGL

The Cherno——OpenGL 1. 欢迎来到OpenGL OpenGL是一种跨平台的图形接口&#xff08;API&#xff09;&#xff0c;就是一大堆我们能够调用的函数去做一些与图像相关的事情。特殊的是&#xff0c;OpenGL允许我们访问GPU&#xff08;Graphics Processing Unit 图像处理单元&…

CTFHUB_web_密码口令_默认口令

登陆界面如图所示&#xff0c;题目提示默认口令&#xff1a; 查找常用默认口令&#xff1a; 常见web系统默认口令总结 常见网络安全设备弱口令(默认口令) 找到相关内容&#xff1a; 输入用户名密码得到flag

ChatGPT⼊门到精通(4):ChatGPT 为何⽜逼

⼀、通⽤型AI 在我们原始的幻想⾥&#xff0c;AI是基于对海量数据的学习&#xff0c;锻炼出⼀个⽆所不知⽆所不能的模 型&#xff0c;并借助计算机的优势&#xff08;计算速度、并发可能&#xff09;等碾压⼈类。 但我们⽬前的AI&#xff0c;不管是AlphaGo还是图像识别算法&am…

研华I/O板卡 Win10+Qt+Cmake 开发环境搭建

文章目录 一.研华I/O板卡 Win10QtCmake 开发环境搭建 一.研华I/O板卡 Win10QtCmake 开发环境搭建 参考这个链接安装研华I/O板卡驱动程序系统环境变量添加研华板卡dll Qt新建一个c项目 cmakeList.txt中添加研华库文件 cmake_minimum_required(VERSION 3.5)project(advantechDA…

LeetCode(力扣)617. 合并二叉树Python

LeetCode617. 合并二叉树 题目链接代码 题目链接 https://leetcode.cn/problems/merge-two-binary-trees/ 代码 递归 # Definition for a binary tree node. # class TreeNode: # def __init__(self, val0, leftNone, rightNone): # self.val val # …