自监督学习模型发展综述：Inst Disc、Inva Sread、MOCO、SimCLR、BYOL

news2025/4/3 14:17:35

文章目录

一、Inst Disc
- 研究意义价值
- 个体判别（instance discrimination）
- 特点
- 实现方法
- 如何训练CNN
- 大量负样本如何存储
- 前向传播过程
- Proximal Regularization
- 超参数设置
二、Inva Sread
- 特点
- 原理
- 如何选取正负样本
- 前向传播过程
- 目标函数
- 模型效果不够好的原因
MoCo
SimCLR
- 模型
- 正负样本对的选取
- Proection Head
- 前向传播过程
- 和Inva Sread的区别
BYOL
- 模型
- 目标函数
- BYOL模型中的BN作用
参考

代理任务：个体判别，每一张图片都是自己的类，每一张图片都尽可能和其他图片分开。

对比学习：需要有正负样本，让正负样尽可能的分开，负样本越多对比学习效果更好

一、Inst Disc

研究意义价值

提出了个体判别的代理任务，提出使用memory bank数据结构存储大量负样本，是MoCo的前身。

个体判别（instance discrimination）

将每一张图片都看作是一个类别，希望模型可以学习图片的表征，从而把各种图片都区分出来。

特点

把每一张图片都看做一个类别，通过卷积神经网络学习每一张图片（每个实例）的特征，从而把每一张图片都分开。

在这里插入图片描述

实现方法

通过CNN给图片编码成一个128维的特征，然后在特征空间中将这些特征尽可能分开。

如何训练CNN

使用对比学习中的正负样本进行训练。
正样本：图像本身
负样本：数据集中除了正样本的其他图片。

大量负样本如何存储

数据结构：memory bank（字典），后文简称mb，把所有图片的特征向量都存储在一个memory bank中。

以ImageNet数据集为例，数据集中共有128万张图片，因此memory bank字典就需要有128万行，所以需要把图片的特征维度尽可能减小来降低内存。

在论文中选择了128维的向量。

前向传播过程

图片特征向量大小：batchsize = 256, 256张图片进入编码器中，通过ResNet50生成一个2048维特征向量，再降维形成128维的向量。
正样本：一批次为256个
负样本：从mb中随机抽取的4096个图片的特征向量
loss function：NCE loss
更新mb：利用NCE loss去更新CNN的参数。本次更新结束后，会将CNN编码得到的向量替换掉memory bank中原有的存储。就这样循环往复的更新CNN和memory bank，最后让模型收敛，就训练好一个CNN encoder了

Proximal Regularization

为模型的训练加一个约束，使得mb可以进行动量式的更新。

超参数设置

loss中温度的设置：0.07
epoch = 200
负样本个数：4096
batchsize = 256
initial learning rate = 0.03

Moco中的超参数设置都与该设置相同。

二、Inva Sread

SimCLR前身

特点

不使用其他数据结构去存储大量负样本，正负样本均来源于一个mini-batch。
只使用一个编码器进行端到端的学习。

原理

对比学习的思想。

相似的图片通过编码器后生成的特征应该类似，保持特征不变性
不相似的图片通过编码器后生成的特征应该有很大的差异，尽可能分散

代理任务：个体判别

在这里插入图片描述

如何选取正负样本

在这里插入图片描述
画图理解一下正负样本如何选取：

假设一个mini-batch为256张图片（x1-x256），经过数据增强后会再次得到256张图片(x1’-x256’)，原图和其经过数据增强后的图片即成为一个正样本对（positive sample pair），即256对，除了正样本对之外的图片即为负样本，即（256-1）个负样本对（negetive sample pair）

在这里插入图片描述