使用Pytorch实现对比学习SimCLR 进行自监督预训练

news2025/1/17 21:56:58

SimCLR(Simple Framework for Contrastive Learning of Representations)是一种学习图像表示的自监督技术。 与传统的监督学习方法不同,SimCLR 不依赖标记数据来学习有用的表示。 它利用对比学习框架来学习一组有用的特征,这些特征可以从未标记的图像中捕获高级语义信息。

SimCLR 已被证明在各种图像分类基准上优于最先进的无监督学习方法。 并且它学习到的表示可以很容易地转移到下游任务,例如对象检测、语义分割和小样本学习,只需在较小的标记数据集上进行最少的微调。

SimCLR 主要思想是通过增强模块 T 将图像与同一图像的其他增强版本进行对比,从而学习图像的良好表示。这是通过通过编码器网络 f(.) 映射图像,然后进行投影来完成的。 head g(.) 将学习到的特征映射到低维空间。 然后在同一图像的两个增强版本的表示之间计算对比损失,以鼓励对同一图像的相似表示和对不同图像的不同表示。

本文我们将深入研究 SimCLR 框架并探索该算法的关键组件,包括数据增强、对比损失函数以及编码器和投影的head 架构。

我们这里使用来自 Kaggle 的垃圾分类数据集来进行实验

增强模块

SimCLR 中最重要的就是转换图像的增强模块。 SimCLR 论文的作者建议,强大的数据增强对于无监督学习很有用。 因此,我们将遵循论文中推荐的方法。

  • 调整大小的随机裁剪
  • 50% 概率的随机水平翻转
  • 随机颜色失真(颜色抖动概率为 80%,颜色下降概率为 20%)
  • 50% 概率为随机高斯模糊
 defget_complete_transform(output_shape, kernel_size, s=1.0):
     """
     Color distortion transform
     
     Args:
         s: Strength parameter
         
     Returns:
         A color distortion transform
     """
     rnd_crop=RandomResizedCrop(output_shape)
     rnd_flip=RandomHorizontalFlip(p=0.5)
     
     color_jitter=ColorJitter(0.8*s, 0.8*s, 0.8*s, 0.2*s)
     rnd_color_jitter=RandomApply([color_jitter], p=0.8)
     
     rnd_gray=RandomGrayscale(p=0.2)
     gaussian_blur=GaussianBlur(kernel_size=kernel_size)
     rnd_gaussian_blur=RandomApply([gaussian_blur], p=0.5)
     to_tensor=ToTensor()
     image_transform=Compose([
         to_tensor,
         rnd_crop,
         rnd_flip,
         rnd_color_jitter,
         rnd_gray,
         rnd_gaussian_blur,
     ])
     returnimage_transform
 
 classContrastiveLearningViewGenerator(object):
     """
     Take 2 random crops of 1 image as the query and key.
     """
     def__init__(self, base_transform, n_views=2):
         self.base_transform=base_transform
         self.n_views=n_views
         
     def__call__(self, x):
         views= [self.base_transform(x) foriinrange(self.n_views)]
         returnviews

下一步就是定义一个PyTorch 的 Dataset 。

 classCustomDataset(Dataset):
     def__init__(self, list_images, transform=None):
         """
         Args:
             list_images (list): List of all the images
             transform (callable, optional): Optional transform to be applied on a sample.
         """
         self.list_images=list_images
         self.transform=transform
         
     def__len__(self):
         returnlen(self.list_images)
     
     def__getitem__(self, idx):
         iftorch.is_tensor(idx):
             idx=idx.tolist()
             
         img_name=self.list_images[idx]
         image=io.imread(img_name)
         ifself.transform:
             image=self.transform(image)
             
         returnimage

作为样例,我们使用比较小的模型 ResNet18 作为主干,所以他的输入是 224x224 图像,我们按照要求设置一些参数并生成dataloader

 out_shape= [224, 224]
 kernel_size= [21, 21] # 10% of out_shape
 
 # Custom transform
 base_transforms=get_complete_transform(output_shape=out_shape, kernel_size=kernel_size, s=1.0)
 custom_transform=ContrastiveLearningViewGenerator(base_transform=base_transforms)
 
 garbage_ds=CustomDataset(
     list_images=glob.glob("/kaggle/input/garbage-classification/garbage_classification/*/*.jpg"),
     transform=custom_transform
 )
 
 BATCH_SZ=128
 
 # Build DataLoader
 train_dl=torch.utils.data.DataLoader( 
     garbage_ds,
     batch_size=BATCH_SZ,
     shuffle=True,
     drop_last=True,
     pin_memory=True)

SimCLR

我们已经准备好了数据,开始对模型进行复现。上面的增强模块提供了图像的两个增强视图,它们通过编码器前向传递以获得相应的表示。 SimCLR 的目标是通过鼓励模型从两个不同的增强视图中学习对象的一般表示来最大化这些不同学习表示之间的相似性。

编码器网络的选择不受限制,可以是任何架构。 上面已经说了,为了简单演示,我们使用 ResNet18。 编码器模型学习到的表示决定了相似性系数,为了提高这些表示的质量,SimCLR 使用投影头将编码向量投影到更丰富的潜在空间中。 这里我们将ResNet18的512维度的特征投影到256的空间中,看着很复杂,其实就是加了一个带relu的mlp。

 classIdentity(nn.Module):
     def__init__(self):
         super(Identity, self).__init__()
     defforward(self, x):
         returnx
     
 classSimCLR(nn.Module):
     def__init__(self, linear_eval=False):
         super().__init__()
         self.linear_eval=linear_eval
         resnet18=models.resnet18(pretrained=False)
         resnet18.fc=Identity()
         self.encoder=resnet18
         self.projection=nn.Sequential(
             nn.Linear(512, 512),
             nn.ReLU(),
             nn.Linear(512, 256)
         )
     defforward(self, x):
         ifnotself.linear_eval:
             x=torch.cat(x, dim=0)
         encoding=self.encoder(x)
         projection=self.projection(encoding)
         returnprojection

对比损失

对比损失函数,也称为归一化温度标度交叉熵损失 (NT-Xent),是 SimCLR 的一个关键组成部分,它鼓励模型学习相同图像的相似表示和不同图像的不同表示。

NT-Xent 损失是使用一对通过编码器网络传递的图像的增强视图来计算的,以获得它们相应的表示。 对比损失的目标是鼓励同一图像的两个增强视图的表示相似,同时迫使不同图像的表示不相似。

NT-Xent 将 softmax 函数应用于增强视图表示的成对相似性。 softmax 函数应用于小批量内的所有表示对,得到每个图像的相似性概率分布。 温度参数temperature 用于在应用 softmax 函数之前缩放成对相似性,这有助于在优化过程中获得更好的梯度。

在获得相似性的概率分布后,通过最大化同一图像的匹配表示的对数似然和最小化不同图像的不匹配表示的对数似然来计算 NT-Xent 损失。

 LABELS=torch.cat([torch.arange(BATCH_SZ) foriinrange(2)], dim=0)
 LABELS= (LABELS.unsqueeze(0) ==LABELS.unsqueeze(1)).float() #one-hot representations
 LABELS=LABELS.to(DEVICE)
 
 defntxent_loss(features, temp):
     """
     NT-Xent Loss.
     
     Args:
         z1: The learned representations from first branch of projection head
         z2: The learned representations from second branch of projection head 
     Returns:
         Loss
     """
     similarity_matrix=torch.matmul(features, features.T) 
     mask=torch.eye(LABELS.shape[0], dtype=torch.bool).to(DEVICE)
     labels=LABELS[~mask].view(LABELS.shape[0], -1)
     similarity_matrix=similarity_matrix[~mask].view(similarity_matrix.shape[0], -1)
     
     positives=similarity_matrix[labels.bool()].view(labels.shape[0], -1)
     
     negatives=similarity_matrix[~labels.bool()].view(similarity_matrix.shape[0], -1)
     
     logits=torch.cat([positives, negatives], dim=1)
     labels=torch.zeros(logits.shape[0], dtype=torch.long).to(DEVICE)
     
     logits=logits/temp
     returnlogits, labels

所有的准备都完成了,让我们训练 SimCLR 看看效果!

 simclr_model=SimCLR().to(DEVICE)
 criterion=nn.CrossEntropyLoss().to(DEVICE)
 optimizer=torch.optim.Adam(simclr_model.parameters())
 
 epochs=10
 withtqdm(total=epochs) aspbar:
     forepochinrange(epochs):
         t0=time.time()
         running_loss=0.0
         fori, viewsinenumerate(train_dl):
             projections=simclr_model([view.to(DEVICE) forviewinviews])
             logits, labels=ntxent_loss(projections, temp=2)
             loss=criterion(logits, labels)
             optimizer.zero_grad() 
             loss.backward()
             optimizer.step() 
             
             # print stats
             running_loss+=loss.item()
             ifi%10==9: # print every 10 mini-batches
                 print(f"Epoch: {epoch+1} Batch: {i+1} Loss: {(running_loss/100):.4f}")
                 running_loss=0.0
         pbar.update(1)
         print(f"Time taken: {((time.time()-t0)/60):.3f} mins")

上面代码训练了10轮,假设我们已经完成了预训练过程,可以将预训练的编码器用于我们想要的下游任务。这可以通过下面的代码来完成。

 fromtorchvision.transformsimportResize, CenterCrop
 resize=Resize(255)
 ccrop=CenterCrop(224)
 ttensor=ToTensor()
 
 custom_transform=Compose([
     resize,
     ccrop,
     ttensor,
 ])
 
 garbage_ds=ImageFolder(
     root="/kaggle/input/garbage-classification/garbage_classification/",
     transform=custom_transform
 )
 
 classes=len(garbage_ds.classes)
 
 BATCH_SZ=128
 
 train_dl=torch.utils.data.DataLoader(
     garbage_ds,
     batch_size=BATCH_SZ, 
     shuffle=True,
     drop_last=True,
     pin_memory=True,
 )
 
 classIdentity(nn.Module):
     def__init__(self):
         super(Identity, self).__init__() 
     defforward(self, x):
         returnx
     
 classLinearEvaluation(nn.Module):
     def__init__(self, model, classes):
         super().__init__()
         simclr=model
         simclr.linear_eval=True
         simclr.projection=Identity()
         self.simclr=simclr
         forparaminself.simclr.parameters():
             param.requires_grad=False
         self.linear=nn.Linear(512, classes)
     defforward(self, x):
         encoding=self.simclr(x)
         pred=self.linear(encoding)
         returnpred
       
 eval_model=LinearEvaluation(simclr_model, classes).to(DEVICE)
 criterion=nn.CrossEntropyLoss().to(DEVICE)
 optimizer=torch.optim.Adam(eval_model.parameters())
 
 preds, labels= [], []
 correct, total=0, 0
 
 withtorch.no_grad():
     t0=time.time()
     forimg, gtintqdm(train_dl):
         image=img.to(DEVICE)
         label=gt.to(DEVICE)
         pred=eval_model(image)
         _, pred=torch.max(pred.data, 1)
         total+=label.size(0)
         correct+= (pred==label).float().sum().item()
 
     print(f"Time taken: {((time.time()-t0)/60):.3f} mins")
     
 print(
         "Accuracy of the network on the {} Train images: {} %".format(
             total, 100*correct/total
         )
     )

上面的代码最主要的部分就是读取刚刚训练的simclr模型,然后冻结所有的权重,然后再创建一个分类头self.linear ,进行下游的分类任务

总结

本文介绍了SimCLR框架,并使用它来预训练随机初始化权重的ResNet18。预训练是深度学习中使用的一种强大的技术,用于在大型数据集上训练模型,学习可以转移到其他任务中的有用特征。SimCLR论文认为,批量越大,性能越好。我们的实现只使用128个批大小,只训练10个epoch。所以这不是模型的最佳性能,如果需要性能对比还需要进一步的训练。

https://avoid.overfit.cn/post/e105b37642c241b080ae514778b86a6e

本文作者:Prabowo Yoga Wicaksana

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【创作赢红包】Java Web 实战 18 - 计算机网络之网络层协议 and 数据链路层协议

文章目录网络层协议1. IP 协议1.1 报头结构1.2 IP 协议的地址管理动态分配 IP 地址 (DHCP)IP 地址转换 (NAT)IPv61.3 IP 地址的组成2. 路由选择数据链路层1. 以太网协议2. 以太网帧格式2.1 mac 地址2.2 两个特殊的以太网数据帧DNS 域名解析系统六 . 经典面试题 : 从浏览器中输入…

微信小程序 | 基于ChatGPT实现模拟面试小程序

Pre:效果预览 ① 选择职位进行面试 ② 根据岗位职责进行回答 一、需求背景 这两年IT互联网行业进入寒冬期,降本增效、互联网毕业、暂停校招岗位的招聘,各类裁员、缩招的情况层出不穷!对于这个市场来说,在经历了互联网…

小白学Pytorch系列--Torch API (7)

小白学Pytorch系列–Torch API (7) Comparison Ops allclose 此函数检查输入和其他是否满足条件: >>> torch.allclose(torch.tensor([10000., 1e-07]), torch.tensor([10000.1, 1e-08])) False >>> torch.allclose(torch.tensor([10000., 1e-…

MATLAB | 如何自然好看的从图片中提取颜色并制作色卡

在这里研究了一下各种排序算法,写一篇如何由图片一键生成颜色条的方法。 1 关于大量颜色排序 假设有大量颜色怎么对其进行排序呢,首先想到的最简单方法就是将其按照RGB值的大小进行排序,为了方便展示颜色条,这里编写了一个颜色条…

【Pytorch】 理解张量Tensor

本文参加新星计划人工智能(Pytorch)赛道:https://bbs.csdn.net/topics/613989052 这是目录张量Tensor是什么?张量的创建为什么要用张量Tensor呢?总结张量Tensor是什么? 在深度学习中,我们经常会遇到一个概念&#xff…

初探Redis整体架构

文章目录1、Redis为什么选择单线程2、逐步加入多线程3、Redis采用IO多路复用---epoll和Reactor架构4、Redis6/7默认是否开启了多线程?1、Redis为什么选择单线程 这种问法其实并不严谨,为啥这么说呢? Redis几个里程碑式的重要版本 理清一个事实&#…

一文带你安装opencv和常用库(保姆级教程少走80%的弯路)

0.导语 离上一个opencv安装保姆级教程发布已经过去了快一年了,这一年来我收到了来自很多C友的鼓励。打算学opencv的各位朋友都会在安装opencv和各种库过程中浪费掉60%的时间和精力;博主在这一年来尝试各种各样的安装方法,全网搜集各种资料总…

[ 云计算 | Azure ] Chapter 05 | 核心体系结构之管理组、订阅、资源和资源组以及层次关系

本文主要对如下内容进行讲解:Azure云计算的核心体系结构组件中的:资源、订阅和资源组,以及了解 Azure 资源管理器 (ARM) 如何部署资源。 本系列已经更新文章列表: [ 云计算 | Azure ] Chapter 03 | 描述云计算运营中的 CapEx 与…

元宇宙与网络安全

元宇宙是一种虚拟现实空间,用户可以在计算机生成的环境中进行互动。元宇宙的应用范围很广,比如房地产,医疗,教育,军事,游戏等等。它提供了更具沉浸感的体验,更好地现实生活整合,以及…

图像分类算法:ResNet论文解读

图像分类算法:ResNet论文解读 前言 ​ 其实网上已经有很多很好的解读各种论文的文章了,但是我决定自己也写一写,当然,我的主要目的就是帮助自己梳理、深入理解论文,因为写文章,你必须把你所写的东西表达清楚…

游戏工厂:AI(AIGC/ChatGPT)与流程式游戏开发(码客 卢益贵)

关键词:AI(AIGC、ChatGPT、文心一言)、流程式管理、好莱坞电影流程、电影工厂、游戏工厂、游戏开发流程、游戏架构、模块化开发 一、前言 开发周期长、人工成本高、成功率低等使得游戏公司融资比较困难。有的公司凭一个爆款游戏一骑绝尘之后…

奇异值分解(SVD)和图像压缩

在本文中,我将尝试解释 SVD 背后的数学及其几何意义,还有它在数据科学中的最常见的用法,图像压缩。 奇异值分解是一种常见的线性代数技术,可以将任意形状的矩阵分解成三个部分的乘积:U、S、V。原矩阵A可以表示为&#…

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

各个大模型的研究测试传送门 ​阿里通义千问传送门: https://tongyi.aliyun.com/chat 百度文心一言传送门: https://yiyan.baidu.com/ ChatGPT传送门(免墙,可直接注册测试): https://wowchat.cn GPT…

离线安装k8s/kubernetes v1.17.1并部署服务验证功能

条件: 3台没有网络的centos7.9服务器 1.系统优化 hostnamectl set-hostname k8s-master && bash #只在master节点上执行 hostnamectl set-hostname k8s-node1 && bash #只在node1节点上执行 hostnamectl set-hostname k8s-node2 && …

嵌入式:BSP的理解

BSP概念总结BSP定义BSP的特点BSP的主要工作BSP在嵌入式系统和Windowsx系统中的不同BSP和PC机主板上的BIOS区别BSP与 HAL关系嵌入式计算机系统主要由 硬件层,中间层,系统软件层和应用软件层四层组成。硬件层:包含CPU,存储器(SDRAM&…

(数字图像处理MATLAB+Python)第四章图像正交变换-第一节:离散傅里叶变换

文章目录一:一维离散傅里叶变换(1)定义(2)实例二:一维快速傅里叶变换(1)定义(2)实例三:二维离散傅里叶变换(1)定义&#x…

SpringCloud微服务技术栈.黑马跟学(十二)

SpringCloud微服务技术栈.黑马跟学 十二今日目标服务异步通信-高级篇1.消息可靠性1.1.生产者消息确认1.1.1.修改配置1.1.2.定义Return回调1.1.3.定义ConfirmCallback1.2.消息持久化1.2.1.交换机持久化1.2.2.队列持久化1.2.3.消息持久化1.3.消费者消息确认1.3.1.演示none模式1.3…

Flutter TextField UI 实例 —— 新手礼包

大家好,我是17。 新手礼包一共 3 篇文章,每篇都是描述尽量详细,实例讲解,包会! Flutter Row 实例 —— 新手礼包Flutter TextField UI 实例 —— 新手礼包Flutter TextField 交互实例 —— 新手礼包 本篇介绍了 Tex…

机器学习:基于逻辑回归对超市销售活动预测分析

系列文章目录 作者:i阿极 作者简介:Python领域新星作者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒关注哦!&a…

linxu学习之进程

文章目录进程程序和进程产生进程销毁进程多进程高并发设计孤儿僵尸守护进程孤儿进程:守护进程(重点)僵尸进程:进程 程序和进程 操作系统可以运行多个程序,那他是如何运行的?实际上,CPU的执行是很快的,而待…