Yann LeCun 新作!大幅超越 MAE,图像语义表示卷出新高度

news2025/1/16 5:51:57

aee2b225865a56894638a0d63b7ffd29.png

文|CV酱

计算机视觉中,有两种常见的从图像中进行自我监督学习的方法:基于不变性的方法和生成方法。

基于不变性的预训练方法优化编码器,使其产生相似的嵌入,用于同一图像的两个或多个视图,其中图像视图通常使用一组手工数据增强构建,如随机缩放、裁剪和色彩抖动等。这些预训练方法可以产生高语义水平的表示,但它们也引入了强烈的偏差,可能对某些下游任务甚至具有不同数据分布的预训练任务有害。

通常我们不清楚如何将这些偏差推广到不同抽象层次的任务。例如,图像分类和实例分割不需要相同的不变性。此外,将这些特定于图像的增强推广到其他模态(如音频)也不能直接进行。

认知学习理论提出,生物系统中表示学习的驱动机制是内部模型对感官输入响应的适应。这个想法是自监督生成方法的核心——它们移除或打乱输入的部分内容,并学习预测损坏的内容。

尤其是,我们熟知的mask denoising方法就是通过从输入中重建随机掩蔽的补丁来学习表示。该任务比视图不变性方法需要更少的先验知识,并且很容易推广到图像模态之外。然而,由此产生的表示通常处于较低的语义级别,并且在当前的基准和有监督的语义分类任务中表现不佳。因此,需要更复杂的适应机制(例如端到端的微调)才能充分利用这些方法。

本文则探讨了如何改善从图像中进行自监督学习的语义水平,而无需使用通过图像变换编码的额外先验知识。

论文标题

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

论文链接

https://arxiv.org/pdf/2301.08243.pdf

为此,作者引入了一种图像联合嵌入预测架构(I-JEPA)[1]。I-JEPA的思想是在抽象表示空间中预测缺失的信息;例如,给定单个上下文块,预测图像中各个目标块的表示,其中目标表示由学习的目标编码器网络计算。与预测像素/令牌空间的生成方法相比,I-JEPA使用抽象的预测目标,可以消除不必要的像素级细节,从而使模型学习更多的语义特征。另一个核心设计选择是提出的多块掩模策略,具体而言,作者证明了使用信息丰富(空间分布)的上下文块预测图像中的多个目标块(具有足够大的尺度)的重要性。

通过广泛的实证评估,作者证明:

I-JEPA可以学习强大的现成语义表示,而无需使用手工制作的视图增强;I-JEPA在ImageNet-1K线性探测,半监督1%ImageNet-1K和语义转移任务中优于像素重建方法(如MAE);I-JEPA在语义任务上与视图不变预训练方法相比具有竞争力,并且在低级视觉任务(如物体计数和深度预测)上取得更好的性能(第5和6节);通过使用更简单的模型,具有更少的刚性归纳偏见,I-JEPA可以应用于更广泛的任务。此外,I-JEPA还具有可扩展性和效率。

在ImageNet上训练本文ViT-H/14模型大约需要2400个GPU小时,比使用iBOT训练的ViTB/16快50%,比使用MAE训练的ViT-L/16高效140%。在表示空间中预测显着减少了自监督预训练所需的总计算量。

方法

所提出的基于图像的联合嵌入预测架构(I-JEPA)如图所示。

6405f8acc0369ab518908cccdc478265.png

I-JEPA是一种预测目标块表示的方法。在I-JEPA中,目标对应于图像块的表示。

它首先从图像中随机采样一个上下文块x,并去除与目标块重叠的部分,然后将x通过上下文编码器fθ获得对应的patch-level表示sx,最后通过预测器gφ,将sx作为输入,以及每个patch的mask token,输出M个目标块表示sˆy(1), ..., sˆy(M),并计算预测值与目标值之间的L2距离,以此作为损失函数,最后通过梯度下降优化参数φ和θ,并使用指数移动平均更新目标编码器¯θ的参数。

此外,我们使用ViT架构作为上下文编码器、目标编码器和预测器的backbone。

编码器/预测器架构类似于生成式MAE方法。然而,一个关键的不同之处在于I-JEPA方法是非生成的,预测是在表示空间中进行的。需要注意的是,目标块是通过掩码目标编码器的输出而不是输入来获得的。这个细节至关重要。

ef5d4889251d7f4ab93148b28bd00d58.png

实验结果

图像分类

c943519f34a5f829de8633d56e4df29c.png

I-JEPA在ImageNet-1K线性评估基准测试中显著提高了线性探测性能,同时使用更少的计算资源。

62168bc4eadfe95d2c1ba562420505a5.png

此外,I-JEPA在low shot ImageNet-1K测试中也表现出色,使用ViT-H/14架构时,I-JEPA的性能与ViT-L/16预训练的data2vec相当,而且使用的计算资源更少。随着图像输入分辨率的提高,I-JEPA的性能也超过了以前的方法,包括利用预训练期间额外手工数据增强的联合嵌入方法,如MSN、DINO和iBOT。

30b51ab68f899a20f554baffdb6ef2fd.png

在迁移学习实验中,I-JEPA显著优于不使用增强的先前方法(MAE和data2vec),并且缩小了与最佳视图不变性基于方法的差距,甚至超过了流行的DINO在CIFAR100和Place205上的线性探测。

Local Prediction Tasks

037b99a5c4ab2f6a5cb337fefe341c97.png

I-JEPA学习到的语义图像表示显著提高了以前方法(如MAE和data2vec)的下游图像分类性能,并且可以弥补,甚至超越利用额外手工数据增强的视图不变性方法。

此外,I-JEPA还学习到了局部图像特征,在低级和密集预测任务(如物体计数和深度预测)上超越了视图不变性方法。表4显示了使用线性探测器的各种低级任务的性能。特别是,在预训练之后,模型权重被冻结,并且在Clevr数据集上训练一个线性模型来执行物体计数和深度预测。与DINO和iBOT等视图不变性方法相比,I-JEPA方法在预训练期间有效地捕获低级图像特征,并在物体计数(Clevr/Count)和深度预测(Clevr/Dist)方面取得了超越它们的成绩。

扩展性

3e21acfe58b6100c9af1e118642ac749.png

I-JEPA还比以往的方法具有更高的可扩展性。

从图5可以看出,I-JEPA在1%的ImageNet-1K上的半监督评估所需的GPU小时数比以前的方法要少,而且在不依赖手工数据增强的情况下也能取得良好的性能。

与直接将像素作为目标的重建方法(如MAE)相比,I-JEPA在表示空间中计算目标时会带来额外的开销(每次迭代约慢7%)。但是,由于I-JEPA仅需要大约5倍的迭代次数就可以收敛,因此实际上仍然可以节省大量的计算量。

与依赖手工数据增强来创建和处理每个图像的多个视图的视图不变性方法(如iBOT)相比,I-JEPA的运行速度也明显更快。特别是,最大的I-JEPA模型(ViT-H/14)所需的计算量比最小的iBOT模型(ViT-S/16)要少。

此外,结果还表明,I-JEPA可以从使用更大的数据集进行预训练中受益。当增加预训练数据集(IN1K与IN22K)的大小时,语义和低级任务的转移学习性能也会得到提高。表5还显示,在IN22K上预训练时,I-JEPA也可以从更大的模型大小中受益。与ViT-H/14模型相比,预训练ViT-G/16模型可以显著提高Place205和INat18等图像分类任务的下游性能。但是,ViT-G/16模型对低级下游任务没有改善。ViT-G/16使用更大的输入补丁大小,这可能会对局部预测任务造成不利影响。

总之,I-JEPA具有较高的可扩展性,可以从使用更大的数据集进行预训练和更大的模型大小中受益。它可以在不依赖手工数据增强的情况下取得良好的性能,并且比以前的方法更加高效。

预测器可视化

14dfb273fc0e7ce83da208e884143510.png

通过以上可视化结果,可以看到,I-JEPA预测器能够正确捕捉位置不确定性,并产生具有正确姿势的高级物体部件(例如鸟的背部和汽车的顶部)。但是,美中不足的是,它抛弃了精确的low-level图像细节以及背景信息。

总结

I-JEPA是一种简单有效的学习语义图像表示的方法,不依赖于手工数据增强。通过在表示空间中预测,I-JEPA比像素重建方法收敛更快,并学习到高语义水平的表示。与基于视图不变性的方法相比,I-JEPA提出了一种学习通用表示的联合嵌入架构的方法,而不依赖于手工制作的视图增强。

32daaa8d98d4e5dc12134fe4da9e1e96.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

1932203ce514adb4f6eb33d9fb868a90.png

[1]https://arxiv.org/pdf/2301.08243.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/187611.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java+Spring的图书管理系统详细设计和实现

博主介绍:✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

【项目精选】基于Web的机票预订系统

文章目录 1 摘 要2 系统相关技术概述2.1 Java web2.2 三大框架SSM2.3 前端框架AngularJS2.4 数据库MySQL2.5 数据库Redis2.6 开发工具Eclipse 3 需求分析3.1 系统实现目标3.2 系统功能分析3.3 系统用列图 4 系统总体设计4.1 软件架构设计4.2 总体功能模块设计4.3 数据库设计4…

python小游戏——怀念经典坦克大战代码

♥️作者:小刘在这里 ♥️每天分享云计算网络运维课堂笔记,努力不一定有收获,但一定会有收获加油!一起努力,共赴美好人生! ♥️夕阳下,是最美的,绽放,愿所有的美好&#…

14.集合、泛型、List系列

目录 一.集合类的体系结构 1.1 Collection体系 1.2 Map集合体系 1.3 集合的注意事项 二.泛型 2.1 什么是泛型 2.2 泛型的优点 2.3 泛型可以在哪些地方上定义 2.4 泛型类 2.5 泛型方法 2.6 泛型接口 2.7 泛型通配符 三.Collection集合 3.1 什么是Collection集合 3…

CentOS7没有图形化界面,怎么安装图形化界面

我们在安装CentOS7时,如果选择 “最小化” 安装那么系统就只有命令行界面,但是没有图形化界面,如下图: 解决的完整步骤如下: 1)开启CentOS7并登录root用户(一定要以root用户登录,其…

windows电脑生成ios证书的方法

在uniapp开发进行云打包的时候,打包Ios应用需要p12格式的私钥证书和证书profile文件。无论使用windows电脑,还是mac电脑,生成ios证书,需要苹果开发者账号,假如你还没有苹果开发者账号,你可以参考下文先到苹…

「跨界选手」郭莎莎:我是怎么从服装设计转向智能家居的

作者 | 牧之 编辑 | 小沐 出品 | 智哪儿 zhinaer.cn最近几年,全国各地都在上演智能家居创业热。尤其是很多年轻人,从不同的行业转战而来。他们拥有不同的背景、认知和经验,为智能家居的线下渠道注入了多元活力。而本期「智哪儿」专访的采访对…

vue前端框架课程笔记(四)

目录vue中的内置指令v-textv-htmlv-cloakv-oncev-pre汇总自定义指令全局指令与局部指令使用示例生命周期问题引入生命周期函数简介钩子函数图示过程生命周期函数示例本博客参考尚硅谷官方课程,详细请参考 【尚硅谷bilibili官方】 本博客以vue2作为学习目标&#x…

新公链的加速孵化器有哪些值得期待?

媒体、工程师技术支持、VC、机构投资者,有经验的创业者等。Moonbeam Accelerator团结各方力量,帮助创业者做更好的领导者。 Web3的发展瞬息万变,包括Moonbeam自己也在未知的领域探索。作为区块链创业者,我们都有自己固定的思维和…

【redis6】第十一章(秒杀案例)

计数器和人员记录 秒杀页面 <% page language"java" contentType"text/html; charsetUTF-8"pageEncoding"UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loo…

RocketMQ5.0.0消息发送

一、消息消息实体类为org.apache.rocketmq.common.message.Message&#xff0c;其主要属性如下。// 消息所属topic private String topic; // 消息Flag&#xff08;RocketMQ不作处理&#xff09;&#xff0c;即&#xff1a;用户处理 private int flag; // 扩展属性 private Map…

零代码实现EDI标准报文转换

在与客户进行沟通的时候&#xff0c;经常有客户对EDI实施很感兴趣&#xff0c;一方面是客户具有相应的IT基础和技术力量&#xff0c;并且后续可能会有更多合作伙伴的EDI接入&#xff0c;因此客户有自主实施的想法&#xff1b;另一方面也可以在一定程度上为企业节约成本。 知行…

谷歌seo排名需要的链接数量?谷歌seo排名需要多久?

本文主要分享要实现谷歌排名需要多少条英文外链&#xff0c;以及时间成本的预估。 本文由光算创作&#xff0c;有可能会被修改或剽窃&#xff0c;我们佛系对待这种行为吧。 谷歌seo排名需要的链接数量是多少&#xff1f; 答案是&#xff1a;需要1000~2000条GPB外链 为什么一…

对数据中台的梳理与思考

Gartmer:《数据中台在中国已经接近炒作的顶峰》 PowerData&#xff1a;接近顶峰?那就说明还有上升的空间嘛 本篇文章聊聊数据中台爆火背后的逻辑。 一、概念篇 1、什么是中台 中台是将系统的通用化能力进行打包整合&#xff0c;通过接口的形式赋能到外部系统&#xff0c;从而…

嵌入式Linux-线程的回收/取消/分离

1. 线程的回收 1.1 回收线程的概念 春节七天连假已经过完啦&#xff0c;也该回收一下我们放假的线程了&#xff01; 听过很多回收旧手机、旧冰箱和旧彩电…&#xff0c;那么回收线程又是什么呢&#xff1f; 在父、子进程当中&#xff0c;父进程可通过 wait()函数&#xff08;…

尚硅谷谷粒商城Rabbit MQ

文章目录1. 概述2. 相关概念2.1 RabbitMQ简介&#xff1a;2.2核心概念2.2.1 Message2.2.2 Publisher2.2.3 Exchange2.2.4 Queue2.2.5 Binding2.2.6Connection2.2.7 Channel2.2.8 Consumer2.2.9Virtual Host2.2.10Broker3.Docker安装rabbit MQ4、RabbitMQ运行机制4.1AMQP 中的消…

【信管10.2】规划识别风险及定性分析

规划识别风险及定性分析了解完风险相关的知识以及项目风险的管理过程之后&#xff0c;我们就进入到每个风险过程的学习。风险管理过程的内容并不算少&#xff0c;直逼范围、进度、成本、质量四大核心模块&#xff0c;也是我们需要重点关注的内容。当年的论文我写得就是风险管理…

IDEA中Maven打包遇到的问题

问题1 问题描述 使用Maven进行打包&#xff0c;点击package&#xff0c;Run控制台的信息出现中文乱码的情况 解决方法 -DarchetypeCataloginternal -Dfile.encodingGBK问题2 问题描述 程序能够正常运行&#xff0c;但是使用Maven对程序进行打包&#xff0c;在编译过程中出现…

注册Github账号详细教程【超详细篇 适合新手入门】

前言 &#x1f4dc; “ 作者 久绊A ” 专注记录自己所整理的Java、web、sql等&#xff0c;IT技术干货、学习经验、面试资料、刷题记录&#xff0c;以及遇到的问题和解决方案&#xff0c;记录自己成长的点滴 目录 一、GitHub的简介 1、大概介绍 2、详细介绍 二、如何注册自己…

算法训练营 day29 回溯算法 组合总和III 电话号码的字母组合

算法训练营 day29 回溯算法 组合总和III 电话号码的字母组合 组合总和III 216. 组合总和 III - 力扣&#xff08;LeetCode&#xff09; 找出所有相加之和为 n 的 k 个数的组合&#xff0c;且满足下列条件&#xff1a; 只使用数字1到9 每个数字 最多使用一次 返回 所有可能的…