视觉表征学习中的世界模型:自监督方法的新篇章

news2025/1/13 17:33:53

人工智能咨询培训老师叶梓 转载标明出处

计算机视觉中,表征学习是一个核心问题。如何让机器像人类一样理解图像内容,是实现高级视觉任务的关键。传统的自监督学习方法往往依赖于数据的变换来预测其变化,例如遮蔽图像建模(Masked Image Modeling)等。然而,这些方法在学习过程中往往忽略了学习到的世界模型在下游任务中的应用潜力。由Quentin Garrido、Mahmoud Assran等人在Meta的FAIR实验室提出的图像世界模型(Image World Models,简称IWM)的核心在于,它不仅学习如何对图像进行有效的表征,还学习了一个能够预测图像全局光度变换的模型,并将这个模型应用于解决多样化的任务。

图像世界模型(IWM)的方法论

图像世界模型(IWM)是依据联合嵌入预测架构(JEPA)构建的,这一架构与Assran等人在2023年提出的I-JEPA有相似之处。在JEPA的框架下,预测器实际上扮演了世界模型的角色。IWM的理念是,如果一个世界模型能够在潜在空间中实施变换,并且能够学习到与变换相适应的表征,即等变表征,那么这个模型就被认为是具备能力的。基于这个理念,能够实施变换的模型被称作等变模型,而不能实施变换的模型则被称为不变模型。

JEPA的一个显著优势在于,与需要依赖不变损失来提升表征质量的对比方法不同,JEPA不需要这样的损失函数。无论是显式地(如Gupta等人在2023年的研究,或者Garrido等人在2023b的研究)还是隐式地(如Chavhan等人在2023a的研究),对比方法通常需要不变损失来确保学习到的表征对数据的变换具有不变性。相比之下,JEPA风格的方法通过潜在空间的填充来学习表征的语义方面,这种方式不要求损失函数的辅助。另外在潜在空间中进行操作还可以让网络排除那些无关紧要或难以预测的信息。这一点尤为重要,因为在重建方法中,重建的质量并不总是与表征的质量正相关的,如Chen等人在2024年的研究中所指出的。因此,JEPA提供了一种更加灵活且有效的学习表征的方法,它通过减少对特定损失函数的依赖,使得模型能够更加自由地学习数据的本质特征。

为了训练IWM,首先需要从图像I生成源视图(source view)x和目标视图(target view)y(如图2所示)。目标视图y的生成是通过在原始图像I上应用随机的水平翻转、裁剪和颜色抖动(亮度、对比度、饱和度、色相)来完成的。为了确保目标尽可能包含多的信息,没有对目标应用破坏性增强,例如灰度化。源视图x的生成则是从目标y开始,进一步转换。首先应用另外一组颜色抖动,以及破坏性增强:灰度化、模糊和曝光过度(solarization)。这些增强与对比性SSL中使用的那些相同。最后根据I-JEPA的方法对图像的部分区域进行遮蔽。遮蔽掩码Mx定义为四个矩形掩码的并集。

变换参数ax→y与x到y的变换相关联,即初始变换过程的逆。这个参数包含了x和y之间颜色抖动的差异信息,以及是否应用了每种破坏性增强的信息。在潜在空间中应用变换的世界模型被称为pϕ。源和目标分别通过编码器fθ及其指数移动平均值fEMAθ进行输入,得到表示zx = fθ(x)和zy = fEMAθ(y)。使用EMA网络对于避免解决方案崩溃至关重要。为了调节预测器,即图像世界模型,它接收以掩码标记形式的几何信息以及ax→y。这些掩码标记表示为ma,对应于MCx中的位置。预测器pϕ然后以嵌入的源补丁xc、变换参数ax→y和掩码标记ma作为输入。其目标是匹配pϕ(zx, ax→y, ma) = zˆy到zy。

所使用的损失函数是预测zˆy和它们的目标zy之间的平方L2距离:L(x, y) = Σ(i∈MCx) ||pϕ(fθ(x), ax→y, ma)i - fEMAθ(y)i||^2。

IWM的编码器是一个视觉变换器(Vision Transformer),具体使用的是ViT-B/16架构。预测器基于相同的架构,但具有不同的深度和嵌入维度。研究者将IWM的实例表示为IWMZX,Y,其中X是预测器的深度,Y是其嵌入维度,Z根据世界模型的能力是Inv(不变)还是Equi(等变)。例如,IWMEqui18,384意味着预测器有18层深度,具有384维嵌入,并表现出等变行为,即学习到了一个多功能的世界模型。

学习图像世界模型以提升表征学习

在表征学习中,学习等变表征和学习世界模型是密切相关的问题。为了评估训练出的世界模型的质量,研究者们借鉴了等变理论中的指标,主要依赖平均倒数排名(Mean Reciprocal Rank,MRR)作为衡量标准。MRR的计算过程涉及到生成一个增强目标图像库(实际中包含256张图像),然后将干净图像的表征通过预测器传递,目标是预测目标图像。接着计算预测结果与增强表征库之间的距离,得到目标在最近邻图中的排名。通过对多个图像和变换求倒数排名的平均值得到MRR,这反映了世界模型的质量。MRR接近1意味着世界模型能够应用变换,而接近0则意味着它不能。

为了构建一个高性能的IWM,研究者们确定了三个关键因素:预测器在变换(或动作)上的条件化、控制变换的复杂性,以及控制预测器的容量。研究表明,如果这些因素没有得到适当的处理,将导致表征的不变性。研究者们探索了两种条件化预测器以反映变换信息的方法:

  1. 序列条件化:通过向预测器的输入添加代表变换的标记来实现。为了打破变换器预测器的排列等变性,每个标记都通过一个独特的线性层进行传递,使网络能够以可区分的方式转换信息。
  2. 特征条件化:另一种选择是通过将变换信息作为额外维度添加,然后将掩码标记通过1x1卷积神经网络混合信息,再映射回正确的维度,从而在变换和掩码标记之间混合信息。

如表1所示,没有条件化会导致世界模型无法应用变换,而使用序列或特征轴进行条件化则能产生良好的世界模型。实际中采用特征条件化,因为它能够带来更高的下游性能。

研究者们依赖于对比方法中使用的数据增强,包括颜色抖动(亮度、色调、对比度、饱和度)以及灰度化、模糊和曝光过度等破坏性增强。这些增强的强度也必须适当,以学习有用的世界模型。如果预测任务太容易,预测器将无法学到有用的信息。如表2所示,增强越强,学习强大的世界模型就越容易。

如果变换复杂,预测器需要更多的容量才能应用它,这使得容量成为学习图像世界模型的一个关键因素。如表2所示,更深的预测器使之能够在更广泛的增强范围内学习强大的世界模型,这是IWM成功的关键。对于12层的预测器,颜色抖动等变性在5次尝试中只有1次能够实现,而对于18层的预测器,5次中有4次能够实现。因此,预测器的容量是强大世界模型的关键组成部分。

与计算MRR的方式相同,研究者们可以比较预测的表征与一组变换图像,并观察与预测最近邻相关的图像。如图1所示,IWM学习到的世界模型能够在潜在空间正确应用变换。然而,在反转灰度时可以看到一些不准确之处,因为灰度不是完全可逆的。这些可视化有助于强化IWM能够学习图像变换的强大世界模型的事实。

利用世界模型处理下游任务

虽然在图像上学习到的世界模型能够执行颜色抖动或给图像上色等任务,但这些并不是推动计算机视觉应用的主要任务。这与大模型(LLMs)不同,后者的主要应用之一是预测下一个词。因此,研究者们探索了如何将世界模型用于视觉领域,以处理超越应用变换的任务,重点是分类和图像分割等判别性任务。

对于任何任务,评估头部需要理解学习到的潜在空间,并利用它来解决手头的问题。预测器能够做到这一点,表明它学习到了有用的信息,这些信息不一定存在于编码器中。然而,由于预测器被训练为预测另一种有效的表征,如果直接使用,其输出没有理由会带来更好的下游性能。因此,需要对预测器进行微调,以解决判别性任务。研究者们专注于与He等人(2021年)提出的微调协议进行比较。所有研究的方法都在ImageNet上进行了预训练并进行了评估,并使用ViT-B/16作为编码器。

在微调预测器时仍然需要使用它进行预测任务。在表3中,研究者们研究了定义预测任务的不同方式及其对性能的影响。首先注意到的是,使用教师网络比使用学生网络提高了性能。是否使用随机变换并不是一个重要因素,最重要的是预测另一个完整的图像。这使得评估更加灵活,因为不必为了评估而重用预训练目标。使用CLS标记来聚合信息而不是完整的图像预测也是一个很好的策略,尽管这会降低一半的性能。这项技术的优点是成本更低(N + 1个标记对2N个标记),因此根据用例,它可以是一个很好的选择。总的来说,最简单的方法是最好的:预测完整图像的未变换版本。这使得微调协议很容易重用,因为它不依赖于预训练任务。

在图3中,研究者们研究了预测器微调与编码器微调的效率。当考虑可比较的参数数量时,使用IWM的预测器微调在性能上比MAE编码器微调高出约1个百分点,比IWM高出1.5个百分点。这意味着预测器微调不仅在性能上是一个有竞争力的协议,而且在适应效率上也是如此。

与编码器微调相比,可以进一步提高效率。表征学习的一个主要目标是获得可以用于多种任务的表征。就像预测器被训练来解决多种任务(上色、填充、改变颜色)一样,研究表明它可以在多个任务上进行微调,受到前缀调整(Li和Liang,2021年)和指令调整(Wei等人,2022年;Zhang等人,2023年)的启发。一般的思想是给预测器新的学习标记,以指示它正在尝试解决的任务。对于每个任务,都有一个任务标记,以及特定于任务的头部和/或损失函数。然后所有任务的损失被结合起来,预测器以及特定于任务的头部被更新。研究者们研究了一个简单的场景,其中批量均匀地分配给任务,注意到其他采样策略可能会导致进一步改善性能。

在表7中,研究者们评估了在ImageNet、iNaturalist18、SUN397和Places205上预训练的IWMEqui18,384。对于每个任务,他们都训练了一个单任务基线,其中总迭代次数与多任务训练相同。因此,训练所有四个单任务基线的成本与多任务训练完全相同,尽管它会产生四个不同的模型而不是一个。多任务预测器能够实现与单任务预测器相似的性能,在大多数任务上略有下降,但在SUN397上性能显著提高。平均来看,它实现了与单任务预测器相同的性能。这进一步证明了利用好的世界模型的效率收益,现在参数在所有任务中共享,使得预测器微调在推理时对每个任务都很轻量。

总的来说,当学习到一个好的世界模型时,可以通过微调它来重用它进行下游任务。这导致的性能与编码器微调相当,但成本只有一小部分。通过进行多任务微调,可以使其更加高效,突显了这种方法的多功能性。

图像世界模型使表征更加灵活

为了完善对IWM在表征学习中的分析,研究者们探究了它在自监督学习中常用的轻量级评估协议上的表现,特别关注线性探测(linear probing)和注意力探测(attentive probing)。

如表8所示,当IWM学习到一个不变的世界模型时,它展现出与MoCov3等对比方法相似的行为,在线性评估中相比MIM或其他基于JEPA的方法有显著的性能提升。同样地,当IWM学习到一个等变的世界模型时,它的行为类似于MAE等MIM方法,在线性评估中表现较差,但在注意力探测中的性能更具竞争力。这表明不同方法之间的主要区别不必然在于表征的质量,而在于它们的抽象层次,即提取信息的容易程度。线性探测是最简单的评估方式,注意力探测稍微复杂一些,微调则是一个更复杂的协议。

在图4中,我们可以看到最适合的评估协议与世界模型的等变性之间存在明确的联系。更加不变的世界模型在线性评估中表现优异,而等变的世界模型在具有较大评估头部的预测器微调中表现出色。

可以在图5中看到,对比方法占据了表征抽象的高端,信息可以通过简单的协议轻松提取。然而,当忽略适应成本时,它们在峰值性能上会有所损失,如表5所示。另一方面,MIM位于这一谱系的低端,它在复杂的评估中如微调中提供更强的性能,但在线性探测中表现不佳,因为信息不是那么容易获取。通过改变世界模型的等变性,IWM能够在对比方法和MIM之间的谱系中占据位置,如图4和表8中IWMInv12,384和IWMEqui18,384作为IWM谱系的两个极端所示。

这个谱系可以被SSL的理念“学习可预测的内容”所概括。用一个弱的世界模型学习意味着它不能正确地模拟世界,编码器会移除那些无法预测的信息。另一方面,如果世界模型非常强大,表征就不需要那么抽象或语义化,因为它可以在任何情况下找到预测表征的方法。这意味着学习世界模型提供了一种可衡量的方式来控制表征的抽象层次。

IWM允许在表征的抽象层次上进行调整,从而在不同的评估协议中实现最佳性能。这种灵活性是通过改变世界模型的等变性来实现的,从而可以根据特定任务的需求来定制表征的抽象程度。例如,当我们需要一个能够轻松提取信息的表征时,可以训练一个更抽象的模型;而当我们需要一个保留更多原始信息的表征时,可以训练一个等变性更强的模型。

通过这种方式,IWM不仅提供了一种强大的表征学习方法,而且还提供了一种根据下游任务的具体需求来调整模型的能力。这种灵活性和适应性使得IWM成为一个在多种视觉任务中都具有潜力的强大工具。

论文链接:https://arxiv.org/abs/2403.00504

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2060577.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot:将单体项目拆分成微服务项目

💥 该系列属于【SpringBoot基础】专栏,如您需查看其他SpringBoot相关文章,请您点击左边的连接 目录 一、项目准备 二、拆分商品服务和购物车服务 1. 商品服务 (1)创建模块 (2)填写依赖 &a…

数学生物学-1-指数增长与衰退(Exponential Growth and Decay)

我们注意到数学专业的学生往往没有生物学系统的思维,而生物专业的学生则常常对数学感到恐惧。许多生物专业的学生可能一直对科学感兴趣,部分原因是他们认为生物学是一个不需要任何数学技能或背景就可以研究的科学领域。我认为这是不对的思维。 虽然大多…

Fortify相比其他扫描工具的优势在哪里?

最新发布的 Fortify 22.1.0 版本,不仅能高度兼容最新的软件技术,同时继续保持对运营环境常见的应用安全用例的广泛兼容性。经过强化的 Fortify 进一步提升了性能、准确性、可扩展性和易用性。 无论是运行 DevSecOps、开展云计算转型,还是确保…

Mac移动硬盘选什么格式最好 Mac怎么用ntfs移动硬盘

在使用Mac电脑的过程中,很多用户可能有需要扩展存储空间的需求。选择合适的移动硬盘格式对于数据传输的效率和兼容性至关重要。本文将详细介绍Mac移动硬盘选什么格式好,以及Mac怎么用ntfs移动硬盘,帮助用户优化Mac的使用体验。 一、Mac移动硬…

【具体数学 Concrete Mathematics】1.1.2 平面上的直线

【具体数学 Concrete Mathematics】1.1.2 平面上的直线

仿照ContentLoadingProgressBar 的特点在Android项目中自定义Loading对话框

ContentLoadingProgressBar 是 Android 中的一个控件,继承自 ProgressBar。它在 ProgressBar 的基础上添加了一些特殊功能,主要用于在加载内容时显示进度。它的一些主要特点如下: 自动隐藏和显示:ContentLoadingProgressBar 会在…

引发C++程序内存泄漏的常见原因分析与排查方法总结

目录 1、概述 2、内存泄漏与程序的位数 3、调用哪些接口去动态申请内存? 4、引发内存泄漏的常见原因总结 4.1、通过malloc/new等动态申请的内存,在使用完后,没有调用free/delete去释放(也可能是调用了上面讲到的HeapAlloc或V…

计算机专业大四毕业生如何在一天内完成开题报告?一招教你解锁开题报告写作技巧

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

SQL Server数据库 创建表,和表的增删改查

打开SQL Server工具,连接服务器 右击数据库,创建新的数据库 新建表 填写列,我添加了Id,Name,Sex,Age,和class列 右键表刷新一下就有了 我又同时创建了一个Class表 点击新建查询,现在写代码添加数据,也可以操作表来对数据进行添加 …

GEC6818开发板显示BMP格式图片

1、BMP格式图片 bmp格式图片是没有经过任何压缩过的图片,缺点是为文件尺寸比较大,不适合传播;优点是文件必须要解码器可以读出来直接使用。 虽然BMP格式文件内部存储的就是RGB数据,无需任何解码,但毕竟RGB数据是纯数据,没有任何图片尺寸、色深等具体信息,因此我们需要了…

滴滴二季度GTV达963亿元 经调整EBITA盈利13亿元

8月21日,滴滴在其官网发布2024年二季度业绩报告。 二季度,包括中国出行和国际业务在内的核心平台交易量为38.75亿单,较去年同期增长17.4%。其中,中国出行总单量为30.04亿单,较去年同期增长12.3%;国际业务总…

python爬虫--pyquery解析库整理

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理python的爬虫解析库pyquery的语法 简洁快速的整理,建议有前端基础的人看 pyquery解析原理 pyquery的原理就是拿到网站的前端源码后,我们根据我们需求信息所在的标签进行筛选。 选…

C语言第15篇

1.阅读下面的程序 #include<stdio.h> void main() { int i,j; i010; j9; printf("%d,%d",i-j,ij); } 则程序的运行结果是________. A) 1,19 B) -1,19 C) 1,17 D) -1,17 提示&#xff1a;八进制 2.以下程序段__________. x-1; do { xx*…

Aria2安装和使用-Mac版

起因是需要网盘下载&#xff0c;无奈限速很烦&#xff0c;查找很多方案后&#xff0c;最终决定使用Aria2 Tampermonkey。 其中Aria2是一款开源轻量的下载软件&#xff0c;简单来说就是可以通过URL直接下载。 Tampermonkey则是一款插件&#xff0c;我这里是.crx结尾的谷歌插件…

WPF调用CEF插件运行时启动CefSharp.BrowserSubprocess.exe三个进程

cefsharp.browsersubprocess.exe 是CefSharp&#xff08;一个基于Chromium的开源浏览器控件&#xff09;的一部分。这个可执行文件通常在以下情况下启动&#xff1a; 渲染进程&#xff1a;CefSharp使用多进程架构&#xff0c;类似于Chrome浏览器。cefsharp.browsersubprocess.e…

【网络】HTTPS——HTTP的安全版本

1.HTTP的问题 1、使用明文通信 HTTP协议不具备给通讯内容加密的功能&#xff0c;所有使用HTTP协议通信的请求和响应的内容无法进行加密,都是使用明文发送。由于HTTP属于TCP/IP协议族的协议&#xff0c;按照TCP/IP协议族的通讯机制&#xff0c;HTTP在整个通讯线路上都存在被窃听…

商务场合的白酒艺术,助你轻松搭建人脉

在繁忙的商务世界中&#xff0c;每一次会面都可能是开启新机遇的钥匙。而在这些重要的场合中&#xff0c;白酒不仅仅是一种饮品&#xff0c;更是一种文化的载体、一种沟通的桥梁。今天&#xff0c;就让我们一起探讨如何在商务场合中&#xff0c;通过豪迈白酒&#xff08;HOMANL…

深度好文:从《黑神话:悟空》看未来游戏趋势:高互动性、个性化与全球化

引言 在数字时代的浪潮中&#xff0c;游戏产业以其独特的魅力和无限的可能性&#xff0c;成为了全球娱乐文化的重要组成部分。随着科技的飞速发展&#xff0c;特别是高性能计算和人工智能技术的突破&#xff0c;游戏的世界变得越来越真实、细腻且富有深度。而在这股技术洪流中…

从0-1建一个webpack/vue项目,熟悉一下webpack知识点

以下配置项部分优化来自于国内直连GPT/Claude 第一步 首先整个新文件夹&#xff0c;打开终端&#xff0c;然后创建一个新目录&#xff0c;或者直接在vscode里面建个新文件夹&#xff0c;并进入该目录&#xff1b; mkdir my-vue-webpack-project第二步 进入当前目录 cd my-v…

SpringBoot项目多线程实现定时任务-只需要三步

众所周知&#xff0c;项目中需要使用定时任务发布的需求时非常常见的&#xff0c;例如&#xff1a;数据同步&#xff0c;清理垃圾文件&#xff0c;清理过期用户等需求&#xff0c;可能需要我们定时去清理数据。 但是我们如果集成xxl-job&#xff0c;Quartz&#xff0c;spring …