【论文极速读】LVM,视觉大模型的GPT时刻?

news2024/11/26 4:53:38
【论文极速读】LVM,视觉大模型的GPT时刻?
FesianXu 20231210 at Baidu Search Team

前言

这一周,LVM在arxiv上刚挂出不久,就被众多自媒体宣传为『视觉大模型的GPT时刻』,笔者抱着强烈的好奇心,在繁忙工作之余对原文进行了拜读,特此笔记并留下读后感,希望对诸位读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。

∇ \nabla 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号:机器学习杂货铺3号店


LVM(Large Vision Models) [1] 自本月1号挂到arxiv以来,引发了众多自媒体的追捧,不乏称之为『视觉大模型的GPT时刻』的盛赞,也有不少大V对此表示持怀疑态度,这一周一直吃瓜的笔者也非常好奇,想一睹其视觉大模型的GPT风采,于是在工作之余抽空简单翻阅了下,总得来说还是受益匪浅的。
LVM的整体思想比较直白,既然NLP领域中,基于自回归的大模型(如GPT、LLaMA等)已经取得令人瞩目的成功,何不将视觉的预训练任务也统一到自回归中,也许就能产生和GPT一般的『智能』呢?考虑到NLP中,最小处理单元是token(下文翻译为『令牌』,tokenization则翻译为『令牌化』),我们不能以图片的像素级别去进行自回归,何不将图片也进行『令牌化』呢?将图片也转换成一个个令牌吧!那么我们就可以用NLP原生的预训练任务,比如自回归任务进行预训练了,如Fig 1.所示,将图片令牌化到若干个令牌后,就将视觉预训练任务转化为了『文本』预训练任务,作者将这样一个通过视觉令牌构成的句子,称之为Visual Sentence,也蕴含着将视觉任务文本化的意味?
fig_1_lvm_framework

Fig 1. LVM的模型框架,通过VQ-GAN将图片令牌化到256个令牌,将视觉的预训练任务完全转化为了文本的自回归预训练任务。

那么如何将图像进行令牌化呢?在之前的一些工作,比如VQ-VAE、VQ-GAN中曾经对图像令牌化有所考虑,读者可在笔者之前的博文[2]中简单参考其思路,同时,在BEiT v2 [3] 中也有对VQ-VAE的一些改进(引入更语义的信息),在本篇工作中,作者采用了VQ-GAN对图片进行令牌化,笔者觉得是由于LVM后续还需要对视觉令牌进行解码,生成图像(见Fig 1的decoder部分),采用VQ-GAN能提供更好的图像生成能力,向量量化的简易示意图可参考Fig 2.所示。

作者在本工作中的一个最大贡献,就是收集了一套大规模的用于LVM预训练的数据集,其中图像数据形式各种各样,来自于各种公开数据集,包括:

  1. 图片:一般的图片,如LAION数据集。
  2. 视频序列:将视频抽帧作为图片序列,此处视频类型各种各样,包括一般的视频,3D物体旋转的视频,CAD模型旋转产生不同视角的图片序列等等。
  3. 带有标注的图片:比如物体识别,语义分割等图片,可能包含有包围框、语义分割、图片风格转换、着色等标注在图片上。
  4. 带有标注的视频:如带有视频的分割标注等。

该数据集是一个纯图片数据集,没有任何配对的文本数据,具体数据收集的细节请见论文,此处不累述,作者将这个数据集命名为UVD-V1(Unified Vision Dataset),其中包含了50个公开数据集的数据,在将每张图片大小resize到256*256后,通过VQ-GAN将每个图片转化为了256个令牌后(码表大小8192),产生了4200亿个令牌(420B)。此时,每张图片/视频序列都可以描述为一个视觉短句,如

[BOS] V1, V2, V3, …, Vn [EOS]

通过自回归的方式,采用交叉熵损失去建模下一个令牌出现的概率,即是:
L v l m = ∑ i log ⁡ P ( V i ∣ V 1 , ⋯   , V i − 1 ; Θ ) \mathcal{L}_{vlm} = \sum_{i} \log P(V_{i}|V_{1},\cdots,V_{i-1};\Theta) Lvlm=ilogP(ViV1,,Vi1;Θ)
这就是所谓视觉任务语言模型化,因此作者也采用了LLM的开源模型LLaMA作为底座模型建模,大致的模型建模和数据构建部分就简单介绍到这里,里面很多细节问题也不在此处讨论,笔者主要关注了下论文的实验和效果展示部分。
fig_2_vq

Fig 2. 对向量量化(VQ)的简单示意图,可将稠密向量转化为稀疏的令牌(1、2步),通过反查字典,可『恢复』出稠密向量(3步),将稠密向量接入解码器即可恢复出原始图像。

在实验部分,作者通过控制变量法,探讨了一些基础的模型超参数下的模型基础表现,如输入长度、模型大小、数据集消融等等的影响,具体可见原论文,笔者不进行累述,笔者主要想对论文中的图像提示词(prompt)和生成结果进行讨论。作者通过图像提示词的方式,对诸多传统的CV任务,如人体关键点检测、物体检测、视频帧预测、inpainting、去雨乃至是基础推理能力进行了研究,如Fig 3.就展示了通过提供一个视频序列的前15帧,对接续4帧进行预测的能力,能看到预测的接续4帧从视觉上看会较为趋同,但是也有一些模型『推理能力』的痕迹在里面,比如最后一个骑摩托的生成结果,有明显的从近到远离去的变化。
fig_4_consecutive_frame_predict

Fig 3. 提供一个视频序列的前15帧,对接续4帧进行预测。

接下来是通过提供few-shot visual prompt,以<原图, 目标图>的形式喂给LVM进行预测的任务,如Fig 4.所示,在多种传统CV任务上都有着不俗的表现。考虑到数据集中有着3D渲染的多视角数据,作者还探索了LVM建模3D旋转的能力(用以证明LVM具有一定的三维视觉理解能力?),如Fig 5.所示,通过提供一系列将同一个3D物体进行某个方向旋转的visual prompt,LVM可以对接续的4帧进行预测。

fig_5_part_1

Fig 4. LVM通过few-shot visual prompt的形式,可以『激发』诸多传统CV任务的能力。

fig_6_3d_rotation

Fig 5. LVM具有建模3D物体旋转的能力。

在Fig 6.中,作者还报告了LVM对多种CV任务的组合能力,比如提供的visual prompt是3D旋转和关键点追踪两个CV任务的复合体,从生成接续的3帧来看也能得到合理的结果,表征了LVM似乎能对多种CV任务进行组合,即便这些组合在原始训练数据中可能不曾出现。
fig_7_task_composed

Fig 6. LVM似乎也能感知到对多种CV任务的组合的visual prompt?

fig_8_miscellaneous_prompt

Fig 7. LVM对找简单规律的问题能够有所感知,如数量递增、光照变化、尺度放缩等。

fig_9_spark_of_agi

Fig 8. 对一些行测的找规律题目也有所感知。

与此同时,想要成为视觉领域的GPT,那么除了基础的CV能力之外,其逻辑推理能力也不能落下,作者提供了几个visual prompt,给读者稍微一些遐想。如Fig 7,LVM对一些规律性的CV问题,比如图片内物体递增、光照变化、尺度放缩等有所感知。如Fig 8.所示,LVM能对一些找规律的题目进行一些感知。GPT有着诸多体现『智能』的表现,如

  1. 强大的逻辑推理能力
  2. 代码理解和生成能力
  3. 分步思考,思维链能力
  4. 类人的理解能力,包括一些幽默感、反讽、情绪理解等能力
  5. 世界知识:包括事实性知识 (factual knowledge) 和常识 (commonsense)

其中的逻辑推理能力,可以说是最接近我们通常理解的『智能』的能力,我们之前展示的LVM能力,是否足以证实LVM具有和GPT一般的逻辑推理能力呢?

笔者认为似乎论据仍然不足,首先从论文提供的数据中,能看出推理能力的是Fig 8中展示的几何图形找规律任务,但是我们是从结果上的正确与否确定的,我们是否能『探知』到LVM的思考过程呢?完全没有看到,如下图所示,不像LLM能够通过自我反省的方式,让它吐出推理的过程,进而判断是否具有逻辑推理能力,以及模型推理能力的强弱。在LVM中我们只能通过给定一些具有逻辑性的视觉任务(而且还是人类认为具有逻辑性的题目,也许LVM会通过其他信号去拟合,而不是通过『逻辑推理』的方式?),通过直接输出的结果进行检测,正如笔者所说,这个方式并不是一个合适的探知推理能力的方法。此外,笔者认为推理能力依赖一些世界知识,比如实体识别能力,实体解释能力等,从文章中似乎没有看出明显的体现?LVM是否可以解释什么是苹果?什么是梨子?苹果和梨子之前有什么共同点和差异?这些能力没法从现在的LVM中看到。目前的视觉提示词的方式,似乎不容易从中探知LVM的世界知识能力?

笔者认为单纯的视觉大模型很难建模完整的逻辑推理能力(当然也不是不可能,毕竟人类以视觉识别文本,文本完全可以渲染成图片作为LVM输入,从而LVM变为通用的多模态GPT,但是我们为什么要舍弃文本呢?),逻辑推理能力依赖一些世界知识和语义,脱离了文本很难建模,并且文本作为表达需求和可以作为自我解释的手段,也是一个通用AGI模型不能舍弃的。因此笔者对LVM的评价是:一个很不错和有启发的工作,但是称之为视觉大模型的GPT时刻似乎不妥,称之为AGI更是有捧杀之意了。

当然,对于笔者来说这篇工作还有更多值得思考的,比如作者采用了视觉令牌化作为模型的直接输入进行建模这块,笔者就深表赞同。笔者在工作中也尝试以各种角度落地多模态技术,无论是从工业界遇到的问题,还是学术界研究的角度来看,视觉令牌化都是一个非常值得探索的技术。之前笔者在项目实践中觉得视觉令牌化应该是对视觉语义的提取,会失去不少视觉细节信息,但是从Fig 4来看,似乎LVM对很多偏向low-level的视觉任务都有不错的表现(包括未展示的de-rain任务),这些low-level的任务对视觉的细粒度信息应该还是有所需要的,因此这一点比较刷新作者的认识,笔者猜想可能是由于采用了VQ-GAN技术导致的视觉令牌中可以携带更多细粒度的视觉信息?毕竟在实践中,视觉词表是一个偏向于利用率不充分的存在,也许采用了VQ-GAN技术后可以更加充分利用词表,进而对细粒度有所感知。当然,这些都是笔者的一些随性猜想罢了,希望抛砖引玉得到各位读者的指教。

Reference

[1]. Bai, Yutong, et al. “Sequential Modeling Enables Scalable Learning for Large Vision Models.” arXiv preprint arXiv:2312.00785 (2023).
[2]. https://blog.csdn.net/LoseInVain/article/details/129224424,【论文极速读】VQ-VAE:一种稀疏表征学习方法
[3]. Peng, Zhiliang, Li Dong, Hangbo Bao, Qixiang Ye, and Furu Wei. “Beit v2: Masked image modeling with vector-quantized visual tokenizers.” arXiv preprint arXiv:2208.06366 (2022)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1301171.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

洛谷P4071 排列计数

传送门&#xff1a; P4071 [SDOI2016] 排列计数 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)https://www.luogu.com.cn/problem/P4071题干: 有多少个1到n的排列a&#xff0c;使得恰好有m个位置满足ai i &#xff0c; 回答T组询问&#xff0c;答案多 10^97取模 数据范围&am…

为什么需要 Kubernetes,它能做什么?

传统部署时代&#xff1a; 早期&#xff0c;各个组织是在物理服务器上运行应用程序。 由于无法限制在物理服务器中运行的应用程序资源使用&#xff0c;因此会导致资源分配问题。 例如&#xff0c;如果在同一台物理服务器上运行多个应用程序&#xff0c; 则可能会出现一个应用程…

vuepress-----19、自动生成侧边栏

自动生成侧边栏插件 https://github.com/shanyuhai123/vuepress-plugin-auto-sidebar https://shanyuhai123.github.io/vuepress-plugin-auto-sidebar/ 安装 npm i vuepress-plugin-auto-sidebar -Dmodule.exports {plugins: [["vuepress-plugin-auto-sidebar",…

取消Jenkins的定时清理工作空间

Jenkins会定时清理工作空间&#xff0c;会影响到部分工程的打包&#xff0c;因此我想取消它的自动清理。有以下2个方法 一、使用Jenkins自带的脚本命令行&#xff0c;执行命令取消自动清理 弊端&#xff1a;不能永久生效&#xff0c;每次重启Jenkins后都需要执行一次 #查看当…

j1011基于ssm的博客网站设计与实现

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。你想解决的问题&#xff0c;今天给大家介绍…

7-8 报销

年底&#xff0c;报销都挤在一堆&#xff0c;财务忙得不可开交。每个报销表包括姓名&#xff0c;各项费用的金额。对于每个报销单&#xff0c;这里规定按如下要求处理&#xff1a; 金额高的优先处理&#xff1b;若金额相等时&#xff0c;则姓名字典序小的优先处理&#xff1b;…

HTML+CSS+JavaScript制作简单轮播图

一 运行效果 二 图片资源 三 代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style>img{position:absolute;top:6%;left:20%;width:800px;height:240px;}.picture {back…

【银行测试】银行系统项目-性能测试压测,场景设计分析...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、性能测试的四个…

Linux 使用定时任务

在Linux中&#xff0c;你可以使用cron&#xff08;定时任务管理器&#xff09;来设置和管理定时任务。以下是使用cron的基本步骤 编辑定时任务列表 打开终端&#xff0c;输入以下命令来编辑当前用户的定时任务列表 crontab -e如果是要编辑系统范围的定时任务&#xff0c;可以…

【Spring】Spring统一功能处理

Spring统一功能处理 拦截器拦截器什么是拦截器拦截器的基本使用定义拦截器注册配置拦截器 拦截器详解拦截器的拦截路径配置拦截器实现原理初始化处理请求 适配器模式 统一数据返回格式统一数据返回格式快速入门 统一异常处理 拦截器 场景: 我们要对一个网站实现强制登陆的功能…

基于Pytorch框架深度学的垃圾分类智能识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 垃圾分类智能识别系统是一种基于深度学习技术的智能系统&#xff0c;用于对垃圾进行分类和识别。它使用Pytorch框架…

安装python第三方库后,在pycharm中不能正常导入

python小白学习opencv&#xff0c;使用pip安装完opencv库后import cv2报错&#xff0c;按照如下设置解决&#xff1a; 需要正确设置python解释器路径

mybatis多表映射-对多关联

1、建库建表 create database mybatis-example; use mybatis-example; create table t_book (bid varchar(20) primary key,bname varchar(20),stuid varchar(20) ); insert into t_book values(b001,Java,s001); insert into t_book values(b002,Python,s002); insert into …

halcon视觉缺陷检测常用的6种方法

一、缺陷检测综述 缺陷检测是视觉需求中难度最大一类需求,主要是其稳定性和精度的保证。首先常见缺陷:凹凸、污点瑕疵、划痕、裂缝、探伤等。常用的手法有六大金刚(在halcon中的ocv和印刷检测是针对印刷行业的检测,有对应算子封装): 1.blob+特征 2.blob+差分+特征 3.光度…

重点车辆安全监测预警技术方案

目录 1.系统架构 2.详细设计 2.1驾驶员信息监控 2.1.1驾驶员基本信息管理 2.1.2人车匹配信息 2.1.3驾驶员在线状态管理 2.2车辆状态信息管理 2.2.1车辆信息管理 2.1.2车辆在路状态管理 2.3重点车辆安全监测预警系统云平台 2.3.1云平台需求分析 2.3.2 设计思想 2.4.…

【Spring教程24】Spring框架实战:从零开始学习SpringMVC 之 SpringMVC入门案例代码示例

目录 1:创建Maven项目&#xff0c;并导入对应的jar包2:创建控制器类3:创建配置类4:创建Tomcat的Servlet容器配置类5:配置Tomcat环境6:启动运行项目7:浏览器访问8:知识点总结 欢迎大家回到《Java教程之Spring30天快速入门》&#xff0c;本教程所有示例均基于Maven实现&#xff0…

SSL 数字证书的一些细节

参考&#xff1a;TLS/SSL 协议详解(6) SSL 数字证书的一些细节1 证书验证 地址&#xff1a;https://wonderful.blog.csdn.net/article/details/77867063 参考&#xff1a;TLS/SSL协议详解 (7) SSL 数字证书的一些细节2 地址&#xff1a;https://wonderful.blog.csdn.net/articl…

Windows下nginx的启动,重启,关闭等功能bat脚本

echo off rem 提供Windows下nginx的启动&#xff0c;重启&#xff0c;关闭功能echo begincls ::ngxin 所在的盘符 set NGINX_PATHG:::nginx 所在目录 set NGINX_DIRG:\projects\nginx-1.24.0\ color 0a TITLE Nginx 管理程序增强版CLSecho. echo. ** Nginx 管理程序 *** echo.…

C语言动态内存经典笔试题分析

C语言动态内存经典笔试题分析 文章目录 C语言动态内存经典笔试题分析1. 题目一2. 题目二3. 题目三4. 题目四 1. 题目一 void GetMemory(char *p){p (char *)malloc(100);} void Test(void){char *str NULL;GetMemory(str);strcpy(str, "hello world");printf(str)…

lcx iptables rinetd 三个端口转发流量分析

lcx流量分析 环境搭建 本机 &#xff1a;192.168.0.52 win7 &#xff1a; 192.168.0.247 10.0.0.3 win10&#xff1a; 10.0.0.10 win7 Lcx.exe -listen 7777 4444win10 Lcx.exe -slave 10.0.0.3 7777 127.0.0.1 3389然后使用远程软件连接 连的是192.168.0.247的4444 端口 …