美团发布VisionLLaMA,为视觉生成和理解提供新基线

news2024/11/16 19:26:54

在人工智能领域,统一的模型架构对于简化模型设计、提高模型效率以及促进跨领域应用具有重要意义。近年来,大语言模型(Large Language Models, LLMs)在处理文本输入方面取得了显著的进展,其中基于变换器(Transformer)架构的LLaMA模型家族在众多开源实现中脱颖而出。然而,一个引人关注的问题是,这些为文本输入设计的变换器是否同样适用于处理二维图像?

对此,本研究提出了一个类似于LLaMA的视觉变换器——VisionLLaMA,它以平面(plain)和金字塔(pyramid)形式出现,专为视觉任务量身定制。VisionLLaMA是一个统一且通用的模型框架,适用于解决大多数视觉任务。通过典型的预训练范式对其有效性进行了广泛评估,并在图像感知和尤其是图像生成的下游任务中取得了显著成果。在许多情况下,VisionLLaMA在性能上超越了先前的最先进视觉变换器。相信VisionLLaMA可以作为视觉生成和理解的强大新基线模型。

论文标题:VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

论文链接:https://arxiv.org/pdf/2403.00522.pdf

VisionLLaMA模型:从LLaMA到视觉的转变

1. VisionLLaMA的设计理念

VisionLLaMA模型的设计理念源自于LLaMA模型,LLaMA模型是一种基于transformer架构的大语言模型,它在文本输入处理方面表现出色。研究者们提出了一个问题:能否使用相同的transformer架构来处理2D图像?VisionLLaMA模型正是为了回答这个问题而设计的,它是一种类似于LLaMA的视觉transformer,旨在减少语言和视觉之间的架构差异。VisionLLaMA模型是一个统一和通用的建模框架,适用于解决大多数视觉任务。

2. VisionLLaMA的架构特点

VisionLLaMA的架构特点包括两种形式:平面形式和金字塔形式。在平面形式中,VisionLLaMA遵循ViT的流程,尽可能保留LLaMA的架构设计。在金字塔形式中,VisionLLaMA适用于基于窗口的transformer,如Swin和Twins,它们使用相对位置编码。VisionLLaMA在这些架构中的应用通过最小化对架构和超参数的修改来实现。

图片

VisionLLaMA在图像理解任务中的应用

1. 图像分类

在图像分类任务中,VisionLLaMA通过监督学习和自监督学习的方式在ImageNet-1K数据集上进行训练。在监督学习中,VisionLLaMA与DeiT3等先进的平面视觉transformer进行比较,展示了与DeiT3相当的性能。在自监督学习中,VisionLLaMA使用MAE框架,并在不同的预训练长度下取得了优于ViT模型的性能。

2. 语义分割

在ADE20K数据集上的语义分割任务中,VisionLLaMA作为UperNet框架的骨干网络,与Swin和Twins等模型进行了比较。结果显示,VisionLLaMA在相似的FLOPs下,其性能超过了Swin和Twins超过1.2%的mIoU。

3. 目标检测

在COCO数据集上的目标检测任务中,VisionLLaMA作为Mask R-CNN框架的骨干网络,展示了优于Swin和Twins的性能。此外,VisionLLaMA在ViTDet框架下,使用平面视觉transformer取得了与金字塔对应模型相当的性能。

VisionLLaMA在图像生成任务中的应用

1. DiT框架下的图像生成

VisionLLaMA在DiT框架下的图像生成任务中展现出了显著的性能。通过将DiT框架中原有的视觉变换器替换为VisionLLaMA,同时保持其他组件不变,这一受控实验展示了VisionLLaMA在图像生成任务上的通用性。在这一过程中,原始的超参数保持不变,尽管这可能不是实现最佳性能的最优选择。使用预训练的VAE模型,以及分类器自由引导系数为1.5,图像的训练分辨率为256×256。在不同模型尺寸下,VisionLLaMA在多项指标上显著优于DiT,包括FID、sFID、Precision/Recall和Inception Score。此外,VisionLLaMA不仅计算效率更高,而且性能也超过了DiT。

图片

2. SiT框架下的图像生成

SiT框架提供了灵活的漂移和扩散系数选择,通过最近提出的插值框架得到支持,显著提高了使用视觉变换器的图像生成性能。在SiT框架中,将视觉变换器替换为VisionLLaMA,用于评估更优模型架构的好处,称为SiT-LLaMA。实现基于SiT的开源代码,通过精心控制的实验进行评估。所有模型均使用相同步数进行训练,并使用线性插值和速度模型。为了公平比较,还重新运行了发布的代码,并报告了使用250步SDE采样器采样的50k 256×256图像的结果。SiT-LLaMA在不同容量级别的模型上一致性能优于SiT。

图片

VisionLLaMA的位置编码策略

1. 从1D RoPE到2D RoPE的扩展

在视觉任务中处理不同输入分辨率是一个常见的需求。与大多数视觉变换器采用局部窗口操作或插值不同,VisionLLaMA扩展了1D RoPE到2D形式,2D RoPE在不同头之间共享。在金字塔设置下的GSA中,需要特殊处理以添加位置信息到总结键中,这些键是通过对特征图的抽象生成的。

图片

2. AS2DRoPE的自适应位置编码

位置插值帮助2D RoPE更好地泛化。受到使用插值扩展LLaMA上下文窗口的启发,涉及更高分辨率类似于扩展VisionLLaMA的2D上下文窗口。与语言任务不同,视觉任务如目标检测通常在不同迭代中处理不同的采样分辨率。在224×224的输入分辨率下训练小型模型,并在不重新训练的情况下评估更大分辨率的性能,这指导了应用插值或外推的良好策略。因此,基于“锚分辨率”应用自动缩放插值(即AS2DRoPE)。假设处理H×H的正方形图像,并且在训练期间使用B×B的锚分辨率,我们计算可以高效实现且不引入额外成本的AS2DRoPE。如果训练分辨率保持不变,AS2DRoPE退化为2D RoPE。

图片

实验结果与分析

1. VisionLLaMA与现有模型的性能比较

VisionLLaMA在多个视觉任务中与现有模型进行了比较。在图像生成任务中,使用DiT框架的VisionLLaMA在不同模型大小下均显著优于DiT模型。例如,DiT-LLaMA-XL/2的FID比DiT-XL/2低0.83,表明VisionLLaMA在计算效率和性能上均优于DiT。在SiT框架下,SiT-LLaMA在各种容量级别的模型中一致超越了SiT,例如SiT-LLaMA-L/2的FID比SiT-L/2低5.0,这一改进幅度甚至超过了新框架的引入(4.0 FID)。

在ImageNet-1K数据集上的分类任务中,VisionLLaMA在监督训练下与DeiT3相比,在不同的模型大小上表现相当。在不同分辨率下的性能评估中,VisionLLaMA在更高分辨率下的泛化能力更强,这对于许多下游任务(如对象检测)至关重要。

2. VisionLLaMA的收敛速度和性能优势

VisionLLaMA在多个实验中显示出更快的收敛速度。在图像生成任务中,VisionLLaMA在300k训练迭代后的性能甚至超过了基线模型在400k步骤后的性能。在DeiT3-Large的监督训练设置中,VisionLLaMA的收敛速度也快于DeiT3-L。此外,在MAE框架下,VisionLLaMA在训练初期的损失较低,并且趋势持续到训练结束

图片

VisionLLaMA的优势与挑战

1. 模型的通用性与适应性

VisionLLaMA作为一个统一的视觉建模框架,能够解决大多数视觉任务。它在图像理解和生成任务中表现出色,并且在不同分辨率下具有良好的泛化能力。它的设计旨在减少语言和视觉之间的架构差异,使得同一架构可以处理文本和图像输入。

2. 模型在不同任务中的表现

在不同的视觉任务中,VisionLLaMA均展现出了优异的性能。在图像生成、分类、语义分割和对象检测任务中,VisionLLaMA均能达到或超越现有最先进模型的性能。这些结果表明,VisionLLaMA不仅在特定任务上有效,而且具有广泛的适用性和潜力。

VisionLLaMA未来发展方向及潜在影响

VisionLLaMA代表了对大语言模型(LLaMA)架构在视觉任务中应用的一次重要尝试。通过对LLaMA架构的适应性改进,VisionLLaMA不仅在图像理解和生成任务中展现出了显著的性能提升,而且还为未来的研究和应用提供了新的方向。以下是VisionLLaMA未来发展的几个关键方向及其潜在影响:

1. 架构的统一与优化: VisionLLaMA的提出,意味着语言和视觉模型可以共享统一的架构,这有助于简化模型部署和加速模型推理。未来,可以预见到更多的研究将致力于进一步优化这一统一架构,使其在不同的视觉任务中都能达到最优性能。

2. 多模态学习的深入: VisionLLaMA的成功实践为多模态学习提供了新的可能性。未来,研究者可能会探索如何将VisionLLaMA与其他模态的模型结合,例如音频和视频,以实现更加全面的多模态理解和生成。

3. 高效的预训练和微调策略: VisionLLaMA在预训练和微调方面展现出了高效性,这为大规模模型的训练提供了新的思路。未来的研究可能会探索更加节省资源的训练方法,以减少计算成本和环境影响。

4. 新的应用场景: VisionLLaMA在图像生成、分类、语义分割和目标检测等任务中的表现,预示着它在医学图像分析、无人驾驶、安全监控等领域具有广泛的应用前景。随着模型性能的不断提升,VisionLLaMA可能会在这些领域中扮演更加重要的角色。

5. 开源社区的贡献与发展: VisionLLaMA的开源实现鼓励了更广泛的社区参与和贡献。这种开放的研究态度有助于加速技术的创新和发展,同时也为研究者和开发者提供了更多的合作机会。

6. 持续的性能提升: VisionLLaMA在多个基准测试中已经超越了现有的状态艺术模型。随着研究的深入,可以期待VisionLLaMA在未来能够解决更加复杂的视觉任务,并在性能上达到新的高度。

总体而言,VisionLLaMA不仅为视觉任务的处理提供了一个强大的新基线模型,而且其统一的建模框架和在多个下游任务中的有效性,都预示着它将对未来的视觉任务处理产生深远的影响。随着技术的不断进步和社区的共同努力,VisionLLaMA有潜力成为推动视觉和多模态领域发展的关键力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1508572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode笔记——二叉树的迭代遍历

中序遍历: 定义一个 保存中间量的栈 和一个 结果数组 1. 模板写法 注释版: 背诵版: 前序遍历 1. 中 右 左 的顺序遍历 2. 模板写法,按中 左 右 的顺序遍历 后序遍历 1. 模板写法,按左 右 中 的顺序遍历 注释版&am…

Anaconda 的一些配置

Anaconda 安装及修改环境默认位置 https://blog.csdn.net/qq_54562136/article/details/128932352 最重要的一步!!!!!改文件夹权限 Anaconda创建、激活、退出、删除虚拟环境 修改pip install 默认安装路径

鸿蒙Harmony应用开发—ArkTS声明式开发(模态转场设置:全屏模态转场)

通过bindContentCover属性为组件绑定全屏模态页面,在组件插入和删除时可通过设置转场参数ModalTransition显示过渡动效。 说明: 从API Version 10开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 不支持横竖屏切换。…

智能合约开发基础知识:最小信任机制、智能合约、EVM

苏泽 大家好 这里是苏泽 一个钟爱区块链技术的后端开发者 本篇专栏 ←持续记录本人自学两年走过无数弯路的智能合约学习笔记和经验总结 如果喜欢拜托三连支持~ 专栏的前面几篇详细了介绍了区块链的核心基础知识 有兴趣学习的小伙伴可以看看http://t.csdnimg.cn/fCD5E关于区块…

Redis高可用之哨兵模式和集群模式

Redis高可用 Redis哨兵高可用 概述 sentinel哨兵是特殊的redis服务,不提供读写服务,主要用来监控redis实例节点。 哨兵架构下client端第一次从哨兵找出redis的主节点,后续就直接访问redis的主节点 不会每次都通过sentinel代理访问redis的主…

Java开发从入门到精通(一):Java的基础语法项目案例

Java大数据开发和安全开发 Java 案例练习案例一:买飞机票案例二:开发验证码案例三:评委打分案例四:数字加密案例五:数组拷贝案例六: 抢红包案例七:找素数案例八:模拟双色球[拓展案例] Java 案例练习 案例一:买飞机票 分析: 方法是需要接收数据?需要接收机票原价、当前月份、舱…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:外描边设置)

设置组件外描边样式。 说明: 从API Version 11开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 outline outline(value: OutlineOptions) 统一外描边样式设置接口。 卡片能力: 从API version 11开始,该…

仿牛客网项目---Elasticsearch分布式搜索引擎

1.什么是ElasticSearch分布式搜索引擎? Elasticsearch是一个开源的分布式搜索引擎,提供实时的、高可用性的搜索和分析解决方案。它支持快速索引和搜索大规模数据,具有分布式架构、RESTful API、基于JSON的查询语言等功能,适用于各…

Asp .Net Web Forms 系列:配置图片防盗链的几种方法

通过 URL Rewrite Module 组件 URL Rewrite Module 是一个用于在 ASP.NET Web Forms 或其他基于 IIS 的 Web 应用程序中重写 URL 的强大工具。这个模块允许你将复杂的、不易于记忆或不利于搜索引擎优化的 URL 转换为更简洁、更友好的格式。通过 URL 重写,你可以提高…

Upload 上传(图片/文件),回显(图片),下载(文件)

1.前端技术:V3 Ant Design Vue 2.后端技术:Java 图片上传/回显: 文件上传回显: 表结构:单文件/图片上传为A表对文件C表 (A表field字段 对应 C表id字段) 如图:A表中的 vehicle_d…

leetcode代码记录和对比(两数相加

目录 1. 题目:2. 我的代码:3. 别人的代码:小结: 1. 题目: 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个…

世界排名第二的大语言模型,你听说过吗?

前言: 在介绍这个大语言模型之前,我们需要先来回顾一个事情,大家应该都知道,在去年 11 月,OpenAI 经历了 CEO Altman 被解雇(后又重返)的风波。而微软作为OpenAI的最大股东,直至Alt…

【DAY10 软考中级备考笔记】数据结构 图

数据结构 图 3月11日 – 天气:晴 晚上无线网络突然不能用了,花费好久弄这个,耽误了一些时间 1. 图的定义 这里需要注意完全图的定义,以及完全图的边数 这里需要注意连通图和连通分量的概念。 2. 图的存储结构 图有两种存储结构&a…

PortSwigger 基于dom的漏洞-利用 DOM 破坏来启用 XSS

进入实验随意进入一篇博客 我们可以尝试随意提交一些恶意代码看看会发生什么 很显然我们提交成功了但是我们的恶意代码貌似被过滤了 查看源码发现这里有一个过滤框架 我们打开源码分析 function loadComments(postCommentPath) {let xhr new XMLHttpRequest();xhr.onreadys…

植物病害识别:YOLO水稻病害识别/分类数据集(2000多张,2个类别,yolo标注)

YOLO水稻病害识别/分类数据集,包含疾病和正常2类,共2000多张图像,yolo标注完整,可直接训练。 适用于CV项目,毕设,科研,实验等 需要此数据集或其他任何数据集请私信

基于单片机的视觉导航小车设计

目 录 摘 要 I Abstract II 引 言 1 1 总体方案设计 3 1.1 方案论证 3 1.2 项目总体设计 3 2 项目硬件设计 4 2.1 主控模块设计 4 2.1.1单片机选型 4 2.1.2 STM32F103RCT6芯片 4 2.2单片机最小系统电路 5 2.3电机驱动模块设计 7 2.4红外模块设计 8 2.5红外遥控模块设计 9 2.6超…

Logseq电脑端+安卓端同步gitee或github

文章目录 0.初衷1.电脑端1.1 新建仓库1.2 克隆项目,生成秘钥1.3 添加图谱,选择文件目录,我是原本就有笔记,所以会如下所示。1.4 下载脚本文件1.5赋权限 (windows可跳过)1.6 修改脚本命令1.7 logseq设置同步…

Docker命令大全与实例详解

本文旨在汇总和深入解析日常工作与学习中频繁接触到的Docker核心命令,通过实例演示来巩固记忆,以便读者在实际操作中迅速查阅和高效运用。Docker作为一种轻量级容器技术,已经成为现代应用部署与管理的重要工具。本文将涵盖从基本的Docker环境…

公网ip和局域网ip

什么是公网IP? 公网,俗称外网,又被叫做互联网,是连接不同地区局域网或者城域网计算机的通信的远程网络。通常可以跨接很大的物理范围,连接多个地区、城市和国家提供远距离通信,形成全球性的互联网络。因此…

MySQL临时表创建出错(OS errno 13 - Permission denied)

一个客户向我抱怨:在MySQL查询小表没有问题,查询大表出错,下面是他发给我的出错的部分截屏(客户的表名被我隐藏了)。 这里的给出的信息已经比较明显了,是向/tmp目录中创建临时表失败(临时表的路…