ViTamin——视觉-语言时代的可扩展视觉模型设计

news2024/11/18 8:37:19

人工智能咨询培训老师叶梓 转载标明出处

尽管视觉-语言模型(VLMs)已经取得了显著的成就,但在图像编码器的选择上,传统的视觉Transformer(ViT)依然是主流。尽管Transformer在文本编码领域已经证明了其有效性,其在图像编码上的表现尚未得到充分验证。特别是在ImageNet这类基准测试中,已经涌现出多种不同类型的网络架构,这表明对于图像编码器而言,是否采用Transformer作为通用解决方案仍需进一步研究和探讨。

由字节的研究者撰写的论文《ViTamin: Designing Scalable Vision Models in the Vision-Language Era》提出了一种新的评价协议,用于在对比语言-图像预训练(CLIP)框架下评估视觉模型。这项工作旨在解决现有VLMs在模型设计和数据规模方面的局限性,并提出了一种新的针对VLMs量身定制的视觉模型——ViTamin。

ViTamin通过结合两个阶段的MBConv块和一个Transformer块的最终阶段,提供了一种混合架构。这种设计利用其Transformer阶段来增强数据和模型的可扩展性,同时保持高特征分辨率。实验结果表明,ViTamin-L在相同的公开可用DataComp-1B数据集和OpenCLIP训练方案下,比ViT-L/14模型在ImageNet零样本准确率上提高了2.0%。

方法

作者们重新审视了CLIP问题的定义,并针对DataComp-1B数据集提出了两种训练协议(短期和长期计划)。通过短期计划,作者们在CLIP设置下重新评估了在ImageNet上发现的现代视觉模型。基于重新评估的结果,并提出了ViTamin架构的设计。

CLIP和训练协议

CLIP的目标是学习将图像嵌入xi和文本嵌入yi对齐。如图 FIGURE 2 所示,作者们分析了在不同数据规模和模型规模下,包括数据可扩展性、模型可扩展性、特征分辨率和混合架构在内的四个方面的基准测试结果。

  • 数据可扩展性:当训练样本从128M增加到1.28B时,所有模型大小和所有视觉模型的性能都显示出一致的提高趋势。特别是,ViT-S/16@512M(22M参数)在ImageNet上的零样本准确率达到53.8%,比ViT-B/16@128M(86M参数)的45.8%要好,表明大规模训练数据的有效性,增加训练样本比增加模型参数数量更有影响力。
  • 模型可扩展性:当模型大小增加时,所有视觉模型的性能也得到了提升。ViT在模型参数方面表现出最佳的可扩展性。
  • 特征分辨率:提取特征的最终分辨率影响预测精度。使用较小patch大小的模型表现更好。
  • 混合架构:CoAtNet通常比ViT和ConvNeXt表现更好,但很难将CoAtNet-4扩展到十亿级别的数据。

ViTamin架构设计

ViTamin的宏观网络设计受到ViT和CoAtNet的启发。在简单的卷积茎(两个3×3卷积)之上,采用了三阶段网络架构,其中前两个阶段使用MBConv块,第三阶段使用Transformer块(TFB)。这种设计利用Transformer块来增强数据和模型的可扩展性,同时保持高特征分辨率。

ViTamin依赖于两种类型的块:MBConv块和TFB块。MBConv-LN对原始MBConv进行了简化,去除了所有BN层和SE,仅使用单个LN作为第一层。TFB-GeGLU用GeGLU替代了FFN中的第一个线性层,减少了参数数量,允许构建更深层次的架构。

ViTamin的元架构是一个包含三个阶段的混合架构。第一和第二阶段由MBConv-LN块组成,第三阶段由NB TFB-GeGLU块组成。通过简单的缩放规则,可以生成不同模型大小的ViTamin系列。

表1列出了ViTamin模型的不同变体,包括ViTamin-S、ViTamin-B、ViTamin-L和ViTamin-XL的配置,如块的数量和通道数。 

锁定文本调整

除了模型设计之外,作者们还提出了一种新的训练方案,利用预训练的冻结文本编码器来指导较小VLMs的图像编码器的训练。这可以看作是一种从预训练的冻结文本编码器向随机初始化的图像编码器传递知识的方法。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

实验

ViTamin模型使用OpenCLIP在公开数据集DataComp-1B上进行训练。表 Table 2 总结了训练计划和模型变体的设置。作者们采用了短期计划来基准测试不同的视觉模型,并进行消融研究,而长期计划则用于训练表现最佳的ViTamin-L模型。

遵循DataComp的评估策略,使用包含38个任务的测试平台对VLMs进行零样本评估,包括ImageNet、6个分布转移任务、VTAB任务、WILDS任务和3个检索任务。

作者们还在其他下游任务中评估了训练好的VLM,包括使用F-ViT框架进行开放词汇检测,使用FC-CLIP框架进行开放词汇分割,并在多个分割数据集上进行零样本评估。最后,在LLaVA-1.5中评估了VLMs在大模型(LMMs)中的表现。

表 Table 3 总结了ViTamin-L与其他使用ViT作为视觉模型但采用不同训练方案和数据集的最先进技术模型的比较。为了公平比较,作者们专注于使用相同训练数据DataComp-1B的方法。ViTamin-L@224在ImageNet零样本准确率上比ViT-L/14@224 OpenCLIP高出1.6%。在调整图像大小以匹配相同数量的图像token后,ViTamin-L@256超过了ViT-L/14@224 OpenCLIP和CLIPA-v2。当模型参数进一步增加时(例如,ViTamin-L2),零样本ImageNet准确率显著提高到82.1%,平均38个数据集的性能提高到68.1%。进一步增加模型参数(即,ViTamin-XL)和400亿个训练样本,可以达到82.9%的零样本ImageNet准确率。

图 Figure 4 展示了LTT如何显著提高ViTamin-S/-B模型的性能,尤其是在数据规模较小的情况下。LTT将ViTamin-B提升到下一个模型性能规模,在128M样本中比ViT-L/16高出14%,在512M个训练样本中高出1.1%。有趣的是,LTT可以将ViTamin-B的训练预算节省10%,因为文本部分完全冻结。

DataComp挑战强调了数据筛选在VLM中的作用,但使用的是固定的ViT模型。表 Table 4 显示,ICCV 2023 DataComp挑战中的领先解决方案采用了复杂的24条筛选规则来提高数据集质量,从而获得了+2.3%的增益。相比之下,ViTamin-B通过改进模型本身,将性能提高了+12.8%的准确率,而锁定文本调整可以将增益提高到+23.3%。这一结果强调了视觉-语言数据集和模型共同设计的重要性。

到目前为止的评估主要集中在分类/检索任务上,突显了与ImageNet时代所采用的任务不同的下游任务的缺乏。然而,与基于ImageNet的视觉模型不同,VLMs在零样本能力方面表现出色,并提供了与文本很好地对齐的特征嵌入,从而为大模型(LLMs)弥补了视觉理解上的差距。鉴于此,作者们引入了一套新的下游任务,旨在全面评估VLMs,包括开放词汇检测和分割以及多模态大模型(LMMs)。

为了检验训练好的VLMs如何适应下游任务,作者们考虑了两个简单但有效的框架F-ViT和FC-CLIP,它们分别利用冻结的CLIP骨干进行开放词汇检测和分割。

作者们考虑了不同的VLMs作为这些框架的插件冻结骨干,而对于可能无法轻易泛化到高分辨率输入的ViT和ViTamin,作者们以滑动窗口的方式提取特征,窗口大小等于预训练图像大小,从而产生了滑动F-ViT和滑动FC-CLIP。表 Table 5 说明了ViTamin-L作为开放词汇检测的更强大图像编码器,比ViT-L/14在OV-COCO和OV-LVIS上分别提高了1.4%和3.1%。表 Table 6 显示,ViTamin-L在平均3个全景数据集上比ViT-L/14高出2.6%,在平均5个语义数据集上也高出2.6%。值得注意的是,ViTamin-L在开放词汇全景分割和语义分割的七个基准测试中超过了先前的艺术,树立了新的最高标准。

VLMs的另一个关键应用在于它们作为LMMs中的视觉编码器的角色,因为VLMs中的图像特征与文本很好地对齐,从而为LLMs弥补了视觉理解上的差距。具体而言,作者们考虑了LLaVA1.5作为评估框架。遵循LLaVA-1.5中的所有实验设置,其中图像通过冻结的CLIP模型和一个MLP投影器处理,保留图像作为视觉token,这些token被添加到文本序列中,并输入到冻结的Vicuna-v1.5-7B中。作者们在LLaVA-1.5中对12个LMM基准进行了评估,结果如 Table 7 。尽管OpenAI训练的ViT-L/14在ImageNet准确率上比CLIPAv2训练的对应模型低3.7%,但它在LLaVA中的表现却显著提高(在VQAv2上提高了4.4%,在VizWiz上提高了4.3%)。这一发现强调了需要结合多种下游任务以确保全面评估的必要性。令人惊讶的是,简单地将LLaVA的图像编码器替换为ViTamin-L就可以在各个基准上实现新的最高标准。

更多关于ViTamin的信息和资源可以在以下链接中找到:ViTamin项目页面

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2174865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无线感知会议系列【5】 无线感知边界-1

前言: 无线感知边界是整个ISAC 里面一个研究的难点和重点。 本篇主要来源于2022 《WiFi感知边界研究-Ubicomp2022论文分享》 感知的相关论文组会 2016年无线感知研究主要是国内高校主导,各种无线感知论坛 2021年无线感知 VIVO,OPPO ,华为,国…

LeetCode讲解篇之33. 搜索旋转排序数组

文章目录 题目描述题解思路题解代码 题目描述 题目链接 题解思路 旋转后的数组具备一个特性,如果把数组分割成两部分,必定至少有一部分是递增的,并且其中递增区间可以通过左端点小于右端点这个特征来确定 我们基于这个特性,进…

通信工程学习:什么是MIMO多输入多输出技术

MIMO:多输入多输出技术 MIMO(Multiple-Input Multiple-Output)多输入多输出技术是一种在无线通信中广泛应用的技术,它通过利用多个天线进行数据传输和接收,可以显著提高无线通信系统的性能和容量。以下是对MIMO技术的详细解释: 一、定义与原理 MIMO技术…

XWF使用指南

简介 X-Ways Forensics 是由 Stefan Fleischmann 编写的一个轻量化的应急响应及取证工具,是 WinHex 的法证版本,因此界面逻辑和 WinHex 较为相似。在配置好 mplayer 的情况下,程序总体积在 100MiB 左右,运行时内存占用极低&#…

【数据修复指南】手把手教你使用线性插值填补各类遥感数据缺失——Modis、Landsat和Sentinel

线性插值 1. 写在前面2. MODIS数据插值3. Landsat数据插值3.1 参数修改以适应其他类型的遥感数据3.2 Landsat数据汇总3.3 Sentinel卫星介绍 1. 写在前面 之前我写了使用年内均值或者中值来填补数据控制的方法,这种方法较为简单,不够精确。因此&#xff0…

面向人工智能: 对红酒数据集进行分析 (实验四)

由于直接提供截图是不切实际的,我将详细解释如何使用scikit-learn(通常称为sk-learn)自带的红酒数据集进行葡萄酒数据的分析与处理。这包括实验要求的分析、数据的初步分析(完整性和重复性)以及特征之间的关联关系分析…

SAP EWM QM 集成

目录 1 简介 2 业务流程 3 后台配置 4 主数据 5 业务操作 5.1 创建 EWM 交货单 5.2 不同的质检结果导致不同的入库地点 - 质检通过 5.3 不同的质检结果导致不同的入库地点 - 质检失败 1 简介 EWM 与 QM (quality management) 集成,自动 or 手动执行质检流程。质检可以…

现代cpp多线程与并发初探

个人博客:Sekyoro的博客小屋 个人网站:Proanimer的个人网站 在现代c(c20)中,有了jthread和协程的概念,使得我们编写并发程序更加方便. 这里作简单学习. 前言知识 多线程编程 std::thread 用于创建一个执行的线程实例,所以它是一切并发编程的基础,使用时需要包含 <thread…

XSS(内含DVWA)

目录 一.XSS的攻击方式&#xff1a; 1. 反射型 XSS&#xff08;Reflected XSS&#xff09; 2. 存储型 XSS&#xff08;Stored XSS&#xff09; 3. DOM型 XSS&#xff08;DOM-based XSS&#xff09; 总结 二..XSS的危害 三.常见的XSS方式 1.script标签 四.常见基本过滤方…

假期旅行数仓项目--OLAP

需要这个完整离线数仓项目的源码和流程PPT可以私信我&#xff0c;可以帮助解决项目中遇到的问题&#xff0c;做完项目可以让你对数仓有更加清晰的认识 项目流程&#xff1a; 配置文件 kafka server.properties hive : hvie-site.xml 启动mysql 的binlog日志 修改maxwell配置…

QT:常用类与组件

1.设计QQ的界面 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QPushButton> #include <QLineEdit> #include <QLabel>//自定义类Widget,采用public方式继承QWidget&#xff0c;该类封装了图形化界面的相关操作&#xff…

怎么绕开华为纯净模式安装软件

我是标题 众所周不知&#xff0c;华为鸿蒙系统自带纯净模式&#xff0c;而且 没法关闭 : ) 我反正没找到关闭键 以前或许会有提示&#xff0c;无视风险&#xff0c;“仍要安装”。但我这次遇到的问题是&#xff0c;根本没有这个选项&#xff0c;只有“应用市场”和“取消”&…

动态规划笔记

第一轮面试准备到第26题 一 解题步骤 对于动态规划问题&#xff0c;我将拆解为如下五步曲&#xff0c;这五步都搞清楚了&#xff0c;才能说把动态规划真的掌握了&#xff01; 确定dp数组&#xff08;dp table&#xff09;以及下标的含义确定递推公式dp数组如何初始化确定遍历…

基于yolov8的海上红外目标系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的海上红外目标系统是一项集成了前沿技术的创新解决方案&#xff0c;专为复杂海洋环境下的目标检测而设计。该系统利用YOLOv8深度学习模型的强大目标检测能力&#xff0c;结合红外成像技术&#xff0c;实现了对海上小型船只、浮标、甚至水下潜器等目标…

Arch - 架构安全性_传输(Transport Security)

文章目录 OverView导图1. 概述2. TLS的基本概念2.1 什么是TLS&#xff1f;2.2 TLS与SSL的关系2.3 TLS的工作原理 3. TLS的核心组件3.1 加密算法3.2 哈希函数3.3 数字证书 4. TLS握手过程4.1 客户端Hello4.2 服务器Hello4.3 证书验证4.4 密钥交换4.5 会话密钥生成4.6 安全连接建…

解锁初中学习新境界 —— 初中通关宝典速记手册

在初中这个学习生涯的关键阶段&#xff0c;掌握扎实的基础知识是取得优异成绩的关键。为此&#xff0c;我们特别推荐《初中通关宝典》——一本专为初中生打造的各科基础知识速记手册&#xff0c;它将成为你学习路上的得力助手。 文章目录 1. 全科覆盖&#xff0c;精准速记2.科学…

K8S的Pod IP

pod 的ip 一般是提供给pod1与pod2之间的通信&#xff0c;它有两个特点 1. Pod IP会随着Pod实例 的创新创建&#xff08;重启&#xff09;发生变化&#xff1b; 2. Pod IP只在集群内节点可见&#xff0c;外部无法直接访问

基于Spring框架的分层解耦详解

博客主页&#xff1a;誓则盟约系列专栏&#xff1a;Java Web关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Java Web 三层架构&#xff1a; Java Web可以大致被分为三层架构&#xff1a;…

基于单片机的水位检测系统仿真

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于STC89C52单片机&#xff0c;DHT11温湿度采集温湿度&#xff0c;滑动变阻器连接ADC0832数模转换器模拟水位传感器检测水位&#xff0c;通过LCD1602显示信息&#xff0c;然后在程序里设置好是否…

《Spring Boot应用进阶:打造优雅的错误处理机制与全局异常拦截器》

文章目录 自定义异常类AppException封装业务有关的枚举类AppExceptionCodeMsg全局异常拦截器Handler响应类模板Resp案例展示 || Demo项目结构pom依赖DemoController实际执行结果 Demo案例Git地址 | Gitee 本文主要介绍自己在工作中在处理抛出异常类和封装响应类处理的模板总结。…