PVIT:利用位置信息增强多模态模型理解用户意图的能力

news2025/1/16 0:50:34

论文链接: https://arxiv.org/abs/2308.13437
代码链接: https://github.com/PVIT-official/PVIT
Demo: https://huggingface.co/spaces/PVIT/pvit

引言

随着ChatGPT等语言大模型的走红,越来越多人尝试探索为语言大模型赋予视觉能力[1,2],打造多模态大模型。如何让人类与多模态大模型更自然地交互,让模型更好地理解图像和文本指令是重要的研究课题。

引入位置信息是让模型更好地理解图像和用户意图的有效方法。例如在图1中,利用框表示位置信息能有效帮助用户更加简明地表达问题,与多模态大模型更自然地交互。OpenAI近期推出的GPT-4V(ision)[3]也有类似功能。

本文作者尝试以开源模型为基础,引入位置信息进行视觉指令微调。作者发现,引入额外的区域编码器能有效增强模型对用户意图的理解和指令遵循能力。

图1:利用框给定位置信息有助于模型更好地理解用户意图

一、问题分析

视觉指令微调(Visual Instruction Tuning)通过图像-语言配对数据连接预训练语言模型与视觉编码器,从而得到可以理解图像的多模态大模型(MLLM)。然而,现有模型仅支持文本形式交互,在复杂交互场景中难以有效识别用户意图。

图2:PVIT相较于传统多模态大模型,可以通过边界框理解额外的区域信息

在本文中,作者提出了一种位置信息增强的视觉指令微调方法PVIT(Position-Enhanced Visual Instruction Tuning),在视觉指令微调中引入额外的区域(Region)输入,并利用额外的区域编码器精确理解用户输入的定位区域。通过这种方法,能够实现模型对人类意图的更好理解,从而使模型的回应更加准确。

二、模型结构

如图3所示,模型主要包含三个部分:基于CLIP ViT-L/14的视觉编码器、基于RegionCLIP的区域编码器和大语言模型(LLM),编码器和大语言模型之间采用单一线性层连接。该模型可以理解包含图像、区域信息和自然语言的多模态指令并进行文本生成。

PVIT采用两阶段训练方式。第一阶段只训练连接编码器和大语言模型的线性层,第二阶段微调线性层和大语言模型的参数。

图3:PVIT模型结构

三、数据生成

如图4所示,作者提出了3种方法生成指令数据,生成的指令包含图像、区域信息和文本描述等。

数据集转换: 使用特定模板为现有的视觉问答数据集生成包含区域信息的指令。

任务特定指令数据生成: 用ChatGPT为5种特定的多模态任务生成指令数据,以解决数据集转换方法生成的数据多样性不足等问题。

通用指令数据生成: ChatGPT生成的详细的图像描述、视觉定位(Visual Grounding)模型生成的物体和图像的对应位置关系和作者编写的数个上下文示例均被用于数据生成。数据多样性和质量得到进一步提高。

图4:PVIT数据生成方法

四、实验结果

效果评估: 作者在MS COCO验证集和GQA验证集上对模型的对象识别和多模态推理能力进行定量评估,结果如表1所示。PVIT模型的对象识别准确率和多模态推理能力高于其他模型。

表1:模型在COCO和GQA任务上与LLaVA、Shikra和GPT4RoI模型的比较

涉及区域信息多模态指令服从能力评估: 为进一步评测模型对涉及区域信息的多模态指令的服从能力,作者提出了FineEval评测集。FineEval包含多种任务,指令中包含图像和区域信息,其样例和统计信息如图5所示。5名评估者对不同模型在FineEval上的输出质量进行相对排名。如图5所示,总体而言PVIT显著优于其他模型。作者在MS COCO验证集和GQA验证集上对模型的对象识别和多模态推理能力进行定量评估,结果如表1所示。PVIT模型的对象识别准确率和多模态推理能力高于其他模型。

图5:FineEval样例和统计信息

作者还提出了FineEval评测集。由5名评估者对不同模型在FineEval上的输出质量进行相对排名。如图6所示,总体而言PVIT显著优于其他模型,除在物体识别领域略逊于Shikra。

图6:人工评价中PVIT相较于LLaVA(a)、Shikra(b)和GPT4RoI(c)的胜率

五、案例分析

图7展示了几个与PVIT交互的案例。部分问题在没有区域信息帮助的情况下难以清晰表述,这更凸显了区域位置信息的重要性。这些案例展现出PVIT模型的以下四种能力:

对象识别,尤其是小物体识别。 如案例1中正确识别“[REGION-1]”为屏幕,案例5中正确识别“[REGION-2]”为鱼。

属性描述,包括视觉属性和图像中不可见的特征。 如案例5中生成的描述包括了颜色和姿态等视觉属性和从外部知识推断出的其他属性。

基于图像和指令进行推理的能力。 如案例2中识别出游泳者和她的手,并推断手属于游泳者。案例3中准确辨别出鱼的颜色变化,并运用视觉对比知识解释为何红色的鱼显眼。

文本生成能力。 其多数回答均能保持连贯且语法正确,其中案例1和案例4是代表性例子。然而,这些案例不能完全展现模型的文本生成能力,全面的展示和评估有待继续探索。

图7:与PVIT模型交互的6个案例

六、总结

本文引入额外的区域位置信息进行视觉指令微调,提升了多模态大模型的区域信息理解和视觉指令服从能力。此外,作者还提出了一种新的包含区域信息的指令数据构建方法和一个具有挑战性的人工编写的评测集FineEval。

参考文献

[1] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning. arXiv preprint arXiv:2304.08485.

[2] Zhu, D., Chen, J., Shen, X., Li, X., & Elhoseiny, M. (2023). Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592.

[3] GPT-4V(ision): ttps://cdn.openai.com/papers/G

  


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1096524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中断机制-通过AtomicBoolean实现线程中断停止

通过AutomicBoolean package com.nanjing.gulimall.zhouyimo.test;import java.util.concurrent.TimeUnit; import java.util.concurrent.atomic.AtomicBoolean;/*** author zhou* version 1.0* date 2023/10/15 2:42 下午*/ public class InterruptDemo2 {static AtomicBoole…

分治算法——快排 | 归并思想

文章目录 一、快排思想1. leetcode75. 颜色分类2. leetcode912. 排序数组3. leetcode215. 数组中的第K个最大元素4. leetcode面试题17.14. 最小K个数 二、归并思想1. leetcode912. 排序数组2. leetcodeLCR 170. 交易逆序对的总数3. 计算右侧小于当前元素的个数4. 翻转对 一、快…

GBJ3510-ASEMI电源控制柜专用GBJ3510

编辑:ll GBJ3510-ASEMI电源控制柜专用GBJ3510 型号:GBJ3510 品牌:ASEMI 芯片个数:4 封装:GBJ-4 恢复时间:>50ns 工作温度:-55C~150C 浪涌电流:350A 正向电流&am…

iWall:支持自定义的Mac动态壁纸软件

iWall Mac是一款动态壁纸软件,它可以使用任何格式的漂亮视频(无须转换)、图片、动画、Flash、gif、swf、程序、网页、网站做为您的动态壁纸、动态桌面,并且可以进行交互。 这款软件功能多、使用简单、体积小巧、不占用资源、运行…

Java每日笔试题错题分析(5)

Java每日笔试题错题分析(5) 一、错题知识点前瞻第1题第2题第3题第4题第5题第6题第7题 二、错题展示及其解析第1题第2题第3题第4题第5题第6题第7题 一、错题知识点前瞻 第1题 数组的初始化 数组的初始化有两种,分为静态初始化和动态初始化 静…

ai_drive67_基于不确定性的多视图决策融合

论文链接:https://openreview.net/forum?idOOsR8BzCnl5 https://arxiv.org/abs/2102.02051 代码链接:https://github.com/hanmenghan/TMC Zongbo Han, Changqing Zhang, Huazhu Fu, Joey Tianyi Zhou, Trusted Multi-View Classification, Internatio…

动态内存管理改造简易通讯录

动态通讯录 本章内容基于上章内容实现,具体情况若有不清楚,请先查看上一篇文章。 动态通讯录实现了,动态开辟,如果存放满了,再开辟空间进行存储,相对静态更方便一些。 动态通讯录需要改造的地方 我们基于…

Python--比较运算符

比较运算符 特别注意&#xff1a;当我们使用比较运算符对两个变量进行比较时&#xff0c;其返回一个布尔类型的值。 案例&#xff1a;两个数大小的比较 num1 10 num2 20 print(num1 > num2) # False print(num1 < num2) # True print(num1 > num2) # False print…

使用免费云服务器体验

免费的才是最贵的 谈谈使用【三*丰*云*免*费*服务器】的超级后悔体验 你以为开通了就永久免费了&#xff1f;怎么可能&#xff01;&#xff01;&#xff01; 使用方法 第一步&#xff1a;注册&#xff0c;实名认证 实名认证收费0.7 此时可以使用24小时&#xff0c;到期自动…

AI影像修复及图像超分辨率

AI图像修复软件主要包含人脸修复、图像超分等功能。人脸修复功能主要对图像上的人脸进行识别和修复&#xff0c;从模糊、缺损、噪声图像中恢复高质量人脸图像。图像超分功能主要对图像进行超分辨率重建&#xff0c;将低分辨率图像处理为高分辨率图像。 链接&#xff1a;https:…

Linux:基础命令

Linux&#xff1a;基础命令 0. Linux的目录结构1. Linux命令基础格式2. ls命令2.1 隐藏文件、文件夹 3. 相对和绝对路径3.1 特殊路径符 4. mkdir命令4.1 mkdir -p 选项 5. touch 创建文件6. cat命令 查看文件内容 0. Linux的目录结构 /&#xff0c;根目录是最顶级的目录了Linux…

【java学习—七】关键字super(32)

文章目录 1. 功能2. 代码中理解3. super调用父类构造器3.1. 结论一证明3.2. 结论二证明 4. this和super的区别 1. 功能 在 Java 类中使用 super 来调用父类中的指定操作&#xff1a; &#xff08;1&#xff09;super 可用于访问父类中定义的属性 &#xff08;2&#xff09;sup…

unity的脚本执行顺序问题

当一个物体同时挂载有多个脚本时&#xff0c;谁会先执行呢&#xff1f; 猜想&#xff1a;Test2在Test1的上面应该会先执行吧&#xff01; 结果&#xff1a;Test1先执行 如果你想要某一个脚本先执行&#xff0c;可以使用Awake方法 执行顺序 是先把所以脚本的Awake执行完&a…

【Transformer系列】深入浅出理解ViT(Vision Transformer)网络模型

一、参考资料 极智AI | 详解 ViT 算法实现 MobileViT模型简介 ECCV 2022丨力压苹果MobileViT&#xff0c;这个轻量级视觉模型新架构火了 ECCV 2022丨轻量级模型架构火了&#xff0c;力压苹果MobileViT&#xff08;附代码和论文下载&#xff09; 再读VIT&#xff0c;还有多少细…

学习笔记---超基础+详细+新手的顺序表~~

目录 1.顺序表的前言 1.1 顺序表--->通讯录&#x1f4c7; 1.2 数据结构的相关概念&#x1f3c7; 1.2.1 什么是数据结构 1.2.1 为什么需要数据结构 2. 顺序表概念及分类 2.1 顺序表的概念&#x1f419; 2.2 顺序表的分类&#x1f42b; 2.2.1 顺序表和数组的区别 2.…

c++ 学习之多态

来看代码 我们来看看早绑定的代码 #define _CRT_SECURE_NO_WARNINGS #include <iostream> using namespace std;class Animal { public:void speak(){cout << "动物在说话 " << endl;} }; class Cat : public Animal { public:void speak() {cout…

android studio检测不到真机

我的情况是&#xff1a; 以前能检测到&#xff0c;有一天我使用无线调试&#xff0c;发现调试有问题&#xff0c;想改为USB调试&#xff0c;但是半天没反应&#xff0c;我就点了手机上的撤销USB调试授权&#xff0c;然后就G了。 解决办法&#xff1a; 我这个情况比较简单&…

LD链接脚本

1.LD链接脚本的简介 LD链接脚本的概念 LD链接器脚本在完整程序编译流程中的链接过程使用。LD链接器脚本定义了程序各个程序段的存储分布&#xff0c;描述链接器如何将这些目标文件.o文件链接成一个输出可执行文件LD链接器脚本与CPU的种类、MCU的内部存储器分布有关。 LD链接…

华为---企业WLAN组网基本配置示例---AC+AP组网

ACAP组网所需的物理条件 1、无线AP---收发无线信号&#xff1b; 2、无线控制器(AC)---用来控制管理多个AP&#xff1b; 3、PoE交换机---能给AP实现网络连接和供电的交换机&#xff1b; 4、授权&#xff1a;默认AC管理的AP数量有限&#xff0c;买授权才能管控更多AP。 WLAN创建…

思维模型 峰终定律

本系列文章 主要是 分享 思维模型&#xff0c;涉及各个领域&#xff0c;重在提升认知。 1 峰-终定律的应用 1.1 迪士尼游乐园 迪士尼乐园采用了多种策略来创造令人难忘的体验&#xff0c;从而遵循峰终定律的原则。具体如下&#xff1a; 迪士尼乐园的入口设计和服务体验&…