Aligning Large Multi-Modal Model with Robust Instruction Tuning

news2025/1/10 2:18:09

Abstract

尽管多模态任务取得了有希望的进展,但当前的大型多模态模型(LMM)很容易产生与相关图像和人类指令 不一致的描述的幻觉。

LRV-指令。我们通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题,该数据集名为大规模鲁棒视觉(LRV)指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成,涵盖16 个具有开放式指令和答案的视觉和语言任务。我们还设计了 LRV-Instruction,以包含正向和负向指令,以实现更强大的视觉指令调整。我们的否定指令是在两个语义级别设计的:(i)不存在的元素操作 和(ii)存在的元素操作

GAVIE:为了有效测量 LMM 产生的幻觉,我们提出了GPT4 辅助视觉指令评估(GAVIE),这是一种评估视觉指令调整的新方法,无需人工注释的真实答案,并且可以适应不同的指令格式。我们进行了全面的实验来研究 LMM 的幻觉。

结果。我们的结果表明,现有的 LMM 在收到我们的负面指令(尤其是现有元素操作指令)时表现出明显的幻觉。此外,通过对 LRV-Instruction 上的 MiniGPT4 进行微调,与最先进的方法相比,我们使用更少的训练数据成功地减轻了幻觉,同时提高了公共数据集的性能。此外,我们观察到训练数据中正例和负例的平衡比例可以产生更稳健的模型。

视觉指令跟随数据

基于具有边界框和密集标题的视觉基因组数据集,我们与仅语言的 GPT4 进行交互,并总共收集了 120K 视觉指令跟踪样本。 LRV-指令包括正指令和负指令:

  • 正向指令有16个任务,包括图像字幕、物体检测、图像情感分析、图像质量评估、物体交互分析、图像异常检测、参考表达接地、OCR、VCR、物体属性检测、多选VQA、语义分割、密集字幕、视觉蕴涵、风格图像字幕、活动识别、面部表情检测。
  • 负指令在两个语义级别上设计:(i) 不存在的元素操作和 (ii) 存在的元素操作。

GPT4-辅助视觉教学评估

我们引入 GPT4 辅助视觉指令评估 (GAVIE) 作为一种更灵活、更强大的方法来测量 LMM 生成的幻觉,而不需要人工注释的真实答案。GPT4 将带有边界框坐标的密集标题作为图像内容,并比较人类指令和模型响应。然后,我们要求 GPT4 充当智能老师,并根据两个标准对学生的答案进行评分(0-10)。

  • (1)准确性:对于图像内容的响应是否准确。
  • (2)相关性:响应是否直接遵循指令。

自然语言处理领域已经取得了重大进展,导致了能够理解和遵循给定自然语言输入的指令的模型的开发 。36;10;26;5]。这些模型利用大型语言模型 (LLM) 的强大功能并依赖于高质量的指令数据。同样,我们也努力将类似的功能引入多模式模型。GPT4 [27]在与人类的多模式对话中表现出了令人印象深刻的性能,但促成其非凡能力的技术仍然不透明。因此,最近出现了几个大型多模态模型(LMM)[39;23;10;8],例如 MiniGPT4 [39]和 LLaVA [23],两者都利用骆马毛[7]作为语言生成器,但具有不同的视觉编码器[28;16]。指导BLIP [8]从预训练的 BLIP-2 初始化[15]而多式联运-GPT (MMGPT) [10]是建立在 Flamingo [1;3]。

最近的一项研究 [14】透露LLM的幻觉问题虽然不是所希望的,但却被这些LMM遗传了[39;23;10;8]。幻觉,与法学硕士相关的一个主要道德问题 [4],可能会导致有害的后果,特别是当没有足够领域知识的用户过度依赖这些越来越令人信服的语言模型时。在 LMM 幻觉的背景下,该模型可以生成与给定图像相冲突的信息的描述。例如,如图1  (以红色突出显示)所示,现有的 LMM [39;23;8;10]倾向于描述不存在的物体,例如“狗”从事不存在的活动,例如“玩球”。此外,该模型可能会在不遵循人类指令的情况下生成长图像描述(以蓝色突出显示)。

这些幻觉的可能原因是什么?由于当前的 LMM 建立在强大的 LLM 之上,因此它们可能会过度依赖语言先验,并生成更有可能与指令文本结合在一起的单词,而不管图像内容如何。更重要的是,LMM,例如 MiniGPT4 [39]和 LLaVA [23],采用合成指令数据进行训练,这些数据通常很长并且涉及图像中不存在的对象、活动或关系。

为什么 LMM 不能准确遵循人类指令?我们推测这是由于他们的训练数据缺乏多样性。例如,MiniGPT4 [39]仅使用专为图像字幕任务设计的四个指令模板来指导调整。虽然 MMGPT [10]和指导BLIP [8]结合了几个数据集作为指令调优数据,它们的指令和答案仍然基于几个模板。

为了应对这些挑战,我们推出了LRV-Instruction,这是一个大型且多样化的视觉教学基准。我们的基准测试由 GPT4 生成的 120k 视觉指令组成,其灵感来自于最近 GPT 模型在文本注释任务中的成功 [24]。与之前的研究不同,之前的研究侧重于有限的任务和由人类专家创建的预定义模板 [39;8;10],LRV-Instruction涵盖了16个视觉语言任务,具有开放式指令和答案,如图 3和表2所示。 1(a) . 正如观察到的[18],当前的 LMM 倾向于对向模型提供的任何指令回答“是” ,即使正确的答案应该是“否”。有些模型甚至在评估过程中对超过 90% 的负面测试示例回答“是” 。我们的调查表明,大多数 LMM 在仅包含正向指令的不平衡数据集上进行了微调(表1)。为了使 LMM 能够更忠实地响应人类指令,我们设计了LRV-Instruction,以包含负指令和正指令,以实现稳健的指令调整。我们的否定指令是在两个语义级别生成的(图2):(i)不存在的元素操作(ii)存在的元素操作以两种不同的格式(声明式疑问式)。为了提高视觉指令调整评估的稳健性和灵活性,我们提出了GPT4 辅助视觉指令评估(GAVIE),从两个不同的方面评估 LMM 输出:评估指令跟随性能的相关性和测量幻视的准确性在 LMM 输出中。GAVIE不需要人工注释的真实答案[29]并且可以轻松适应不同的指令格式,而不是[中的特定设计18]。

我们根据经验评估了四个公开可用的 LMM  [39;23;8;10]在我们的基准上,发现现有的 LMM 在收到我们的负面指令提示时会产生严重的幻觉。我们通过微调 MiniGPT4 进一步验证了LRV-Instruction的有效性[39]关于这个更平衡的数据。与原始 MiniGPT4、LLaVA 相比,我们经过指令调整的 MiniGPT4 受到的幻觉影响要小得多,并且实现了最先进的性能[23] , 指示BLP [8]和 MMGPT [10]我们的评估集和公共基准[18;11]。我们还观察到,对于 LMM,存在的元素操作指令比不存在的元素操作指令更具挑战性。此外,稳健的模型性能需要正负实例之间的平衡比例。总而言之,我们的贡献有三方面:

  • • 

    我们构建了LRV-Instruction,这是一个包含 120k 视觉指令的大型且多样化的数据集,其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。

  • • 

    我们提出了GAVIE,一种评估视觉指令调整的新颖方法,无需真实答案和预先设计的指令格式。

  • • 

    我们进行了全面的实验来研究当前 LMM 的幻觉。实证研究验证了LRV-Instruction对于鲁棒视觉指令调整的有效性。

2相关作品

早期探索[35;16;17 号;32]视觉和语言预训练模型倾向于使用基于 Bert 的[25;12]模型作为语言解码器。受到大型语言模型最近成功的启发[33;9;38]和数据集[19;6;13;21;30;31;20],许多研究[1;15;14]一直致力于通过将强大的法学硕士与上下文或少量学习能力相结合来改进视觉语言预训练模型。最近,一些视觉指令调整的 LMM [39;23;10;8]已经出现,在未见过的 VL 任务中表现出了出色的泛化性能。具体来说,LLaVA [23]将视觉编码器的输出投影为 LLaMA 的输入[33]并在合成数据上训练对齐网络和法学硕士。迷你GPT4 [39]基于 BLIP-2 构建,但使用 Vicuna [7]作为语言解码器。它仅在来自 ChatGPT 的较长图像标题上微调跨模式对齐网络。研究方法[10;8]是在 VL 数据集集合上进行指令调整的,但是 InstructBLIP [8]使用 BLIP2 [15]作为骨干,而[10]从 Flamingo [初始化1]。mPLUG-owl [37]微调 LLaMA [33]使用来自 LLaVA 的文本指令数据和视觉语言指令数据的模型[23]。相比之下,我们提出了一个大型且多样化的视觉指令数据集,其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。这有助于提高当前 LMM 的鲁棒性。

尽管 LMM 在解决 VL 任务方面很强大,但它们也遭受着 LLM 继承的幻觉。流行的图像字幕指标,例如 CIDEr [34]香料[2]不对幻觉进行适当的惩罚。椅子,[29],不稳定,需要复杂的人为解析规则才能精确匹配。或者,[18]将幻觉转化为二元分类问题。然而,它要求输入问题遵循特定的模板,例如“图像中是否有<object>?” 。相比之下,我们提出的 GAVIE 可以以开放式的方式评估模型幻觉,而不需要人工注释的真实答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1295399.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DOS 批处理 (一)

DOS 批处理 1. 批处理是什么&#xff1f;2. DOS和MS-DOS3. 各种操作系统shell的区别Shell 介绍图形用户界面&#xff08;GUI&#xff09;shell命令行界面&#xff08;CLI&#xff09;的 shell命令区别 1. 批处理是什么&#xff1f; 批处理(Batch)&#xff0c;也称为批处理脚本…

el-tree数据量过大,造成浏览器卡死、崩溃

el-tree数据量过大&#xff0c;造成浏览器卡死、崩溃 场景&#xff1a;树形结构展示&#xff0c;数据超级多&#xff0c;超过万条&#xff0c;每次打开都会崩溃 我这里采用的是引入新的插件虚拟树&#xff0c;它是参照element-plus 中TreeV2改造vue2.x版本虚拟化树形控件&…

基于微服务架构的外卖系统源码开发

在当前互联网时代&#xff0c;外卖行业蓬勃发展&#xff0c;用户对于高效、智能的外卖服务需求不断增加。为了满足这一需求&#xff0c;采用微服务架构的外卖系统成为了开发的主流方向。本文将探讨基于微服务的外卖系统源码开发&#xff0c;涉及到关键技术和示例代码。 1. 微…

远程控制如何赋能智能制造?贝锐向日葵制造业场景案例解析

随着数字化转型在制造业的不断深入&#xff0c;企业在产线端也逐渐投入更多智能化设备&#xff0c;数字化、智能化设备其中一个比较显著的优势就是可以依托互联网实现远程运维和调试&#xff0c;大大提升产线设备的稳定性和工作效率&#xff1b;而远程调试运维一个重要的实现方…

ALTERNET STUDIO 9.1 Crack

ALTERNET STUDIO 9.1 发布 宣布 AlterNET Studio 9.1 版本今天上线。AlterNET Studio 9.0 是一个中期更新&#xff0c;重点是改进我们所有的组件库。 以下是 AlterNET Studio 9.1 的发布亮点&#xff1a; Roslyn C# 和 Visual Basic 解析器现在支持代码修复/代码重构。 代码修复…

el-date-picker时间控制范围为过去时间不可选

<el-date-picker :picker-options"startPickerOptions()" value-format"yyyy-MM-dd HH:mm:ss" v-model"form.applyFixPlan" type"datetime" placeholder"选择日期时间"> </el-date-picker> 在method中定义star…

【ESP32 IDF】ESP32移植u8g2库,实现oled界面显示

ESP32移植u8g2库&#xff0c;实现oled界面显示 1. 简单描述2. 环境准备1. 硬件准备2. 软件准备 3. IIC屏幕 【基于 ssd1362 256*64 】4. SPI屏幕 【基于 ssd1306 128*32】 1. 简单描述 开发方式为 IDF5.0参考连接为 iic基于esp-idf移植使用u8g2 spi基于esp-idf移植使用u8g2 …

插入排序——直接插入排序和希尔排序(C语言实现)

文章目录 前言直接插入排序基本思想特性总结代码实现 希尔排序算法思想特性总结代码实现 前言 本博客插入排序动图和希尔排序视频参考大佬java技术爱好者&#xff0c;如有侵权&#xff0c;请联系删除。 直接插入排序 基本思想 直接插入排序是一种简单的插入排序法&#xff…

广播和组播

1. 广播 1.1 知识点 INADDR_ANY代表本机所有地址 常用方法当你将套接字绑定到INADDR_ANY&#xff0c;它会监听所有可用的网络接口&#xff0c;这意味着它将接受来自所有本地IP地址的传入连接或数据包 1.1.1 广播的流程 广播发送端&#xff1a; ----> 添加广播属性 1、建立套…

JAVA后端自学技能实操合集

JAVA后端自学技能实操 内容将会持续更新中,有需要添加什么内容可以再评论区留言,大家一起学习FastDFS使用docker安装FastDFS(linux)集成到springboot项目中 内容将会持续更新中,有需要添加什么内容可以再评论区留言,大家一起学习 FastDFS 组名&#xff1a;文件上传后所在的 st…

MySQL中是如何insert数据的

正常insert数据&#xff0c;MySQL并不会显式加锁&#xff0c;而是通过聚簇索引的trx_id索引作为隐式锁来保护记录的。比如两个事务对一个非唯一的索引情况添加&#xff0c;会造成幻读 但在某些特殊情况下&#xff0c;隐式锁会转变为显式锁&#xff1a; 记录之间有间隙锁inser…

Qt使用Cryptopp生成HMAC-MD5

近期项目中HTTPS通讯中&#xff0c;token需要使用HMAC-MD5算法生成&#xff0c;往上找了一些资料后&#xff0c;仍不能满足自身需求&#xff0c;故次一记。 前期准备&#xff1a; ①下载Cryptopp库&#xff08;我下载的是8.8.0 Release版本&#xff09;&#xff1a;Crypto Li…

基础课19——知识图谱问答引擎

1.概念 知识图谱是一种结构化的知识表示方式&#xff0c;将实体、属性和关系以图形的形式进行表达和组织。它通过对知识进行结构化建模&#xff0c;将不同实体之间的关系进行编码&#xff0c;形成一个图结构的知识网络。知识图谱的目标是将人类的知识整合到一个统一的框架中&a…

Segment Anything--SAM框架(二)

文章目录 prologuepaper && codeImage encoderPrompt encoderLightweight mask decoderMaking the model ambiguity-aware prologue 没什么事&#xff0c;写一写SAM的paper中关于模型框架的部分和实际代码部分。 paper && code SAM有三个组件&#xff0c;如图…

图数据库知识点9 | 大数据框架与图数据架构异同

开门见山&#xff0c;直奔主题&#xff0c;接续前面的知识点&#xff1a; 【图数据库知识点1|图数据库与关系型数据库的区别&#xff1f;】 【图数据库知识点2 | 图思维方式】 【图数据库知识点3 | 图数据库解决了什么问题&#xff1f;】 【图数据库知识点4 | 图计算与图数…

TypeScript枚举类型、类型断言

一. 概念 TypeScript中的枚举是一种数据类型&#xff0c;它是一组具有预定义名称的有限值的集合。枚举类型可以使代码更加可读、可维护和易于理解。 类似对象&#xff0c;枚举是将一组无序但极度相关数组集合在一起声明存储。 二. 枚举特性 1. 内部进行了双向赋值 enum Numb…

奕碳科技亮相COP28:展现中国智慧,引领全球碳减排新篇章

11月30日,联合国气候变化框架公约第28次缔约方大会 (COP28) 在阿联酋迪拜开幕。COP28是全球气候治理的重要盛会&#xff0c;汇聚了世界各国领导人、企业界和科学界代表&#xff0c;共同探讨和制定应对全球气候变化的策略与行动计划。在这样的背景下&#xff0c;企业群体的积极参…

力扣题:字符的统计-12.7

力扣题-12.7 [力扣刷题攻略] Re&#xff1a;从零开始的力扣刷题生活 力扣题1&#xff1a;467. 环绕字符串中唯一的子字符串 解题思想&#xff1a;记录下以字母s[i]结尾的最大的字串个数&#xff0c;然后统计a-z每个字母结尾的最大字串的个数进行i相加 class Solution(object…

「Verilog学习笔记」同步FIFO

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点&#xff0c;刷题网站用的是牛客网 timescale 1ns/1ns /**********************************RAM************************************/ module dual_port_RAM #(parameter DEPTH 16,parameter WIDTH 8)(in…

Anaconda建虚拟环境并在jupyter中打开

1.假设要用yaml格式创建虚拟环境 从开始里打开anaconda powersheel 输入以下 conda env create -f environment.yaml conda activate env_name activate以下虚拟环境 修改名称 如果不用yaml也可以用 conda create --name my_first_env python3.6 这个来指定 2.(base)变(…