【论文笔记】Wings: Learning Multimodal LLMs without Text-only Forgetting

news2025/1/10 10:45:38

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Wings: Learning Multimodal LLMs without Text-only Forgetting
作者: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
arXiv: https://arxiv.org/abs/2406.03496

基本信息

摘要

多模态大型语言模型(MLLMs)以训练好的LLM为基础,首先将图像与文本对齐,然后对多模态混合输入进行微调。

然而,MLLM在灾难性地忘记了仅包含文本的指令,这些指令不包括图像,可以在初始LLM中解决。

在本文中,我们提出了WINGS,这是一种新型的MLLM,在纯文本对话和多模态理解方面都表现出色。

分析MLLM在多模态指令中的注意力发现,纯文本遗忘与从预图像文本到后图像文本的注意力转移有关。

据此,我们构建了额外的模块,作为增强学习器来补偿注意力转移。

互补的Visual Learner和Textual Learner,如两侧的“翅膀”,在每个层的注意力块中并行连接。

最初,图像和文本输入与Visual Learner一起操作,与主要注意力平衡,关注视觉元素。

Textual Learner随后与基于注意力的路由协作集成,以融合Visual Learner和Textual Learner的输出。

我们设计了Low-Rank Residual Attention(LoRRA)以保证学习器的高效率。

我们的实验结果表明,WINGS在纯文本和视觉问答任务中均优于同等规模的MLLMs。

在一个新构建的交错图像-文本(IIT)基准上,WINGS在从纯文本丰富的到多模态丰富的问答任务中表现出优异的性能。

主要贡献

  1. 我们提出并验证了MLLM的纯文本遗忘现象与图像前后跨层MLLM-LAWS的注意力转移相关。
  2. WINGS构建了Visual Learner和Textual Learner,并引入了一种基于注意力权重转移的Router,以补偿注意力转移,实现协作学习。
  3. 纯文本、视觉问答和新建的交错图像-文本(IIT)基准上的实验表明,WINGS具有全面和灵活的性能。

工作

Capturing the Attention Shift with MLLM-LAWS

对于具有 L L L 层的MLLM,我们定义Layer-level Attention Weights(MLLM-LAWS)为:

LAWS V ∗ = [ a V ∗ 1 , a V ∗ 2 , ⋯   , a V ∗ L ] , a V ∗ l = ∑ i = 0 s ∑ j ∈ V ∗ a i j l ( h l − 1 ) \text{LAWS}_{\mathcal{V}_{*}} = \left[ a_{\mathcal{V}_{*}}^{1}, a_{\mathcal{V}_{*}}^{2}, \cdots, a_{\mathcal{V}_{*}}^{L} \right], \quad a_{\mathcal{V}_{*}}^{l} = \sum_{i=0}^{s} \sum_{j \in \mathcal{V}_{*}} a_{ij}^{l} \left( h^{l-1} \right) LAWSV=[aV1,aV2,,aVL],aVl=i=0sjVaijl(hl1)

a i j l a_{ij}^{l} aijl 表示MLLM的第 l l l 层中第 i i i 个token对第 j j j 个token的注意力权重, h l h^{l} hl 表示第 l l l 层的隐藏状态, ∀ i , ∑ j = 0 s a i j l ( h l − 1 ) = 1 \forall i, \sum_{j=0}^{s} a_{ij}^{l} \left( \mathbf{h}^{l-1} \right) = 1 i,j=0saijl(hl1)=1 V ∗ \mathcal{V}_{*} V 表示一个token序列,可以是 V itself \mathcal{V}_\text{itself} Vitself V before \mathcal{V}_\text{before} Vbefore V after \mathcal{V}_\text{after} Vafter,分别表示视觉序列、视觉序列前的文本序列和视觉序列后的文本序列。

LAWS V ∗ \text{LAWS}_{\mathcal{V}_{*}} LAWSV 可以表示MLLM对当前序列 V ∗ \mathcal{V}_{*} V 在所有MLLM层上的注意力动态曲线。

Illustration of mixed visual-and-textual inputs and the Layer-level Attention Weights (LAWS) with its properties

  • (a): 视觉编码器和投影器的视觉特征token被插入到文本特征序列中。
  • (b): 文本层中在文本token的前图像、图像本身和后图像上的注意力权重比例。红色曲线来自在纯文本任务表现更好的MLLM,而蓝色曲线来自在纯文本任务表现更差的MLLM。
  • ©: 实验表明,在100多个MLLM中,视觉token前后的皮尔逊相关系数与MLLM在纯文本上的表现存在正相关关系。

因此,注意力转移可通过视觉序列前后 LAWS \text{LAWS} LAWS 之间的皮尔逊相关系数量化为:

Attention Shift = E x [ − ρ ( LAWS V before ,   LAWS V after ) ] + 1 \text{Attention Shift} = \mathbb{E}_{\mathbf{x}} \left[ -\rho \left( \text{LAWS}_{\mathcal{V}_{\text{before}}}, \, \text{LAWS}_{\mathcal{V}_{\text{after}}} \right) \right] + 1 Attention Shift=Ex[ρ(LAWSVbefore,LAWSVafter)]+1

WINGS

WINGS

我们引入了与主要注意力平行的额外模块,作为增强Learner来补偿注意力转移。我们在一侧训练Visual Learner,减轻一些转移的注意力。然后,我们基于路由转移的注意力权重协同训练Visual Learner和Textual Learner。

WINGS 详细结构

WINGS由Low-Rank Residual Attention(LoRRA)模块构建,其中前一个隐藏状态作为Query,而视觉/文本特征作为Key和Value。训练从Visual Learner和Projector开始,接着是动态注意力Router。

Learner:

Learner ∗ ( Q = h l , K , V = x ∗ ) ∗ ∈ { V , T } = Softmax ( h l ( 1 + W Q ) ⋅ ( x ∗ ( 1 + W K ) ) ⊤ d head ) x ∗ ( 1 + W V ) W O \text{Learner}^* \left( \rm{Q} = \mathbf{h}^l, \rm{K}, \rm{V} = \mathbf{x}_* \right)_{* \in \{\mathbf{V}, \mathbf{T}\}} = \text{Softmax} \left( \frac{\mathbf{h}^l (1 + \mathbf{W}^{\rm{Q}}) \cdot (\mathbf{x}_* (1 + \mathbf{W}^{\rm{K}}))^\top}{\sqrt{d_{\text{head}}}} \right) \mathbf{x}_* (1 + \mathbf{W}^{\rm{V}}) \mathbf{W}^{\rm{O}} Learner(Q=hl,K,V=x){V,T}=Softmax(dhead hl(1+WQ)(x(1+WK)))x(1+WV)WO

Router接受一个注意力权重作为输入,通过单层MLP和Softmax处理,然后将Learner的输出叠加到主注意力上。

Att WINGS = Att main + ∑ ∗ ∈ { V , T } Router ( a ) ⋅ Learner ∗ ( h l , x ∗ ) \text{Att}^{\text{WINGS}} = \text{Att}^{\text{main}} + \sum_{* \in \{V, T\}} \text{Router}(\mathbf{a}) \cdot \text{Learner}^* \left( \mathbf{h}^l, \mathbf{x}_* \right) AttWINGS=Attmain+{V,T}Router(a)Learner(hl,x)

训练

训练

WINGS的架构包含四个元素:Vision Encoder、Projector、LLM以及带有Router的Learner。

  • Stage 1
    • ❄️ Vision Encoder、LLM
    • 🔥 Projector、Visual Learner
    • Visual Learner的输出直接加到主分支上
  • Stage 2
    • ❄️ Vision Encoder
    • 🔥 LLM、Projector、Router、Visual Learner、Textual Learner

实验

主实验

Performance comparisons of WINGS and the baseline MLLMs under the same training data

WINGS与基线MLLMs在相同训练数据下的性能比较。

Performance comparisons of the equal-scale MLLMs and the efficient multimodal LLMs on text-only and multimodal datasets

同等规模的多模态大模型和高效多模态大模型在纯文本和多模态数据集上的性能比较。

Interleaved Image-Text (IIT) Benchmark

为了精细评估MLLMs,我们构建了一系列纯文本和多模态混合多轮对话。

我们通过chroma从MMLU、CMMLU、OpenbookQA、HellaSwag、MMMU、MMBench、SEED-Bench和AI2D数据集中提取具有相似语义的指令。

然后,我们使用GPT-3.5 Turbo润色一些指令,使它们更接近现实世界的对话。

我们设置了6种视觉内容配置,按多轮内容分类为:(T)、(T, T)、(T, T, T)、(T, T, V)、(T, V)和(V)。

例如,(T, T, V)表示两个连续的纯文本查询后跟一个需要回答的视觉问题。

消融实验

Performance comparison on the newly constructed Interleaved Image and Text (IIT) Benchmark of the LLaVA series, different learning rate and fine-tuning parts

在Interleaved Image and Text (IIT) Benchmark上与LLaVA系列模型、不同学习率、不同微调部分的性能比较。

总结

我们提出了WINGS,它包括Visual Learner和Textual Learner,以减轻纯文本的遗忘。Learner由高效的Low-Rank Residual Attention(LoRRA)构成。

我们首先考虑MLLM中的转移注意力权重,并在第一阶段专注于学习Visual Learner。然后,我们基于转移注意力权重进行联合训练Visual Learner和Textual Learner。

WINGS在纯文本、视觉问答和新建的Interleaved Image and Text (IIT) Benchmark测试中表现出显著性能。

WINGS允许在资源有限的情况下保持纯文本的性能,并在资源丰富的环境中进一步提升性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237894.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tomasulo算法介绍

Tomasulo算法详细解释 #mermaid-svg-x5G4yi740f0ju3OB {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-x5G4yi740f0ju3OB .error-icon{fill:#552222;}#mermaid-svg-x5G4yi740f0ju3OB .error-text{fill:#552222;strok…

【C++练习】二进制到十进制的转换器

题目:二进制到十进制的转换器 描述 编写一个程序,将用户输入的8位二进制数转换成对应的十进制数并输出。如果用户输入的二进制数不是8位,则程序应提示用户输入无效,并终止运行。 要求 程序应首先提示用户输入一个8位二进制数。…

量子计算包kaiwu安装过程踩过的坑

目录 1 安装过程 2 官方代码测试 3 踩坑说明 首先,目前的kaiwu版本仅支持python3.8,所以必须要下载python3.8才能运行kaiwu 1 安装过程 step1: 在页面的SDK标签下,找到对应操作系统的kaiwu包。 step2: 下载python3.8到本地,可…

全文检索ElasticSearch到底是什么?

学习ElasticSearch之前,我们先来了解一下搜索 1 搜索是什么 ① 概念:用户输入想要的关键词,返回含有该关键词的所有信息。 ② 场景: ​ 1互联网搜索:谷歌、百度、各种新闻首页; ​ 2 站内搜索&#xff…

海鲜特写镜头视频素材去哪找 热门视频素材网站分享

作为美食自媒体创作者,海鲜特写镜头的视频素材无疑是提升内容吸引力和质量的重要利器。无论你想展示新鲜的海鲜原料、精美的烹饪过程,还是诱人的餐桌美食,精致的海鲜特写镜头都能极大地吸引观众的注意力。那么,问题来了&#xff1…

Unity 如何优雅的限定文本长度, 包含对特殊字符,汉字,数字的处理。实际的案例包括 用户昵称

常规限定文本长度 ( 通过 UntiyEngine.UI.Inputfiled 附带的长度限定 ) 痛点1 无法对中文,数字,英文进行识别,同样数量的汉字和同样数量的英文像素长度是不一样的,当我们限定固定长度后,在界面上的排版不够美观 痛点2…

SH3001姿态解算

姿态角,机体坐标系相对于参考坐标系的角度 旋转的非交换性 姿态角指的是载体坐标系与参考系之间的关系, 欧拉角是描述物体与某个轴(X,Y,Z)的关系,欧拉角属于姿态角的一种常见描述形式,另外两种描述形式就是四元数和和旋转矩阵 飞…

【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-19

文件下载与邀请翻译者 学习英特尔开发手册,最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。 讲解下载英特尔开发手册的文章 翻译英特尔开发手册,会是一件耗时费力的工作。如果有愿意和我一起来做这件事的,那么&#xff…

电信网关配置管理系统 upload_channels.php 文件上传致RCE漏洞复现

0x01 产品简介 中国电信集团有限公司(英文名称“China Telecom”、简称“中国电信”)成立于2000年9月,是中国特大型国有通信企业、上海世博会全球合作伙伴。电信网关配置管理系统是一个用于管理和配置电信网络中网关设备的软件系统。它可以帮助网络管理员实现对网关设备的远…

【C/C++】memcpy函数的使用

零.导言 当我们学习了strcpy和strncpy函数后,也许会疑惑整形数组要如何拷贝,而今天我将讲解的memcpy函数便可以拷贝整形数组。 一.memcpy函数的使用 memcpy函数是一种C语言内存函数,可以按字节拷贝任意类型的数组,比如整形数组。 …

【数据分享】1901-2023年我国省市县镇四级的逐年降水数据(免费获取/Shp/Excel格式)

之前我们分享过1901-2023年1km分辨率逐月降水栅格数据和Shp和Excel格式的省市县四级逐月降水数据,原始的逐月降水栅格数据来源于彭守璋学者在国家青藏高原科学数据中心平台上分享的数据!基于逐月数据我们采用求年累计值的方法得到逐年降水栅格数据&#…

【Qt问题】解决 Cannot retrieve debugging output

【Qt问题】解决 Cannot retrieve debugging output Chapter1 【Qt问题】解决 Cannot retrieve debugging output方案1 关闭其他Qt工程实例(等于没说)方案2 在PRO文件中,加上CONFIG console Chapter1 【Qt问题】解决 Cannot retrieve debuggi…

软考中级 软件设计师 上午考试内容笔记(个人向)Part.3

软考上午考试内容 7. 网络安全 威胁名称描述恶意攻击(ARP)所截获的合法通信数据拷贝,出于非法的目的而被重新发送。拒绝服务(DOS)对信息或其它资源的合法访问被无条件地阻止。窃听用户可利用合法或非法的手段窃取系统中…

第四十章 Vue之使用ESLint修正代码规范

目录 一、引言 二、前端开发规范 三、ESLint规范工具 四、ESLint规范错误解决方式 4.1. 手动修正 4.2. 自动修正 JavaScript Standard Style 规范说明地址: https://standardjs.com/rules-zhcn.html 一、引言 在我们实际项目的开发过程中,统一标…

力扣题目解析--删除链表的倒数第n个节点

题目 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5]示例 2: 输入:head [1], n 1 输出:[]示例 3&…

web实操5——http数据详解,request对象功能

http请求数据 现在我们浏览器f12的那些是浏览器给http格式数据整理之后便于我们阅读的。 原始的http格式信息: 就是按照一定格式和符号的字符串: 请求行:格式如下图 请求头:一个个key,value数据,用,分割…

大语言模型LLMs在医学领域的最新进展总结

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 相比其他学科,医学AI,是发表学术成果最多的领域。 医学数据的多样性和复杂性(包括文本、图像、基因组数据等),使得…

React的概念以及发展前景如何?

React是一个由Facebook开发的用于构建用户界面的的开源JavaScript库,它主要用于构建大型、动态的Web应用程序。React的主要特点是使用VirtualDOM(虚拟DOM)来优化性能,并使用声明式的编程方式来编写UI。 React的主要概念包括&#…

计算机课程管理:Spring Boot与工程认证的协同

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…