Multimodal Token Fusion for Vision Transformers

news2024/9/22 19:38:19

水平太浅,理解不到位。谨慎观看。
多模态token融合,我是语义分割,只看RGB和Depth模态。
1:作者为了解决transformer多输入的问题,对基于transformer视觉任务进行剪枝,为了有效的融合多模态,tokenfusion动态的检测那些无信息的token,并用经过投影和聚合过的跨特征(projected and aggregated inter-modal)替换掉。为了使用融合后的跨模态对齐,作者也使用了残差位置对齐。tokenfusion的设计允许transformer学习多模态的特征信息。SOAT。
2:作者的工作旨在寻找一个有效和通用的方法去结合多个单模态的transformer,同时在这些模型中插入跨模态的对齐。tokenfusion的基本想法是修剪多个单模态的transformer,并且重新使用修剪了的单元用于多模态融合。我们对每个transformer使用单独的修剪,每一个修剪了的单元由来自其他模态的投影对齐特征所替换掉。这种融合策略对于原始的单模态transformer影响不大。他也保持了重要单元的相对注意力关系。
3:方法
3.1基础融合transformer
在这里插入图片描述
将l层的输入特诊看做e,第一层,即token是由x经过线性函数得到的。这是一种常用的向量化输入token。
在这里插入图片描述
这就是transformer公示的表达形式:
在这里插入图片描述
对于多模态融合的视觉任务,不同模态的对齐关系是十分有用的,比如像素位置经常用来确定rgb-depth的关系。基于这种对其信息,我们提出了两种融合方法:
1:不可知对齐融合
并不直接使用模态间的对齐关系,他期望可以从大量的数据中学到对齐关系,一种常用的方法就是直接将多模态的输入token拼接起来。尽管这种方法简单但是很难从
已知的多模态对齐关系
中受益。
2:可知对齐融合
直接使用跨模态的对齐,可以通过选择那些具有相同像素对应的token来实现。
在这里插入图片描述
对于同质模态,比如rgb和depth,h是一个identity,对于不同质的模态,h就是mlp。当考虑到整个N token时,我们可以方便的将模态投影定义为token 投影的concat。
在这里插入图片描述
除了输入侧的融合策略,我们也可以在中间层或者多层进行融合。但是计算量很大,为了解决这个问题,作者提出多模态token融合。
3.2:
多模态特征融合首先剪切单模态的transformer,进一步使用剪切过的单元用于融合,原始单模态transformer的信息单元就会在很大程度上得到保留。同时多模态交互也会用来提升结果。在论文32中提到,transformer的裁剪可以用一种分层的方式。我们可以使用一个是scoring 函数,即mlp去预测每个token的重要性。为了能够反向传播,我们将公式改为:
在这里插入图片描述
相当于在原始的ln之后添加了一个mlp函数计算的结果。
我们使用Lm表示m个模态,特定任务的损失。去进一步裁剪没有信息的token,我们对于s增加了一个逐token的裁剪损失(l1 norm),新的损失函数可以计算为:
在这里插入图片描述
对于特征e,逐token的裁剪可以动态的在N个token中检测不重要的token,将不重要的token转变或者由其他的对于其他含信息的token影响不大的embedding替换掉。因为裁剪过程是动态的,所以融合过程也是动态的。这个过程在每个transformer层之间执行token替换。因此第l层的输入可以计算为:
在这里插入图片描述
在这里插入图片描述
指示函数用来判定条件,输出一个mask,即满足是s(e)>=输出为1,否则为0。如果有两种模态作为输入,m’就为另一种模态,而非m。即对e进行一个mlp处理,生成的结果如果大于阈值,则为1。
假设我们进过mlp后的e是大于阈值的,那么proj就会省略掉,e还是为e,如果小于阈值,那么e就为proj(e)。注意这里的m’为另一个模态。
3.3:残差位置对齐
直接替换掉token会使模型忽略另一个模型经过投射的对齐特征。我们使用残差位置对齐(RPA),对多模态对齐使用位置编码。RPA取决于将等量的位置编码嵌入一系列层中,并且位置编码的反向传播在第一层后就停止了,这意味着只有在第一层的位置编码梯度保存着,后面的几层在训练过程是冻结的。总结,如果一个token被替换,我们仍然保留它原始的位置编码。后面的替换不影响前面的位置编码。
在这里插入图片描述
3.4:同质模态
对于rgb和depth来说,相同的位置共享一个标签。因为在不同模态的MSA和MLP层共享参数,但是normal不共享。将公式中的h参数设置为identity 函数,这也意味着我们经常用同一个位置的token替换掉每一个裁剪的token。
在图中,我们
分别使用双向投影和逐像素裁剪,根据公式6,我们进行token的替换
。如果M>2,多于两个模态(我们不考虑),公式6可以修改为公式7。
在这里插入图片描述
在这里插入图片描述
4:实验
4.2语义分割
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/67722.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker(一) ----初始Docker

文章目录前言一、什么是 Docker1.1 Docker 的定义1.2 Docker对于上述问题的解决二、Docker 与虚拟机三、Docker 架构3.1 镜像和容器3.2 Docker 和 Docker Hub3.3 Docker 架构四、安装Docker4.1 卸载 (可选)4.2 安装Docker4.3 启动 Docker4.4 配置镜像加速总结前言 本文章主要是…

艾美捷肝细胞培养基试剂盒说明书

肝细胞培养基是专门为正常人类肝细胞体外培养设计的最适于其生长的培养基,是经灭菌的液体培养基,包含必需和非必需氨基酸、维生素、有机和无机化合物、激素、生长因子、微量矿物质和低浓度胎牛血清(5%)。 艾美捷肝细胞培养基试剂盒为我们的大鼠肝细胞设计…

WIN10商业版64位22H2正式版19045.2251MSDN11月原版镜像

微软表示 Windows 10 是迄今为止最好的 Windows 操作系统。无论你是普通办公用户、游戏玩家还是开发者,Win10 都能带给你目前最先进的功能特性以及使用体验。 其实微软对 Windows 10 版本的命名一直没有什么统一标准,最新的「22H2」是以开发代号命名的。…

【JavaWeb开发-Servlet】day02-使用eclipse实现Servlet开发

目录 1、安装IDE-eclipse编译器 2、配置IDE开发环境 (1)使用eclipse关联Tomcat服务器 (2)使用Servlet访问Hello World页面 (3)Java中常用的方法调用方式 (4)Java中常用的反射机…

web3.0学习入门7:深入学习Web3.0

Web3.0背景 2个大事件: 1、2021年10月28日,月活破30亿的Facebook正式官宣改名为Meta,元宇宙和Web3等概念正式从币圈破圈; 2、2021年12月8日,美国众议院加密金融听证会有议员喊出“确保Web3.0革命发生在美国”&#…

数字图像处理实验(二)|图像变换(附实验代码和截图)

文章目录一、实验目的二、主要仪器设备三、实验原理(一)变换原理1.离散傅里叶变换2.离散余弦变换3.频谱平移(二)频谱分析原理四、实验步骤和内容1. 为下面三段程序写出注释并上机运行,将实际运行结果如实记录到实验报告…

《数据结构》队列

学习目录队列队列的概念队列的使用(Queue)队列的模拟实现循环队列双端队列(Deque)面试题队列 队列的概念 队列是一种先进先出,后进后出的特点,是只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表…

selenium使用

selenium使用一 bs4搜索文档树二 css选择器三 selenium基本使用四 无界面浏览器五 selenium其它用法5.1 登录百度5.2 获取位置属性大小,文本5.3 元素操作5.4 执行js代码5.5 切换选项卡5.6 浏览器前进后退5.7 异常处理六 selenium登录cnblogs获取cookie七 抽屉半自动…

kubernetes使用(1.25)

kubernetes使用(1.25) 内核是AMD、ARM、 $ arch uname -a 注:x86_64,x64,AMD64基本上是同一个东西 K8S 核心概念 Kubernetes有很多核心概念,我们先看下几个核心的概念。其他概念可以看一下我的安装文档 Deployment Deploy…

实现国产化转型,ZStack Cloud 助力中铁财务数字化转型!

中铁财务是中国中铁旗下的金融服务核心企业,随着新业务的快速发展,原有的烟囱式架构使得资源利用率相对较低,难以与其他系统有效协调工作。基于国产化布局的需要,中铁财务选择了 ZStack Cloud 云平台,在充分利旧的基础…

UNIAPP实战项目笔记47 显示默认收货地址和修改收货地址页面的布局

UNIAPP实战项目笔记47 显示默认收货地址和修改收货地址页面的布局 实际案例图片 显示默认地址 修改收货地址后 地址列表 显示默认地址页面 具体内容图片自己替换哈,随便找了个图片的做示例 具体位置见目录结构 完善布局页面和样式 用到了页面间传值 uni.onu…

[附源码]计算机毕业设计JAVA圆梦山区贫困学生助学系统

[附源码]计算机毕业设计JAVA圆梦山区贫困学生助学系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM…

1163. 按字典序排在最后的子串-解题思路推导

1163. 按字典序排在最后的子串-解题思路推导 给你一个字符串 s ,找出它的所有子串并按字典序排列,返回排在最后的那个子串。 示例 1: 输入:s “abab” 输出:“bab” 解释:我们可以找出 7 个子串 [“a”…

刷爆力扣之种花问题

刷爆力扣之种花问题 HELLO,各位看官大大好,我是阿呆 🙈🙈🙈 今天阿呆继续记录下力扣刷题过程,收录在专栏算法中 😜😜😜 该专栏按照不同类别标签进行刷题,每…

YOLOv7 Backbone| 原文源码详解

YOLOv7 Backbone结构详解在之前的文章中,我们以YOLOv5为对象,详细解剖了一只麻雀的内部构造,包括anchor机制、backbone的结构、neck的结构和head的结构。在本篇文章中,我们将以YOLOv7v0.1版本的代码为目标,结合作者团队…

骨骼动画——2D Animation

1、2D骨骼动画 传统的序列帧动画为了达到好的动画效果,理论上来说,图片越多,动作越流畅,往往需要较多的美术资源,虽然效果好但是资源占用较多 而2D骨骼动画是利用3D骨骼动画的制作原理进行制作的,将一张2…

借助 ChatGPT 编写的 libbpf eBPF 工具开发实践教程: 通过例子学习 eBPF

这是一个基于 CO-RE(一次编译,到处运行)的 libbpf 的 eBPF 的开发教程,提供了从入门到进阶的 eBPF 开发实践指南,包括基本概念、代码实例、实际应用等内容。我们主要提供了一些 eBPF 工具的案例,帮助开发者…

大学免费查题接口

大学免费查题接口 本平台优点: 多题库查题、独立后台、响应速度快、全网平台可查、功能最全! 1.想要给自己的公众号获得查题接口,只需要两步! 2.题库: 查题校园题库:查题校园题库后台(点击跳…

设计模式-day02

4,创建型模式 4.2 工厂模式 4.2.1 概述 需求:设计一个咖啡店点餐系统。 设计一个咖啡类(Coffee),并定义其两个子类(美式咖啡【AmericanCoffee】和拿铁咖啡【LatteCoffee】);再设…

蓝牙学习六(GATT)

1.简介 GATT-Generic Attribute profle-通用属性配置文件。GATT层是传输真正数据所在的层。包括了一个数据传输和存储架构以及其基本操作。GATT用来规范attribute中的数据内容,并运用group(分组)的概念对attribute进行分类管理。没有GATT&…