Multimodal Token Fusion for Vision Transformers

news2025/4/16 18:15:59

水平太浅，理解不到位。谨慎观看。
多模态token融合，我是语义分割，只看RGB和Depth模态。
1：作者为了解决transformer多输入的问题，对基于transformer视觉任务进行剪枝，为了有效的融合多模态，tokenfusion动态的检测那些无信息的token，并用经过投影和聚合过的跨特征（projected and aggregated inter-modal）替换掉。为了使用融合后的跨模态对齐，作者也使用了残差位置对齐。tokenfusion的设计允许transformer学习多模态的特征信息。SOAT。
2：作者的工作旨在寻找一个有效和通用的方法去结合多个单模态的transformer，同时在这些模型中插入跨模态的对齐。tokenfusion的基本想法是修剪多个单模态的transformer，并且重新使用修剪了的单元用于多模态融合。我们对每个transformer使用单独的修剪，每一个修剪了的单元由来自其他模态的投影对齐特征所替换掉。这种融合策略对于原始的单模态transformer影响不大。他也保持了重要单元的相对注意力关系。
3：方法
3.1基础融合transformer

将l层的输入特诊看做e，第一层，即token是由x经过线性函数得到的。这是一种常用的向量化输入token。

这就是transformer公示的表达形式：

对于多模态融合的视觉任务，不同模态的对齐关系是十分有用的，比如像素位置经常用来确定rgb-depth的关系。基于这种对其信息，我们提出了两种融合方法：
1：不可知对齐融合
并不直接使用模态间的对齐关系，他期望可以从大量的数据中学到对齐关系，一种常用的方法就是直接将多模态的输入token拼接起来。尽管这种方法简单但是很难从已知的多模态对齐关系中受益。
2：可知对齐融合
直接使用跨模态的对齐，可以通过选择那些具有相同像素对应的token来实现。
在这里插入图片描述
对于同质模态，比如rgb和depth，h是一个identity，对于不同质的模态，h就是mlp。当考虑到整个N token时，我们可以方便的将模态投影定义为token 投影的concat。

除了输入侧的融合策略，我们也可以在中间层或者多层进行融合。但是计算量很大，为了解决这个问题，作者提出多模态token融合。
3.2：
多模态特征融合首先剪切单模态的transformer，进一步使用剪切过的单元用于融合，原始单模态transformer的信息单元就会在很大程度上得到保留。同时多模态交互也会用来提升结果。在论文32中提到，transformer的裁剪可以用一种分层的方式。我们可以使用一个是scoring 函数，即mlp去预测每个token的重要性。为了能够反向传播，我们将公式改为：
在这里插入图片描述
相当于在原始的ln之后添加了一个mlp函数计算的结果。
我们使用Lm表示m个模态，特定任务的损失。去进一步裁剪没有信息的token，我们对于s增加了一个逐token的裁剪损失（l1 norm），新的损失函数可以计算为：
在这里插入图片描述
对于特征e，逐token的裁剪可以动态的在N个token中检测不重要的token，将不重要的token转变或者由其他的对于其他含信息的token影响不大的embedding替换掉。因为裁剪过程是动态的，所以融合过程也是动态的。这个过程在每个transformer层之间执行token替换。因此第l层的输入可以计算为：
在这里插入图片描述

指示函数用来判定条件，输出一个mask，即满足是s(e)>=输出为1，否则为0。如果有两种模态作为输入，m’就为另一种模态，而非m。即对e进行一个mlp处理，生成的结果如果大于阈值，则为1。
假设我们进过mlp后的e是大于阈值的，那么proj就会省略掉，e还是为e，如果小于阈值，那么e就为proj（e）。注意这里的m’为另一个模态。
3.3：残差位置对齐
直接替换掉token会使模型忽略另一个模型经过投射的对齐特征。我们使用残差位置对齐(RPA)，对多模态对齐使用位置编码。RPA取决于将等量的位置编码嵌入一系列层中，并且位置编码的反向传播在第一层后就停止了，这意味着只有在第一层的位置编码梯度保存着，后面的几层在训练过程是冻结的。总结，如果一个token被替换，我们仍然保留它原始的位置编码。后面的替换不影响前面的位置编码。

3.4：同质模态
对于rgb和depth来说，相同的位置共享一个标签。因为在不同模态的MSA和MLP层共享参数，但是normal不共享。将公式中的h参数设置为identity 函数，这也意味着我们经常用同一个位置的token替换掉每一个裁剪的token。
在图中，我们分别使用双向投影和逐像素裁剪，根据公式6，我们进行token的替换。如果M>2，多于两个模态(我们不考虑)，公式6可以修改为公式7。
在这里插入图片描述

4：实验
4.2语义分割