基于CLIP特征的多模态大模型中的视觉短板问题

【论文极速读】基于CLIP特征的多模态大模型中的视觉短板问题

FesianXu 20240706 at Tencent WeChat search team

前言

今天读到篇CVPR 24’的论文 [1]，讨论了常见的多模态大模型（大多都基于CLIP语义特征，以下简称为MLLM）中的视觉短板问题，笔者感觉挺有意思的就简单笔记下，希望对读者有所帮助。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。

$\nabla$ 联系方式：

e-mail: FesianXu@gmail.com
github: https://github.com/FesianXu
知乎专栏: 计算机视觉/计算机图形理论与应用
微信公众号：机器学习杂货铺3号店

请访问github page以获得最佳阅读效果：
https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/

如今的大多数多模态大模型，其视觉输入侧采用的视觉编码器，都是依照CLIP的训练方式，采用大规模对比学习进行训练的。在论文 [1] 中，作者发现CLIP特征具有某些视觉短板，从而导致基于此的MLLM也受到了影响。作者观察到，在一些简单直接（不需要复杂推理）的问题上，MLLM似乎并不能很好解决，如Fig 1所示，一些光从图片中就能很容易判断的问题，如头的朝向、眼睛数量、车门的状态等，强大的mllm反而不能很好地理解，经常会出现“睁眼说瞎话”的情况。这不禁让人好奇，是因为视觉侧没有对图片内容进行完备准确的描述（也就是“眼睛出问题了”）？还是作为底座的大语言模型没有理解好视觉侧提供的信息呢（也就是“大脑出问题了”）？本文就尝试在探索这个问题。

fig_1_mllm_cases

Fig 1. 一些简单直接的视觉问题，mllm并不能很好的解决，这不禁让人好奇是为什么？“大脑”还是“眼睛”的问题？

作者认为是CLIP视觉特征的问题，也就是MLLM的“眼睛”有“视觉问题”，导致其“睁眼说瞎话”。考虑到在Fig 1中是一些明显直接的视觉问题，作者假设CLIP在视觉问题上可能存在固有的缺陷，这个缺陷通过扩大模型规模和数据尺度可能都无法弥补。为了验证这个观点，作者想出了这样一个招儿。

CLIP是弱监督模型，建模了图片的语义信息，而描述图片本身的视觉信息，则可以考虑视觉自监督模型（SSL），比如MAE、MoCo或者DINOv2等，如果一个图片对 $I_i, I_j>$ ，其CLIP打分 $s_{CLIP}(I_i,I_j)$ 很小，但是其自监督模型打分 $s_{SSL}(I_i, I_j)$ 却很大，如Fig 2 step 1所示，这意味着这个图片对在语义上接近，但是视觉上却有比较大的差异。注意到，通过CLIP训练出来的语义，通常是比较偏向于实体的，如Fig 2.所示，两张图中如果都是出现同一个实例（instance），CLIP特征就可能没有区分度。因此作者在ImageNet和LAION-Aesthetics 数据集中，采集了很多被称之为CLIP-blind（笔者译为，CLIP视盲）的图片对，其采集规则为：
$s_{CLIP}(I_i, I_j) > 0.95 \ \& \ s_{DINOv2}(I_i, I_j) < 0.6 \tag{1}$
对于采集得到的CLIP视盲样本，人工去确认其视觉差异的来源，并且给出一个选择题，这个选择题后续可以交给待评测的MLLM，从而评测不同MLLM的CLIP视盲程度。这里的选择题，通常如Fig 2. step 2所示，就是让MLLM去判断这两张图片之间的细微视觉差别，如图中动物头的朝向等，都是可以直接从图片中获取的视觉信息，不需要模型进行复杂推理。待评测的MLLM只有在CLIP视盲样本对中，对两张图片的结果都正确了，才能算为是对这个case的一个有效解。最终作者收集了150个CLIP视盲样本对，并且提供了300个选择题，作者将这个测试集称之为MMVP（Multimodal Visual Patterns）基准。

fig_2_mmvp_dataset

Fig 2. 采集MMVP数据集，用于验证CLIP是否在基础视觉问题上存在缺陷。

作者首先去评估了MMVP基准的可靠性，考虑先拿市面上可用的MLLM（都是采用的CLIP视觉编码）在这个基准上进行测试。同时，作者请评估者对这300个选择题进行了标注，发现人工的准确率是95.7%，这是一个很高的基线，也说明了MMVP中的视觉问题的确是一些基础的视觉问题。然而，作者发现大部分模型的结果甚至还不如随机猜测（25%），即便是表现最好的Gemini（40.7%），也和人工表现差了一大坨。

在这里插入图片描述

Fig 3. 拿市面上可用的MLLM在MMVP基准上进行测试，发现大部分MLLM的准度甚至不如随机猜测的结果。

看起来，MLLM确实在这些简单的视觉问题上无能为力，究竟这些视觉问题有什么样本的固有模式能困倒“万能”的大模型呢？作者将MMVP样本交给GPT-4v进行判断其带有的视觉模式，发现了如Fig 4.所示的9种视觉模式。上面的试验说明了MLLM在这些视觉模式上存在固有缺陷，但是这个问题是否是从CLIP带来的呢？这个问题仍未得到解答。

fig_4_visual_pattern

Fig 4. 采用GPT4v，对mmvp基准数据中的视觉模式进行挖掘。

作者采用不同规模的类CLIP模型，将MMVP基准（每个样本都进行了视觉模式的归属）的图片对和其文本进行匹配，如Fig 5所示，只有完全能匹配上的CLIP视盲对样本才认为是有效的一次验证。从结果上看，不难发现在大多数的视觉模式下，增大CLIP的模型规模和图片分辨率都没有帮助，并且ImageNet-1k ZeroShot上的指标和MMVP指标并没有太大相关性。这意味着

当前CLIP在这些视觉问题上准确率很低，MMVP平均值最高的都不超过40%。
即便增加CLIP的模型规模，数据规模，图片分辨率等，都无法有本质上的提升。

这意味着，CLIP特征在这些视觉问题上是存在固有缺陷的。

fig_5_vit_scaling_for_vp

Fig 5. 采用不同的类CLIP模型对MMVP中的CLIP视盲对样本进行文本-图片的匹配，统计在不同视觉模式问题上的准度。

当然了，CLIP存在固有缺陷，并不代表着其结合LLM后就表现一定糟糕（因为LLM可能会弥补CLIP的缺陷），是否能找到这两者的相关性呢？如Fig 6.所示，CLIP在不同视觉模式下的表现曲线，和MLLM的性能曲线变化是相当一致的。据作者统计，LLava和InstructBLIP和CLIP特征的性能表现之间的相关系数超过了0.7，这意味着存在着很大的相关性。当然，在文本问题上，GPT4和Gemini的表现存在异常的高，笔者不负责任地猜测是因为商业LLM，系统继承了某些OCR能力。

fig_6_vit_emb_llm_perf

Fig 6. CLIP特征的表现和集成了CLIP的MLLM的表现，在各个视觉模式问题下具有相似的性能趋势，间接地说明了CLIP特征就是导致MLLM在这些视觉模式下出现缺陷的主要原因。

那么怎么解决这个问题呢？一种合理的想法是，既然CLIP特征存在缺陷，那么我们就在MLLM中引入另外的视觉特征呗，考虑到这些CLIP视盲样本是采用DINOv2特征采集的，那么我们将引入DINOv2特征就好咯，这个想法称之为特征混合（Mixture of Feature，MoF）。也就是说，MLLM的视觉侧特征，应该同时具有语义能力和视觉自身的能力。作者基于这个想法，进行了两种模型设计，如Fig 7所示，分别是加性的特征混合、交织的特征混合。

作者发现加性的特征混合方法，的确能大幅度提升MMVP指标（5.5 -> 18.7, +13.2），但是其指令跟随能力也会极度地下降（81.8 -> 75.8, -6.0），要牺牲指令跟随能力还是不舍得的。作者又继续尝试了基于拼接的方法，不过作者不是将两个特征直接相拼，而是将其中的视觉特征交织地拼接。笔者猜测，是因为CLIP编码器和DINO编码器都是采用的Visual Transformer模型，因此对图片进行了分块，将语义特征和视觉特征相邻拼接在一起，其存在“彼此之间的能力增强”，不过这是笔者脑补的哈哈哈嗝。不管怎么说，这样搞了后，在不牺牲指令跟随能力的情况下（81.8->82.8, +1.0），还能得到MMVP能力的提升哦（5.5 -> 16.7, +10.7）。

fig_7_mof

Fig 7. 两种不同的MoF模型，加性和交织。

笔者看完后呢，还是比较认同这篇论文的结论的。不同的是，笔者之前虽然不是大模型的应用场景，而主要是站在视频搜索业务落地多模态能力过程中的经验去看待这个工作。如博文 [4] 所说的，笔者在规划多模态基础算子能力的时候，就认为CLIP语义特征虽然很强大，但是描述的问题大多是基于语义的，在一些需要考虑视频本身视觉结构问题上（如质量、后验应用），应该基于自监督的方法进行建模。这篇文章算是提供了一个很不错的参考，嘿嘿嘿。

Reference

[1]. Tong, Shengbang, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. “Eyes wide shut? exploring the visual shortcomings of multimodal llms.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9568-9578. 2024.

[2]. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021. aka CLIP

[3]. Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. DINOv2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023 aka DINO v2

[4]. https://fesianxu.github.io/2024/06/30/video-retrieval-multimodal-20240630/, 《万字浅析视频搜索系统中的多模态能力建设》