- paper:https://arxiv.org/pdf/2312.00589.pdf
- code:https://ahnsun.github.io/merlin/
0 Abstract
- 根据观测预测未知是人类的一个能力,对MLLM进行“future modeling”可以更好地激发其潜能;
- 物体轨迹是一种连续帧间高度结构化的表征,是连接过去和未来信息的桥梁;
- 提出两种训练策略,帮助LLM获得这种能力:
- Foresight Pre-Training (FPT):让MLLM学习根据观测预测物体轨迹
- Foresight Instruction-Tuning (FIT):根据预测的轨迹信息,对未来可能发生的事件进行预测
1 Introduction
-
现有的MLLM在预知事件未来上的表现欠佳,甚至在提供多帧信息的情况下:
-
人类进行事件预测通常包括两个步骤,对于MLLM来说,第一个步骤是挑战:
- 观测主体的动态表征(dynamic clues);
- 根据观测分析主体的行为模式和推理可能发生的事情。
-
文章指出:轨迹(trajectory)作为一种高度结构化的表征,可以作为连接past和future的时序上下文。
-
根据这一指出,文章提出了双阶段训练来赋予MLLM “forsight minds”的能力:
- FPT:接受多帧输入,根据初始观测,预测完整的物体轨迹;
- FIT:接受多帧输入以及完整的物体轨迹,根据相应的问题回答关于未来的预测。
-
文章惊奇地发现,这种方式有助于强化MLLM对于图像的理解。
2 Related Work
…
3 Methodology
3.1 Overall Architecture
- Visual Encoder:CLIP ViT-L/14,image size 448*448,token length 124;
- Projector:2D卷积(空间尺度聚合,良好的收敛性能);
- LLM:Vicuna-7B v1.5.
3.2 Foresight Pre-Training
-
相较于直接预测下一帧图片的内容,使用包含图像高语意的信息(例如类别,bounding box)去构建轨迹是一种在时空上都更好的选择;
-
具体做法:接受一段video clip,根据初始观测预测完整的轨迹
- 对于prompt和回答格式的精确定义;
- 多模态信息的清晰定义;
- 帧与观测的交错。
-
根据video clip {X1, X2, …}以及对第一帧的观测Ofirst,预测完整的轨迹Y:
-
数据组织:
-
训练细节:开放全模型参数、混合大量的image-text pairs和rich-annotated conversation data。
3.3 Foresight Instruction Tuning
-
在prompt中包含物体位置信息(例如点或者bounding box)类似于CoT原则,可以引导MLLM将注意力集中在相关的区域上,从而达到更加准确的对话并减少幻觉;
-
根据这些发现,文章通过指令微调,弥合轨迹预测和未来推理的gap,具体步骤:
-
根据video clip {X1, X2, …},对第一帧的观测Ofirst以及完整的轨迹Y,预测未来的观测Z:
-
数据组织:
-
训练细节:冻结vision encoder,开放projector和LLM参数、首先从FPT中采样对话,再从另外的三个数据集构造FIT训练数据(为了进一步释放模型的foresight minds)。
4 Experiment
4.1 Experimental Settings
- 数据集:
- FPT:image-text pairs from LAION400M、物体检测、追踪、grounding、物体关系;
- FIT:LLaVA-665K、三个特殊场景数据集、FPT随机采样数据。
- 部署细节:
4.2 Properties Evaluation of Foresight Minds
-
Future Reasoning:在MMBench达到了8个rank1和2个rank2:
-
Identity Association:评估对象跟踪性能,Merlin是第一个可以实现追踪任务的MLLM,可以持平甚至超过专家模型:
4.3 Object Hallucination
- 通过FPT和FIT,模型得到了更加精确的物体关系认知能力,从而更好的避免幻觉(COCO):
4.4 General Comprehension
- VQA等任务表现优秀,这表明:将foresight minds引入MLLM的同时,我们不仅保留了他们最初的视觉能力,甚至进一步提高了他们的整体视觉感知水平:
4.5 Ablative Analysis of FPT & FIT
- image-text pairs的缺失会严重损害模型的泛化能力:
4.6 Visualization Analysis
- 轨迹预测的训练范式可以让大模型更好地阅读图像!