Empowering Multimodal LLMs with Foresight Minds（Merlin）论文精读

Empowering Multimodal LLMs with Foresight Minds（Merlin）论文精读

news2026/2/17 1:50:02

paper：https://arxiv.org/pdf/2312.00589.pdf
code：https://ahnsun.github.io/merlin/

0 Abstract

根据观测预测未知是人类的一个能力，对MLLM进行“future modeling”可以更好地激发其潜能；
物体轨迹是一种连续帧间高度结构化的表征，是连接过去和未来信息的桥梁；
提出两种训练策略，帮助LLM获得这种能力：
- Foresight Pre-Training (FPT)：让MLLM学习根据观测预测物体轨迹
- Foresight Instruction-Tuning (FIT)：根据预测的轨迹信息，对未来可能发生的事件进行预测

1 Introduction

现有的MLLM在预知事件未来上的表现欠佳，甚至在提供多帧信息的情况下：
人类进行事件预测通常包括两个步骤，对于MLLM来说，第一个步骤是挑战：
- 观测主体的动态表征（dynamic clues）；
- 根据观测分析主体的行为模式和推理可能发生的事情。
文章指出：轨迹（trajectory）作为一种高度结构化的表征，可以作为连接past和future的时序上下文。
根据这一指出，文章提出了双阶段训练来赋予MLLM “forsight minds”的能力：
- FPT：接受多帧输入，根据初始观测，预测完整的物体轨迹；
- FIT：接受多帧输入以及完整的物体轨迹，根据相应的问题回答关于未来的预测。
文章惊奇地发现，这种方式有助于强化MLLM对于图像的理解。

2 Related Work

…

3 Methodology

3.1 Overall Architecture

在这里插入图片描述

Visual Encoder：CLIP ViT-L/14，image size 448*448，token length 124；
Projector：2D卷积（空间尺度聚合，良好的收敛性能）；
LLM：Vicuna-7B v1.5.

3.2 Foresight Pre-Training

相较于直接预测下一帧图片的内容，使用包含图像高语意的信息（例如类别，bounding box）去构建轨迹是一种在时空上都更好的选择；
具体做法：接受一段video clip，根据初始观测预测完整的轨迹
- 对于prompt和回答格式的精确定义；
- 多模态信息的清晰定义；
- 帧与观测的交错。
根据video clip {X1, X2, …}以及对第一帧的观测Ofirst，预测完整的轨迹Y：
数据组织：
训练细节：开放全模型参数、混合大量的image-text pairs和rich-annotated conversation data。

3.3 Foresight Instruction Tuning

在prompt中包含物体位置信息（例如点或者bounding box）类似于CoT原则，可以引导MLLM将注意力集中在相关的区域上，从而达到更加准确的对话并减少幻觉；
根据这些发现，文章通过指令微调，弥合轨迹预测和未来推理的gap，具体步骤：
根据video clip {X1, X2, …}，对第一帧的观测Ofirst以及完整的轨迹Y，预测未来的观测Z：
数据组织：
训练细节：冻结vision encoder，开放projector和LLM参数、首先从FPT中采样对话，再从另外的三个数据集构造FIT训练数据（为了进一步释放模型的foresight minds）。

4 Experiment

4.1 Experimental Settings

数据集：
- FPT：image-text pairs from LAION400M、物体检测、追踪、grounding、物体关系；
- FIT：LLaVA-665K、三个特殊场景数据集、FPT随机采样数据。
部署细节：

4.2 Properties Evaluation of Foresight Minds

Future Reasoning：在MMBench达到了8个rank1和2个rank2：
Identity Association：评估对象跟踪性能，Merlin是第一个可以实现追踪任务的MLLM，可以持平甚至超过专家模型：

4.3 Object Hallucination

通过FPT和FIT，模型得到了更加精确的物体关系认知能力，从而更好的避免幻觉（COCO）：

4.4 General Comprehension

VQA等任务表现优秀，这表明：将foresight minds引入MLLM的同时，我们不仅保留了他们最初的视觉能力，甚至进一步提高了他们的整体视觉感知水平：

4.5 Ablative Analysis of FPT & FIT

image-text pairs的缺失会严重损害模型的泛化能力：

在这里插入图片描述

4.6 Visualization Analysis

轨迹预测的训练范式可以让大模型更好地阅读图像！

5 Others

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1431788.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

计算机毕业设计 | vue+springboot 教务管理系统(附源码)

计算机毕业设计 | vue+springboot 教务管理系统(附源码)

1，项目背景随着我国高等教育的发展，数字化校园将成为一种必然的趋势，国内高校迫切需要提高教育工作的质量与效率，学生成绩管理工作是高校信息管理工作的重要组成部分，与国外高校不同，他们一般具有较大规模…

阅读更多...

c#矩阵行列式计算//线程同步

c#矩阵行列式计算//线程同步

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace 实现矩阵行列式计算 {internal class Program{static void Main(string[] args){//定义矩阵Console.WriteLine("矩阵是：&quo…

阅读更多...

ICV报告：最新排名！北京下降至第三位

ICV报告：最新排名！北京下降至第三位

2日，面向前沿科技领域的全球咨询机构ICV发布了《GFII-2023 报告》，其中在“2023年全球产业未来评估:未来20个城市”排名中显示，北京排名居世界第三。进入前十名的其他未来产业城市分别是旧金山-圣何塞、伦敦、慕尼黑、波士顿、纽约、东京横滨…

阅读更多...

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

如今，大模型层出不穷，这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。但不能不承认的是，普通人使用大模型还是有一定…

阅读更多...

前端工程化之：webpack2-2(内置插件)

前端工程化之：webpack2-2(内置插件)

目录一、内置插件 1.DefinePlugin 2.BannerPlugin 3.ProvidePlugin 一、内置插件所有的 webpack 内置插件都作为 webpack 的静态属性存在的，使用下面的方式即可创建一个插件对象： const webpack require("webpack")new webpack.插件…

阅读更多...

【JVM调优及常见的JVM调优参数以及作用】

【JVM调优及常见的JVM调优参数以及作用】

JVM调优及常见的JVM调优参数以及作用 JVM调优通常涉及以下几个方面：1. 堆内存调优：2. 垃圾回收调优：3. 线程调优：4. 类加载调优：JVM的优化配置可以通过设置JVM的启动参数来实现。以下是一些常用的JVM优化配置参数及其示…

阅读更多...

steam搬砖项目赚钱吗？操作流程看这一篇就够了

steam搬砖项目赚钱吗？操作流程看这一篇就够了

很多人应该听说过steam，它是国外一款知名的游戏社交平台，也是目前世界上最大的游戏平台之一。而steam搬砖项目，关键就是靠信息差。我们要做的就是在steam以低价买入道具装备，然后上架到网易buff卖出，赚取差价。什么人…

阅读更多...

新年心愿清单怎么写用这个软件列心愿清单更方便

新年心愿清单怎么写用这个软件列心愿清单更方便

新年的钟声在耳畔回荡，我站在窗前，看着外面熙熙攘攘的人群，心中充满了期待。新的一年，新的开始，我有很多心愿想要实现。于是，我决定写下一份心愿清单，给来年定下奋斗的方向。但是，…

阅读更多...

React实例之完善布局菜单（一）

React实例之完善布局菜单（一）

今天我们来用所学的知识来做一个布局菜单的组件, 针对这个组件我之前写过一个教程 React之布局菜单-CSDN博客，那个呢比较基础，这节课算是对那个教程的一个扩展和补充。这个实例讲完，这个系列就算告一段落了。先看效果这个教程要求对React知识…

阅读更多...

uniapp使用u-popup组件弹窗出现页面还可滑动

uniapp使用u-popup组件弹窗出现页面还可滑动

*1、问题所在： 弹窗遮罩层出现了页面依旧可以上下滑动 2、要求: 为了用户更好交互体验，弹窗出现后应禁止页面往下滑动 3、实现思路： 在弹窗盒子外层添加个阻止触摸冒泡事件，使用touchmove.stop.prevent 4、代码如下&#xff…

阅读更多...

Android简单支持项目符号的EditText

Android简单支持项目符号的EditText

一、背景及样式效果因项目需要，需要文本编辑时，支持项目符号（无序列表）尝试了BulletSpan，但不是很理想，并且考虑到影响老版本回显等因素，最终决定自定义一个BulletEditText。先看效果&…

阅读更多...

【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）

【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）

本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实…

阅读更多...

vue + 动态加载图片

vue + 动态加载图片

首先尝试我们经常用的require动态引入， 发现报错：require is not defind，这是因为 require 属于 Webpack 的方法，我现在的环境是 vue3.0 vite 1、适用于处理少量链接的资源文件 import img from ./img.png; <img :src"…

阅读更多...

Linux挂载本地ISO镜像源

Linux挂载本地ISO镜像源

1 创建挂载镜像的目录 mkdir /opt/rpm2 上传iso镜像到root目录 3 挂载镜像 mount -t iso9660 /root/CentOS-7-x86_64-DVD-2207-02.iso /opt/rpm/ 4 若是ftp文件夹挂载本地 mkdir /opt/iso 将ftp上software/caozuoxitong目录挂载到本地/opt/iso/ 目录 mount -t cifs //172.…

阅读更多...

字符串左旋

字符串左旋

题目：字符串左旋内容：实现一个函数，可以左旋字符串中的K个字符。例如： ABCDEF左旋一个字符可以得到BCDEFA ABCDEF左旋两个字符可以得到CDEFAB 方法一：移动字符 #include <stdio.h> #include <string.h>c…

阅读更多...

深入分析AOP+自定义注解+RBAC实现操作权限管理设计思想

深入分析AOP+自定义注解+RBAC实现操作权限管理设计思想

深入分析AOP自定义注解RBAC实现操作权限管理设计思想！经过三个小节的部署，我们已经把这个思想走了一遍。下面内容是对于此次设计思想的一个详细介绍。帮助大家完善透彻的了解，到底自定义注解是如何实现的。以及，权限管理的核心思想…

阅读更多...

程序报错无法打开源文件stdafx.h

程序报错无法打开源文件stdafx.h

在运行代码时，代码中头文件突然报错程序无法打开源文件stdafx.h include “stdafx.h”,编译器就说无法打开源文件，直接上干货解决方法是： 1.打开项目 ->项目属性（最后一个）-> C/C ->常规， 2在附…

阅读更多...

音频几个相关概念及心理声学模型

音频几个相关概念及心理声学模型

系列文章目录音频格式的介绍文章系列： 音频编解码格式介绍：音频几个相关概念及心理声学模型 https://blog.csdn.net/littlezls/article/details/135499627 音频编解码格式介绍：音频编码格式介绍 https://blog.csdn.net/littlezls/article/d…

阅读更多...

nohost本地部署

nohost本地部署

1、安装node Node.js 官方网站下载：https://nodejs.org/en/download/ 2、安装whistle 安装命令为 npm install -g whistle 或 npm install -g cnpm --registryhttps://registry.npm.taobao.org 后，使用 cnpm install -g whistle 来安装 3、插件修改官方…

阅读更多...

【漏洞库】O2OA系统

【漏洞库】O2OA系统

O2OA invoke 后台远程命令执行漏洞 CNVD-2020-18740 漏洞描述 O2OA是一款开源免费的企业及团队办公平台，提供门户管理、流程管理、信息管理、数据管理四大平台,集工作汇报、项目协作、移动OA、文档分享、流程审批、数据协作等众多功能，满足企业各类管理…

阅读更多...

推荐文章

最新文章