Empowering Multimodal LLMs with Foresight Minds(Merlin)论文精读

news2024/9/20 14:58:14
  • paper:https://arxiv.org/pdf/2312.00589.pdf
  • code:https://ahnsun.github.io/merlin/

0 Abstract

  • 根据观测预测未知是人类的一个能力,对MLLM进行“future modeling”可以更好地激发其潜能;
  • 物体轨迹是一种连续帧间高度结构化的表征,是连接过去和未来信息的桥梁;
  • 提出两种训练策略,帮助LLM获得这种能力:
    • Foresight Pre-Training (FPT):让MLLM学习根据观测预测物体轨迹
    • Foresight Instruction-Tuning (FIT):根据预测的轨迹信息,对未来可能发生的事件进行预测

1 Introduction

  • 现有的MLLM在预知事件未来上的表现欠佳,甚至在提供多帧信息的情况下:
    在这里插入图片描述

  • 人类进行事件预测通常包括两个步骤,对于MLLM来说,第一个步骤是挑战:

    • 观测主体的动态表征(dynamic clues);
    • 根据观测分析主体的行为模式和推理可能发生的事情。
  • 文章指出:轨迹(trajectory)作为一种高度结构化的表征,可以作为连接past和future的时序上下文。

  • 根据这一指出,文章提出了双阶段训练来赋予MLLM “forsight minds”的能力:

    • FPT:接受多帧输入,根据初始观测,预测完整的物体轨迹;
    • FIT:接受多帧输入以及完整的物体轨迹,根据相应的问题回答关于未来的预测。
  • 文章惊奇地发现,这种方式有助于强化MLLM对于图像的理解。

2 Related Work

3 Methodology

3.1 Overall Architecture

在这里插入图片描述

  • Visual Encoder:CLIP ViT-L/14,image size 448*448,token length 124;
  • Projector:2D卷积(空间尺度聚合,良好的收敛性能);
  • LLM:Vicuna-7B v1.5.

3.2 Foresight Pre-Training

  • 相较于直接预测下一帧图片的内容,使用包含图像高语意的信息(例如类别,bounding box)去构建轨迹是一种在时空上都更好的选择;

  • 具体做法:接受一段video clip,根据初始观测预测完整的轨迹

    • 对于prompt和回答格式的精确定义;
    • 多模态信息的清晰定义;
    • 帧与观测的交错。
  • 根据video clip {X1, X2, …}以及对第一帧的观测Ofirst,预测完整的轨迹Y:
    在这里插入图片描述

  • 数据组织:
    在这里插入图片描述
    在这里插入图片描述

  • 训练细节:开放全模型参数、混合大量的image-text pairs和rich-annotated conversation data。

3.3 Foresight Instruction Tuning

  • 在prompt中包含物体位置信息(例如点或者bounding box)类似于CoT原则,可以引导MLLM将注意力集中在相关的区域上,从而达到更加准确的对话并减少幻觉;

  • 根据这些发现,文章通过指令微调,弥合轨迹预测和未来推理的gap,具体步骤:

  • 根据video clip {X1, X2, …},对第一帧的观测Ofirst以及完整的轨迹Y,预测未来的观测Z:
    在这里插入图片描述

  • 数据组织:
    在这里插入图片描述

  • 训练细节:冻结vision encoder,开放projector和LLM参数、首先从FPT中采样对话,再从另外的三个数据集构造FIT训练数据(为了进一步释放模型的foresight minds)。

4 Experiment

4.1 Experimental Settings

  • 数据集:
    • FPT:image-text pairs from LAION400M、物体检测、追踪、grounding、物体关系;
    • FIT:LLaVA-665K、三个特殊场景数据集、FPT随机采样数据。
  • 部署细节:
    在这里插入图片描述

4.2 Properties Evaluation of Foresight Minds

  • Future Reasoning:在MMBench达到了8个rank1和2个rank2:
    在这里插入图片描述

  • Identity Association:评估对象跟踪性能,Merlin是第一个可以实现追踪任务的MLLM,可以持平甚至超过专家模型:
    在这里插入图片描述

4.3 Object Hallucination

  • 通过FPT和FIT,模型得到了更加精确的物体关系认知能力,从而更好的避免幻觉(COCO):
    在这里插入图片描述

4.4 General Comprehension

  • VQA等任务表现优秀,这表明:将foresight minds引入MLLM的同时,我们不仅保留了他们最初的视觉能力,甚至进一步提高了他们的整体视觉感知水平:
    在这里插入图片描述

4.5 Ablative Analysis of FPT & FIT

  • image-text pairs的缺失会严重损害模型的泛化能力:

在这里插入图片描述

4.6 Visualization Analysis

  • 轨迹预测的训练范式可以让大模型更好地阅读图像!
    在这里插入图片描述

5 Others

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1431788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业设计 | vue+springboot 教务管理系统(附源码)

1,项目背景 随着我国高等教育的发展,数字化校园将成为一种必然的趋势,国内高校迫切需要提高教育工作的质量与效率,学生成绩管理工作是高校信息管理工作的重要组成部分,与国外高校不同,他们一般具有较大规模…

c#矩阵行列式计算//线程同步

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace 实现矩阵行列式计算 {internal class Program{static void Main(string[] args){//定义矩阵Console.WriteLine("矩阵是:&quo…

ICV报告:最新排名!北京下降至第三位

2日,面向前沿科技领域的全球咨询机构ICV发布了《GFII-2023 报告》,其中在“2023年全球产业未来评估:未来20个城市”排名中显示,北京排名居世界第三。进入前十名的其他未来产业城市分别是旧金山-圣何塞、伦敦、慕尼黑、波士顿、纽约、东京横滨…

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

如今,大模型层出不穷,这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。 但不能不承认的是,普通人使用大模型还是有一定…

前端工程化之:webpack2-2(内置插件)

目录 一、内置插件 1.DefinePlugin 2.BannerPlugin 3.ProvidePlugin 一、内置插件 所有的 webpack 内置插件都作为 webpack 的静态属性存在的,使用下面的方式即可创建一个插件对象: const webpack require("webpack")new webpack.插件…

【JVM调优及常见的JVM调优参数以及作用】

JVM调优及常见的JVM调优参数以及作用 JVM调优通常涉及以下几个方面:1. 堆内存调优:2. 垃圾回收调优:3. 线程调优:4. 类加载调优:JVM的优化配置可以通过设置JVM的启动参数来实现。以下是一些常用的JVM优化配置参数及其示…

steam搬砖项目赚钱吗?操作流程看这一篇就够了

很多人应该听说过steam,它是国外一款知名的游戏社交平台,也是目前世界上最大的游戏平台之一。而steam搬砖项目,关键就是靠信息差。我们要做的就是在steam以低价买入道具装备,然后上架到网易buff卖出,赚取差价。 什么人…

新年心愿清单怎么写 用这个软件列心愿清单更方便

新年的钟声在耳畔回荡,我站在窗前,看着外面熙熙攘攘的人群,心中充满了期待。新的一年,新的开始,我有很多心愿想要实现。于是,我决定写下一份心愿清单,给来年定下奋斗的方向。 但是,…

React实例之完善布局菜单(一)

今天我们来用所学的知识来做一个布局菜单的组件, 针对这个组件我之前写过一个教程 React之布局菜单-CSDN博客,那个呢比较基础,这节课算是对那个教程的一个扩展和补充。这个实例讲完,这个系列就算告一段落了。先看效果 这个教程要求对React知识…

uniapp使用u-popup组件弹窗出现页面还可滑动

*1、问题所在: 弹窗遮罩层出现了页面依旧可以上下滑动 2、要求: 为了用户更好交互体验,弹窗出现后应禁止页面往下滑动 3、实现思路: 在弹窗盒子外层添加个阻止触摸冒泡事件,使用touchmove.stop.prevent 4、代码如下&#xff…

Android简单支持项目符号的EditText

一、背景及样式效果 因项目需要,需要文本编辑时,支持项目符号(无序列表)尝试了BulletSpan,但不是很理想,并且考虑到影响老版本回显等因素,最终决定自定义一个BulletEditText。 先看效果&…

【深度学习】讲透深度学习第3篇:TensorFlow张量操作(代码文档已分享)

本系列文章md笔记(已分享)主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归(含代码),熟练掌握numpy,pandas,sklearn等框架使用。在算法上,掌握神经网络的数学原理,手动实…

vue + 动态加载图片

首先尝试我们经常用的require动态引入&#xff0c; 发现报错&#xff1a;require is not defind&#xff0c;这是因为 require 属于 Webpack 的方法&#xff0c;我现在的环境是 vue3.0 vite 1、 适用于处理少量链接的资源文件 import img from ./img.png; <img :src"…

Linux挂载本地ISO镜像源

1 创建挂载镜像的目录 mkdir /opt/rpm2 上传iso镜像到root目录 3 挂载镜像 mount -t iso9660 /root/CentOS-7-x86_64-DVD-2207-02.iso /opt/rpm/ 4 若是ftp文件夹挂载本地 mkdir /opt/iso 将ftp上software/caozuoxitong目录挂载到本地/opt/iso/ 目录 mount -t cifs //172.…

字符串左旋

题目&#xff1a;字符串左旋 内容&#xff1a;实现一个函数&#xff0c;可以左旋字符串中的K个字符。 例如&#xff1a; ABCDEF左旋一个字符可以得到BCDEFA ABCDEF左旋两个字符可以得到CDEFAB 方法一&#xff1a;移动字符 #include <stdio.h> #include <string.h>c…

深入分析AOP+自定义注解+RBAC实现操作权限管理设计思想

深入分析AOP自定义注解RBAC实现操作权限管理设计思想&#xff01;经过三个小节的部署&#xff0c;我们已经把这个思想走了一遍。下面内容是对于此次设计思想的一个详细介绍。帮助大家完善透彻的了解&#xff0c;到底自定义注解是如何实现的。以及&#xff0c;权限管理的核心思想…

程序报错无法打开源文件stdafx.h

在运行代码时&#xff0c;代码中头文件突然报错程序无法打开源文件stdafx.h include “stdafx.h”,编译器就说无法打开源文件&#xff0c;直接上干货解决方法是&#xff1a; 1.打开项目 ->项目属性&#xff08;最后一个&#xff09;-> C/C ->常规&#xff0c; 2在附…

音频几个相关概念及心理声学模型

系列文章目录 音频格式的介绍文章系列&#xff1a; 音频编解码格式介绍&#xff1a;音频几个相关概念及心理声学模型 https://blog.csdn.net/littlezls/article/details/135499627 音频编解码格式介绍&#xff1a;音频编码格式介绍 https://blog.csdn.net/littlezls/article/d…

nohost本地部署

1、安装node Node.js 官方网站下载&#xff1a;https://nodejs.org/en/download/ 2、安装whistle 安装命令为 npm install -g whistle 或 npm install -g cnpm --registryhttps://registry.npm.taobao.org 后&#xff0c;使用 cnpm install -g whistle 来安装 3、插件修改 官方…

【漏洞库】O2OA系统

O2OA invoke 后台远程命令执行漏洞 CNVD-2020-18740 漏洞描述 O2OA是一款开源免费的企业及团队办公平台&#xff0c;提供门户管理、流程管理、信息管理、数据管理四大平台,集工作汇报、项目协作、移动OA、文档分享、流程审批、数据协作等众多功能&#xff0c;满足企业各类管理…