【大模型系列】Grounded-VideoLLM(2024.10)

【大模型系列】Grounded-VideoLLM(2024.10)

news2026/2/12 8:55:38

Paper：https://arxiv.org/pdf/2410.03290
Github：https://github.com/WHB139426/Grounded-Video-LLM
Huggingface：https://huggingface.co/WHB139426/Grounded-Video-LLM
Author：Haibo Wang et al. 加州大学，复旦

动机： 当前的video-LLMs由于缺少对时间信息的编码而导致其在细粒度的视频理解(fine-grained temporal grouding)能力受限。

关于fine-grained temporal grouding的三大基础能力：

temporal referring：模型能识别某个具体时间段发生的事件
temporal localizaing：模型能识别某个事件发生的时间段
temporal reasoning：模型能推理某个时间段发生的事件与其他时间段事件之家的关系

解决方案：

Two-Stream encoding：加入额外的时间流连编码帧之间的关系，即image encoder用于编码空间信息，video encoder用于编码时间信息
Temporal tokens：用离散temporal tokens来视频中的相对时间位置

文章目录

1 模型结构
- 1.1 Two-stream encoding
- - 1.1.1 Spatial stream
  - 1.1.2 Temporal stram
  - 1.1.3 特征融合
- 1.2 Unified temporal tokens
2 训练过程
- 2.1 Stage1: Video-Caption Alignment
- 2.2 Stage2: Temporal Token Alignment
- 2.3 Stage3: Multi-Task Instruction Tuning
3 Grouned VideoQA dataset generation
4 指标情况
- 4.1 grounding任务
- 4.2 VideoQA任务
5 总结

1 模型结构

Image encoder：CLIP
video encoder：InternVideo2-1B
LLM：Phi3.5-Vision-Instruct-3.8B
时间编码到实际时间的转换：（当前token编码 / 总token编码）* 总视频时长
视频：采样成96帧，分成12个片段

1.1 Two-stream encoding

给定一个视频V（包含T帧），先将其分成K个视频片段，然后使用分组编码策略。由于视频中连续帧存在冗余性，于是每个视频片段都可以表示成2个部分：空间（spatial）和时间（temporal）。

空间：每个视频片段用一个独立关键帧（每个片段最中间的1帧）来表示空间信息
时间：用连续的帧来获取片段内的动作变化

1.1.1 Spatial stream

关键帧：每个视频片段的中间帧
image encoder：CLIP
使用池化策略来减少token数量：2d池化尺寸为2x2

1.1.2 Temporal stram

video encoder：InternVideo2-1B
每个视频片段包含96 / 12 = 8帧
使用池化策略来减少token数量，也只在空间维度上池化，2d池化尺寸为4x4

1.1.3 特征融合

直接使用concat，在token数量维度上进行拼接。
$F_{Seg} = Concat [Flatten(f(F_S)); Flatten(g(F_T ))]$

f和g分别代表2层MLP，用于对齐LLM的维度需求。最后再将K组 $F_{seg}$ 拼接到一起得到视频的编码 $F_{vid}$ 。

1.2 Unified temporal tokens

使用相对时间表示，将连续的时间戳表示为离散的temporal tokens。其具体表示如下：

给定一个视频V，长度为L秒，均匀的将其划分为M（M=300），这样就可以得到M+1个离散时间点(<0> ~ <m>，<0>一般表示视频开始时间，<m>表示视频结束时间)
一个连续的时间戳转为temporal tokens：
$Round(M\times \frac{τ}{L}) \\ τ = L \times \frac{t}{M}$

于是视频片段及其内容可表示为：

其中:

<s>和</s>表示squence的开始和结束
<video>和</video>表示视频的编码
<grounded>是一个特殊token用于告诉模型输出grounded timestamps

2 训练过程

从pre-trained image-based MLLM开始，采用渐进式策略增强fine-grained temporal grounding能力。分为三个阶段。

2.1 Stage1: Video-Caption Alignment

使用video-caption数据来实现模态对齐，其他层冻结，只训练映射层MLP(f(·), g(·))。

2.2 Stage2: Temporal Token Alignment

引入temporal tokens和grounded数据，持续微调。训练参数为：

映射层MLP(f(·), g(·))
word embedding matrix（add temporal tokens）
final classifier of LLM

2.3 Stage3: Multi-Task Instruction Tuning

引入instruct数据微调，训练参数与stage类似：

映射层MLP(f(·), g(·))
word embedding matrix（add temporal tokens）
LoRA微调LLM

3 Grouned VideoQA dataset generation

使用OpenAI ChatGPT-4辅助数据生成
基于开源的已经包含temporal label信息的数据集如ActivityNet-Caption、QVHighlights
转化为多选任务multi-choice problem

具体步骤如下：

构造QA-pairs：首先将时间与描述输入到GPT中得到QA-pairs
构造选项：使用余弦相似度，检索50个与当前问题相似的问题，并从这50个答案中随机选择4个与答案相似的构造选项，答案相似度从0.2~0.9

4 指标情况

4.1 grounding任务

4.2 VideoQA任务

5 总结

时间编码的思路可以借鉴，不过仍然存在几个问题：

针对长视频，均有抽取96帧还是否有效？
关键帧选取每个片段的中间帧是否合理？理想情况下每个片段场景应该类似，但是实际中，每个片段可能出现不同的镜头拍摄角度。以关键帧作为间隔来分割会更合理但是会出现不均匀分割的现象。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2235675.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

IDEA2024下安装kubernetes插件并配置进行使用

IDEA2024下安装kubernetes插件并配置进行使用

【1】安装插件其实2024.2.3下默认已经安装了kubernetes插件，如果你发现自己IDEA中没有，在市场里面检索并下载即可。【2】kubernetes配置 ① 前置工作首先你要准备一个config文件和一个kubectl.exe 。 config文件类似如下： apiVersi…

阅读更多...

onnx-web + yolov8n 在视频流里做推理

onnx-web + yolov8n 在视频流里做推理

顺着我上一篇文章使用onnxruntime-web 运行yolov8-nano推理继续说，有朋友在问能不能接入视频流动，实时去识别物品。首先使用 getUserMedia 获取摄像头视频流 getUserMedia API 可以访问设备的摄像头和麦克风。你可以使用这个 API 获取视频流&#…

阅读更多...

Python练习11

Python练习11

Python日常练习题目： 编写一个石头剪刀布游戏，该程序要求完成如下功能： (1) 显示游戏规则，提醒用户输入一个1-3的整数或者直接回车。用户输入回车时游戏结束。用户输入不合法（包括输入的…

阅读更多...

航展畅想：从F35机载软件研发来看汽车车载软件研发

航展畅想：从F35机载软件研发来看汽车车载软件研发

两款经典战机的机载软件 F-22和F-35战斗机的研制分别始于1980年代和1990年代末，F-22项目在1981年启动，主要由洛克希德马丁（Lockheed Martin）和波音公司（Boeing）合作开发，以满足美军“先进战术战…

阅读更多...

实践出真知：MVEL表达式empty的坑

实践出真知：MVEL表达式empty的坑

目录标题背景为什么呢？验证下empty的含义case1case2case3 结论具体解释： 背景 //是否白名单 if(goodInfo.?isWhite ! empty){showList.add(["label": "是否白名单","value":["text":(goodInfo.?isWhite tr…

阅读更多...

RPC核心实现原理

RPC核心实现原理

目录一、基本原理二、详细步骤三、额外考虑因素 RPC（Remote Procedure Call，远程过程调用）是一种计算机通信协议，也是一种用于实现分布式系统中不同节点之间进行通信和调用的技术。其实现原理主要可以分为以下几个步骤&…

阅读更多...

Kaggle生物信息学挑战：酶稳定性预测大赛

Kaggle生物信息学挑战：酶稳定性预测大赛

背景介绍酶的稳定性是影响其实际应用的关键因素之一。通过定点突变可以改善酶的稳定性,但实验筛选稳定性突变体的成本较高。预测突变对酶稳定性的影响,加速筛选稳定性更高的酶突变体。概念解释 X 残基：假设它用红色表示 ， Y 残基：假设…

阅读更多...

【开发工具——依赖管理工具——Maven】

【开发工具——依赖管理工具——Maven】

1. Maven介绍 Apache Maven 的本质是一个软件项目管理和理解工具。基于项目对象模型 (Project Object Model，POM) 的概念，Maven 可以从一条中心信息管理项目的构建、报告和文档。对于开发者来说，Maven 的主要作用主要有 3 个： …

阅读更多...

vue3+vite搭建脚手架项目本地运行electron桌面应用

vue3+vite搭建脚手架项目本地运行electron桌面应用

1.搭建脚手架项目搭建Vue3ViteTs脚手架-CSDN博客 2.创建完项目后，安装所需依赖包 npm i vite-plugin-electron electron26.1.0 3.根目录下创建electron/main.ts electron/main.ts /** electron/main.ts */import { app, BrowserWindow } from "electron&qu…

阅读更多...

鸿蒙ArkTS中的获取网络数据

鸿蒙ArkTS中的获取网络数据

一、通过web组件加载网页在C/S应用程序中，都有网络组件用于加载网页，鸿蒙ArkTS中也有类似的组件。　　web组件，用于加载指定的网页，里面有很多的方法可以调用，虽然现在用得比较少，了解还是必须的。　　演…

阅读更多...

无人车之路径规划篇

无人车之路径规划篇

无人车的路径规划是指在一定的环境模型基础上，给定无人车起始点和目标点后，按照性能指标规划出一条无碰撞、能安全到达目标点的有效路径。一、路径规划的重要性路径规划对于无人车的安全、高效运行至关重要。它不仅能够提高交通效率，减少交…

阅读更多...

C语言心型代码解析

C语言心型代码解析

方法一心型极坐标方程爱心代码你真的理解吗笛卡尔的心型公式： for (y 1.5; y > -1.5; y - 0.1) for (x -1.5; x < 1.5; x 0.05) 代码里面用了二个for循环，第一个代表y轴，第二个代表x轴二个增加的单位不同，能使得…

阅读更多...

11月7日(内网横向移动(二))

11月7日(内网横向移动(二))

利用系统服务 SCShell SCShell是一款利用系统服务的无文件横向移动工具。与传统的创建远程服务的方法不同，SCShell利用提供的用户凭据，通过ChangeServiceConfigA API修改远程主机上的服务配置，将服务的二进制路径名修改为指定的程序或攻击载…

阅读更多...

【YOLOv11[基础]】目标检测OD | 导出ONNX模型 | ONN模型推理以及检测结果可视化 | python

【YOLOv11[基础]】目标检测OD | 导出ONNX模型 | ONN模型推理以及检测结果可视化 | python

本文将导出YOLO11.pt模型对应的ONNX模型，并且使用ONNX模型推理以及结果的可视化。话不多说，先看看效果图吧！！！目录一导出ONNX模型二推理及检测结果可视化 1 代码 2 效果图

阅读更多...

力扣—不同路径(路径问题的动态规划)

力扣—不同路径(路径问题的动态规划)

文章目录题目解析算法原理代码实现题目练习题目解析算法原理状态表示对于这种「路径类」的问题，我们的状态表示⼀般有两种形式： i. 从[i, j] 位置出发。 ii. 从起始位置出发，到[i, j] 位置。这⾥选择第⼆种定义状态表⽰的⽅式&#xf…

阅读更多...

传统RAG流程；密集检索器，稀疏检索器：中文的M3E

传统RAG流程；密集检索器，稀疏检索器：中文的M3E

目录传统RAG流程相似性搜索中：神经网络的密集检索器，稀疏检索器密集检索器 BGE系列模型 text-embedding-ada-002模型 M3E模型稀疏检索器示例一：基于TF-IDF的稀疏检索器示例二：基于BM25的稀疏检索器稀疏检索器的特点与优势传统RAG流程相似性搜索中：神经…

阅读更多...

Javascript 获取设备信息工具

Javascript 获取设备信息工具

JS获取设备信息(操作系统信息、地理位置、UUID、横竖屏状态、设备类型、网络状态、浏览器信息、生成浏览器指纹、日期、生肖、周几等) Get Device Info Online GitHub - skillnull/DeviceJs: JS获取设备信息(操作系统信息、地理位置、UUID、横竖屏状态、设备类型、网络状态、浏…

阅读更多...

【数据仓库】

【数据仓库】

1、概述数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库是企业中用于集中存储和管理来自多个源的经过处理和组织的数据的系统。它为复杂的查询和分析提供了一个优化的环境，使得用户能够执行高级数据分析，以支持…

阅读更多...

成都栩熙酷网络科技有限公司抖音小店探索

成都栩熙酷网络科技有限公司抖音小店探索

在数字经济的浪潮中，电商行业正以前所未有的速度蓬勃发展，而短视频平台的崛起更是为这一领域注入了新的活力。成都栩熙酷网络科技有限公司（以下简称“栩熙酷”），作为这股浪潮中的佼佼者，凭借其敏锐的市场洞…

阅读更多...

基于ViT的无监督工业异常检测模型汇总

基于ViT的无监督工业异常检测模型汇总

基于ViT的无监督工业异常检测模型汇总论文1：RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection（2024）1.1 主要思想1.2 系统框架论文2：Inpainting Transformer for Anomaly Detecti…

阅读更多...

推荐文章

最新文章