MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理

news2025/1/22 1:01:02

论文链接:https://arxiv.org/pdf/2501.07227v1

1. 摘要及主要贡献点

摘要:

视频因果推理旨在从因果角度对视频内容进行高层次的理解。然而,目前的研究存在局限性,主要表现为以问答范式执行,关注包含孤立事件和基本因果关系的简短视频片段,缺乏对包含多个相互关联事件视频的全面、结构化因果分析。为了填补这一空白,我们提出了一项新任务和数据集,即多事件因果发现 (MECD)。该任务旨在揭示分布在长时间视频中事件之间的因果关系。给定事件的视觉片段和文本描述,MECD 识别这些事件之间的因果关联,从而推导出一个全面且结构化的事件级视频因果图,解释结果事件为何以及如何发生。为了应对 MECD 的挑战,我们设计了一种受格兰杰因果关系方法启发的全新框架,该框架结合了一种高效的基于掩码的事件预测模型来执行事件格兰杰测试。该模型通过比较前提事件被掩码和未掩码时预测的结果事件来估计因果关系。此外,我们集成了前门调整和反事实推理等因果推理技术,以缓解 MECD 中因果混淆和虚幻因果关系等挑战。同时,我们引入了上下文链推理,以进行更稳健、更通用的推理。实验验证了我们框架在推理完整因果关系方面的有效性,其性能分别比 GPT-4o 和 VideoChat2 高出 5.77%2.70%。进一步的实验表明,因果关系图还可以促进视频问答和视频事件预测等下游视频理解任务。

主要贡献点:

  1. 提出新任务 MECD: 旨在发现长时间视频中事件之间的事件级因果关系,并构建完整的因果图。
  2. 构建新数据集 MECD+: 收集了包含多个事件和复杂因果关系的较长视频,并手动标注了事件对之间的真实因果关系。
  3. 开发新模型 VGCM (Video Granger Causality Model):
    • 核心思想: 基于事件格兰杰测试,通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。
    • 创新点:
      • 多模态处理: 同时处理视频片段和文本描述,最大化信息利用。
      • 因果推理技术: 集成前门调整和反事实推理,以解决因果混淆和虚幻因果关系问题。
        • 前门调整: 补偿或消除相邻桥接事件对因果关系的干扰。
        • 反事实推理: 使用存在性描述和思维链推理来缓解虚幻因果关系问题。
      • 上下文链推理: 在事件因果测试中同时考虑多个前提事件,增强模型对上下文事件的推理能力。
      • 非回归式完整图推理: 提出一种高效的方法,在推理阶段无需对每个事件进行重复掩码操作即可构建完整的因果图。
  4. 实验验证:
    • VGCM 在因果链和完整因果图推理任务中均达到最先进的性能,准确性为 71.28%,平均 SHD 为 3.94
    • 与现有模型相比,VGCM 在因果推理方面表现出色,例如:
      • 比性能最接近的模型在 SHD 上提高了 0.74,在准确性上提高了 2.70%
      • 比 GPT-4o 和 VideoChat2 分别高出 5.77%2.70%
    • 此外,VGCM 在视频问答和事件预测等下游任务中也表现出色。

2. 引入部分总结

视频因果推理 旨在从因果角度理解视频内容,这对于自动驾驶、活动识别、视频监控等应用至关重要。然而,现有视频因果推理任务主要基于问答范式,侧重于发现视频中单一因果关系,存在以下局限性:

  • 推理范围有限: 难以处理包含多个相互关联事件且因果关系复杂的视频场景。
  • 缺乏细粒度事件级推理: 无法深入分析事件之间的因果关系,导致对视频内容的理解不够深入。
  • 无法提供结构化的因果表示: 无法构建完整的因果图,难以全面解释视频中事件之间的关系。

为了解决这些问题,本文提出了一项新任务 多事件因果发现 (MECD),旨在发现长时间视频中事件之间的事件级因果关系,并构建完整的因果图。

3. 多事件因果发现任务 (MECD)

任务定义:

MECD 旨在确定给定视频中任何先前事件与最后一个事件之间是否存在因果关系。

  • 输入:
    • 视频 E \mathcal{E} E,包含按时间顺序排列的 N N N 个事件 E : = { e 1 , … , e N } \mathbb{E}:=\{e_{1},\dots,e_{N}\} E:={e1,,eN}
    • 每个事件 e n = { v n , c n } e_{n} = \{v_{n},c_{n}\} en={vn,cn} 包含一个视频片段 v n v_{n} vn 和相应的字幕 c n c_{n} cn
  • 输出:
    • 关系向量 r = [ r 1 , … , r N − 1 ] \pmb{r}=[r_{1},\dots,r_{N-1}] r=[r1,,rN1],其中 r k r_{k} rk 表示事件 e k e_{k} ek e N e_{N} eN 之间是否存在因果关系。
    • 该设置可推广到任意两个事件之间的因果关系,只需截取视频并将后者视为最后一个事件即可。

数据集构建:

  • 数据来源:
    • 重新组织了 ActivityNet Captions、EgoSchema 和 NExTVideo 数据集中的视频,这些视频包含多个事件和复杂的因果关系。
    • 从中选择了 1,438 个视频(5.6k 个事件)作为 MECD 数据集,其中 1,139 个用于训练,299 个用于测试。
  • 数据清洗:
    • 排除了缺乏因果关系的视频,例如描述多个非因果步骤的手工艺视频。
    • 筛选标准:超过 20% 的标注者认为视频几乎缺乏因果关系,则该视频将被排除。
  • 数据标注:
    • 属性: 持续时间、句子、时间戳和因果关系。
    • 标注过程:
      • 首先使用 GPT-4 API 对事件之间的关系进行初步标注。
      • 然后由五名人工标注者进行细化。
      • 通过交叉标注过程,最终的因果关系由大多数标注者的选择决定。
    • 附加属性: 为测试集引入“完整因果关系”属性,表示任意两个事件之间的所有因果关系,标注和细化方式与“因果关系”属性相同。
  • 数据统计:
    • MECD 数据集主要分析持续时间超过两分钟且包含五个或更多事件的中长视频。
    • 事件之间因果关系和非因果关系的比例大致平衡,且相邻事件之间存在因果关系的可能性更高。

图 1: MECD 任务示意图

4. 方法部分

4.1 视频格兰杰因果模型 (VGCM)

核心思想: 基于事件格兰杰测试,通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。

模型架构:

VGCM 是一种多模态 Transformer 结构,包含以下组件:

  • 视频编码器: 预训练于动作识别任务,用于提取视频片段的特征。
  • 字幕编码器: 用于提取字幕的特征。
  • 多模态解码器: 共享权重,用于融合视频和文本信息,并进行跨模态推理。
  • 关系头: 包含语义查询模块和自增强模块,用于推理事件之间的因果关系。
    • 语义查询模块: 使用交叉注意力机制将未掩码事件和结果事件的特征进行融合。
    • 自增强模块: 对融合后的特征进行自注意力计算,以增强特征表示。
  • 辅助相似性测量: 测量未掩码和掩码事件预测结果之间的相似性,作为关系头输出信息的补充。

图 2: VGCM 模型架构

工作流程:

  1. 数据预处理:
    • 将视频片段和字幕分别编码为特征向量。
    • 将未掩码事件集 E p \mathbb{E}^{p} Ep 和掩码事件集 E k m \mathbb{E}_{k}^{m} Ekm 分别输入到视频编码器和字幕编码器中。
  2. 多模态融合:
    • 将视频和文本特征输入到多模态解码器中,生成输出特征 O p O^{p} Op O k m O_{k}^{m} Okm
    • 解码器利用未掩码前提事件提供的上下文信息,对结果事件进行预测。
  3. 因果关系推理:
    • O p O^{p} Op 输入到字幕头进行监督事件预测。
    • O p O^{p} Op O k m O_{k}^{m} Okm 输入到关系头进行因果关系推理。
    • 将结果事件 e N e_{N} eN 编码为特征 F N {\pmb F}_{N} FN 和输出 O N {\cal O}_{N} ON,并将其聚合到关系头中以进行推理。
    • 通过交叉推理层 g r g_{r} gr 进行进一步交互,并测量 O p O^{p} Op O k m O_{k}^{m} Okm 之间的辅助相似性。
  4. 损失函数:
    • 重建损失: 包括字幕损失 L C \mathcal{L}_{C} LC 和视觉重建损失 L V {\mathcal{L}}_{V} LV,用于确保模型能够准确预测结果事件。
    • 因果关系损失 L R \mathcal{L}_{R} LR: 对输出关系 r ^ k \boldsymbol{{\hat{r}}_{k}} r^k 进行监督。
    • 语义相似性损失 L S \mathcal{L}_{S} LS: 确保在存在或不存在非因果前提事件的情况下,结果事件预测的语义相似性。
4.2 因果推理方法

因果混淆: 当某些中间事件被掩码时,原有的因果关系会受到影响。VGCM 通过以下方法解决:

  • 前门调整: 补偿缺失的因果效应,例如 e k − 1 e_{k-1} ek1 e N e_{N} eN 的因果效应。
  • 反事实推理: 消除冗余的因果效应,例如 e k + 1 e_{k+1} ek+1 e N e_{N} eN 的因果效应。

虚幻因果关系: 包括虚幻的时间因果关系和存在因果关系。VGCM 通过以下方法解决:

  • 思维链推理: 利用 GPT-4 API 提供的思维链 T c o t [ e k − 1 : e N ] T_{c o t[e_{k-1}:e_{N}]} Tcot[ek1:eN] 来引导模型进行逻辑推理,避免对时间相关性的注意力偏差。
  • 存在性描述: 使用 GPT-4 API 提取事件中的对象,并将其组织成句子 c k 0 c_{k}^{0} ck0,以缓解虚幻存在因果关系问题。

5. 实验部分

5.1 实验设置

模型实现细节:

  • 编码器: 基于 Videobert 构建,包含视频编码器、字幕编码器和多模态视频解码器。
  • 参数数量: 仅 144M,远小于 7B VideoLLMs。
  • 超参数设置: λ C ,   λ R ,   λ V ,   λ S \lambda_{C},\,\lambda_{R},\,\lambda_{V},\,\lambda_{\mathcal{S}} λC,λR,λV,λS 分别设置为 1.0, 4.0, 0.25, 0.05。
  • 输入长度限制: 字幕、思维链和存在性描述的最大输入长度均为 50。
  • 预训练: 在 ActivityNet 数据集上进行动作识别任务预训练,并使用 ActivityNet Captioning 数据集进行密集视频字幕任务预训练。

比较模型:

  • 基线模型: Videobert
  • 多模态基础模型: CLIP-L、SIGLIP、VAR
  • 大型语言模型 (LLM): Mixtral-8x22B-Instruct、GPT-4、Gemini-Pro 等
  • 图像 LLM 和视频 LLM: GPT4-o、GeminiPro、VideoLLaVA、VideoChat2 等

训练策略:

  • 少样本学习 (In-Context Learning): 对 LLM 和图像 LLM 进行评估。
  • 强微调: 对视频 LLM 和所有多模态基础模型进行评估。
5.2 主要评价指标
  • 因果链推理准确性: 评估模型对与结果事件相关的输出因果关系链的 top-1 准确性。
    • Neg: 模型预测不存在因果关系的准确性。
    • Pos: 模型预测存在因果关系的准确性。
  • 结构汉明距离 (SHD): 评估模型在因果推理方面的泛化能力。SHD 测量完整因果图之间的匹配程度,通过计算错误因果关系的数量之和来表示。较低的 SHD 值表示更好的性能。
5.3 主要实验结果

总体表现:

  • **VGCM 在因果链和因果图推理任务中均达到最先进的性能,准确性为 71.28%,平均 SHD 为 3.94
  • 与现有模型相比,VGCM 在因果推理方面表现出色,例如:
    • 比性能最接近的模型在 SHD 上提高了 0.74,在准确性上提高了 2.70%
    • 比 GPT-4o 和 VideoChat2 分别高出 5.77%2.70%

表 1: 主要结果

详细分析:

  • VGCM 的消融研究:
    • 因果推理方法: 前门调整和反事实干预均能提高模型的推理能力。
      • 前门调整缓解了时间虚幻因果关系问题。
      • 反事实干预与存在性描述相结合,使模型能够更关注因果关系而非简单的语义信息。
    • 上下文链推理: 增强了模型的整体因果推理能力,尽管对因果链发现的准确性没有显著提高。
    • 输入模态: 视觉信息对因果发现任务的影响更大,即使在 80% 的文本或视觉信息被掩码的情况下,VGCM 仍然能够很好地推断因果关系。

图 3: 输入模态实验

  • 视频 LLM 的性能:

    • 在上下文学习范式中,视频 LLM 的表现优于 LLM 和图像 LLM 的表现,这可能归因于其包含与 MECD 数据集因果方面相似的预训练数据。
    • 视频 LLM 的 Pos 和 Neg 指标之间的差距较小,这可能是由于幻觉的减少以及视觉信息的引入缓解了字幕模糊性的影响。
    • 在微调范式中,视频 LLM 的表现有所提高,但仍然低于 VGCM 的表现。
  • LLM 和图像 LLM 的性能:

    • 专有 LLM GPT-4 和 Gemini-Pro 在所有 LLM 中表现最佳,但仍然受到幻觉的影响,以及将主观情感与客观规律混为一谈。
    • 专有图像 LLM 和视频 LLM 的性能优于开源图像 LLM 和视频 LLM 的性能。
  • 人类的表现: 十名志愿者的平均表现达到 87.19%,其中视觉信息作为输入时表现更好。

表 2: 虚幻因果关系测试

  • 虚幻测试: LLM 和图像 LLM 在判断具有条件相关性或时间相关性事件之间的因果关系时表现不佳,而视频 LLM 和 VGCM 的表现则有所降低。

图 4: 虚幻测试可视化示例

5.4 下游任务评估
  • 视频问答 (VQA): 当用 VGCM 推理出的因果关系提示 MiniGPT4-video 时,其回答准确性提高了 9.04%
    • 表明 VGCM 能够为视频提供准确的因果感知,从而显著提高相关视频推理任务的性能。

图 5: 下游视频问答的可视化

  • 事件预测: 当用 VGCM 输出因果图提示 MiniGPT4-video 时,其事件预测准确性提高了 22.56%
    • 表明 VGCM 能够增强相关事件预测任务的性能。

图 6: 下游事件预测的可视化

6. 结论

本文提出了一项新任务 MECD,并构建了相应的数据集 MECD+,旨在促进视频中事件级因果图推理的发展。同时,本文提出了第一个视频因果发现模型 VGCM,该模型基于事件格兰杰测试,并集成了先进的因果推理技术,以解决虚幻和混淆因素等问题。实验结果表明,VGCM 在因果推理方面优于现有模型,展示了其卓越的推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2280087.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python基于Django的社区爱心养老管理系统设计与实现【附源码】

博主介绍:✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&…

Docker 单机快速部署大数据各组件

文章目录 一、Spark1.1 NetWork 网络1.2 安装 Java81.3 安装 Python 环境1.4 Spark 安装部署 二、Kafka三、StarRocks四、Redis五、Rabbitmq六、Emqx6.1 前言6.2 安装部署 七、Flink八、Nacos九、Nginx 一、Spark 1.1 NetWork 网络 docker network lsdocker network create -…

【MySQL】:Linux 环境下 MySQL 使用全攻略

📃个人主页:island1314 🔥个人专栏:MySQL学习 ⛺️ 欢迎关注:👍点赞 👂🏽留言 😍收藏 💞 💞 💞 1. 背景 🚀 世界上主…

【思科】NAT配置

网络拓扑图 这个网络拓扑的核心是Router1,它通过配置多个VLAN子接口来实现对不同VLAN的支持,并通过NAT进行地址转换,使得内部网络能够与外部网络进行通信。Router1上配置了FastEthernet0/0.x接口,并启用了802.1Q封装,…

WGAN - 瓦萨斯坦生成对抗网络

1. 背景与问题 生成对抗网络(Generative Adversarial Networks, GANs)是由Ian Goodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分:生成器(Generator)和判别器(Discriminator)…

【数学建模美赛速成系列】O奖论文绘图复现代码

文章目录 引言折线图 带误差棒得折线图单个带误差棒得折线图立体饼图完整复现代码 引言 美赛的绘图是非常重要得,这篇文章给大家分享我自己复现2024年美赛O奖优秀论文得代码,基于Matalab来实现,可以直接运行出图。 折线图 % MATLAB 官方整理…

兼职全职招聘系统架构与功能分析

2015工作至今,10年资深全栈工程师,CTO,擅长带团队、攻克各种技术难题、研发各类软件产品,我的代码态度:代码虐我千百遍,我待代码如初恋,我的工作态度:极致,责任&#xff…

svn tag

一般发布版本前,需要在svn上打个tag。步骤如下: 1、空白处右击,选择TortoiseSVN->Branch/tag; 2、填写To path,即tag的路基以及tag命名(一般用版本号来命名);填写tag信息;勾选cr…

项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(七)

文章目录 一、题库管理模块实现1、新增题目功能实现1.1 页面设计1.2 前端功能实现1.3 后端功能实现1.4 效果展示2、题目列表功能实现2.1 页面设计2.2 前端功能实现2.3 后端功能实现2.3.1 后端查询题目列表接口实现2.3.2 后端编辑试题接口实现2.4 效果展示二、代码下载一、题库管…

【Cesium入门教程】第一课:Cesium简介与快速入门详细教程

Cesium概述 Cesium是一个基于JavaScript开发的WebGL三维地球和地图可视化库。 它利用了现代Web技术,如HTML5、WebGL和WebAssembly,来提供跨平台和跨浏览器的三维地理空间数据可视化。 Cesium的主要特点包括: 跨平台、跨浏览器&#xff1a…

Unity中实现伤害跳字效果(简单好抄)

第一步骤安装并导入Dotween插件(也可以不用导入之后直接下载我的安装包) 官网DOTween - 下载 第二步: 制作跳字预制体 建议把最佳适应打开,这样就不怕数字太大显示不全了。 第三步:创建一个空对象并编写脚本JumpNumbe…

AI与低代码发展下的程序员就业展望:经济环境对就业市场的影响

AI与低代码发展下的程序员就业展望:经济环境对就业市场的影响 随着人工智能(AI)技术的不断进步和低代码平台的日益成熟,软件开发行业正在经历一场深刻的变革。与此同时,全球经济环境的变化也对程序员的就业市场产生了…

复古怀旧美感35mm胶片模拟色调颗粒汽车商业摄影Lightroom调色预设 Mike Crawat 2024 35MM FILM LOOK PRESETS

10个电脑端手机端35mm胶片模拟汽车摄影风光人像扫街LR预设 Mike Crawat 2024 35MM FILM LOOK PRESETS 这个精心制作的 10 个预设集合旨在为您的数码照片提供 35 毫米胶片的丰富、怀旧美感。每个预设都复制了标志性胶片的独特色调、颗粒和颜色配置文件,让您只需单击…

Hadoop 和 Spark 的内存管理机制分析

💖 欢迎来到我的博客! 非常高兴能在这里与您相遇。在这里,您不仅能获得有趣的技术分享,还能感受到轻松愉快的氛围。无论您是编程新手,还是资深开发者,都能在这里找到属于您的知识宝藏,学习和成长…

Linux容器(初学了解)

目录 一、容器 1.1、容器技术 1.2、容器和虚拟机之间的差异 1.3、Rootless 和 Rootful 容器 1.4、设计基于容器的架构 1.5、容器管理工具 1.6、容器镜像和注册表 1.7、配置容器注册表 1.8、使用容器文件构建容器镜像 二、部署容器 2.1、Podman 实用程序 2.2、安装容…

.Net Core微服务入门全纪录(二)——Consul-服务注册与发现(上)

系列文章目录 1、.Net Core微服务入门系列(一)——项目搭建 2、.Net Core微服务入门全纪录(二)——Consul-服务注册与发现(上) 3、.Net Core微服务入门全纪录(三)——Consul-服务注…

成就与远见:2024年技术与思维的升华

个人主页:chian-ocean 前言: 2025年1月17日,2024年博客之星年度评选——创作影响力评审的入围名单公布。我很荣幸能够跻身Top 300,虽然与顶尖博主仍有一定差距,但这也为我提供了更加明确的发展方向与指引。展望崭新的2025年&…

记一次数据库连接 bug

整个的报错如下: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to database server. Attempted reconnect 3 times. Giving up. at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Metho…

力扣 搜索二维矩阵

二分查找,闭区间与开区间的不同解法。 题目 乍一看,不是遍历一下找到元素就可以了。 class Solution {public boolean searchMatrix(int[][] matrix, int target) {for (int[] ints : matrix) {for (int ans : ints) {if (ans target) return true;}}…

Linux 使用 GDB 进行调试的常用命令与技巧

GDB 调试的常用命令与技巧 1. GDB 常用命令1.1 安装 GDB1.2 启动 GDB1.3 设置程序的参数1.4 设置断点1.5 启动程序并运行至断点1.6 执行一步1.7 打印变量值1.8 查看函数调用栈 2. GDB 调试 Core 文件2.1 生成 Core 文件2.2 使用 GDB 调试 Core 文件 3. GDB 调试正在运行的程序3…