【PaperReading】2. MM-VID

news2026/2/16 12:13:44

Category	Content
论文题目	MM-VID: Advancing Video Understanding with GPT-4V(ision)
作者	Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang (Microsoft Azure AI) Kevin Lin, 新加坡国立大学Show实验室另一篇论文：EgoVLP: https://arxiv.org/pdf/2206.01670.pdf EgoVLPv2：https://github.com/facebookresearch/EgoVLPv2 他的主页：https://github.com/QinghongLin 他也是VLog的作者。以及 UniVTG 的作者。
发表年份	2023
摘要	提出了MM-VID，一个综合系统，结合了GPT-4V和专门的视觉、音频和语音工具，以促进高级视频理解。MM-VID旨在应对长篇视频和复杂任务的挑战，如在长时间内容中进行推理和理解跨越多集的故事情节。MM-VID使用GPT-4V进行视频到脚本的生成，将多模态元素转录为长文本脚本，从而为大型语言模型（LLM）实现视频理解铺平了道路。
引言	探讨了如何理解长视频，特别是那些跨越一个小时以上的视频。这是一个复杂的任务，需要能够分析图像和音频序列的高级方法。这一挑战还包括从各种来源提取信息，如区分讲话者、识别角色和维持叙事连贯性。
主要内容	MM-VID包括四个模块：多模态预处理、外部知识收集、剪辑级视频描述生成和脚本生成。我们详细描述了每个模块。MM-VID从输入的视频文件开始，输出描述视频内容的脚本，使LLM能够实现各种视频理解功能。
实验	基于MM-REACT代码库实现了MM-VID，并使用Azure Cognitive Services API提供的自动语音识别（ASR）工具，以及PySceneDetect进行场景检测。我们讨论了MM-VID的不同能力，例如基于脚本的问答、多模态推理、长时视频理解、多视频集分析、角色识别、扬声器识别和音频描述生成等。我们还进行了用户研究，探索了MM-VID对视觉障碍人群的潜力。
结论	介绍了MM-VID，一个与GPT-4V协同工作的系统，用于推进视频理解。MM-VID利用GPT-4V将视频内容转录成长而详细的脚本，从而丰富LLM的高级视频理解能力。实验结果表明MM-VID在处理挑战性任务方面的有效性，包括理解长达一小时的视频、跨多集的分析、识别角色和发言者以及与视频游戏和图形用户界面的互动。此外，我们进行了广泛的用户研究，从不同用户群体那里收集反馈。
阅读心得	首先，这篇文章没有代码。就是提出了一个整合体，把几个模型(主要是两个预处理工具+GPT4v+GPT4)整合起来用来给一个video生成脚本。运行的话估计是和VLog那个repo一样，需要online的调用openai接口服务(api_key). 分5步实现： step1: pre-processing - scene detection (使用工具PySceneDetect，一个视频处理工具可以检测一些场景切换，剪辑等内容) step2: pre-processing - automatic speech recognition (ASR) (语音处理工具) step3: The input video is then split into multiple clips according to the scene detection algorithm (分割整个video为小片段10s) step4: employ GPT-4V, which takes the clip-level video frames as input and generates a detailed description for each video clip step5: GPT-4 is adopted to generate a coherent script for the full video, conditioning on the clip-level video descriptions, ASR, and video metadata if available