【AI论文】VideoAuteur:迈向长叙事视频

news2025/2/2 2:05:04

摘要:近期的视频生成模型在制作持续数秒的高质量视频片段方面已展现出令人鼓舞的成果。然而,这些模型在生成能传达清晰且富有信息量的长序列时面临挑战,限制了它们支持连贯叙事的能力。在本文中,我们提出了一个大规模烹饪视频数据集,旨在推动烹饪领域的长形式叙事生成发展。我们分别使用最先进的视觉-语言模型(VLMs)和视频生成模型,从视觉保真度和文本字幕准确性两个方面验证了所提数据集的质量。此外,我们还引入了一种长叙事视频导演方法,以增强生成视频在视觉和语义上的连贯性,并强调了对齐视觉嵌入对于提升整体视频质量的重要作用。我们的方法在生成视觉细节丰富且语义对齐的关键帧方面取得了显著改进,这得益于在视频生成过程中融合了文本和图像嵌入的微调技术。项目页面:Towards Long Narrative Video Generation Huggingface链接:Paper page,论文链接:2501.06173

1. 引言

视频生成模型的现状

  • 近年来,视频生成模型在生成高质量、持续数秒的视频片段方面取得了显著进展。这些模型主要分为扩散模型和自回归模型两大类,前者如DiT、Sora和CogVideo等,后者如VideoPoet和Emu系列。这些模型能够生成逼真的视频内容,但在生成能够传达清晰且连贯叙事的长序列视频方面仍面临挑战。

长叙事视频生成的重要性

  • 叙事是人类组织经验和记忆的重要工具,对于人类社会的发展具有至关重要的作用。然而,在视频生成领域,如何生成具有完整叙事结构的长视频仍然是一个亟待解决的问题。
  • 现有的视频生成模型在生成长视频时,往往难以保持语义一致性和视觉连贯性,导致生成的视频内容缺乏逻辑性和观赏性。

研究动机与目标

  • 针对上述问题,本文提出了一种新的长叙事视频生成方法,旨在生成具有连贯叙事和丰富视觉细节的长视频。
  • 为此,本文构建了一个大规模的烹饪视频数据集CookGen,并设计了一个包含长叙事视频导演和视觉条件视频生成模型在内的VideoAuteur管道。

2. 相关工作

文本到图像/视频生成

  • 文本到图像和视频生成是计算机视觉和自然语言处理领域的热门研究方向。近年来,随着深度学习技术的不断发展,该领域取得了显著进展。然而,现有的文本到视频生成模型主要关注于生成短时间的视频片段,而缺乏对长叙事视频生成的有效支持。

交织的图像-文本建模

  • 交织的图像-文本生成是一个将视觉和文本模态相结合以产生丰富输出的研究领域。现有的交织图像-文本生成模型主要依赖于大规模图像-文本配对数据集,并通过预训练的语言模型来生成图像和文本。然而,这些模型在生成连贯的长叙事视频方面仍存在不足。

叙事视觉生成

  • 叙事视觉生成的研究重点在于确保生成图像之间的一致性。现有的方法主要采用条件生成技术,在扩散或自回归模型中生成具有连贯性的图像序列。然而,这些方法在生成长叙事视频时仍面临挑战,特别是在保持对象/角色身份跨场景一致性和生成具有复杂事件序列的语义一致性方面。

3. 长叙事视频数据

数据集概述

  • 为推动长叙事视频生成的研究,本文构建了一个大规模的烹饪视频数据集CookGen。该数据集包含约200,000个视频片段,平均每个片段持续9.5秒。
  • 数据集的视频来源于YouCook2和HowTo100M两个现有视频数据集,并经过质量过滤和字幕标注等预处理步骤。

数据标注与处理

  • 为确保数据集的质量和可扩展性,本文设计了一个高效的标注管道。对于字幕生成,本文训练了一个基于开源VLM的视频字幕生成器,并使用GPT-4和LLaVA-NeXT进行微调以优化性能。
  • 对于动作标注,本文使用HowTo100M的ASR伪标签,并通过LLMs进行细化以提高标注质量。此外,本文还实现了基于时间间隔的字幕-动作匹配和过滤过程,以确保字幕和动作的对齐。

数据集评价

  • 为评估数据集的质量,本文进行了逆视频生成和视觉理解两个方面的评价。逆视频生成实验表明,本文的字幕能够捕捉足够的语义信息以有效重建原始视频。视觉理解实验则通过GPT-4和人类评估者对字幕质量进行了评价,结果显示本文的数据集在覆盖视频元素和避免幻觉方面表现出色。

4. 方法

长叙事视频生成任务

  • 给定文本输入,长叙事视频生成的任务是生成一个与文本输入顺序一致的连贯长视频。为实现这一目标,本文提出了VideoAuteur管道,该管道包含长叙事视频导演和视觉条件视频生成两个主要组件。

长叙事视频导演

  • 长叙事视频导演负责生成一系列视觉嵌入(或关键帧),以捕捉叙事的流程。本文探索了两种类型的视频导演:交织图像-文本导演和语言中心关键帧导演。
  • 交织图像-文本导演采用自回归模型,根据累积的文本和图像上下文预测下一个令牌,从而生成连贯的叙事序列。该模型使用CLIP-Diffusion视觉自编码器将原始图像编码为视觉嵌入,并通过回归损失函数对齐生成的视觉嵌入与目标视觉嵌入。
  • 语言中心关键帧导演则仅使用文本指导来合成关键帧。尽管这种方法能够生成高保真度的图像,但缺乏在关键帧之间的细微过渡,因此相比交织图像-文本导演在连贯性方面表现较差。

视觉条件视频生成

  • 视觉条件视频生成模型利用长叙事视频导演生成的动作、字幕和视觉状态作为条件来生成连贯的长叙事视频。与传统的基于初始关键帧的视觉条件视频生成方法不同,本文的方法利用回归的视觉嵌入作为连续条件来指导视频生成过程。
  • 为提高模型对噪声视觉嵌入的鲁棒性,本文在训练过程中应用了高斯噪声、随机掩码和随机洗牌等正则化技术。这些技术有助于模型在处理不完美的视觉嵌入时生成更高质量的视频。

5. 实验

实验设置

  • 本文使用SEED-X作为基线模型,并通过LoRA微调技术在叙事数据集上进行训练。对于视频生成,本文采用了一种类似于Sora的预训练视频-文本对模型。
  • 实验数据包括约32,000个叙事视频用于模型开发,以及约1,000个视频用于验证。所有视频均被调整为448(短边)分辨率,并进行中心裁剪以得到448x448分辨率的图像。

交织叙事导演实验

  • 本文探索了不同的视觉潜在空间、损失设计和跨模态回归任务对交织自回归模型的影响。实验结果表明,使用CLIP嵌入的自动编码器在视觉生成质量方面显著优于VAE潜在空间。此外,结合MSE损失和余弦相似度损失的回归损失函数在视觉嵌入的尺度和方向上均表现出色。
  • 在从“动作”到“视觉状态”的转换过程中,本文发现从动作到语言状态再到视觉状态的推理链在长叙事视觉生成方面最为有效。

视觉条件视频生成实验

  • 与基于关键帧的条件策略相比,本文的方法在CLIP-T和FVD分数方面均表现出色。这表明使用回归的视觉嵌入作为条件能够生成更高语义对齐和质量的视频。

6. 结论

研究贡献

  • 本文构建了一个大规模的烹饪视频数据集CookGen,并设计了一个包含长叙事视频导演和视觉条件视频生成模型在内的VideoAuteur管道。这些数据集和管道为长叙事视频生成的研究提供了有力的支持。
  • 实验结果表明,本文的方法在生成视觉细节丰富且语义对齐的关键帧方面取得了显著改进。这些改进得益于在视频生成过程中融合了文本和图像嵌入的微调技术。

未来展望

  • 尽管本文的方法在长叙事视频生成方面取得了初步成果,但仍存在许多挑战和待解决的问题。例如,如何提高自动语音识别生成的动作标注的质量、如何减少视频生成模型中的幻觉现象等。未来的研究可以进一步探索这些问题,并推动长叙事视频生成技术的发展。

7. 数据集统计与案例分析

数据集统计

  • CookGen数据集包含的视频长度分布广泛,大多数视频长度在30到150秒之间。视频片段长度主要分布在5到30秒之间,每个视频被分割成4到12个片段,确保了叙事结构的平衡性。
  • 数据集中的字幕和动作标注详细且丰富,字幕长度通常在40到70词之间,动作标注长度在10到25词之间。这些详细的标注为生成连贯且富有信息量的长叙事视频提供了有力支持。

案例分析

  • 本文展示了使用VideoAuteur管道生成的烹饪视频示例,如“Fried Chicken”和“Shish Kabob”的制作过程。这些视频通过逐步展示烹饪步骤,有效地传达了烹饪过程的关键信息,并展示了模型在生成连贯且富有信息量的长叙事视频方面的能力。

8. 方法细节与实现

视觉潜在空间与回归损失

  • 本文对比了不同视觉潜在空间(如VAE、SEED-X和EMU-2)在视觉回归任务中的表现。实验结果表明,使用CLIP嵌入的自动编码器(如SEED-X和EMU-2)在视觉生成质量方面优于VAE潜在空间。
  • 在回归损失函数的设计上,本文结合了MSE损失(最小化尺度误差)和余弦相似度损失(最小化方向误差),以实现对视觉嵌入的准确回归。

模型训练与推理

  • 本文详细描述了交织自回归模型和视觉条件视频生成模型的训练和推理过程。这些过程包括模型架构的选择、超参数的设置以及训练步骤的安排等。
  • 在训练过程中,本文采用了AdamW优化器和余弦衰减学习率调度策略,并在推理过程中使用了固定的上下文对数以确保一致性。

9. 局限性与未来工作

局限性

  • 尽管本文的方法在长叙事视频生成方面取得了显著进展,但仍存在一些局限性。例如,自动语音识别生成的动作标注存在噪声和不完整性问题;视频生成模型在复杂场景和长时间序列中可能出现幻觉现象等。

未来工作

  • 针对上述局限性,未来的研究可以进一步探索如何提高动作标注的质量和准确性;如何减少视频生成模型中的幻觉现象并提高其在复杂场景和长时间序列中的表现等。此外,还可以探索将本文的方法扩展到其他领域和任务中,以推动长叙事视频生成技术的更广泛应用和发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2289563.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

循环神经网络(RNN)+pytorch实现情感分析

目录 一、背景引入 二、网络介绍 2.1 输入层 2.2 循环层 2.3 输出层 2.4 举例 2.5 深层网络 三、网络的训练 3.1 训练过程举例 1)输出层 2)循环层 3.2 BPTT 算法 1)输出层 2)循环层 3)算法流程 四、循…

Linux网络 | 网络层IP报文解析、认识网段划分与IP地址

前言:本节内容为网络层。 主要讲解IP协议报文字段以及分离有效载荷。 另外, 本节也会带领友友认识一下IP地址的划分。 那么现在废话不多说, 开始我们的学习吧!! ps:本节正式进入网络层喽, 友友们…

2025年大年初一篇,C#调用GPU并行计算推荐

C#调用GPU库的主要目的是利用GPU的并行计算能力,加速计算密集型任务,提高程序性能,支持大规模数据处理,优化资源利用,满足特定应用场景的需求,并提升用户体验。在需要处理大量并行数据或进行复杂计算的场景…

python算法和数据结构刷题[2]:链表、队列、栈

链表 链表的节点定义: class Node():def __init__(self,item,nextNone):self.itemitemself.nextNone 删除节点: 删除节点前的节点的next指针指向删除节点的后一个节点 添加节点: 单链表 class Node():"""单链表的结点&quo…

Baklib解析内容中台与人工智能技术带来的价值与机遇

内容概要 在数字化转型的浪潮中,内容中台与人工智能技术的结合为企业提供了前所未有的发展机遇。内容中台作为一种新的内容管理和生产模式,通过统一管理和协调各种内容资源,帮助企业更高效地整合内外部数据。而人工智能技术则以其强大的数据…

Flask框架基础入门教程_ezflaskapp

pip install flaskFlask 快速入门小应用 学东西,得先知道我们用这个东西,能做出来一个什么东西。 一个最小的基于flask 的应用可能看上去像下面这个样子: from flask import Flask app Flask(__name__)app.route(/) def hello_world():ret…

黑马点评 - 商铺类型缓存练习题(Redis List实现)

首先明确返回值是一个 List<ShopType> 类型那么我们修改此函数并在 TypeService 中声明 queryTypeList 方法&#xff0c;并在其实现类中实现此方法 GetMapping("list")public Result queryTypeList() {return typeService.queryTypeList();}实现此方法首先需要…

洛谷P4057 [Code+#1] 晨跑

题目链接&#xff1a;P4057 [Code#1] 晨跑 - 洛谷 | 计算机科学教育新生态 题目难度&#xff1a;普及一 题目分析&#xff1a;这道题很明显是求最大公倍数&#xff0c;写题解是为了帮助自己复习。 下面用两种方法介绍如何求最大公倍数&#xff1a; 暴力破解 #include<bits…

讯飞绘镜(ai生成视频)技术浅析(四):图像生成

1. 技术架构概述 讯飞绘镜的图像生成技术可以分为以下几个核心模块: 文本理解与视觉元素提取:解析脚本中的场景描述,提取关键视觉元素(如人物、场景、物体等)。 视觉元素生成:根据文本描述生成具体的视觉元素(如人物、场景、物体等)。 分镜画面生成:将视觉元素组合成…

FreeRTOS从入门到精通 第十五章(事件标志组)

参考教程&#xff1a;【正点原子】手把手教你学FreeRTOS实时系统_哔哩哔哩_bilibili 一、事件标志组简介 1、概述 &#xff08;1&#xff09;事件标志位是一个“位”&#xff0c;用来表示事件是否发生。 &#xff08;2&#xff09;事件标志组是一组事件标志位的集合&#x…

使用Pygame制作“俄罗斯方块”游戏

1. 前言 俄罗斯方块&#xff08;Tetris&#xff09; 是一款由方块下落、行消除等核心规则构成的经典益智游戏&#xff1a; 每次从屏幕顶部出现一个随机的方块&#xff08;由若干小方格组成&#xff09;&#xff0c;玩家可以左右移动或旋转该方块&#xff0c;让它合适地堆叠在…

deepseek大模型本机部署

2024年1月20日晚&#xff0c;中国DeepSeek发布了最新推理模型DeepSeek-R1&#xff0c;引发广泛关注。这款模型不仅在性能上与OpenAI的GPT-4相媲美&#xff0c;更以开源和创新训练方法&#xff0c;为AI发展带来了新的可能性。 本文讲解如何在本地部署deepseek r1模型。deepseek官…

常见“栈“相关题目

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a; 优选算法专题 目录 1047.删除字符串中的所有相邻重复项 844.比较含退格的字符串 227.基本计算器 II 394.字符串解码 946.验证栈序列 104…

QT实现有限元软件操作界面

本系列文章致力于实现“手搓有限元&#xff0c;干翻Ansys的目标”&#xff0c;基本框架为前端显示使用QT实现交互&#xff0c;后端计算采用Visual Studio C。 本篇将二维矩形截面梁单元&#xff08;Rect_Beam2D2Node&#xff09;组成的钢结构桥作为案例来展示软件功能。 也可以…

软件工程经济学-日常作业+大作业

目录 一、作业1 作业内容 解答 二、作业2 作业内容 解答 三、作业3 作业内容 解答 四、大作业 作业内容 解答 1.建立层次结构模型 (1)目标层 (2)准则层 (3)方案层 2.构造判断矩阵 (1)准则层判断矩阵 (2)方案层判断矩阵 3.层次单排序及其一致性检验 代码 …

Go学习:Go语言中if、switch、for语句与其他编程语言中相应语句的格式区别

Go语言中的流程控制语句逻辑结构与其他编程语言类似&#xff0c;格式有些不同。Go语言的流程控制中&#xff0c;包括if、switch、for、range、goto等语句&#xff0c;没有while循环。 目录 1. if 语句 2. switch语句 3. for语句 4. range语句 5. goto语句&#xff08;不常用…

14-8C++STL的queue容器

一、queue容器 (1)queue容器的简介 queue为队列容器&#xff0c;“先进先出”的容器 (2)queue对象的构造 queue<T>q; queue<int>que Int;//存放一个int的queue容器 queue<string>queString;//存放一个string的queue容器 (3)queue容器的push()与pop()方…

【B站保姆级视频教程:Jetson配置YOLOv11环境(四)cuda cudnn tensorrt配置】

Jetson配置YOLOv11环境&#xff08;4&#xff09;cuda cudnn tensorrt配置 文章目录 0. 简介1. cuda配置&#xff1a;添加cuda环境变量2. cudnn配置3. TensorRT Python环境配置3.1 系统自带Python环境中的TensorRT配置3.2 Conda 虚拟Python环境中的TensorRT配置 0. 简介 官方镜…

信号模块--simulink操作

位置simulink/sourses 常用的模块 功能&#xff1a;常数模块&#xff0c;提供一个常数 数据设置可以是一维或多维 一维数据设置 多维数据设置&#xff08;例三维数据设置&#xff09; 方波脉冲模块 模块用于按固定间隔生成方波脉冲信号 振幅就是方波的幅度&#xff0c;0到…

强化学习笔记(3)——基于值函数的方法和策略梯度方法

分为两大类方法&#xff1a; 基于值函数的方法&#xff08;Temporal Difference Methods, TD Methods&#xff09; 策略梯度方法&#xff08;Policy Gradient Methods&#xff09;。 二者不同之处&#xff1a; 通过值函数来间接表达隐式的策略&#xff0c;一个是直接迭代优化策…