长视频生成研究的挑战、方法与前景

news2024/11/15 1:50:34

人工智能咨询培训老师叶梓 转载标明出处

长视频生成面临的主要挑战包括如何在有限的计算资源下生成长时间、高一致性、内容丰富且多样化的视频序列。另外现有研究中对于“长视频”的定义并不统一,这给研究的标准化和比较带来了困难。来自西安电子科技大学、上海交通大学、悉尼大学等机构的研究者提出,将视频长度超过10秒或包含超过100帧的视频定义为“长视频”,为后续研究提供了一个清晰的基准,图 1 “研究中长视频长度定义概览” 汇集了51项研究对长视频长度的定义,展示了不同的标准。其中,有29项研究提供了具体的长度标准:7项以视频持续时间来定义,22项以帧数来定义。剩余的研究则没有明确指出视频的具体长度。本文还系统地回顾了长视频生成领域的最新研究进展,并提出了未来可能的发展方向。

图 2 为长视频生成技术的发展提供了一个时间线,长视频生成技术随时间的演进,包括不同的生成模型如扩散模型、空间自回归模型、生成对抗网络(GAN)和掩模建模,以及两种主要的长视频生成范式:分而治之和时序自回归。

长视频生成基础技术

扩散模型 采用迭代细化过程,从一系列随机噪声开始,逐步去噪以生成连贯的视频序列。每一步都由学习到的梯度引导,这些梯度基于单帧的空间内容和连续帧之间的时间关系进行预测性去噪。这种方法允许生成的视频不仅在视觉上与前一帧保持一致,还有助于整个序列的流畅性。

空间自回归模型 通过基于补丁的方法合成内容,每个补丁的创建都依赖于与之前生成的补丁的空间关系。这个过程类似于递归算法,一次生成一个补丁,从而逐帧构建视频,直到完成。在此框架内,补丁之间的空间关系至关重要,因为每个后续补丁都必须与相邻补丁无缝对齐,以确保整个帧的视觉连贯性。

生成对抗网络(GAN) 在视频生成中,从生成器开始,将简单的噪声模式转化为视频帧序列。这种噪声本质上是随机的,作为视频制作初始的空白状态。通过神经网络层,生成器逐渐将这种噪声塑造成看起来像视频帧的图像,确保每一帧都逻辑上跟随前一帧,从而创造出平滑的动作和可信的叙事。从噪声到视频的演变通过来自鉴别器的反馈进行优化,鉴别器是一个判断生成视频看起来真实或虚假的组件。生成器从这一判断中学习,随着时间的推移提高其产生更逼真视频的能力。

掩码建模 利用选择性遮盖视频帧某些部分的概念来增强模型的学习过程。这种技术首先在视频中应用掩码,有效地在训练期间隐藏模型的某些部分。然后,模型学会基于可见的上下文和视频的时间流动预测这些被掩码的部分。这个过程不仅迫使模型理解视频内容的基本结构和动态,还提高了其生成连贯和持续视频序列的能力。

长视频生成过程中控制信号通常用于控制视频内容和风格。文本提示通过文本描述指定主题、情节和角色行为等方面,引导模型生成相关视频内容。图像提示影响生成视频中的视觉风格、场景或对象。通过引用输入图像,模型可以产生视觉上连贯且与提示相关的内容。视频提示则能够维持输入视频的风格、动作导向和情感连续性。

长视频生成范式

分而治之范式通过将复杂的长视频生成任务分解为更易于管理的小任务,使得模型能够专注于视频创作中的关键帧生成和帧填充两个不同方面。这种方法的核心在于:

层次化架构:首先生成概述视频故事线的关键帧,然后填充中间帧以完成叙述。全局模型擅长制作故事线关键帧,而局部模型填补叙述中的空白。例如,Yin et al. (2023) 提出了一种基于3D-UNet的扩散模型架构,专门用于这种分段方法。Ge et al. (2022) 引入了一种层次化变换器架构,旨在增强长视频叙述中的时间敏感性和插值。

阶段性模型架构:为了适应长视频的灵活性,Brooks et al. (2022) 提出了分而治之策略的新应用。他们专注于最初生成低分辨率序列,然后通过低分辨率GAN进行粗略场景设置和超分辨率StyleGAN3进行细节细化,从而增强到高分辨率。这种方法有效地捕捉了在延长时间内运动和叙事发展的本质,实现了高分辨率长视频生成的目标。

通过掩码建模简化模型架构:在长视频生成的背景下,通过掩码建模简化模型架构已证明有效,将关键帧的创建和填充帧的过程合并为一个统一且更简化的流程。例如,Hong et al. (2022) 通过掩码不同条件作为关键帧和填充帧生成的输入,简化了全局和局部扩散模型为单一模型。Huang et al. (2023) 专注于通过掩码布局整合简化详细场景和叙事元素的生成,确保关键叙事点在整个长视频中得到有效强调和交织。

时间自回归范式采用顺序方法,基于先前条件生成短视频片段。这种范式的目标是确保片段之间的流畅过渡,从而实现连续的长视频叙事。与分而治之范式不同,时间自回归范式不采用层次化结构,而是专注于直接生成由前面帧信息指导的详细片段。

扩散模型与自回归结合:在自回归范式中,长视频生成过程被简化为顺序创建视频片段,从而降低生成长视频的复杂性。通过利用潜在空间数据表示来有效管理这些先前条件,然后通过改进模型架构来增强未来预测的一致性。例如,Zeng et al. (2023) 和 Gu et al. (2023) 提出了将视频数据压缩到统一的3D潜在空间中的技术,而 Yu et al. (2023) 则采用了将时间和空间信息分离到不同的2D空间中的创新方法。

空间自回归模型与时间自回归结合:将空间自回归模型,特别是变换器架构,适应于时间自回归范式下生成长视频。这些模型特别擅长处理标记化的序列样式输入,使得视频样本可以分割成小块进行更有效的处理和建模。

图3 展示了这两种范式的概览。它展示了使用分而治之范式生成长视频的层次化生成过程(由Yin et al. (2023) 演示),以及使用时间自回归范式生成长视频的过程,后者为了简化理解,用相同的视频帧来演示。

自回归扩散模型利用潜在空间数据表示来有效管理先前条件,并通过改进模型架构来增强未来预测的一致性。这种自回归范式与扩散模型设计的结合,使得能够生产出无缝且时间上连贯的长视频叙事。

为了有效处理视频内容的复杂数据属性并优化计算和存储资源,Yu et al. (2023) 提出了将时间和空间信息分离到不同的2D空间中的创新压缩方法。另外为了提高视频片段生成的质量,Blattmann et al. (2023) 和 Gu et al. (2023) 通过将时间层(如注意力层和卷积层)整合到扩散模型中,使模型能够把握视频时间性的复杂性。

空间自回归模型,特别是变换器架构,特别擅长处理标记化的序列样式输入,使得视频样本可以分割成小块进行更有效的处理和建模。为了增强模型捕获长视频本质的能力,研究集中在增强模型的可扩展性和建模能力。

Liang et al. (2022) 将视频帧转换为可变大小的补丁,并结合位置数据进行空间上下文的处理。为了节约计算资源,自回归变换器模型和扩散模型都将视频数据压缩到潜在空间中。Nash et al. (2022) 通过交叉注意力机制整合了时间和空间注释,增强了模型对顺序视频帧的预测准确性。Ren and Wang (2022) 利用自注意力将相机运动轨迹与帧数据结合起来,使自回归变换器能够准确预测新的相机位置及其相关图像。

GAN模型以其生成器鉴别器架构而闻名,通过创新性地将先前条件分解为两个基本元素:上下文和运动,从而在长视频生成中采用更精细的时空建模方法。这种动态-静态分离技术有助于区分视频中的移动元素和静态背景。

  • 动态-静态分离:通过将视频样本分为上下文和运动方面,GAN能够更准确地再现视频中不断演变的动作和不变的场景(Yang and Bors, 2023)。
  • 生成器设计创新:常见的卷积网络与策略性噪声引入相结合,构成了在潜在空间中新帧生成的基础(Skorokhodov et al., 2022; Yu et al., 2022)。Yang and Bors (2023) 提出了一种回忆机制,确保视频剪辑之间时间上的无缝连接,以半帧重叠为特征,实现运动流的不间断。
  • 鉴别器设计的进步:Skorokhodov et al. (2022) 开发了一种基于超网络的方法,将图像和视频判别统一到一个过程中,简化了视频内容的评估。同时,Yu et al. (2022) 通过帧对之间的关系分析,改进了评估技术,这不仅允许对长视频序列进行更细致的判别,还有助于资源效率。

掩码建模显著提高了模型在训练过程中学习样本分布的适应性,并简化了生成阶段模型的重用。

  • 训练中的掩码建模:引入了基于伯努利分布或预定模式的概率掩码,选择性地遮盖输入帧的部分,这种方法使模型能够通过比较未遮盖和遮盖数据之间的损失函数来学习潜在的数据分布(Chen et al., 2023b; Blattmann et al., 2023; Villegas et al., 2022; Yoo et al., 2023)。
  • 生成中的掩码建模:在生成阶段,掩码建模在确定接下来要生成的帧中起着至关重要的作用。通过使用视频和文本提示作为初始条件,该方法通过遮盖时间上遥远的帧并专注于序列中较近的帧来动态更新这些提示。这种方法允许上下文的持续刷新,使自回归模型能够产生具有增强连贯性和相关性的扩展序列(Villegas et al., 2022; Yoo et al., 2023)。

照片级真实感的长视频生成

尽管现有模型能够在资源限制下逐步生成长视频,但仍然面临着帧跳跃、运动不一致性和场景转换突兀等挑战。为了生成高质量的长视频,实现时间-空间一致性至关重要。这种一致性确保了视频在视觉上和时间上的连贯性,和谐地融合了各种空间元素和时间序列。研究主要分为两个方面:

  1. 模型结构增强:通过向模型添加层来增强时间-空间特征的建模。例如,Harvey et al. (2022) 提出了在空间注意力层之后添加时间注意力层的组合方法,使得模型能在每个帧内以及不同时间帧的相同空间位置上进行空间和时间的注意力集中。Voleti et al. (2022) 引入了在U-Net的残差块内加入SPATIN模块,通过上采样和下采样模块传递时间-空间动态,从而促进新帧的生成。

  2. 先前条件建模:先前条件包含了丰富的输入信息,决定了生成的结果。隐式和显式方法的应用在加强视频片段的时间-空间一致性方面发挥了重要作用。Yu et al. (2023) 通过考虑共享背景和运动内容对视频进行解耦编码,得到三个类似图像的2D潜在表示。Blattmann et al. (2023) 引入了一个在自编码器的解码器部分构建的具有3D卷积的时间鉴别器,用于微调生成的视频数据。

确保内容的连续性对于保持长视频动作和叙事的连贯性至关重要。这需要视频片段和帧的无缝融合,支撑视频故事线的流畅和自然发展。

  1. 模型结构增强:Luo et al. (2023) 将视频帧和噪声分解为一个沿时间轴变化的共享组件和残差组件,更好地捕捉变化特征,减少对无关特征的关注,避免生成冗余内容。

  2. 训练和生成策略:Voleti et al. (2022) 采用直接在长视频上训练的简单方法,以消除预测和真实长视频之间的差距,实现连续性和一致性的目标。

长视频生成中的多样性是一个关键的探索领域。为了提升长视频中的创造力和创新性,现有研究已经进入了几个关键领域,包括改变尺寸、提高分辨率、引入内容元素、丰富动作多样性和纳入视角变化。

  1. 分辨率改进和可变尺寸:Blattmann et al. (2023) 通过在训练期间使用具有不同时间分辨率的视频数据集,并引入掩码建模来掩盖填充帧,实现了高帧率长视频的生成。

  2. 视角变化:Nash et al. (2022) 和 Tseng et al. (2023) 专注于在长视频中生成新视角,通过将不同视角的视觉条件作为输入的一部分,并使用模型通过添加诸如极点注意力层等层来增强视角的结构建模。

计算、内存和数据资源

为了应对长视频生成的资源限制,近期研究转向开发更高效的模型和更智能的训练策略。表1 和 表2 汇总了长视频生成研究中广泛使用的数据集和评估指标,详细列出了每个数据集的视频数量、长度、风格和分辨率,以及评估指标的类别和描述。

这些研究进展不仅展示了如何将长视频生成任务简化为更小、更易于管理的任务,而且突出了现有模型如何被用于生成,以及这些输出如何随后被组装成一个完整的视频叙事,为实现照片级真实感的长视频提供了可能。

论文链接:https://arxiv.org/abs/2403.16407

相关项目和资源可以通过以下链接访问:https://openai.com/index/sora/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2070048.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Window 安装Gogs教程

1、下载 下载地址:https://gogs.io/docs/installation/install_from_binary.html(请自行科学上网 选择Windows amd64(64位)或者386(32位) 2、安装 2.1 将压缩文件放到目标文件夹 2.2 创建数据库 在本地数据库或者其他目标数据库新建查询执行下列SQL语句 找到go…

taskBus的设计局限和吞吐能力测试

在前文中,我们介绍了EPDR技术的起源,以及使用该技术驱动的业余软件无线电平台专栏。已有玩家通过踩坑证明,进程管道交换数据时间延迟大(10ms),构造时间敏感系统难。除非采用传统的紧耦合设计及更大的颗粒度…

尚品汇-选中状态缓存变更、删除缓存购物车(三十八)

目录: (1)选中状态的变更 (2)删除购物车 (3)流程总结 (1)选中状态的变更 用户每次勾选购物车的多选框,都要把当前状态保存起来。由于可能会涉及更频繁的操…

基于AT89C51单片机的可手动定时控制的智能窗帘设计

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/89469560?spm=1001.2014.3001.5503 C 源码+仿真图+毕业设计+实物制作步骤+11 摘要 I abstract II 第1章 绪论 1 1.1 背景及意义 1 1.2 国内外发展现状 1 1.3 设计思想及基…

ChatGPT等大模型高效调参大法——PEFT库的算法简介

随着ChatGPT等大模型(Large Language Model)的爆火,而且目前业界已经发现只有当模型的参数量达到100亿规模以上时,才能出现一些在小模型无法得到的涌现能力,比如 in_context learing 和 chain of thougt。深度学习似乎…

Excel如何快速的定位到某一列和快速知道当前列

Excel如何快速的定位到某一列和快速知道当前列 背景快速找到某一列---660列快速知道当前列 背景 由于某一次做excel数据太大需要快速知道某一列是多少列和快速定位到某一列对此写了这个 快速找到某一列—660列 SUBSTITUTE(ADDRESS(1, 660, 4), "1", ""…

实现MySQL的主从复制基础

目录 1 MySQL实现主从复制的原理 1.1 实现主从复制的规则 1.2 如何实现主从复制 2 MySQL 实现主从复制实践 2.1 实验环境 2.2 my.cnf 配置添加 2.2.1 配置MSTER 端配置文件 2.2.2 配置SLAVE 端配置文件 2.2.3 三台MySQL服务器重启服务 2.3 创建用于复制的用户 2.4 保证三台主机…

Android实战:过root检测

在启动这个app时,我们会看到一个提示,表示设备处于root环境。如下图所示: 为了过掉到这个root检测,我们可以通过直接Hook Toast.show()方法,并打印调用堆栈信息来实现定位关键代码。以下是相关的Frida脚本代码&#…

esxi 安装 精简版win10

镜像来源:[【不忘初心】Windows10 22H2 (19045.4780) X64 无更新 纯净[深度精简版]1.27G](https://www.pc528.net/22h2s.html) 提供下载地址:https://www.123pan.cn/s/lYtRVv-Wmuf3?提取码:GaD4 先把下载esd 转成iso安装 把下载的esd 重命名为install…

如何使用ssm实现学生宿舍管理

TOC ssm094学生宿舍管理jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范化管理。这样…

YOLOv5改进 | 融合改进 | C3融合EffectiveSE-Convolutional【完整代码 + 小白必备】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录: 《YOLOv5入门 改…

如何用comate快速生成一个剩菜好帮手

想法 上班后不想吃饭店的饭菜,时长想自己做一些饭菜,买完菜后却经常放到冰箱中,剩下的菜有无法一下子处理,单纯扔掉有些可惜,但是基于冰箱中的剩菜如何能做出一顿像样的饭菜一致困扰着我,查市面上的程序有…

在不修改应用数据源的情况下,如何确保应用程序能够正常访问adg切换后的主库?

在不修改应用数据源的情况下,如何确保应用程序能够正常访问adg切换后的主库? oracle12c rac测试通过: 1.修改原主库的scanip为某个临时ip,新主库的scanip修改为原生产 2.修改新主库的service_names:dgorcl为原生产的…

学习2d直线拟合

直线拟合算法(续:加权最小二乘)_加权拟合直线法-CSDN博客 直线拟合算法_相位拟合直线-CSDN博客 特别感谢博主无私分享 博文中提到的参考资料《机器视觉算法与应用(双语版)》[德] 斯蒂格(Steger C&#x…

GPT-4o语音功能潜在风险分析与技术挑战

引言 近年来,随着大语言模型(LLM)技术的飞速发展,人工智能的能力在语音处理领域也取得了显著进展。OpenAI推出的GPT系列模型正成为人工智能领域的标杆。然而,在最新的GPT-4o版本中,尽管语音功能具备广阔的…

vue3 多文件下载zip压缩包

vue3多文件下载zip文件包 效果图 代码块 在这里插入代码片 <template><div><el-button type"primary" click"downLoadClick">下载文件zip</el-button></div> </template><script setup lang"ts"> i…

Springsecurity 自定义AuthenticationManager

一、认证流程 1、当用户提交了一个他的凭证(用户名、密码) AbstractAuthenticationProcessingFilter 将会创建一个凭证信息&#xff0c;最终&#xff0c;该请求会被UsernamePasswordAuthenticationFilter 拦截将请求中用户名和密码&#xff0c;封装为 Authentication 对象&…

4个学生党必备好用 AI 学术论文写作工具

随着人工智能技术的不断进步&#xff0c;AI论文写作工具已成为研究人员和学生的得力助手。学姐今天将介绍4个市面上广受好评的免费AI论文写作工具&#xff0c;它们能帮助用户高效地完成从论文大纲到最终校对的各个阶段。 一、梅子AI论文 梅子AI提供快速论文撰写功能&#xff…

Datawhale X 李宏毅苹果书 AI夏令营 学习笔记(二)

自适应学习率 我们梯度下降在参数更新上&#xff0c;公式是 W t W t − 1 − η g t &#xff0c; η 是学习率&#xff0c; g t 是梯度 W_tW_{t-1}-\eta g_t&#xff0c;\eta是学习率&#xff0c;g_t是梯度 Wt​Wt−1​−ηgt​&#xff0c;η是学习率&#xff0c;gt​是梯度…

2024软件测试必问的常见面试题1000问!

01、您所熟悉的测试用例设计方法都有哪些&#xff1f;请分别以具体的例子来说明这些方法在测试用例设计工作中的应用。 答&#xff1a;有黑盒和白盒两种测试种类&#xff0c;黑盒有等价类划分法&#xff0c;边界分析法&#xff0c;因果图法和错误猜测法。白盒有逻辑覆盖法&…