Lumière:开创性的视频生成模型及其应用

news2025/1/24 2:25:00

 视频内容创造领域迎来了突破性进展,但视频生成模型由于运动引入的复杂性而面临更多挑战。这些挑战主要源自运动的引入所带来的复杂性。时间连贯性是视频生成中的关键要素,模型必须确保视频中的运动在时间上是连贯和平滑的,避免出现不自然的跳跃或断裂。空间关系的准确性也至关重要,因为视频的每一帧都需要与前后帧在空间布局上保持一致性。计算资源的限制也是一个重大挑战,视频数据的高维度要求大量的计算力和内存,这限制了模型的规模和复杂度。训练数据的需求量巨大,因为只有通过大量的训练样本,模型才能学习到生成逼真视频所需的丰富特征和模式。

视频生成领域普遍采用的是一种串行方法,其中包括一个基础模型用于生成稀疏的关键帧,随后通过一系列时间超分辨率(TSR)模型来生成关键帧之间的数据。这种方法虽然在内存效率上有优势,但在生成全局一致性运动方面存在固有的限制。

基础模型生成的关键帧数量有限,这导致快速运动在时间上出现混叠,造成歧义。TSR模块受限于固定且较小的时间上下文窗口,无法在整个视频时长内一致地解决混叠歧义。串行训练机制通常面临域差距问题,即TSR模型在训练时使用的是真实下采样的视频帧,但在推理时却用于插值生成的帧,这会导致误差累积。

这些局限性导致了视频生成的质量受限,包括视频时长、整体视觉质量和生成的现实运动程度。Lumière模型通过引入全新的扩散框架,一次性生成整个视频的时序长度,从而克服了这些限制,为视频生成领域带来了显著的改进。Lumière模型通过其创新的空间时间U-Net(STUNet)架构,有效地应对了这些挑战。该架构通过同时进行空间和时间的下采样与上采样,能够在保持计算效率的同时生成具有全局一致性的视频。Lumière模型的另一个显著优势是其多扩散(MultiDiffusion)技术,它允许模型在时间轴上处理视频片段,并通过优化问题平滑地合并各片段的预测结果,从而避免了时间边界处的不连贯现象。Lumière模型利用预训练的文本到图像扩散模型,这为其提供了强大的生成先验,并能够通过微调少量参数来适应视频生成任务。这些优势使得Lumière模型在生成逼真、多样化和连贯运动的视频方面表现出色,为视频内容创造领域带来了新的突破。

Lumiere生成的几个样本结果,包括文本到视频生成(第一行)、图像到视频(第二行)、风格参考生成和视频修复(第三行;边框指示了修复掩膜区域)
Lumière模型
Lumiere的流程图,以及与以前工作采取的常见方法的主要区别

Lumière模型的生成管线(pipeline)是其创新的核心,它与以往的视频生成方法有显著的不同。这一管线的设计允许模型一次性处理所有帧,而不是依赖于串行的关键帧生成和后续的帧填充。

在传统的视频生成方法中(如图3(a)所示),一个基础模型首先生成稀疏的关键帧,然后通过一系列时间超分辨率(TSR)模型来填充这些关键帧之间的帧。这种方法虽然内存效率较高,但存在无法生成全局一致运动的问题。此外,空间超分辨率(SSR)模型通常在不重叠的窗口上应用,以获得高分辨率的结果。

与此相反,Lumière模型(如图3(b)所示)采用了一个基础模型,该模型能够一次性处理所有的帧,而不是依赖于TSR模型的串行处理。这种设计允许模型学习到全局一致的运动,从而生成更加自然和连贯的视频内容。

通过一次性处理所有帧,Lumière模型能够捕捉到整个视频序列的动态变化,这有助于生成具有高度连贯性的视频。这种处理方式避免了传统方法中由于关键帧独立生成而可能出现的运动不连贯或时间上的歧义问题。

为了从基础模型生成的低分辨率视频获得高分辨率视频,Lumière模型采用了SSR模型,并在重叠的窗口上应用它。这样,每个窗口的预测结果不仅考虑了当前帧,还考虑了邻近帧的信息。

Lumière模型进一步利用了MultiDiffusion技术来整合重叠窗口上的SSR预测结果。通过优化问题的形式,模型能够将这些预测结果融合为一个全局一致的高分辨率视频。这一步骤确保了视频在空间和时间上的连贯性,同时避免了由于窗口划分而可能产生的边界伪影。

Lumière模型的创新之处在于其核心架构——空间时间U-Net(STUNet)。这一架构突破了传统视频生成模型的限制,通过集成空间和时间维度的处理能力,实现了对视频内容的全局理解和生成。STUNet的设计允许模型一次性生成整个视频的全帧率,即便是低分辨率,也能够保持运动的连贯性和一致性。

空间时间U-Net(STUNet)的架构图,包括基于卷积的膨胀块和基于注意力的膨胀块

STUNet架构的关键组成部分是空间和时间的下采样模块。这些模块使得模型能够在一个压缩的时空表示中进行计算,大幅降低了计算复杂度。空间下采样通过减少视频帧的分辨率来减少数据的空间维度,而时间下采样则通过减少帧率来降低时间维度的数据量。这种双管齐下的方法让模型能够在更低维的表示中高效地处理视频数据。

STUNet架构支持多尺度处理,这是实现全局一致性运动生成的另一个关键因素。模型不仅在原始分辨率上工作,还通过下采样和上采样在多个分辨率尺度上进行计算。这种多尺度策略使得模型能够捕捉到从局部细节到全局动态的丰富信息,从而在生成视频中实现更加精细和连贯的运动。

与先前模型不同,STUNet架构能够直接生成全帧率的视频。这意味着模型在生成过程中考虑了整个视频序列,而不是依赖于后续的插值或超分辨率步骤来填充帧。这种端到端的方法简化了生成流程,并有助于生成更加自然和逼真的视频内容。

STUNet的设计还特别考虑了计算效率。通过在粗略的时空表示上执行大部分计算,模型能够以较低的计算成本生成视频。这使得STUNet架构不仅适用于研究环境,也能够在实际应用中实现高效视频生成。

在视频生成过程中,高分辨率视频所需的计算资源和内存通常是限制模型性能的主要瓶颈。为了克服这一挑战,Lumière模型引入了MultiDiffusion技术,这是一种创新的方法,用于在保持内存效率的同时实现高质量的空间超分辨率(SSR)。

MultiDiffusion技术的核心在于它将SSR计算分布在时间轴上。这意味着模型不是一次性处理整个视频,而是将视频分割成多个较短的片段,并对这些片段分别进行SSR处理。这种方法显著减少了任何单一时间点所需的内存和计算量。

为了实现片段之间的平滑过渡并保持视频的连贯性,MultiDiffusion采用了重叠窗口的技术。在每个生成步骤中,模型会考虑当前片段以及与其重叠的前后片段的信息。这种设计确保了视频片段之间的过渡自然,没有明显的接缝或不连续性。

一旦每个片段独立完成SSR,MultiDiffusion技术通过一个优化过程将这些片段的预测结果聚合起来。这个过程涉及到计算整体视频的一致性,确保整个视频序列的全局一致性,即使在片段边界处也是如此。

通过在时间轴上对视频片段进行SSR并聚合结果,MultiDiffusion技术有效减少了时间边界伪影。这些伪影通常在传统的视频生成模型中出现,因为它们在片段之间进行插值或融合时可能会产生不连贯的运动或视觉错误。

应用

Lumière模型的应用范围广泛,包括风格化视频生成、图像到视频的转换、视频修复以及电影静态图(cinemographs)的创作。这些应用展示了Lumière模型如何轻松适应多样化的视频内容创作任务。

文本到视频和图像到视频生成的样本结果。每个示例下方都标明了文本提示

在Figure 5中,Lumière模型的视频生成能力通过文本到视频(text-to-video)和图像到视频(image-to-video)的示例得到了展示。这些示例不仅证明了模型对复杂文本提示的理解和转换能力,还展示了它如何根据给定的静态图像生成连贯的视频内容。

每个示例下方都提供了文本提示,这些提示直接指导了视频内容的生成。文本到视频的生成展示了模型如何将文本描述转化为视觉场景,而图像到视频的生成则展示了模型如何以提供的图像为起点,创造出动态的故事。

对于图像到视频的生成,最左侧的帧作为条件提供给模型。这意味着模型必须理解并利用这一帧中的视觉信息,以此为基础生成后续的视频帧,确保生成的视频不仅在视觉上连贯,而且在逻辑上与给定的图像相符。

为了更全面地评估Lumière模型的性能,读者被引导至补充材料(SM)中查看完整的视频结果。这提供了一个更深入的视角,以评估模型生成的视频在时间上的连贯性和细节上的丰富性。

风格化生成是一个挑战,因为它需要在保持视频运动连贯性的同时融入特定的艺术风格。Lumière模型通过一种创新的方法解决了这一问题,即通过在预训练的文本到图像(T2I)模型权重和特定风格的T2I模型权重之间进行线性插值,实现了风格和运动之间的平衡。

给定风格图像和相应的微调文本到图像权重后,通过在线性插值之间生成的样式化视频的结果

具体来说,Lumière模型采用了一种“即插即用”的方法,通过调整预训练模型的权重来适应不同的风格。这种方法涉及计算两组权重的线性组合:一组是针对特定风格微调过的T2I模型权重(Wstyle),另一组是原始的预训练T2I模型权重(Worig)。通过这种方式,模型可以根据需要生成具有特定风格特征的视频,同时保持运动的自然流畅。

在实际应用中,插值系数(α)的选择是至关重要的。它决定了两种权重对最终生成视频的影响程度。Lumière模型允许用户根据具体需求手动选择插值系数,α的取值范围通常在0.5到1之间。当α接近1时,生成的视频更倾向于展示特定风格;而当α接近0.5时,原始的T2I模型权重影响更大,视频将更注重运动的真实性和连贯性。

通过这种方法,Lumière模型能够生成多样化的风格化视频。无论是现实主义风格,如水彩画或油画效果,还是更抽象的风格,如卡通或线条画,Lumière都能够通过调整插值系数来适应不同的风格需求,创造出既符合艺术风格又具有合理运动的视频内容。

Lumière模型的一个显著特点是其能够处理条件生成任务,即根据附加的输入信号生成视频。这种能力极大地扩展了模型的应用范围,允许用户通过提供特定的图像或掩码作为条件来引导视频内容的生成。

在图像到视频的生成场景中,Lumière模型能够将用户提供的静态图像作为起点,生成一个动态视频序列。模型利用输入图像作为视频的第一帧,并在此基础上展开,创造出具有连贯运动和场景发展的完整视频内容。

视频修复是条件生成的另一个重要应用。Lumière模型可以接受一个视频以及一个定义了需要修复区域的掩码作为输入。模型学习在保持视频其余部分不变的同时,对遮罩区域进行动画化或填充,从而实现对原始视频的无缝编辑和修复。

为了实现条件生成,Lumière模型对输入进行了特别的修改,以整合附加的输入信号。模型的输入不仅包括带噪声的视频帧,还包括一个被遮罩的视频帧以及相应的二进制掩码。这种整合允许模型区分哪些部分需要生成新内容,哪些部分应该保持原样。

为了使模型能够处理条件生成任务,Lumière团队对基础的文本到视频模型进行了微调。在微调过程中,模型学习如何根据附加的图像或掩码来生成视频,同时保持与原始视频的一致性。

使用SDEdit(Meng et al., 2022)通过Lumiere模型进行视频到视频编辑的结果

Lumière模型的基础版本能够生成全帧率的视频,这一点与传统的依赖于时间超分辨率(TSR)模型串行生成关键帧和填充帧的方法不同。这种设计的优势在于它提供了一个直观的接口,便于用于下游应用,包括视频编辑和风格化。由于Lumière模型不依赖于TSR级联,它能够生成具有全局一致性的视频内容。这意味着视频的每一帧都是在考虑了整个视频序列的情况下生成的,从而避免了在编辑过程中可能出现的不连贯问题。

为了展示Lumière模型在视频编辑中的应用,研究者们采用了SDEdit(由Meng等人于2022年提出)这一工具。SDEdit是一个用于指导图像合成和编辑的随机微分方程工具,它能够与Lumière模型结合使用,实现一致的视频风格化。

在Figure 9中,研究者们展示了使用Lumière模型和SDEdit进行视频编辑的过程。图的上方展示了给定输入视频的几个帧,而下方则展示了经过编辑后的对应帧。通过这种方式,研究者们证明了Lumière模型能够与现有的视频编辑工具无缝集成,实现高质量的视频风格转换。

评估和比较
用户研究的结果,比较了本方法与每个基线方法在文本到视频和图像到视频生成方面的表现

在评估Lumière模型的性能时,研究者们开展了一项用户研究,将该模型的文本到视频(text-to-video)和图像到视频(image-to-video)生成能力与多个基线方法进行了比较。这项研究通过收集用户对视频生成结果的偏好来评估不同方法的优劣。

在Figure 10中,每个基线方法与Lumière模型的比较结果都通过柱状图展示,其中蓝色部分代表用户投票支持Lumière模型的比例,橙色部分代表用户投票支持基线方法的比例。这种直观的展示方式允许快速识别用户偏好。

根据用户研究的结果显示,Lumière模型在文本到视频和图像到视频的生成任务中都获得了用户的偏好。这意味着与基线方法相比,用户更倾向于选择Lumière模型生成的视频,这可能是因为Lumière模型生成的视频在视觉质量、运动连贯性或者与文本描述的匹配度方面更胜一筹。

这项用户研究不仅验证了Lumière模型在技术层面的优势,更重要的是,它反映了用户对生成视频的实际感受和偏好。用户研究的结果为Lumière模型的实际应用和进一步的改进提供了宝贵的反馈。

研究者采用定性评估和定量评估的方式通过与现有T2V扩散模型的比较,Lumière在生成具有复杂运动和连贯相机运动的视频方面表现出色。

定性评估涉及将Lumière模型生成的视频与几个领先的T2V扩散模型进行对比。这些模型包括但不限于ImagenVideo、AnimateDiff、StableVideoDiffusion等。评估的焦点在于视频的视觉质量和运动的连贯性。

Lumière模型在生成具有复杂运动的视频方面表现出色,这包括精确捕捉和再现物体的运动轨迹以及相机视角的流畅转换。与传统方法相比,Lumière能够更好地处理全局运动的一致性,避免了因关键帧独立生成而导致的时间上的不连贯性。

在视觉检查中,评估者特别关注视频的视觉质量和运动的连贯性。Lumière模型生成的视频在细节表现、色彩还原以及场景的逼真度方面均展现出高水平。模型能够维持运动的连贯性,即使是在长时间序列中也能保持一致性。

Lumière模型在UCF101数据集上进行了零样本评估,这是一种在没有针对特定数据集进行训练的情况下测试模型泛化能力的方法。评估使用了两个主要的定量指标:Fréchet Video Distance (FVD)和Inception Score (IS)。

提供了在UCF101数据集上零样本文本到视频生成的比较,展示了不同方法的FVD(Fréchet Video Distance)和IS(Inception Score)得分

FVD是一种衡量生成视频与真实视频之间差异的度量,它通过比较特征空间中的距离来工作。较低的FVD值表明生成的视频在视觉特征上与真实视频更为接近。而IS是一个衡量生成样本多样性和质量的指标,较高的IS值表明生成的视频不仅质量高,而且展现了良好的多样性。

Lumière模型在FVD和IS两个指标上都取得了有竞争力的成绩,这表明其生成的视频在视觉质量和多样性方面与现有的顶尖模型相当。这些定量结果为Lumière模型的有效性提供了统计学上的证据。

除了定量指标之外,用户研究也被用于评估Lumière模型。在用户研究中,参与者被要求对Lumière生成的视频与其他基线方法生成的视频进行比较,并表达他们的偏好。用户研究的结果表明,用户更倾向于选择Lumière模型生成的视频,这进一步证实了Lumière在视觉质量和运动连贯性方面的优势。

Lumière以出色的FVD和IS成绩证明了其生成视频的高质量和多样性。而在用户研究中,用户对Lumière生成视频的偏好更是对其优势的直观认可。这些评估结果不仅彰显了Lumière模型的强大性能,也为其未来的应用提供了坚实的基础。

面向未来,Lumière模型的应用前景广阔。无论是在娱乐、教育、设计还是新闻制作等领域,Lumière都有望成为内容创作者的强大助手。随着技术的不断进步和优化,我们可以期待,Lumière将激发出更多的创意火花,推动视频内容生成的边界不断扩展。

论文链接:https://arxiv.org/pdf/2401.12945

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1888173.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

法国工程师IMT联盟 密码学及其应用 2023年期末考试补考题

1 JAVA 安全 1.1 问题1 1.1.1 问题 用 2 或 3 句话解释 Java 执行模型(Java 虚拟机machine virtuelle Java))中引入introduit沙箱bac sable机制 mcanisme d’excution par isolation的目的。 1.1.2 问题解释 在 Java 执行模型(Java 虚拟机…

带电池监控功能的恒流直流负载组

EAK的交流和直流工业电池负载组测试仪对于测试和验证关键电力系统的能力至关重要,旨在实现最佳精度。作为一家客户至上的公司,我们继续尽我们所能应对供应链挑战,以提供出色的交货时间,大约是行业其他公司的一半。 交流负载组 我…

Python面试宝典第4题:环形链表

题目 给你一个链表的头节点 head ,判断链表中是否有环。如果存在环 ,则返回 true 。 否则,返回 false 。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环&#xf…

基于多视点编码光场的全景三维重建方法

欢迎关注GZH《光场视觉》 摘要:在基于光场的一系列应用中,目标的三维重建是基础且关键的任务。普通光场只能重建单一视角而无法重建全景,并且在纹理特征匮乏的区域也无法生成准确的三维信息。针对以上问题,提出一种基于多视点编码…

端口被占用的解决办法、netstat命令;Linux ps命令详解,Linux查看进程

文章目录 一、端口被占用的原因二、端口被占用的解决方法2.1 Windows系统2.2 Linux系统 三、Linux命令补充3.1 Linux查看端口占用情况3.2 netstat命令详解3.3 ps命令3.3.1 常用命令3.3.2 拓展命令3.3.3 字段补充 运行软件或程序时,有时会出现以下问题、导致运行失败…

JavaScript中的立即执行函数表达式(Immediately Invoked Function Expression, IIFE)

聚沙成塔每天进步一点点 本文回顾 ⭐ 专栏简介JavaScript中的立即执行函数表达式(Immediately Invoked Function Expression, IIFE)1. 引言2. IIFE的概念2.1 概述2.2 语法2.3 历史背景 3. IIFE的作用3.1 创建独立作用域3.2 模块化代码3.3 防止变量提升3.…

我不小心把生产的数据改错了!同事帮我用MySQL的BinLog挽回了罚款

之前在生产做修改数据的时候不小心改错了一行数据,本来以为会被通报批评,但是同事利用binlog日志查看到了之前的旧数据,并且帮我回滚了,学到了,所以写了一篇binlog的文章分享给大家。 MySQL的Binary Log(简…

CentOS 7 停止维护(2024-6-30)后可用在线yum源 —— 筑梦之路

众所周知,centos 7 在2024年6月30日,生命周期结束,官方不再进行支持维护,而很多环境一时之间无法完全更新替换操作系统,因此对于yum源还是需要的,特别是对于互联网环境来说,在线yum源使用方便很…

标注比赛一种计分方法

这段时间试着在公司内部举办一场图片标注大赛,我负责制定规则,挑选比赛素材。这几天试了一种得分计算方法,结果尚可。利用我司研发的标注工具,我们很容易就可以得出下图结果。 这个结果中的标注框其实就是标准答案,漏检…

面向物联网行业的异常监控追踪技术解决方案:技术革新与运维保障

在现代高度数字化和互联的环境中,物联网技术已经深入到我们生活的方方面面。特别是在家庭和工业环境中,物联网系列通讯作为连接各类设备的关键枢纽,其稳定性和可靠性显得尤为重要。本文将介绍一种创新的监控系统,旨在实时跟踪和分…

无人机基础知识(模式篇)

姿态模式:姿态模式通常是在GPS模式无法使用的情况下进行操作的模式。通过操作杆对无人机进行操控,姿态模式下无人机只能提供自稳,不提供定点悬停,受外界影响很大; GPS模式:GPS模式通俗一点就是依靠GPS将无…

电路笔记(PCB):电流容量(IPC-2221和IPC-2152)+阻抗匹配

电流容量 IPC-2221经验公式 I K T b A c IK\times T^{b}\times A^{c} IKTbAc 这个公式用于估计PCB(Printed Circuit Board,印刷电路板)导线上的电流(I),其中T和A分别表示温度(Temperature&a…

SQL语句(DDL)

关系型数据库:建立在关系模型基础上,由多张相互连接的二维表组成的数据库 SQL语句 DDL-数据库操作 DDL-表操作-查询 DDL-表操作-创建 创建一个名为tb_user的表 mysql> use itheim; Database changed mysql> create table tb_user(-> id …

Python基础入门知识

目录 引言 简要介绍Python语言 为什么要学习Python Python的应用领域 Python安装和环境配置 Python的下载和安装(Windows, macOS, Linux) 配置Python环境变量 安装和使用IDE(如PyCharm, VS Code) Python基本语法 注释 变量和数据类型(数字,字符串,列表,元组,字典,…

【CUDA】 由GPGPU控制核心架构考虑CUDA编程中线程块的分配

GPGPU架构特点 由于典型的GPGPU只有小的流缓存,因此一个存储器和纹理读取请求通常需要经历全局存储器的访问延迟加上互连和缓冲延迟,可能高达数百个时钟周期。与CPU通过巨大的工作集缓存而降低延迟不同,GPU硬件多线程提供了数以千计的并行独…

服务器数据恢复—raid5阵列硬盘出现大量坏道的数据恢复案例

服务器存储数据恢复环境&故障: 一台DELL EqualLogic PS 4000存储中有一组由12块磁盘组建的raid5阵列,存储空间划分3个同等大小的卷,采用的VMFS文件系统。 两块硬盘指示灯亮黄色,raid5阵列崩溃,存储变得不可用。 服…

尝试修改苍穹外卖为”李小罗餐厅“

学习苍穹外卖后,将其修改为自己所需要的项目,也是对苍穹外卖项目的加深理解 对项目之间的连接等关系进一步清晰,那么便开始吧 d1_开始修改 修改名字为”李小罗餐厅“ src\views\login\index.vue src\router.ts 结果展示 修改进来之后的展示…

昇思25天学习打卡营第9天|MindSpore-Vision Transformer图像分类

Vision Transformer图像分类 Vision Transformer(ViT)简介 近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前…

2.2.5 C#中显示控件BDPictureBox 的实现----ROI交互续2

2.2.5 C#中显示控件BDPictureBox 的实现----ROI交互续2 1 ROI数组作用说明 变量:m_ROIs[5] ROI 使用效果图 ROI数组说明 2 ROI显示逻辑图 ROI 交互主要是在设定状态下, runmode下只要普通显示即可 3 主要ROI显示函数函数 判断当前鼠标是否获取…

20240702在vmware17.5虚拟机中让ubuntu22.04使用主机的代理上网

20240702在vmware17.5虚拟机中让ubuntu22.04使用主机的代理上网 2024/7/2 14:41 百度:vmware 虚拟机 使用主机代理 上网 https://blog.csdn.net/nomoremorphine/article/details/138738065?utm_mediumdistribute.pc_relevant.none-task-blog-2~default~baidujs_ba…