AnimateLCM:高效生成连贯真实的视频

news2024/9/22 17:33:14

视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而,迭代去噪过程使得这类模型计算密集且耗时,限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM,这是一种允许在最少步骤内生成高保真视频的方法。AnimateLCM采用了一种解耦的一致性学习策略,将图像生成先验和运动生成先验的蒸馏分开处理,从而提高训练效率并增强生成的视觉质量。为了实现稳定扩散社区中即插即用适配器的组合以实现各种功能(例如可控生成),论文提出了一种有效策略,无需特定教师模型即可适配现有适配器或从头开始训练适配器,而不损害采样速度。

AnimateLCM在4个步骤内实现个性化扩散模型和适配器的动画化

方法

AnimateLCM的整体训练范式的高级概述

如Figure 2 所示,AnimateLCM 由三个主要部分组成,分别为训练范式、无教师适配策略和适配器训练设计。

左侧:整体训练范式

这部分展示了如何训练视频生成模型以遵循一致性属性。AnimateLCM 的目标是让模型在生成视频时保持数据的一致性,即使在仅有少量迭代步骤的情况下也能生成高质量的视频。这一过程涉及到以下几个关键组件:

  • 教师扩散模型:作为训练过程中的参考,提供了视频生成的基础。

  • CFG-Augmented ODE Solver:无分类器引导增强的ODE求解器,用于改善生成过程并提高结果的质量。

  • Self-Consistency:自我一致性机制,确保模型生成的数据在整个过程中保持一致。

  • EMA(指数移动平均):用于更新目标一致性模型,以保持模型权重的平滑过渡。

右上角:无教师适配策略

这一部分介绍了如何在没有教师模型的情况下训练适配器。在 AnimateLCM 中,适配器是可插拔的模块,可以为模型提供额外的功能,例如控制视频生成的风格或内容。以下是无教师适配策略的关键点:

  • One-step MCMC Approximation:一步MCMC近似方法,用于在没有教师模型指导的情况下估计得分,从而进行一致性学习。

  • Teacher-Free Adaptation:无需教师模型的适配过程,允许模型自我学习并适应新的生成任务。

右下角:适配器训练设计

这部分描述了从头开始训练图像到视频适配器或调整现有适配器以适应稳定扩散社区的设计。这包括:

  • Multi-Res Encoder:多分辨率编码器,用于处理不同分辨率的输入图像。

  • Image-to-Video Adapters:图像到视频适配器,负责将图像内容转换为视频格式。

  • Community Adapters:社区适配器,如XX-Net或XX-Adapter等,这些是稳定扩散社区中已经存在的适配器,可以被进一步训练或调整以提高与 AnimateLCM 的兼容性。

扩散模型(DMs)通过迭代去噪过程,逐步将高维高斯噪声转化为真实数据。在这类模型中,通常预测的是给定样本上添加的噪声量,即所谓的ϵ-预测型模型。这种模型的优势在于能够生成高质量的图像和视频,但其缺点是生成过程计算量大,速度慢。

为了解决这一问题,作者提出了一致性模型(CMs)。与DMs不同,CMs的目标是直接预测PF-ODE(Probability Flow Ordinary Differential Equation)轨迹的解x0。CMs致力于直接找到从噪声状态到数据状态的最短路径,而不是逐步去噪,从而有望显著提高生成速度。

在实现从DMs到CMs的转换中,作者引入了一种新的参数化方法。这种方法中,函数fθ被重新定义,用以结合文本条件嵌入c。这允许模型在生成过程中考虑文本条件,实现文本引导的图像或视频生成。例如,给定文本描述“穿着礼服的男人的RAW面部特写肖像,专业摄影,刀锋跑者风格”,模型能够根据这些条件生成相应的图像。此外,作者还采用了无分类器引导增强的ODE求解器,这种求解器利用无分类器引导(Classifier-free Guidance,CFG)的概念,通过增强的ODE求解过程来提高生成质量。CFG是一种在扩散模型中广泛使用的技术,它可以帮助模型在生成过程中更好地遵循数据分布,从而提高生成结果的质量和多样性。

为了提高训练效率和生成质量,作者引入了一种解耦的一致性学习策略。这一策略的核心思想是将图像生成的先验知识与运动生成的先验知识分开进行蒸馏处理。

上图显示在一致性训练开始时,如何只将空间LoRA权重插入在线模型中,并逐渐通过指数移动平均(EMA)将LoRA权重传播到目标模型

首先,作者选择在经过筛选的高质量图像-文本数据集上对稳定的扩散模型进行蒸馏。这样做的目的是获得一个图像一致性模型,该模型能够捕捉到图像生成的内在规律。这一步骤是基础,因为它为后续的视频生成提供了一个坚实的起点。

接下来,为了适应视频数据的三维特性,作者采用了3D膨胀技术。这涉及到将2D卷积核扩展为伪3D卷积核,从而使得模型能够处理时间维度上的信息。通过添加时间层并采用零初始化和块级残差连接,模型能够在训练初期保持输出的稳定性,这有助于加速训练过程。

在这一过程中,作者还特别设计了一种初始化策略。这种策略的目的是减轻在膨胀过程中可能对特征造成的损坏。具体来说,在一致性训练的初期,只有预训练的空间LoRA权重被插入到在线一致性模型中,而目标一致性模型则不包含这些权重。这样的设计使得目标一致性模型在训练过程中不会对在线模型产生负面影响。随着训练的进行,LoRA权重会通过指数移动平均(EMA)逐渐累积到目标一致性模型中,从而在一定迭代次数后达到预期的权重设置。

作者还引入了一个损失函数,用于衡量模型输出与目标之间的差异。这个损失函数不仅考虑了不同时间步长的重要性,还采用了Huber损失作为距离度量,以提供更平滑的梯度并增强对异常值的鲁棒性。

为了适应稳定扩散社区中的即插即用适配器,或者从头开始训练特定适配器,作者提出了一种无需教师模型的适配策略。在稳定扩散社区中,即插即用适配器起着至关重要的作用,它们可以为模型提供额外的控制能力,比如根据文本提示生成图像。然而,直接将这些适配器应用于视频生成时,可能会遇到细节控制丢失或结果闪烁等问题。为了解决这些问题,作者提出了一种有效的策略,通过调整适配器的LoRA(Low-Rank Adaptation)层来优化它们与视频一致性模型的兼容性。LoRA层是一种轻量级的调整方式,可以在不显著增加计算负担的情况下,改善适配器的性能。

作者还提出了一种基于一步MCMC(马尔可夫链蒙特卡洛)近似的方法来估计得分。这种方法可以在没有教师模型的指导下,对视频生成过程中的得分进行无偏估计。通过使用一步MCMC近似,可以在给定的噪声水平下,对模型的输出进行调整,以更好地反映数据的分布。

在实现图像到视频的生成方面,作者比较了不同的图像预处理方法,包括使用预训练的CLIP图像编码器、在像素空间的轻量下采样块以及在潜在空间的轻量块。研究发现,在潜在空间中首先对图像进行编码,然后重复潜在表示以对齐视频生成的帧数,这种方法能够取得最佳结果。这可能是因为在潜在空间中进行生成可以更好地保持图像的一致性。

为了进一步提升生成结果的质量,作者还提出了在HSV(色调、饱和度、亮度)空间中对生成视频与输入图像进行额外对齐的方法。这有助于确保生成的视频在颜色和亮度上与原始输入图像保持一致,从而提高了视觉质量和真实感。

在可控视频生成方面即使是在图像扩散模型上训练的布局控制适配器,也可以直接集成到视频一致性模型中,以实现可控的视频生成。但是,为了减少细节控制的丢失和结果闪烁,作者通过调整现有适配器的LoRA层,显著提高了控制的稳定性和视觉质量。

实验

作者使用了稳定扩散版本1-5作为大多数实验的基础模型,并采用了DDIM ODE求解器进行训练。遵循潜在一致性模型的做法,作者从1000个时间步中均匀采样了50个用于训练。除了可控视频生成的实验外,所有实验都是在公开可用的WebVid2M数据集上进行的,没有使用任何数据增强或额外数据。对于可控视频生成,作者在TikTok数据集上训练模型,并使用BLIP标注的简短文本提示。

定性结果展示了AnimateLCM在文本到视频生成、图像到视频生成以及可控视频生成中的四步生成结果。这些结果包括了现实主义、2D动漫和3D动漫等不同个性化风格模型。所有结果都令人满意,在不同推理步骤下,AnimateLCM方法能够很好地遵循一致性属性,保持相似的风格和运动。即使仅使用两步推理,也能展示出良好的视觉质量和平滑的运动。随着功能评估(NFE)次数的增加,生成质量相应提高,与教师模型在25步和50步推理步骤下的性能具有竞争力。

AnimateLCM在文本到视频、图像到视频和可控视频生成中的生成结果

定量实验部分通过表格形式展示了AnimateLCM与其他强基线方法DDIM和DPM++的定量指标比较。AnimateLCM在低步数区间(1到4步)中显著超越了基线方法。AnimateLCM的所有这些指标都是在没有使用分类器自由引导(CFG)的情况下评估的,而其他基线方法则应用了7.5 CFG强度,因此在推理峰值内存成本和推理时间上节省了一半。通过将空间权重替换为公开可用的个性化现实风格模型,AnimateLCM进一步增强了性能,展示了其与个性化扩散模型的良好兼容性。

在UCF-101数据集上零样本文本到视频生成的性能比较,展示了AnimateLCM与其他基线方法在FVD和CLIPSIM指标上的表现

作者还验证了所提出的解耦学习策略和特定初始化设计的有效性,并通过实验结果展示了这些策略在提高收敛速度方面的优势。图5中,通过比较不同训练策略下的FVD(Fréchet Video Distance)和CLIPSIM分数,可以看出,采用了解耦一致性学习并结合特别初始化方法的AnimateLCM,在训练过程中收敛得更快,并且在较少的推理步骤下就能实现更低的FVD分数和更高的CLIPSIM分数,这表明其生成的视频在视觉质量和与文本描述的匹配度上都有显著提升。与没有使用解耦策略或没有采用特定初始化方法的基线相比,AnimateLCM展现出了更优的性能,从而验证了其方法在加速视频生成同时保持高生成质量方面的有效性。

提出的解耦一致性学习和特定初始化策略的有效性

图6揭示了直接使用现有适配器(如T2I-Adapter)与经过教师自由适应策略调整后的适配器在控制稳定性和视觉质量方面的对比。实验结果表明,经过教师自由适应过程的适配器能够显著减少细节控制的丢失和结果闪烁问题,从而在保持较低推理步骤的同时,生成更高质量且控制更为精确的视频内容。这一结果验证了AnimateLCM框架在无需额外教师模型指导下,通过简单有效的策略,能够提升适配器性能,实现更优的可控视频生成效果。

使用和不使用无教师适配策略的可控生成结果对比

AnimateLCM通过解耦一致性学习策略和无教师适配策略,在训练效率和生成质量之间取得了良好的平衡。尽管在单步生成样本时可能会产生模糊或有缺陷的结果,但实验结果验证了该方法的有效性。

论文链接:https://arxiv.org/abs/2402.00769

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1915877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

盲盒抽卡机小程序:抽卡机的多样化发展

近几年,盲盒卡牌出现在了大众的生活中,深受学生和年轻消费者的喜爱。卡牌是一种新的盲盒模式,玩家购买后随机获得卡牌,为了收集一整套卡牌,玩家会进行各种复购行为,卡牌逐渐成为了年轻人追捧的休闲方式&…

获取天气数据

获取天气数据其实是一个简单的HTTP接口,根据用户输入的adcode,查询目标区域当前/未来的天气数据,数据来源是中国气象局。 第一步,申请”web服务 API”密钥(Key); 链接: 首页 | 高德控制台 (am…

HTTP协议分析/burp/goby/xray

一、HTTP简介 HTTP(超文本传输协议)是今天所有web应用程序使用的通信协议。最初,HTTP只是一个为获取基于文本的静态资源而开发的简单协议,后来人们以名种形式扩展和利用它.使其能够支持如今常见的复杂分布式应用程序。HTTP使用一种用于消息的模型:客户端…

软件产品必须进行确认测试吗?包括哪些测试流程和注意事项?

在当前科技快速发展的时代,软件产品已经成为人们生活和工作中不可或缺的一部分。然而,随着软件产品的增多和复杂性的提升,软件质量的问题也逐渐浮现出来。为了确保软件产品的质量和稳定性,软件产品在开发完成后必须进行确认测试。…

模版初阶(更新)

文章目录 模版介绍函数模版模版匹配规则类模版结言 模版介绍 函数模版分为两个类型&#xff1a; 函数模版类模版 函数模版 语法格式&#xff1a; t e m p l a t e < t y p n a m e T 1 , t y p n a m e T 2... > template<typname T1,typname T2...> template&…

小技巧(更新中)

1.Pycharm使用小技巧pycharm的使用小技巧1---快速找到模块内的函数和类&#xff0c;快速定位查看的模块所在位置_pycharm怎么查找某个函数-CSDN博客 2. Python库之requirments Python库安装之requirements.txt, environment.yml_python requirements-CSDN博客 3.执行.sh脚本的…

N6 word2vec文本分类

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊# 前言 前言 上周学习了训练word2vec模型&#xff0c;这周进行相关实战 1. 导入所需库和设备配置 import torch import torch.nn as nn import torchvision …

10x Visium HD数据分析

–https://satijalab.org/seurat/articles/visiumhd_analysis_vignette 留意更多内容&#xff0c;欢迎关注微信公众号&#xff1a;组学之心 1.数据准备-Seurat Visium HD 数据是由特定空间排列分布的寡核苷酸序列在 2um x 2um 的网格&#xff08;bin&#xff09;中生成的。然…

15. Revit API: Transaction(事务)与 Failures(故障处理)

前言 UI讲完&#xff0c;回到DB这块儿。在Document那篇&#xff0c;提到增删改查操作都是在Document上&#xff0c;是对Documet进行操作。 看到“增删改查”这四个&#xff0c;想到什么了没有&#xff1f; 数据库&#xff08;DB&#xff09;嘛~话说那本经典的红皮数据库的书叫…

Python学习笔记34:进阶篇(二十三)pygame的使用之颜色与字体

前言 基础模块的知识通过这么长时间的学习已经有所了解&#xff0c;更加深入的话需要通过完成各种项目&#xff0c;在这个过程中逐渐学习&#xff0c;成长。 我们的下一步目标是完成python crash course中的外星人入侵项目&#xff0c;这是一个2D游戏项目。在这之前&#xff…

算法训练营day28--134. 加油站 +135. 分发糖果+860.柠檬水找零+406.根据身高重建队列

一、 134. 加油站 题目链接&#xff1a;https://leetcode.cn/problems/gas-station/ 文章讲解&#xff1a;https://programmercarl.com/0134.%E5%8A%A0%E6%B2%B9%E7%AB%99.html 视频讲解&#xff1a;https://www.bilibili.com/video/BV1jA411r7WX 1.1 初见思路 得模拟分析出…

【Python实战因果推断】19_线性回归的不合理效果9

目录 De-Meaning and Fixed Effects Omitted Variable Bias: Confounding Through the Lens of Regression De-Meaning and Fixed Effects 您刚刚看到了如何在模型中加入虚拟变量来解释不同组间的不同干预分配。但是&#xff0c;FWL 定理真正的亮点在于虚拟变量。如果您有大量…

鸿蒙架构之AOP

零、主要内容 AOP 简介ArkTs AOP 实现原理 JS 原型链AOP实现原理 AOP的应用场景 统计类&#xff1a; 方法调用次数统计、方法时长统计防御式编程&#xff1a;参数校验代理模式实现 AOP的注意事项 一、AOP简介 对于Android、Java Web 开发者来说&#xff0c; AOP编程思想并不…

【前端】包管理器:npm、Yarn 和 pnpm 的全面比较

前端开发中的包管理器&#xff1a;npm、Yarn 和 pnpm 的全面比较 在现代前端开发中&#xff0c;包管理器是开发者必不可少的工具。它们不仅能帮我们管理项目的依赖&#xff0c;还能极大地提高开发效率。本文将详细介绍三种主流的前端包管理器&#xff1a;npm、Yarn 和 pnpm&am…

错位情缘悬疑升级

✨&#x1f525;【错位情缘&#xff0c;悬疑升级&#xff01;关芝芝与黄牡丹的惊世婚约】&#x1f525;✨在这个迷雾重重的剧场&#xff0c;一场前所未有的错位大戏正悄然上演&#xff01;&#x1f440; 你没看错&#xff0c;昔日兄弟的前女友关芝芝&#xff0c;竟摇身一变成了…

axios使用sm2加密数据后请求参数多了双引号解决方法

axios使用sm2加密数据后请求参数多了双引号解决 背景问题描述解决过程 背景 因项目安全要求&#xff0c;需对传给后端的入参加密&#xff0c;将请求参数加密后再传给后端 前期将axios降低到1.6.7后解决了问题&#xff0c;但最近axios有漏洞&#xff0c;安全要求对版本升级&…

通过电压差判定无源晶振是否起振正确吗?

在电子工程中&#xff0c;无源晶振作为许多数字电路的基础组件&#xff0c;其是否成功起振对于系统的正常运行至关重要。然而&#xff0c;通过简单检测晶振两端的电压差来判断晶振是否工作&#xff0c;这一方法存在一定的误区&#xff0c;晶发电子将深入探讨这一话题&#xff0…

【AIGC】一、本地docker启动私有大模型

本地docker启动私有大模型 一、最终效果中英文对话生成代码 二、资源配置三、搭建步骤启动docker容器登录页面首次登录请注册登录后的效果 配置模型尝试使用选择模型选项下载模型选择适合的模型开始下载 试用效果返回首页选择模型中英文对话生成代码 四、附录资源监控 五、参考…

浮点类型使用陷阱

引言 当我们进行条件判断时,经常会遇到两个数是否相等的情况,但如果在程序中进行判断一个可以除尽的小数和数学上除出来所得的数是否相等时,就会神奇的发型居然不相等??! 遇到问题 看如下代码 double num5 2.7;//2.7double num6 8.1 / 3;//接近2.7System.out.println(n…

NAS免费用,鲁大师 AiNAS正式发布,「专业版」年卡仅需264元

7月10日&#xff0c;鲁大师召开新品发布会&#xff0c;正式发布旗下以“提供本地Ai部署和使用能力以及在线NAS功能”并行的复合软件产品&#xff1a;鲁大师 AiNAS。 全新的鲁大师 AiNAS将持续满足现如今大众对于数字化生活的全新需求&#xff0c;将“云存储”的便捷与NAS的大容…