Diffusion Models专栏文章汇总:入门与实战
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation
本研究提出了一种新颖的关键帧插值方法,旨在生成符合自然运动轨迹的连续视频片段。我们适应了已经训练好的图像到视频扩散模型,使其新模型能够在两个输入关键帧之间插值,从而输出一段流畅的视频。该方法的关键在于,充分利用现有模型已学到的运动统计信息,而无需从零开始进行细致的训练。我们的工作展示了如何将一个从单个输入图像生成前向运动视频的模型,通过精简的微调技术,转化为能够生成反向运动视频的版本。与传统方法相比,这种方法在生成合乎逻辑的运动视频方面实现了显著的性能提升,为图像到视频生成领域的研究开辟了新的方向。
该方法主要包括三个步骤:首先,针对某一输入图像进行轻量级反向运动微调,以使模型能够预测从该图像开始的反向运动视频;其次,在生成具有前向运动和反向运动的视频的过程中,确保两者之间存在一致性。为了实现这一点,我们设计了一个双向扩散采样过程,利用原始的前向扩散模型与微调后的反向模型。具体来说,模型通过旋转时间自注意力图,反转时间轴的运动关联。这一改进使得模型能够更好地理解如何在时间上从关键帧之间平滑过渡,并产生高质量的运动视频。此外,通过在扩散过程中融合前向预测与反向预测的噪声预测,确保生成的视频在时间上流畅且一致。
实验部分使用了两个高分辨率数据集进行验证:Davis数据集与Pexels数据集。我们从每个数据集中收集了一批关键帧对,并以此训练我们的模型。通过与现有的插值技术和基于扩散的方法进行比较,我们展示了所提出的模型在生成具有动态运动的视频时的优越性能,尤其是在处理时间间隔较大的关键帧时。研究结果表明,我们的模型在两个标准度量(FID和FVD)下均显著优于传统方法和同类技术。此外,在不同的输入条件下,我们的方法也展示了出色的适应能力,但在复杂运动(如非刚体运动)场景下仍存在一定局限性。
Diffusion Models Are Real-Time Game Engines
本文介绍了一种新型游戏引擎GameNGen,它完全基于神经网络模型,能够在复杂环境中实现实时交互模拟。GameNGen特别针对经典游戏《DOOM》进行了优化,能以每秒超过20帧的速度进行高质量的游戏互动。该模型通过两个阶段进行训练:首先,使用强化学习(RL)代理学习玩游戏并记录训练过程;其次,训练一个扩散模型来生成下一个游戏帧,基于过去帧和动作的序列来进行条件生成。研究表明,该模型在生成下一个帧时的峰值信噪比(PSNR)为29.4,接近有损JPEG压缩的性能。此外,参与评估的人工评分者在区分实际游戏和模拟视频时仅略高于随机猜测。
GameNGen的训练分为两个主要阶段。第一阶段涉及到创建一个强化学习代理,使其能够玩游戏并记录所有的游戏动作和观察数据。这个过程的目的是收集有代表性的游戏数据,这些数据会在第二阶段用作生成模型的训练集。在第二阶段中,采用预训练的扩散模型,可以生成游戏帧,而不再依赖文本条件。该生成模型通过将过去的帧和代理动作编码为潜在空间,在学习过程中进行条件生成。此外,为了减轻因自动回归生成引发的偏差,采用噪声增强技术来提高生成的稳定性和质量。最终,加入连接性强的多层网络以精细调节生成过程,将生成的游戏帧与真实帧的质量提升至可接受的水平。
在实验部分,通过使用人类评估者对生成的视频片段与实际游戏片段的比较,评估了GameNGen的效果。总共进行了多项测试,包括对画质、视频质量和人类识别准确性等多个指标的评估。研究团队采用PSNR和LPIPS指标衡量生成视频的质量,并发现生成质量与真实游戏相当。实验结果还表明,在自动回归模式下,尽管每一帧的质量随着时间的推移而下降,但整个生成过程依然保持相对稳定。通过不同数据集的记录和模型对比,验证了强化学习代理生成的数据优于随机策略的数据。总体而言,实验结果展示了GameNGen在长时间追踪游戏状态及生成高质量视频方面的潜力和有效性。
Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching
在此项研究中,作者提出了一种名为复杂扩散(Complex Diffusion, CxD)的训练自由的扩散框架,旨在解决复杂场景生成中的挑战。尽管文本转图像的扩散模型在图像质量上已经取得了显著的进展,但在处理涉及多个实体和复杂空间关系的复杂场景时,新开发的模型常常面临结构紊乱和对象关系不一致等问题。为了解决这一问题,研究团队给出了一个清晰的“复杂场景”定义,并基于这一定义提出一系列复杂性分解标准。CxD框架灵感源自艺术家的创作过程,划分为三个主要阶段:构图、绘画和修整。通过应用大型语言模型(LLM),该方法有效地将复杂提示拆解,从而改进了图像生成的一致性和多样性。
CxD的方法依据艺术创作的自然流程,将复杂场景的生成过程分为三个阶段。第一阶段是构图,此时使用LLM提取复杂提示中的实体和属性,并依据复杂性分解标准(CDC)来重新构建提示,确保项目间的空间布局合理。第二阶段是绘画,其中通过交叉注意力机制来处理生成的提示,确保每个对象在最终图像中的适当位置和关系。最后,在修整阶段,利用ControlNet模型对生成的图像进行细节增强和修正,以提升图像的清晰度和一致性。这一框架的创新之处在于采用了无训练的策略,与传统方法相比减少了额外的开销,同时保持了对复杂场景的高效处理能力。
为了验证所提出的CxD方法的有效性,研究团队进行了多项实验证明其在复杂场景生成中的卓越性能。通过与现有状态最先进的文本到图像模型进行对比,CxD展现了在生成高质量、语义一致和视觉多样性图像方面的显著优势。实验中,研究者对比了CxD与其他方法在复杂提示下图像生成的能力,指出CxD能有效处理包含多个实体、复杂空间关系及相互冲突的提示。在T2I-CompBench基准测试中,CxD达到新的领先表现,显示出其在物体关系处理和复杂场景生成任务中的独特优势,并且在大型模特应用中保持了良好的扩展性和一致性。