gen1-视频生成论文阅读

news2025/1/11 4:04:11

文章目录

  • 摘要
  • 贡献
  • 算法
    • 3.1 LDM
    • 3.2 时空隐空间扩散
    • 3.3表征内容及结构
      • 内容表征
      • 结构表征
      • 条件机制
      • 采样
    • 3.4优化过程
  • 实验结果
  • 结论

论文: 《Structure and Content-Guided Video Synthesis with Diffusion Models》
官网: https://research.runwayml.com/gen1
github:未开源

摘要

现有编辑视频内容方法在保留结构的同时编辑视频内容需要重新训练,或者跨帧图像编辑传播过程易出错。
本文提出一种结构和内容导向的视频扩散模型,可基于视觉、文本描述编辑视频。结构表征与用户提供内容编辑之间冲突是由于两者不充分解耦导致。对此,作者基于包含各种信息的单个深度估计进行训练,用于保证结构及内容完整度。gen1基于视频及图片联合训练,用于控制时间一致性。作者实验证明在多个方面取得成功:细粒度控制、基于参考图定制生成、用户对模型结果的偏好。

贡献

作者提出的gen1,可控制结构,关注内容的视频扩散模型,由大量无标注视频及成对文本图像数据数据构成。使用单目深度估计优化表征结构,使用预训练模型embedding表征内容。
本文贡献:
1、扩展LDM至视频生成;
2、提出一个关注结构及内容模型,通过参考图或文本引导视频生成;
3、展示对视频时间、内容、结构一致性控制;
4、该模型通过在小数据集finetune,可生成特定目标视频。

算法

在这里插入图片描述
基于纹理结构表征 s s s,文本内容表征 c c c,作者训练生成模型 p ( x ∣ s , c ) p(x|s, c) p(xs,c),生成视频 x x x。整体架构如图2。

3.1 LDM

前向扩散过程如式1, x t − 1 x_{t-1} xt1通过增加正态分布噪声获得 x t x_t xt
在这里插入图片描述
学习去噪过程如式2,3,4,其中方差固定,
在这里插入图片描述
µ θ ( x t , t ) µ_θ(x_t, t) µθ(xt,t)为UNet预测均值,损失函数如式5, µ t ( x t , x 0 ) µ_t(x_t, x_0) µt(xt,x0)为前向后验函数 q ( x t − 1 ∣ x t , x 0 ) q(x_{t−1}|x_t, x_0) q(xt1xt,x0)的均值。

LDM将扩散过程迁移进隐空间。

3.2 时空隐空间扩散

UNet主要有两个block:Residual blocks及transformer blocks,如图3,作者增加1D跨时间卷积,在时间轴学习空间中对应目标,在transformer block中引入基于帧号的位置编码;
在这里插入图片描述
对于 b × n × c × h × w b ×n× c × h ×w b×n×c×h×w的数据,重排为 ( b ⋅ n ) × c × h × w (b·n) × c × h × w (bn)×c×h×w,用于空间层, ( b ⋅ h ⋅ w ) × c × n (b·h·w) × c × n (bhw)×c×n用于时间卷积, ( b ⋅ h ⋅ w ) × n × c (b · h · w) × n × c (bhw)×n×c用于时间self-attention

3.3表征内容及结构

受限于无视频-文本对数据,因此需要从训练视频x提取结构及内容表征;因此每个样本损失函数如式6,
在这里插入图片描述
推理时,结构 s s s及内容 c c c通过输入视频 y y y及文本prompt t t t提取,如式7,x为生成结果。
在这里插入图片描述

内容表征

使用CLIP的image embedding表征内容,训练先验模型,可通过text embedding采样image embedding,使得可通过image输入进行编辑视频。
解码器可视化证明CLIP embedding增加对语义及风格敏感度,同时保持目标大小、位置等几何属性不变。

结构表征

语义先验可能会影响视频中目标形状。但是可以选择合适的表征引导模型降低语义与结构之间相关性。作者发现输入视频帧深度估计提供所需结构信息。
为了保留更多结构信息,作者基于结构表征训练模型,作者通过模糊算子进行扩散与其他增加噪声方法相比,增加稳定性。

条件机制

结构表征视频各帧空间信息,作者使用concat进行使用此信息;
对于内容信息与特定位置无关,因此使用cross-attention,可将此信息传递至各位置。
作者首先基于MiDaS DPT-Large模型对所有输入帧估计深度图,然后使用 t s t_s ts轮模糊及下采样操作,训练过程 t s t_s ts随机采样 0 − T s 0-T_s 0Ts,控制结构保留度,如图10,将扰动深度图重采样至RGB帧分辨率并使用 ϵ \epsilon ϵ进行编码,得到特征与输入 z t z_t zt进行concat输入UNet。
在这里插入图片描述

采样

作者使用DDIM,使用无分类器扩散引导提升采样质量;依据下式进行,
在这里插入图片描述
作者训练两个共享参数模型:视频模型以及图像模型,利用式8控制视频帧时间一致性,效果如图4所示。
在这里插入图片描述

3.4优化过程

1、使用预训练LDM初始化模型;
2、基于CLIP image embeddings finetune模型;
3、引入时间联系,联合训练图像及视频;
4、引入结构信息 s s s t s t_s ts设置为0,训练模型;
5、 t s t_s ts随机采样0-7,训练模型

实验结果

为自动生成prompt,作者使用blip获取视频description,使用GPT-3生成prompt
对于各种输入结果如图5所示,拥有多种可编辑能力,比如风格变化、环境变化、场景特性。
在这里插入图片描述
图8证明mask视频编辑任务;
在这里插入图片描述
用户评判结果如图7,
在这里插入图片描述
帧一致性评估:计算输出视频各帧CLIP image embeddings,计算连续帧之间平均余弦相似度;
Prompt一致性评估:计算输出视频各帧CLIP image embeddings与text embeddings之间平均余弦相似度。

图6展示实验结果,日益增加的时间尺度 w s w_s ws,导致更高帧一致性但是第prompt一致性,结构尺度 t s t_s ts越大,导致更高prompt一致性,内容与输入结构一致性越低。
在这里插入图片描述
基于小数据集finetune方法DreamBooth,作者在15-30张图片上finetune模型,图10展示可视化结果。

结论

作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次 t s t_s ts控制结构保留度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/714091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

aliyun-oss-sdk阿里云OSS视频上传(断点续传)前端实现

问题背景 最近上传视频的功能,突然炸了,两年没动的代码,突然不行辽,首次上传成功,后面继续上传就可以,但凡有一次上传失败,再上传文件就不行。 这里博主使用的是凭证上传方式哈。 凭证上传 …

CMU 15-445 -- Hash Tables - 04

CMU 15-445 -- Hash Tables - 04 引言Hash TablesHash FunctionsHashing Scheme小结 Dynamic Hash TablesChained Hashing (链式哈希)Extendible Hashing(可扩展哈希)Linear Hashing(线性哈希) 总结 引言 本系列为 CMU 15-445 Fall 2022 Database Systems 数据库系统 [卡内基梅…

【IDA疑难杂症修复】

我们在使用IDA进行逆向分析的时候,会遇到一些问题,这篇文章来带领大家学习IDA中疑难杂症的修复:函数大小限制,栈不平衡,switch无法识别(跳转表修复),ida Decompile as call。 一.函…

Redis学习(一)数据类型、Java中使用redis、缓存概念

文章目录 常用数据结构String类型Hash类型List类型Set类型SortedSet 类型 通用命令key的层级结构 Spring Data Redis快速入门RedisTemplate的序列化方式StringRedisTemplateRedisTemplate的Hash类型操作 实战操作短信登录发送验证码校验登录信息校验登录状态 商家查询缓存缓存更…

antdesignpro组件Upload传excel文件到后端flask的两种方案

(特别提醒:后端xlrd新版本不支持xlsx文件,所以暂用xls文件进行上传) 1.第一种方案:组件接收到excel文件,然后解析成list数据,解析是要用到XLSX( 安装插件:npm i xlsx --save impor…

【Leetcode】21.合并两个有序链表

一、题目 1、题目描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例1: 输入:l1 = [1,2,4], l2 = [1,3,4] 输出:[1,1,2,3,4,4]示例2: 输入:l1 = [], l2 = [] 输出:[]示例3: 输入:l1 = [], l2 = [0] 输…

Cesium 常用标绘线、面、矩形、圆、曲面、曲线、攻击箭头、钳击箭头,标绘与修改。

前言:直接放效果图,符合就往下看,不符合出门右转。 由于篇幅有限,只贴出各个标绘的关键代码。 1、线段 基于坐标点,加载不同的材质。 //动态加载 const entity this._viewer.entities.add({polyline: {positions: …

K8S网络管理

这里写目录标题 1 网络管理1.1Service1.1.1 网络体系1.1.2 工作模型1.1.3 SVC实践1.1.4 IPVS实践 1.2 其他资源1.2.1 域名服务1.2.2 CoreDNS1.2.3 无头服务 1.3 flannel方案1.3.1 网络方案1.3.2 flannel1.3.3 主机网络 1 网络管理 1.1Service 1.1.1 网络体系 学习目标 这一…

Shell脚本 中运行sudo命令

在shell脚本中有时需要使用sudo进行提权,运行包含这类脚本的文件时通常需要我们在终端输入sudo密码,但是在一些无人值守的应用中显然就不太适合了。本文通过构建一个多用户的ubuntu操作环境,来展示脚本中需要使用sudo命令时的应用场景。 我们…

基于vue3+vite+ts,使用nexus发布组件库

1、前提条件 已部署nexus3,可参考: Ubuntu部署和体验Nexus3-腾讯云开发者社区-腾讯云 代理设置: 【Nexus】通过Nexus搭建Npm私库_猫巳的博客-CSDN博客 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一…

Java --- springboot3之可观测性

目录 一、可观测性 二、定制健康监控的端点 三、定制metrics 四、整合PrometheusGrafana 一、可观测性 导入pom依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId></d…

如何从PCB上直接启动Power DC直流压降仿真分析工具

如何从PCB上直接启动Power DC直流压降仿真分析工具 POWER DC的启动除了可以通过POWER DC.exe直接启动外,还可以直接通过Allegro的PCB界面直接启动,二者软件是支持关联的。如何启动,具体操作如下 用166或者172版本打开PCB点击File点击Change Edi

JVM源码剖析之JVM层面调用Java方法

先看以下2个案例。 Runnable runnable () -> {System.out.println(1); }; new Thread(runnable).start(); 为什么调用Thread的start方法就能执行Runnable的代码&#xff1f; public static void main(String[] args) {System.out.println(1); } 作为Java开发者&#x…

基于差速驱动移动基座的三维变型机器人轨迹优化

在执行任务时&#xff0c;服务机器人的功能结构变化可能会限制其自主导航能力&#xff0c;从而影响其行动力。本文的研究&#xff0c;旨在解决复杂三维环境中可变形机器人的轨迹规划问题&#xff0c;特别是应用最为广泛的基于差速驱动移动基座的移动机器人的轨迹规划。 这种全…

如何下载一个网站的全部网页文件 如何极速下载网页上的文件

许多网站上都有非常多的内容&#xff0c;一个个下载比较麻烦&#xff0c;那么我们如何下载一个网站的全部网页文件&#xff1f;我们可以使用下载软件抓取整个站点上检索出所有内容&#xff0c;然后通过过滤器选择自己需要的内容。如何极速下载网页上的文件&#xff1f;我们可以…

电脑-问题

如果使用了小米路由器&#xff0c;有望 但是平凡跳转到miwifi进行检查&#xff0c;或者显示证书问题 在浏览器设置里搜索dns&#xff0c;将 确定如何通过安全连接来连接到网站后面部分改成自定义&#xff1a; https://dns.alidns.com/dns-query 主要原因是&#xff1a; edge新…

C++图形开发(4):下落的小球

文章目录 1.小球自上而下依次出现2.下落的小球低配版3.下落的小球高配版 1.小球自上而下依次出现 首先&#xff0c;我们来使小球自上而下依次出现&#xff1a; 分析&#xff1a;要使小球自上而下依次出现&#xff0c;也就是指在一个小球出现之后让程序暂停一段时间&#xff0c…

基于单片机电子密码锁射频卡识别指纹门禁密码锁系统的设计与实现

功能介绍 通过指纹进行开锁或者是按键输入当前的密码&#xff0c;修改密码&#xff0c;对IC卡可以进行注册&#xff0c;删除。当有RFID卡进入到读卡器的读卡范围内时&#xff0c;则会自动读取卡序列号&#xff0c;单片机根据卡的序列号对卡进行判断。若该卡是有效卡&#xff0c…

【 SVG 】二、SVG 容器元素

一、本文概述 本文所介绍的 svg 中元素&#xff0c;通常不会直接作为直接展示元素&#xff0c;而是配合其他基础元素&#xff0c;以实现指定功能的图层组&#xff0c;本文围绕 svg 常用容器元素&#xff0c;进行实战应用&#xff1b; 二、 SVG 容器元素&#xff08;常用&#x…

「软件测试」最全面试问题和回答,全文背熟不拿下offer算我输

一般要应聘关于测试的工作&#xff0c;面试题会不会很难?下面小编整理了软件测试面试题及答案&#xff0c;欢迎参考! 一、引言 1.1 文档目的 本次文档是为了收集在面试中遇到的一问题与常见的一些答案并不是唯一答案 二、职业规划 2.1 简单的自我介绍下 面试宫&#xff…