【AIGC】SYNCAMMASTER:多视角多像机的视频生成

news2025/4/19 8:16:14

在这里插入图片描述


标题:SYNCAMMASTER: SYNCHRONIZING MULTI-CAMERA VIDEO GENERATION FROM DIVERSE VIEWPOINTS
主页:https://jianhongbai.github.io/SynCamMaster/
代码:https://github.com/KwaiVGI/SynCamMaster

文章目录

  • 摘要
  • 一、引言
  • 二、使用步骤
    • 2.1 TextToVideo生成模型
    • 2.2 多视图同步模块(SYNCHRONIZATION MODULE)
    • 2.3 数据收集
    • 2.4 训练策略
    • 2.4 扩展到新视图的视频合成
  • 三、实验
  • 四、代码


摘要

  视频扩散模型的最新进展在模拟真实世界的动态和保持三维一致性方面显示出了特殊的能力,能够确保不同视点间的动态一致性。不像现有方法(专注于多视图生成单个对象的四维重建),我们从任意视点生成开放世界视频,结合6自由度摄像机姿态。提出一个即插即用模块,即多视图同步模块,以保持这些视点的外观和几何一致性。针对训练数据,设计一个混合训练方案,利用多像机图像和单目视频来补充UE渲染的多像机视频。此外扩展了从新视角重新渲染视频,还发布了一个多视图SynCam数据集。

  


一、引言

  以往多相机生成方面的努力主要集中在4D对象生成上。它们仅限于从固定位置生成多视图视频,比如沿着围绕物体的轨道以等间隔采样。此外,它们仅限于单对象域,不支持开放域场景生成。最近CVD(Kuang et al.,2024)探索了从相同pose开始的多像机轨迹合成视频。然而,由于数据集构建的限制,这种方法只在狭窄视点的背景下进行研究

  从任意视点的开放域多摄像机视频生成,面临两个挑战: (i)跨多视点的动态同步,这引入了保持4D一致性的复杂性,以及(ii)具有不同pose的多像机视频的稀缺。

  引入即插即用模块来利用预训练的文本-视频生成模型:给定所需摄像机的外参,通过将摄像机设置为全局坐标系来进行归一化,使用camera encoder将这些参数编码到像机嵌入空间中。然后在一个多视图同步模块中计算特征间注意力,该模块被集成到预训练的DiT中。

  创建一个混合训练数据集SynCam,由多视图图像、常见单视图视频和UE渲染的多视图视频组成。虽然手动准备的UE数据存在特定领域的问题和数量有限,但公开可用的通用视频增强了对开放领域场景的泛化,而多视图图像促进了视点之间的几何和视觉一致性。

二、使用步骤

  我们的目标是实现一个开放域多摄像机视频生成模型,可以 合成n个同步视频{ V 1 , . . . , V n V^1,...,V^n V1,...,Vn} ∈ R n × f × c × h × w ∈R^{ n×f×c×h×w} Rn×f×c×h×w,即 f f f帧符合文本提示 P t P_t Pt n n n个指定视点{ c a m 1 × , . . . , c a m n cam^1×,...,cam^n cam1×,...,camn} 。视点用相机的外参表示,即 c a m i cam_i cami:= [ R , t ] ∈ R 3 × 4 R,t]∈R^{3×4} R,t]R3×4,为了简化,假设视点在各帧之间保持不变,并利用预训练视频扩散模型进行三维一致的动态内容合成,并引入即插即用的多视图同步模块来调节视图间的几何和视觉一致性,如图2。

在这里插入图片描述

2.1 TextToVideo生成模型

  预训练的latent SVD 由一个3D VAE和一个DiT组成。其中每个Transformer block都被实例化为一系列的空间注意、三维(时空)注意力和交叉注意力模块。前向过程,以及用常微分方程(ODE)去噪过程如下:

在这里插入图片描述

速度 v v v由神经网络的权值 Θ Θ Θ参数化。对于训练,回归一个向量场 u t u_t ut,通过Conditional Flow Matching 生成 p 0 p_0 p0(数据分布)和 p 1 p_1 p1(噪声分布)之间的概率路径:在这里插入图片描述

在这里插入图片描述

2.2 多视图同步模块(SYNCHRONIZATION MODULE)

  在T2V生成模型的基础上,训练多视图同步(MVS)模块,并冻结base model。以下操作是跨视点的逐帧执行的,为简化省略了帧索引 t t t MVS模块的输入为 空间特征 F s F^s Fs = { F 1 s , . . . , F n s F^s_1,..., F^s _n F1s,...,Fns} ∈ R n × f × s × d R^{n×f×s×d} Rn×f×s×d和token尺寸为 s = h ∗ w s =h∗w s=hw)和n个视频的相机外参 c a m = cam= cam={ c a m 1 , . . . , c a m n cam^1,...,cam^n cam1,...,camn}∈ R n × 12 R^{n×12} Rn×12,输出视图一致的特征 F ˉ v \bar{F}^v Fˉv= { F ˉ 1 v , . . . , F ˉ n v \bar{F}^v _1, . . . , \bar{F}^v_n Fˉ1v,...,Fˉnv} ∈ R n × f × s × d ∈R^{n×f×s×d} Rn×f×s×d到base T2V模型的后续层。

  具体地,首先将第 i i i台像机的12维外参嵌入为像机编码器 ϵ c {\epsilon}_c ϵc,按element-wise添加到相应的空间特征中。然后利用跨视图自注意层来进行多视图同步。最后,将聚合的特征投影回具有线性层和残差连接的空间特征域:

在这里插入图片描述

2.3 数据收集

  多视图视频数据的缺乏是阻碍多视图视频生成模型训练的主要挑战之一。现有的多视角视频数据主要包括(1)从不同视角的4D资产视频和(2)以人为中心的运动捕捉数据集。

  three-step 解决方案,如图3所示。首先,利用单摄像机视频作为多视点图像数据,将不同视点之间的几何对应关系知识转移到视频生成中。具体来说,RealEstate-10K和DL3DV-10K包含跨帧的摄像机运动的视频及其相应的摄像机参数,从中采样n个视频帧作为可用的多视图图像数据。其次,使用UE引擎手动渲染少量的视频(500个场景,每个场景36个摄像机),这些视频具有在城市环境中移动的人类和动物等3D资产。我们通过随机放置摄像机位置来增强模型在任意视点上的泛化能力。最后,在训练过程中加入了高质量的一般视频数据(没有相应的摄像机信息)作为正则化。首先,我们收集了70个人类和动物的3D资产作为主体,并在3D场景中选择了500个不同的位置作为背景。其次,随机抽取1-2名主要受试者,将他们放置在每个位置,并让他们沿着几个预先定义的轨迹移动。第三,我们在每个场景的不同位置设置了36台摄像机,并同步渲染100帧。因此,多视图视频数据集由500组同步视频组成,每组有36个摄像机。每个场景中的摄像机都被放置在一个半球形的表面上,距离中心为3.5米-9米。为了确保渲染的视频与真实视频具有最小的域移动,我们将每个摄像机的高程限制在0◦-45◦之间,方位角限制在0◦-360◦之间。为了支持SynCamMasser从任意视点合成视频,每个摄像机都在约束范围内随机采样,而不是在场景中使用相同的摄像机位置集。图4显示了一个场景的例子,其中红色的星星表示场景的中心点(略高于地面),视频由同步摄像机渲染视频,以捕捉主体的运动

在这里插入图片描述

2.4 训练策略

  渐进式训练。为了有效地学习不同视点之间的几何对应关系,我们发现从用相对较小的角度差异输入模型视图开始,并在训练过程中逐步增加差异是至关重要的。当相对角度较大的输入视点时,简单地从同一场景中的不同摄像机进行随机采样,就会导致视点跟踪功能的性能显著下降(图7)

在这里插入图片描述

  与多视图图像数据的联合训练。为了缓解多摄像头视频数据的缺乏,通过引入的单摄像头视频数据中采样来构建多视图图像数据。DL3DV-10K作为辅助图像数据,包括∼10K视频,包括室内外场景的广角摄像机运动,显著提高了SynCamMaster的泛化能力。(10K vs 500)

  使用single-view视频联合训练。为了提高合成视频的视觉质量,将高质量的视频数据(没有摄像机信息)作为正则化。给定一个single-view视频,复制成 v v v个具有相同相机参数的多视图视频(数据增强)。此外,我们观察到,当简单地使用任意摄像机运动的视频时,性能会下降,这可能是由于分布未对齐引起的,因为SynCamMaster的目标是从一个固定的视角生成视频。为此,我们使用以下三个步骤过滤掉静态摄像机视频数据:首先,我们将视频降采样到8 fps,并使用SAM分割第一帧,获得64个分割掩码。然后将每个mask的中心作为锚点,使用视频点跟踪方法CoTracker来计算每个锚点在所有帧中的位置坐标。最后,我们确定所有点的位移是否低于一定的阈值,来过滤掉12000个静态摄像机视频,这些视频在训练过程中被添加为一个正则化项。

2.4 扩展到新视图的视频合成

  为了实现新视图视频合成任务,基于参考视频生成不同视点的视频,将SynCamMaster转换为一个 video-to-multiview-video生成器 训练中 ,给定多视角视频在时间步 t t t 的噪声latent features { z t 1 , . . . , z t n z_t^1,...,z_t^n zt1,...,ztn} ∈ R n × f × c × h × w ∈ R^{n×f×c×h×w} Rn×f×c×h×w将第一个视图视频为参考,将原始视频的噪声潜在概率替换为p = 90%,即 z t 1 = z 0 1 z_t^1 = z_0^1 zt1=z01。为此,来自新视图(i = 2,···,n)的视频可以通过之前的多视图同步模块,有效地聚合来自参考视图的特征。推理阶段 ,首先用预训练的视频编码器提取输入视频的潜在特征,然后在每个时间步长t = T、···、0进行特征替换。同时对文本条件 c T c_T cT和视频条件 c V c_V cV实现加权的无分类器指导,类似于diult-pix2pix:

在这里插入图片描述

s T s_T sT s V s_V sV分别为文本和视频条件的加权分数,实践中设置为7.5和1.8,得到的SynCamMaster可以有效地重新渲染与文本提示和摄像机pose一致的视频,如图8:

在这里插入图片描述

三、实验

  实验细节。我们在多视图视频数据、多视图图像数据和单视图视频数据上联合训练我们的模型,其概率分别为0.6、0.2和0.2。我们以384x672的分辨率训练了50K步长的模型,学习率为0.0001,批量大小为32。利用temporal-attention的权重对view-attention module进行初始化,并对摄像机编码器和投影器进行零初始化。

  评价指标。主要从cross-view synchronization(跨视图同步)和visual quality两方面来评价所提出的方法。 跨视图同步方面,使用最先进的图像匹配方法GIM来计算: (1)置信度大于阈值的匹配像素数,记为Mat.Pix.,和(2)由每一帧的GIM估计的旋转矩阵和平移向量及其地面真实值之间的平均误差,分别表示为RotErr和TransErr。此外,我们计算了SV4D中的FVDV评分和同一时间戳下多视图帧之间的平均CLIP相似度,记为CLIP-V。对于视觉质量,我们将其分为保真度、文本一致性和时间一致性,并分别使用FID和FVD、CLIP-T和CLIP-F对其进行量化。CLIP-T为每一帧及其对应文本提示符的平均CLIP相似度,CLIP-F为相邻帧的平均CLIP相似度。我们用100个手动收集的文本提示来构建评估集,每个文本提示有4个视点进行推断,总共得到400个视频

  对比方法 由于还没有其他类似工作。为此,我们建立了基线方法,首先提取SynCamMaster生成的每个视图的第一帧,然后将它们输入(1)图像到视频(I2V)生成方法,即SVD-XT (2)基于SVD-XT的最先进的单摄像机控制方法CameraCtrl。由于CameraCtrl在静态摄像机轨迹条件下具有非最优性能,因此我们使用具有有限运动的轨迹作为输入。为了确保公平的比较,我们另外训练了一个基于SynCamMasser使用的相同T2V模型的I2V生成模型,I2V模型采用类似于EMU视频的方法,对50K步进行微调。在训练过程中,我们将第一帧的潜在特征与噪声视频的潜在特征沿信道维数进行扩展和连接,并以零初始化的权值扩展输入卷积层的维数。我们也用在0.1的概率下的零来代替潜在的图像。在推理阶段,我们对图像和文本条件实现了无加权分类器的指导

在这里插入图片描述

图5:与最先进的方法的比较。基线方法的参考多视图图像(在蓝框中显示)由SynCamMaster生成。结果表明,SynCamMaster从同一场景的不同视点生成一致的内容(例如,红框中的细节),并实现了良好的视图间同步。

在这里插入图片描述

在这里插入图片描述

图6:在联合训练策略的消融实验。两边的字幕代表了训练集的构成,其中“Mono. Video”是指一般的单目视频。结果表明,利用辅助的多视点图像数据和一般视频数据进行训练,可以显著提高合成视频的泛化能力和保真度。

四、代码

1.训练数据格式如下:


SynCamVideo
├── train
│   ├── videos    # training videos
│   │   ├── scene1    # one scene
│   │   │   ├── xxx.mp4    # synchronized 100-frame videos at 480x720 resolution
│   │   │   └── ...
│   │   │   ...
│   │   └── scene1000
│   │       ├── xxx.mp4
│   │       └── ...
│   └── cameras    # training cameras
│       ├── scene1    # one scene
│       │   └── xxx.json    # extrinsic parameters corresponding to the videos
│       │   ...
│       └── scene1000
│           └── xxx.json
└──val
    └── cameras    # validation cameras
        ├── Hemi36_4m_0    # distance=4m, elevation=0°
        │   └── Hemi36_4m_0.json    # 36 cameras: distance=4m, elevation=0°, azimuth=i * 10°
        │   ...
        └── Hemi36_7m_45
            └── Hemi36_7m_45.json

2.预训练权重未开源

3.关键代码

# 1. add pose feature
pose = rearrange(pose, "b v d -> (b v) 1 d")
pose_embedding = self.cam_encoder(pose)
norm_hidden_states = norm_hidden_states + pose_embedding

# 2. multi-view attention
norm_hidden_states = rearrange(norm_hidden_states, "(b v) (f s) d -> (b f) (v s) d", f=frame_num, v=view_num)
norm_encoder_hidden_states = rearrange(norm_encoder_hidden_states, "(b v) n d -> b (v n) d", v=view_num)
norm_encoder_hidden_states = repeat(norm_encoder_hidden_states, "b n d -> (b f) n d", f=frame_num)
attn_hidden_states, _ = self.attn_syncam(
    hidden_states=norm_hidden_states,
    encoder_hidden_states=norm_encoder_hidden_states,
    image_rotary_emb=image_rotary_emb_view,
)

# 3. project back with residual connection
attn_hidden_states = self.projector(attn_hidden_states)
attn_hidden_states = rearrange(attn_hidden_states, "(b f) (v s) d -> (b v) (f s) d", f=frame_num, v=view_num)
hidden_states = hidden_states + gate_msa * attn_hidden_states

  

  

  







d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ x ^ \hat{x} x^ x ~ \tilde{x} x~ ϵ \epsilon ϵ
ϕ \phi ϕ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2277713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++类与对象(一)—学习记录

序言:要想开发一款成功的应用程序,其开发者必须充分了解并实现用户的需求。作为一个设计良好的类,既要有直观且易于使用的接口,也必须具备高效的实现过程。 一、类与对象基本概念 面向对象程序设计的主要特点为抽象、封装、继承与…

【React】新建React项目

目录 create-react-app基础运用React核心依赖React 核心思想:数据驱动React 采用 MVC体系package.jsonindex.html好书推荐 官方提供了快速构建React 项目的脚手架: create-react-app ,目前使用它安装默认是19版本,我们这里降为18…

Jmeter数据库

jmeter之操作数据库 一、下载jdbc 驱动,安装jdbc驱动 2、将驱动存放在4个路径下 (1)C:\Program Files\Java\jre1.8.0_60\lib (2)第二个存放的包 C:\Program Files\Java\jre1.8.0_60\lib\ext (3&#xf…

nginx: [emerg] bind() to 0.0.0.0:80 failed 端口被占用

nginx: [emerg] bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way forbidden by its access permissions) 查看被占用的端口 被系统占用了 HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Services/HTTP 然后再进入nginx文件夹目录下…

《C++11》深入剖析正则表达式库:解锁文本处理的高效之道

在现代编程领域,文本处理是一项不可或缺的任务,而正则表达式无疑是这一领域的强大利器。C11标准库的引入,为C开发者带来了正则表达式库,极大地丰富了C在文本处理方面的能力。本文将全方位、多角度地深入探讨C11正则表达式库&#…

c语言----------内存管理

内存管理 目录 一。作用域1.1 局部变量1.2 静态(static)局部变量1.3 全局变量1.4 静态(static)全局变量1.5 extern全局变量声明1.6 全局函数和静态函数1.7 总结 二。内存布局2.1 内存分区2.2 存储类型总结2.3内存操作函数1) memset()2) memcpy()3) memmove()4) memcmp() 2.4 堆…

机器学习-归一化

文章目录 一. 归一化二. 归一化的常见方法1. 最小-最大归一化 (Min-Max Normalization)2. Z-Score 归一化(标准化)3. MaxAbs 归一化 三. 归一化的选择四. 为什么要进行归一化1. 消除量纲差异2. 提高模型训练速度3. 增强模型的稳定性4. 保证正则化项的有效…

STC的51单片机LED点灯基于KEIL

前言: 该文源于回答一个朋友的问题,代码为该朋友上传,略作修改,在此说明问题以及解决问题的思路,以减少新手错误。 电路图: 该位朋友未上传电路图,说明如下: stc8g1k08a-sop8控制…

手撕Transformer -- Day6 -- DecoderBlock

手撕Transformer – Day6 – DecoderBlock 目录 手撕Transformer -- Day6 -- DecoderBlockTransformer 网络结构图DecoderBlock 代码Part1 库函数Part2 实现一个解码器Block,作为一个类Part3 测试 参考 Transformer 网络结构图 Transformer 网络结构 DecoderBlock 代…

【功能测试总结】

功能测试 1. 功能测试用例1.1 设计用例容易出现的问题 2. 如何写用例2.1 什么是好的用例2.2 测试用例设计常见方法 3. 用例分级 1. 功能测试用例 1.1 设计用例容易出现的问题 基础功能点用例覆盖不全/描述不清 描述不清 什么是正常内容,仅看用例能否知道该输入什么…

Mac玩Steam游戏秘籍!

Mac玩Steam游戏秘籍! 大家好!最近有不少朋友在用MacBook玩Steam游戏时遇到不支持mac的问题。别担心,我来教你如何用第三方工具Crossover来畅玩这些不支持的游戏,简单又实用! 第一步:下载Crossover 首先&…

基于Springboot + vue实现的旅游网站

🥂(❁◡❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 💖📕🎉🔥 支持我:点赞👍收藏⭐️留言📝欢迎留言讨论 🔥🔥&…

题解 CodeForces 430B Balls Game 栈 C/C++

题目传送门: Problem - B - Codeforceshttps://mirror.codeforces.com/contest/430/problem/B翻译: Iahub正在为国际信息学奥林匹克竞赛(IOI)做准备。有什么比玩一个类似祖玛的游戏更好的训练方法呢? 一排中有n个球…

Vue3播放视频报ReferenceError: SharedArrayBuffer is not defined

解决办法 前端本地测试vue.config.js server: {headers: {"Cross-Origin-Opener-Policy": "same-origin","Cross-Origin-Embedder-Policy": "require-corp",}, }, 后端vue.js生产环境 跨域隔离 是一种现代Web安全策略,…

Android BottomNavigationView不加icon使text垂直居中,完美解决。

这个问题网上千篇一律的设置iconsize为0,labale固定什么的,都没有效果。我的这个基本上所有人用都会有效果。 问题解决之前的效果:垂直方向,文本不居中,看着很难受 问题解决之后:舒服多了 其实很简单&…

微调神经机器翻译模型全流程

MBART: Multilingual Denoising Pre-training for Neural Machine Translation 模型下载 mBART 是一个基于序列到序列的去噪自编码器,使用 BART 目标在多种语言的大规模单语语料库上进行预训练。mBART 是首批通过去噪完整文本在多种语言上预训练序列到序列模型的方…

基于32QAM的载波同步和定时同步性能仿真,包括Costas环的gardner环

目录 1.算法仿真效果 2.算法涉及理论知识概要 3.MATLAB核心程序 4.完整算法代码文件获得 1.算法仿真效果 matlab2022a仿真结果如下(完整代码运行后无水印): 仿真操作步骤可参考程序配套的操作视频。 2.算法涉及理论知识概要 载波同步是…

设计模式-工厂模式/抽象工厂模式

工厂模式 定义 定义一个创建对象的接口,让子类决定实列化哪一个类,工厂模式使一个类的实例化延迟到其子类; 工厂方法模式是简单工厂模式的延伸。在工厂方法模式中,核心工厂类不在负责产品的创建,而是将具体的创建工作…

【机器学习】零售行业的智慧升级:机器学习驱动的精准营销与库存管理

我的个人主页 我的领域:人工智能篇,希望能帮助到大家!!!👍点赞 收藏❤ 在当今数字化浪潮汹涌澎湃的时代,零售行业正站在转型升级的十字路口。市场竞争的白热化使得企业必须另辟蹊径&#xff0…

day_2_排序算法和树

文章目录 排序算法和树排序算法算法稳定性排序算法☆ 冒泡排序冒泡思路冒泡步骤代码实现效率优化 ☆ 选择排序排序思路排序步骤代码实现 ... 树01-树的基本概念02-树的相关术语03-二叉树的种类04-二叉树的存储05-树的应用场景_数据库索引06-二叉树的概念和性质07-广度优先遍历0…