论文阅读——MVDiffusion

news2024/12/23 9:47:32

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

文生图模型

用于根据给定像素到像素对应关系的文本提示生成一致的多视图图像。

MVDiffusion 会在给定任意每个视图文本的情况下合成高分辨率真实感全景图像,或将一幅透视图像推断为完整的 360 度视图。

对于以深度/姿势为条件的多视图图像生成,MVDiffusion 展示了场景网格纹理的最先进性能。

MVDiffusion 通过运行稳定扩散模型的多个副本/分支来同时生成多个图像,并采用新颖的分支间“对应感知注意”(CAA)机制来促进多视图一致性。

Panorama generation任务:

全景图是通过生成八个透视图来实现的,每个透视图具有 90° 的水平视场和 45° 的重叠。为了实现这一目标,我们通过生成模块使用冻结的预训练稳定扩散模型生成八个 512 × 512 图像

CCA:特征图之间的交叉注意力:

在条件图像的 UNet 分支中,我们将一个由 1 组成的掩码连接到图像(总共 4 个通道)。然后,该串联图像用作修复模型的输入,这确保条件图像的内容保持不变。相反,在目标图像的 UNet 分支中,我们将黑色图像(像素值为零)与零掩码连接起来作为输入,从而要求修复模型根据文本生成全新的图像条件以及与条件图像的对应关系。

训练CAA模块。

Multiview depth-to-image generation任务

多视图深度到图像任务旨在生成给定深度/姿势的多视图图像。

MVDiffusion 的过程从生成模块生成关键图像开始,然后由插值模块进行致密化以获得更详细的表示。

多视图深度图像生成的生成模块与全景图生成的生成模块类似。

MVDiffusion 的插值模块受 VideoLDM 的启发,在一对“关键帧”之间创建 N 个图像,这些图像之前已由生成模块生成。该模型采用与生成模型相同的 UNet 结构和对应注意力权重,具有额外的卷积层,并使用高斯噪声重新初始化中间图像和关键图像的潜在特征。该模块的一个显着特征是关键图像的 UNet 分支以已生成的图像为条件。具体来说,这个条件被合并到每个 UNet 块中。在关键图像的 UNet 分支中,生成的图像与 1 的掩码(4 个通道)连接,然后使用零卷积运算将图像下采样到相应的特征图大小。这些下采样条件随后被添加到 UNet 模块的输入中。对于中间图像的分支,我们采取不同的方法。我们将像素值为零的黑色图像附加到零掩码,并应用相同的零卷积运算对图像进行下采样以匹配相应的特征图大小。这些下采样条件也被添加到 UNet 模块的输入中。此过程本质上是对模块进行训练,以便当掩码为 1 时,分支重新生成条件图像,而当掩码为零时,分支生成中间图像。

采用两阶段的培训过程。在第一阶段,我们使用所有 ScanNet 数据对 SD UNet 模型进行微调。此阶段是没有 CAA 块的单视图训练。在第二阶段,我们将 CAA 块和图像条件块集成到 UNet 中,并且仅训练这些添加的参数。我们使用与全景生成相同的损失来训练模型。

计算资源:

4 NVIDIA RTX A6000 GPUs

实验结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1574622.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Solo 开发者周刊 (第10期):Sora 之后,谁是被遗忘的?谁又是被仰望的?

这里会整合 Solo 社区每周推广内容、产品模块或活动投稿,每周五发布。在这期周刊中,我们将深入探讨开源软件产品的开发旅程,分享来自一线独立开发者的经验和见解。本杂志开源,欢迎投稿。 好文推荐 Solo 社区 x 机器之心-再谈复现 …

设置模式——备忘录模式

备忘录模式 备忘录模式(Memento Design Pattern),也叫快照(Snapshot)模式。指在不违背封装原则前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态,以便之后恢复对象为先前…

【Linux】指令

1. 简单指令 whoami 显示当前登入账号名 ls /home 现在有的用户名 adduser 用户名 新加用户(必须在root目录下) passwd 用户名 给这个用户设置密码 userdel -r 用户名 删除这个用户 pwd 显示当前所处路径 stat 文件名 / 文件夹名 显示文件状…

【Linux网络编程】网络编程套接字(TCP服务器)

【Linux网络编程】网络编程套接字(TCP服务器) 目录 【Linux网络编程】网络编程套接字(TCP服务器)地址转换函数关于inet_ntoa 简单的TCP网络程序TCP sockot API详解socket()bind()listen()accept();connect 完整的TCP服务器代码(线程池版) 作者&#xff1…

云谈网页聊天室的web自动化测试 性能测试 (包含测试代码和测试的详细过程)

概要 项目名称:云谈网页聊天室测试日期:2024-03-05测试人员:汪汪miao~测试类型:功能测试、集成测试,接口测试、性能测试测试框架&工具:Selenium、Junit、LoadRunner 项目背景 云谈网页聊天室是一款实…

【算法】两数之和(暴力求解+哈希表)

本题来源---《两数之和》。 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里…

OPPO云VPC网络实践

1 OPPO 云网络现状 随着OPPO业务的快速发展,OPPO云规模增长迅速。大规模虚拟实例的弹性伸缩、低延时需求对网络提出了诸多挑战。原有基于VLAN搭建的私有网络无法解决这些问题,给网络运维和业务的快速上线带来了挑战。 梳理存在的主要问题如下&#xf…

redis 集群模式(redis cluster)介绍

目录 一 redis cluster 相关定义 1, redis cluster 是什么 2,redis 集群的组成 3,集群的作用 4,集群架构图 二 Redis集群的数据分片 1,哈希槽是什么 2,哈希槽如何排布 3,Redis集…

(源码+部署+讲解)基于Springboot+vue校园设施报修系统的设计与实现

前言 💗博主介绍:✌专注于Java、小程序技术领域和毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2024年Java精品实战案例《100套》 🍅文末获取源码联系🍅 &#x1f31f…

freeRTOS-day4

1.总结二进制信号量和计数型信号量的区别,以及他们的使用场景。 二进制信号量只有两个状态:0和1。它通常用于线程同步,表示某个线程执行完毕,另一个线程才能开始执行。这种特性使得二进制信号量特别适用于互斥访问共享资源的场景…

ensp 通过cloud连接交换,通过本机直连telnet交换机

#连接图 #cloud配置 绑定本机一个虚拟网卡,勾选双向通信,这样就可以通过真机直接telent到交换机 #交换机配置 #需要将管理口ip配置为绑定的虚拟网卡同网段的IP,便于直接链接 system-view sysname s5700 undo info-center en telnet server…

HTTP 常见的状态码以及其适用场景

是什么 HTTP状态码(英语:HTTP Status Code),用以表示网页服务器超文本传输协议响应状态的3位数字代码 它由 RFC 2616规范定义的,并得到 RFC 2518、RFC 2817、RFC 2295、RFC 2774与 RFC 4918等规范扩展 简单来讲&#…

什么是网络行为监控审计

网络行为监控审计,顾名思义,是指对网络使用者的行为进行实时监控,并对这些行为进行详细记录和审计的过程。 它涉及到对网络流量、用户操作、数据访问等多个方面的监控,旨在发现潜在的安全威胁和违规行为,从而保障网络…

视听杂志知网收录期刊投稿发表论文

《视听》是由国家新闻出版总署批准的正规的,兼有新闻传播、新媒体理论探索的当代学术性省级综合期刊。坚持正确的理论导向,全面展示广播影视事业发展中出现的新情况、新事物,探索现代传媒基础理论,研究网络传播、通讯传播等新媒体…

职场中持续加班的原因、影响及应对策略

在当今竞争激烈的职场环境中,加班已经成为许多行业的常态。本文将探讨持续加班的原因、对员工和企业的负面影响,以及应对持续加班的策略。 一、持续加班的原因 1. 工作任务繁重:在许多企业中,工作任务量过大,员工为了完…

Sora的阅读技术报告

sora的技术报告 走进sorasora的特性sora的介绍sora的实际操作sora的发展安全措施研究技术 走进sora 大家好,我是清风之上。随着人工智能的发展,慢慢的他已经出现在我们生活中的各个角落,其中有API推出的sora,让我们震惊不已&…

Linux多进程通信(4)——消息队列从入门到实战!

Linux多进程通信总结——进程间通信看这一篇足够啦! 1.基本介绍 1)消息队列的本质其实是一个内核提供的链表,内核基于这个链表,实现了一个数据结构,向消息队列中写数据,实际上是向这个数据结构中插入一个…

页面转word的那些事

背景 有些时候需要将页面内容或者是页面的数据通过word进行下载,以方便客户进行二次编辑,而不是直接导出图片或者是pdf。 想在页面端点击下载成word,那必然需要服务端来进行读写文件,无论是你后端编辑好的内容流,还是…

MySQL如何创建存储过程

工作中有时候需要自己去创建存储过程,然后调用存储去获得一些数据等,接下来就给大家介绍下MySQL如何创建存储过程。 语法: CREATE PROCEDURE 存储程名([[IN|OUT|INOUT] 参数名 数据类型[,[IN|OUT|INOUT] 参数名 数据类型…]]) [特性 …] 过…

git生成ssh key并推送到远端仓库

ssh-keygen -t rsa -C "anarckkgmail.com"在用户文件夹中找到id_rsa.pub,把内容复制到gitea的配置里,然后直接用git推送就可以了