2D和3D双管齐下才是王道?KAUST联合Snap、VGG提出单张图像三维重建的Magic123框架

news2025/1/15 23:21:43

在最近的AIGC社区中,3D视觉生成领域越来越受到广泛的关注,以神经辐射场(NeRFs) 为基础的深度渲染网络向大家展示了非常惊艳的三维效果。可是,NeRFs需要大量的多视角图片作为监督,因而从单张2D图像进行3D重建依然具有极大的挑战性。本文介绍一篇来自KAUST、牛津大学VGG组和Snapchat合作完成的工作 Magic123(One Image to High-Quality 3D Object Generation using Both 2D and 3D diffusion Pirors)。Magic123是一个两阶段的从粗到细的3D生成框架,其提出同时使用2D和3D视觉先验来从单张图像进行三维重建,下图是Magic123与其他基线方法的生成效果对比。

作者选取了泰迪熊、龙雕像、马和彩色茶壶四种物体进行展示,可以看出,Magic123的三维重建效果较为完整,且非常符合对应真实物体的三维形状和纹理,而参与对比的两个最新方法Neural Lift[1]和RealFusion[2](均发表在CVPR2023上),在物体三维形状和纹理细节控制等方面均存在一定的缺陷,其中Neural Lift甚至生成了两个马头的乌龙效果。Magic123能够产生更好的效果,主要得益于两点:

  1. 作者们同时使用2D和3D先验,促使模型在重建想象力和三维一致性之间达到平衡,且具有更好的泛化能力;
  2. 二阶段训练,在第一阶段,作者通过优化NeRF网络来产生一个粗略的几何形状,在第二阶段再将其不断细化为纹理丰富的高分辨率三维网格。

论文链接:

https://arxiv.org/abs/2306.17843
项目地址:
https://guochengqian.github.io/project/magic123
代码仓库:
https://github.com/guochengqian/Magic123

一、 引言

虽然人类通常使用2D的方式来观察世界,但人脑拥有非常强大的三维想象和推理能力。如何模拟人脑的三维推理能力,是目前三维视觉领域研究的热点问题。3D图像合成模型需要在生成三维物体的同时,尽可能的保留与原物体一致的几何和纹理细节。但是目前仅通过单张图像完成三维重建的方法仍然存在性能瓶颈,作者认为,这主要有由以下两个原因造成:(1)现有的方法通常依赖于大规模标注的3D数据集,这限制了模型在未知域的泛化能力。(2)现有方法在处理3D数据时,生成3D对象的细节和模型的计算资源之间难以进行良好的权衡。如下图所示,作者分别使用泰迪熊、甜甜圈和龙雕像作为三种不同的三维重建情况,由于泰迪熊比较常见,因此模型仅通过学习3D先验就可以将其较好的复原出来。而对于左下角的龙雕像,仅通过有限标注的3D数据集已经无法满足要求,生成的几何结构虽然具有三维一致性却缺少细节。

与3D生成模型相比,2D图像生成模型的发展显然更加迅速和完善,现有的2D生成模型使用海量的文本标注图像进行训练,可以涵盖的图像语义非常广泛,因此使用2D模型作为先验来生成3D内容已经成为一种非常流行的方法,如DreamFusion [6]。但是作者发现,完全依赖2D先验会产生严重的3D不一致性,如Janus problem (生成多个脸),不同视角物体大小和材质不一致等。因此本文的Magic123提出,同时利用3D先验和2D先验,并在它们之间设置一个权衡参数,来达到动态调节3D模型生成效果的目的。除此之外,作者发现,传统的NeRF会占用大量的显存,这导致模型渲染的图像分辨率较低,影响了3D生成的细节,因此作者在Magic123的第二阶段中引入了内存高效的混合3D网格表示,可以将最终的生成分辨率提高到1K,同时细化生成对象的几何纹理和细节。

二、 本文方法

Magic123综合考虑了2D和3D图像生成时的扩散先验,并以一种两阶段(从粗到细)的形式完成从单张图像进行三维重建的任务,Magic123的整体框架如下图所示。

2.1 粗阶段

如上图左半部分所示为Magic123的粗生成阶段,在一过程中,模型重点优化图像的基础几何结构,这一过程主要使用NeRF进行生成。Magic123首先部署了一个预训练的分割模型Dense Prediction Transformer[3]来从给定的单张图像中提取前景目标。此外,在粗阶段,作者综合考虑了NeRF合成时所需的图像重构监督、新视角图像的引导、生成3D对象的深度先验以及NeRF自身的伪影合成缺陷等因素。并根据这些因素分别设计了对应的损失函数,来联合优化整体模型:

2.2 细阶段

由于NeRF庞大的计算开销并且容易引入伪影噪声,因此粗阶段只能生成低分辨率的半成品3D模型。Magic123的细阶段采用了一种混合SDF-Mesh表示,即DMTet[4],其大大优化了NeRF合成时的显存效率,作者提到,先前资源效率较高的NeRF替代方案Instant-NGP在16GB显存GPU上也只能达到128128分辨率,而本文Magic123框架在DMTet的加持下,可以轻松合成渲染图像分辨率1K的高精度三维模型。

2.3 2D先验和3D先验的权衡

Magic123中所参考的2D图像先验来源于Stable Diffusion中的分数蒸馏采样损失(score distillation sampling,SDS),SDS主要作用在图像的扩散过程中,其首先将渲染视图编码到隐空间中,并为其添加一定的噪声,然后根据输入文本提示来预测出去噪的新视图,SDS构建起了渲染视图内容和文本提示之间的一道桥梁。SDS损失的定义如下:

作者随后发现,在图像合成的过程中,使用2D先验和3D先验实际上是互补的,2D先验具有很强想象力拥有使模型探索几何空间的能力,但是会导致生成3D模型的几何不完整,而3D先验则可以弥补这一缺陷,但是通用性较差以及缺少几何细节。因而作者提出了一种权衡二者的先验损失:

三、 实验效果

本文的实验在NeRF4和RealFusion15两个数据集上进行,评价指标使用PSNR、LPIPS和CLIP相似度,其中前两者用来衡量生成效果的重建图像质量和感知相似性,后者则主要通过CLIP模型计算得到的外观相似性来测量生成内容的3D一致性。作者选取了包括Zero-1-to-3、Neural Lift和RealFusion在内的6种方法进行了对比,下表为3D合成效果性能对比

四、 总结

本文提出了一种从粗到细的两阶段3D合成的Magic123框架,Magic123可以仅从单张随机视角的图像出发,生成具有高度纹理细节的高质量3D模型。Magic123通过权衡模型内部的2D和3D扩散先验,克服了现有3D合成框架中的种种局限性,本文提出的2D、3D权衡参数可以使网络在2D几何和3D形状约束之间探索一种动态平衡的效果,使模型在3D合成过程中,同时兼顾对象的多样性和特殊的3D纹理和细节。

参考

[1] Dejia Xu, Yifan Jiang, Peihao Wang, Zhiwen Fan, Yi Wang, and Zhangyang Wang. Neurallift-360: Lifting an in-the-wild 2d photo to a 3d object with 360{\deg} views. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023[2] Luke Melas-Kyriazi, Christian Rupprecht, Iro Laina, and Andrea Vedaldi. Realfusion: 360{\deg} reconstruction of any object from a single image. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.[3] René Ranftl, Alexey Bochkovskiy, and Vladlen Koltun. Vision trans ormers for dense prediction. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 12159–12168, 2021.[4] Tianchang Shen, Jun Gao, Kangxue Yin, Ming-Yu Liu, and Sanja Fidler. Deep marching tetrahedra: a hybrid representation for high-resolution 3d shape synthesis. In Advances in Neural Information Processing Systems (NeurIPS), volume 34, pages 6087–6101, 2021.[5] Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3d object. arXiv preprint arXiv:2303.11328, 2023.[6] Ben Poole, Ajay Jain, Jonathan T Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. International Conference on Learning Representations (ICLR), 2022.

作者:seven_

Illustration by IconScout Store from IconScout

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/724365.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

昆仑万维的“天工”能否改变人工智能应用的格局?

在人工智能领域,昆仑万维公司近日引发了广泛关注,发布了名为“天工”的大语言模型。这一新的技术突破引发了人们对于人工智能应用格局是否会被改变的讨论。随着昆仑万维进军大型语言模型市场,人们开始思考,“天工”能否成为人工智…

面部表情动画数据捕捉利器——AH表情捕捉头盔

在游戏制作、电视广告、影视动画制作中,逐渐开始采用面部捕捉头盔进行采集表情面部数据。广州虚拟动力推出的AH表情捕捉头盔,能够轻松创建实时逼真的面部动画,搭配广州虚拟动力的动作捕捉系统VDMocap Studio Plus,能够自动运算出表…

第八章:怎样远程连接+远程连接常用工具+Teamviewer详解

目录 一、什么是远程连接 二、为什么需要远程连接 三、常用的远程连接工具 四、Teamviewer 一、什么是远程连接 远程连接就是在远程连接另外一台计算机。当某台计算机开启了远程桌面连接功能后我们就可以在网络的另一端控制这台计算机了,通过远程桌面功能我们可…

基于Java校园二手物品交易平台设计实现(源码+lw+部署文档+讲解等)

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

hive函数dayofweek的奇怪用法

hive函数dayofweek的奇怪用法 1.单独使用 select dayofweek(2023-07-03); 周一 2 select dayofweek(2023-07-04); 周二 3 select dayofweek(2023-07-05); 周三 4 select dayofweek(2023-07-06); 周四 5 select dayofweek(2023-07-07); 周五 6 select dayofweek(2023-07-08); …

VIO在ARM上的加速(2)- Neon

VIO在ARM上的加速: VIO在ARM上的加速(1)- ARM加速基础 VIO在ARM上的加速(2)- Neon VIO在ARM上的加速(3)- Neon在VIO中的应用 1 NEON的概述 ARM 处理器中使用的高级 SIMD 扩展的实现称为 NE…

【数据结构与算法】魔王语言解释(C/C++)

实践要求 1. 问题描述 有一个魔王总是使用自己的一种非常精炼而抽象的语言讲话,没有人能听懂。但他的语言是可以逐步解释成人能懂的语言的,因为他的语言是由以下两种形式的规则由人的语言逐步抽象上去的: 形式一 α → β 1 β 2 . . . β m \alpha \…

无线耳机推荐的品牌有哪些?八款无线蓝牙耳机推荐

无线蓝牙耳机无疑是当前最受欢迎的数码产品之一,平听闲暇时刻听听歌或者是运动健身,常常能看到蓝牙耳机的身影,作为一个热衷于听歌的精致boy,佩戴过的蓝牙耳机数不胜数,现在,除了手机品牌会开发无线蓝牙耳机…

西电_矩阵论_学习笔记

文章目录 【 第一章 线性空间 】【 第二章 范数 】【 第三章 矩阵函数 】【 第四章 矩阵分解 】【 第五章 矩阵特征值估计 】【 第六章 广义逆 】【 考试重点内容总结 】 这是博主2023春季西电所学矩阵论的思维导图(软件是幕布),供大家参考&a…

ROS:工作空间覆盖

目录 一、概念二、示例2.1操作2.2原因 三、存在的问题 一、概念 所谓工作空间覆盖,是指不同工作空间中,存在重名的功能包的情形。 ROS 开发中,会自定义工作空间且自定义工作空间可以同时存在多个,可能会出现一种情况: 虽然特定工…

【数学建模】 灰色预测模型

数学建模——预测模型简介 https://www.cnblogs.com/somedayLi/p/9542835.html 灰色预测模型 https://blog.csdn.net/qq_39798423/article/details/89283000?ops_request_misc&request_id&biz_id102&utm_term%E7%81%B0%E8%89%B2%E9%A2%84%E6%B5%8B%E6%A8%…

开放式耳机哪个好?2023开放式耳机排行榜推荐

​耳机成为了当代青年必不可少的一款数码单品,无论在什么时间、哪个地点总能看到很多人戴着耳机。耳机也分有很多类型,就比如市面上大火的开放式耳机,很多人还不清楚开放式耳机如何挑选的,下面我来推荐几款很不错的开放式耳机&…

【一】部署Zabbix监控详解

Zabbix监控 1.Zabbix监控概述1.1 zabbix是什么1.2 zabbix监控原理1.3 Zabbix 6.0新特性1.4 Zabbix 6.0功能组件1.5 Zabbix与prometheus区别对比 2. 部署Zabbix6.02.1 安装NginxPHP2.2 部署Mariadb数据库2.3 安装zabbix Server服务端2.4 部署Web前端,进行访问2.5 部署…

软件测试中的二八定律到底是什么?

目录 前言: 一、80%的软件缺陷,集聚在软件20%的模块中 二、软件测试工作尽早介入 三、反映在软件测试的自动化方面 四、80%的缺陷,集中在某20%的开发工程师代码中; 一、缺陷是解决不完的 二、是不可能发现100%缺陷的 三、…

Web APls-day04

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 日期对象 日期对象:用来表示时间的对象 作用:可以得到当前系统时间 实例化 在代码中发现…

【设计模式】第九章:外观模式(门面模式)详解及应用案例

系列文章 【设计模式】七大设计原则 【设计模式】第一章:单例模式 【设计模式】第二章:工厂模式 【设计模式】第三章:建造者模式 【设计模式】第四章:原型模式 【设计模式】第五章:适配器模式 【设计模式】第六章&…

17 MFC进程通信

文章目录 剪切板管道匿名管道父进程写入数据子进程读出数据 命名管道 邮槽邮槽服务器邮槽客户端 剪切板 设置界面 发送 //设置剪切板数据 void CClipboardDlg::OnBnClickedBtnSend() {UpdateData(TRUE);if (m_strSend.IsEmpty()){MessageBox(L"请输入需要设置的文本&quo…

spring的事务处理@Trasactional Aop处理第二弹

书接上回 ,我们针对spring中的ApplicationContext类的扩展功能-事件发布和监听处理源码进行了解析,知道了消息是如何存放和传递给监听器处理的。这章我们看下另外一个重量级的组件Transactional事务处理是如何实现的。 我们可能都了解过声明式的事务处理…

十三、弹性容器flex的样式1

目录&#xff1a; 1.基础准备 2.属性解析 一、基础准备 设置ul为弹性元素&#xff0c;默认是flex-direction:row&#xff0c;所以不用设置&#xff0c;然后在让里面的方块不进行伸缩。 我们看到小方块超出了边框 <style>*{margin: 0;padding: 0;list-style: none;}ul{wi…

vant List组件实现上拉加载中 首次进行load事件执行两次的问题

需求&#xff1a; 进行tab切换时&#xff0c;其中一次tab下有上拉加载的功能 问题&#xff1a; 在第一次切换到带有上拉加载列表功能的tab&#xff0c;执行加载list的load事件执行了两次造成数据的重复加载&#xff0c;另外如果这个list的高度全部在可视范围内&#xff0c;首次…