ICCV 2023 | 沉浸式体验3D室内设计装修,基于三维布局可控生成最新技术

news2024/11/30 6:54:45

文章链接: https://arxiv.org/abs/2307.09621

360°场景布局可控合成(360-degree Image Synthesis)目前已成为三维计算机视觉领域一个非常有趣的研究方向,在虚拟三维空间中沉浸式的调整和摆放场景对象,可以为用户带来身临其境的感觉,非常适合应用在3D家居模拟装饰领域。本文提出了一种拥有三维感知能力的对象布局生成器(object layout generator),其可以学习360全景照片中的对象隐藏向量,以便实现场景中各种布局的控制。为了实现精确且逼真的场景对象控制合成,作者使用生成对抗网络来实现该对象布局生成器。对于生成对抗网络的优化,作者巧妙设计了一个简单而高效的场景布局清空器(scene emptier),其可以移除场景中任意位置的对象来为模型生成对应拍摄角度的空场景来构成一致性循环约束。该文目前已被计算机视觉顶级会议ICCV 2023录用,作者在Structure3D数据集上对本文方法进行训练和评估,并将模型扩展到真实环境拍摄的Zillow室内场景数据集上,通过一系列的实验表明,本文方法已达SOTA效果,同时能够在现实环境中实现非常逼真的生成和编辑效果,为用户提供较好的沉浸式体验。

01. 介绍

全景图(360°图像)可以实现一种身临其境的用户体验,目前已广泛应用于各种虚拟现实(VR)应用中,例如苹果在今年六月份发布的vision Pro眼镜就是全景技术的综合应用。目前已有研究者开始考虑将这一技术应用在建筑和室内设计行业,实现360°视图室内场景的自动生成和编辑

这一领域目前主要面临两大挑战:

(1)所设计的生成方法在生成过程必须能够遵循全景图中的空间扭曲原则(如上图中画面接缝处的扭曲现象)

(2)所构建的模型必须实现内容的可控性,例如需要实现空间中对象的编辑和移动等等。

本文方法灵感来源于神经场景装饰(neural scene decoration,NSD)方法[1],NSD方法旨在从给定的背景图像和用户定义的家具布置来生成三维场景装饰图像,但是NSD方法有一些明显的局限性。例如它需要用户对家具的布置进行详细地对象布局建模,这使得模型的生成过程不是自动化的。其次,它的对象布局(用矩形表示)不适用全景投影的3D视图。此外,NSD方法没有明确的家具属性控制机制,这限制了生成内容的可控性和多样性。相反,本文采用不同的场景表示方法,并提出了一种在三维场景设置下完全自动的条件场景装饰合成方法。并使用360°感知的对象布局生成器来提取场景中家具的向量表示,并使用生成对抗网络来不断调节生成的内容,通过对生成对抗网络施加条件控制,本文方法可以轻易实现多样化且可控的场景装饰效果。

02. 方法

2.1 360°条件布局生成器

2.2 条件场景装饰器

2.3 场景清空器

03. 实验效果

本文的实验主要在在Structured3D和Zillow Indoor数据集上进行,前者包含了大量成对的未装饰和已装饰的全景图像,共涵盖了3500个室内场景。本文作者仅在Structured3D数据集的卧室子集和客厅子集上进行实验验证,随后在Zillow室内数据集的测试集上测试了模型的性能。性能评估指标使用图像生成领域常用的FID分数和KID分数,FID和KID通过测量该方法生成的图像与真实图像之间的相似性(在特征空间中)来评估方法的生成质量,本文方法与其他基线方法的对比结果如下表所示,可以看到本文方法在FID和KID分数上均优于其他所有基线方法。

下图展示了本文方法与其他基线方法生成效果的定性对比,图中第一行为当前场景真实的全景图像,第二行为输入图像,最后一行为本文方法生成的效果。可以观察到,本文方法生成的室内场景渲染图不仅具有逼真的效果,与其他方法相比也拥有更加合理的家具布置

为了综合评估本文方法的泛化能力,作者将其直接扩展到Zillow真实数据集上进行测试,如下图所示,左侧为模型的输入图像,右侧为输出,模型可以根据输入的真实全景图像生成合理的装饰版本,同时可以生成精美的物品来适应不同的卧室结构

除了主观的视觉效果,作者还对模型的泛化性能进行了定量评估,在Zillow数据集上与其他所有baseline方法的对比结果如下图所示,由于在Zillow数据集中缺少真实的装饰场景对象标签,因此在该实验中去掉了基于布局方法的效果,可以看到本文方法在真实场景数据集上仍然能够达到SOTA性能。

04. 总结

本文基于3D全景图像提出了一种条件图像生成方法,该方法可以为用户提供室内场景的沉浸式体验,同时保持了生成内容的合理性和可控性。通过在模拟数据集和真实场景数据集上的实验表明,本文方法具有强泛化的场景装饰自动渲染能力。由于360°全景图像为三维场景理解提供了相比2D图像更为丰富的上下文,作者也在未来工作中考虑将场景结构和场景语义引入布局设计和图像生成中,以此来改善家具布置和对象可控性,到那时,室内设计师就可以以一种极低成本的方式坐在办公室完成繁重的设计任务了。

参考

[1] Hong-Wing Pang, Yingshu Chen, Phuoc-Hieu Le, Binh-Son Hua, Duc Thanh Nguyen, and Sai-Kit Yeung. Neural scene decoration from a single photograph. In ECCV, 2022.

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko ehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1007859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线性代数的本质(八)——内积空间

文章目录 内积空间内积空间正交矩阵与正交变换正交投影施密特正交化实对称矩阵的对角化 内积空间 内积空间 三维几何空间是线性空间的一个重要例子,如果分析一下三维几何空间,我们就会发现它还具有一般线性空间不具备的重要性质:三维几何空…

Java项目-苍穹外卖-Day12-Apache POI及Excel数据报表

文章目录 前言工作台需求分析代码导入功能测试 Apache POI介绍入门案例写入excel文件内容读取excel文件 导出运营数据Excel表需求分析代码开发功能测试 前言 最后一天,主要就是数据怎么从后端导出到excel表格,以及工作台内容的开发 工作台 需求分析 代…

中秋国庆双节邮件营销怎么做?看这里!

今年的国庆节恰逢中秋节,因此国家假日办安排国庆中秋连放8天。对于打工人来说,超长的假期是外出旅游、回家探亲好时机,可是对于企业来说,却是一次仅次于春节的营销大战。这个时候企业营销人员当然是要借助各种营销手段来获取流量和…

高阶导数的概念与公式

目录 高阶导数的概念 常用的高阶导数的公式 隐函数补充 反函数补充 高阶导数的概念 高阶导数是指一阶或二阶及以上的导数。这些导数可以通过连续进行一阶导数的计算来得到。然而,实际计算高阶导数时,存在一些问题,例如对抽象函数高阶导数…

测试-----selenuim webDriver

文章目录 1.页面导航2.元素定位3. 浏览器操作4.获取元素信息5. 鼠标的操作6. 键盘操作7. 元素等待8.下拉框9.弹出框10.滚动条11.frame处理12.验证码处理(cookie) 1.页面导航 首先是导入对应的包 :from selenium import webdriver然后实例化:driver web…

为什么大家都在用 WebP?

WebP 是谷歌在 2010 年提出的一种新型的图片格式,放到现在来讲,已经不算是“新”技术了,毕竟已经有了更新的 JPEG XL 和 AVIF 。但是在日常工作中,大家时常会碰到保存下来的图片的后缀是 .webp。那么 WebP 到底有什么魔力&#xf…

Explain 性能分析

目录 1. 能干什么 2. 如何分析 3. 各字段解释 1. 能干什么 使用 explainsql 的方式,分析查询语句的性能瓶颈。 ① 表的读取顺序; ② 数据读取操作的操作类型; ③ 哪些索引可以使用; ④ 哪些索引被实际使用; ⑤ 表之…

Latex之在作者名字后面加上OCRID的图标

\usepackage{orcidlink} \author{Bob\textsuperscript{\orcidlink{0000-0000-0000-0000}}}效果如图

Java8实战-总结27

Java8实战-总结27 用流收集数据分区分区的优势将数字按质数和非质数分区 用流收集数据 分区 分区是分组的特殊情况:由一个谓词(返回一个布尔值的函数)作为分类函数,它称分区函数。分区函数返回一个布尔值,这意味着得到的分组Map的键类型是B…

浅谈C++|STL初识篇

一.STL的诞生 长久以来,软件界一直希望建立一种可重复利用的东西。 .C的面向对象和泛型编程思想,目的就是复用性的提升 大多情况下,数据结构和算法都未能有一套标准,导致被迫从事大量重复工作 为了建立数据结构和算法的一套标准,诞…

linux入门---命名管道

如何创建命名管道 使用mkfifo函数就可以在程序里面创建管道文件,该函数的声明如下: 该函数需要两个参数,第一个参数表示要在哪个路径下创建管道文件并且这个路径得待上管道文件的名字,因为每个文件都有对应的权限,所…

基于springboot+vue的网络海鲜商城

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

【Spatial-Temporal Action Localization(二)】论文阅读2017年

文章目录 1. ActionVLAD: Learning spatio-temporal aggregation for action classification [code](https://github.com/rohitgirdhar/ActionVLAD/)[](https://github.com/rohitgirdhar/ActionVLAD/)摘要和结论引言:针对痛点和贡献相关工作模型框架思考不足之处 2.…

Windows下防火墙端口配置

在电脑或者服务器上部署某个应用后,如果需要对外提供服务可能就需要在主机防火墙上设置开启需要的端口,那么具体怎样操作呢 1.打开windows防火墙 2.设置防火墙入站规则 如下图“高级安全Windows Defender 防火墙”页面,点击左侧“入站规则”…

5.10.WebRTC接口宏

那今天呢?我给大家介绍一下web rtc的接口宏,那之所以在现成的章节中要介绍接口宏。是由于接口在调用的过程中啊,会发生线程的切换,所以把接口宏这部分知识我们放在线程这一章还算比较合适的。 那另外呢,我们对于接口…

【Linux-day11-线程的创建与同步】

Linux 线程的创建与同步 线程的概念 线程是进程内部的一条执行序列或执行路径,一个进程可以包含多条线程。 进程与线程的区别 进程是资源分配的最小单位,线程是 CPU 调度的最小单位进程有自己的独立地址空间,线程共享进程中的地址空间进…

ODC解读:数据脱敏在数据库协同开发的关键作用

肖杨 OceanBase生态产品研发工程师 OceanBase 生态产品研发工程师,山地骑行爱好者,ODC 团队核心成员,负责数据安全合规和系统集成,对 Java EE、 AI 大模型、MCU 芯片 等技术有着浓厚兴趣。 在数据库协同开发领域,敏感…

Spring MVC 七 - Locale 本地化

Spring各模块都支持国际化,SpringMVC也同样支持。DispatcherServlet通过Locale Resovler自动根据客户端的Locale支持国际化。 request请求上来后,DispatcherServlet查找并设置Locale Resovler,我们可以通过RequestContext.getLocale()获取到…

ipad手写笔哪个好用?电容笔性价比高的品牌

现今,使用电容笔的人越来越多,各大品牌厂商对于电容笔各种性能的设计也愈发用心。那么,电容笔哪个品牌性价比高?下面,我来给大家推荐几款好用又平价的电容笔,可以当个参考。 一、主动式电容笔和被动式电容…

mysql 密码修改

1、使用mysqladmin修改root密码 使用 mysqladmin 命令修改 MySQL 的 root 用户密码格式为 mysqladmin -u用户名 -p旧密码 password 新密码 注意:下图修改密码的命令中 -uroot 和 -proot 是整体,不要写成 -u root -p root,-u 和 root 间可以加…