《RECONX: RECONSTRUCT ANY SCENE FROM SPARSEVIEWS WITH VIDEO DIFFUSION MODEL》论文阅读

news2024/12/26 20:53:45

论文地址:https://arxiv.org/pdf/2408.16767

项目地址:GitHub - liuff19/ReconX: ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

---------------------------------------------------------------------------------------------------------------------------------

任务:        

                                        将模糊重建挑战重新构建为时间生成任务

挑战:

        传统3D场景重建在“密集视角”(即从多个角度拍摄大量照片)情况下表现很好,但当捕获的视角有限时,重建变得困难。这是因为有限视角下信息不足,导致“未见区域”出现伪影和失真。

解决:

        1. 重新定义问题:ReconX 将这个模糊的重建问题视为一个“时间生成任务”,也就是说,它不直接解决3D重建的病态问题,而是通过时间维度(视频序列)生成一个逐帧一致的3D场景。

        2. 使用大规模预训练的扩散模型:扩散模型是一种生成模型,能够从稀疏视角中生成高质量的内容。ReconX 利用这种模型来生成细节丰富的视频帧,并通过这些帧确保3D场景的一致性。

贡献:

  •         提出了ReconX,一种新的稀疏视角3D场景重建框架,将模糊的重建挑战重新定义为时间生成任务。
  •         将3D结构引导整合到视频扩散模型的条件空间中,以生成具备3D一致性的帧,并提出了一种基于3D置信度感知的优化方案,通过3DGS从生成的视频中重建场景。
  •         大量实验表明,ReconX在多个真实世界数据集上在高保真度和泛化性方面优于现有方法。

大致过程:

  • 首先, 给定稀疏的图像,通过一个 无姿态的立体重建方法DUSt3R 构建全局点云。
  • 然后,将其编码到一个丰富的上下文表示空间中,作为交叉注意力层中的3D条件,指导视频扩散模型合成细节保留的帧,并生成具备3D一致性的场景新观察视角。
  • 最后,通过结合3D置信度感知鲁棒的场景优化方案的高斯点散射,从生成的视频中重建3D场景,从而有效地去除视频帧中的不确定性模糊。

详细过程:

        该项目分为一下几步:构建三维结构指导,3D一致的视频帧生成,自信感知3d优化

构建三维结构指导

        从稀疏视图的图像集(可能只有几个图像)中恢复场景的3D结构。

        首先,对于给定的稀疏图像集,构建了一个连接图。每个图像被视为一个节点,如果两个图像之间有相同或重叠的视觉内容,它们之间就会形成一条边。这种结构便于识别哪些视图有共享信息

        接下来,系统通过每对图像之间的视觉信息预测点云置信度图,生成每对视图共享的3D点。

        通过旋转和缩放,使每对图像的点云预测对齐到同一个全局坐标系中。这一步是为了确保不同视角下的点云一致。

        对齐后的点云被进一步简化,并通过 Transformer 编码器投射到一个潜在的3D上下文空间中。这是为了让系统在处理过程中能够更好地理解和利用这些3D结构信息。

        最终,通过这个上下文空间,系统生成了3D结构引导信息,这些信息将用于指导视频扩散模型生成3D一致性较好的新视图。

3D一致的视频帧生成

        将3D结构引导F(P) 融入到视频扩散过程中,以生成3D一致性帧。为了确保生成帧与场景的高保真渲染视图之间的一致性,利用视频插值能力来恢复更多未见的视角。

        首先,利用3D结构引导来提升生成帧的质量,使其更加符合稀疏图像视角下的3D结构。

        然后,模型通过交叉注意力机制,在每层的空间特征中融合图像和3D结构特征,进而生成符合高保真标准的新视角帧。

置信感知3DGS优化

        置信感知机制主要通过全局对齐生成帧的像素值,建模每个像素的颜色值为高斯分布,其中均值是生成帧的像素值,方差则衡量生成帧和真实帧的差异。

        问题:

                传统的3D重建方法主要用于处理经过校准的摄像机拍摄的真实照片,而直接应用这些方法于生成的视频时,由于生成图像的不确定性,难以恢复一致的3D场景。

        解决:

                采用了一种置信感知的3DGS(3D结构引导系统)机制来重建复杂场景。

        首先,对于生成的帧 Ii 和真实视图 i 的每像素颜色值表示为^Ci和Ci

        然后,将像素值建模为3DGS中的高斯分布,其中 Ii 的均值和方差为Ci和σi。方差σi表示生成的视图与实际视图之间的差异。目标是最小化所有帧之间的负对数似然。

        最后,从DUSt3R的 Transformer 解码器中找到对齐良好的映射函数A,该函数为每个生成的帧 {[I_i]}^{K'}_{i=1} 构建置信度图 {[C_i]}^{K'}_{i=1}。具体地说,在难以估计的区域(例如,具有固体颜色的区域)中,置信度分数往往较低,而在不确定性较低的区域得分将较高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2216368.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Open-WebUI

Open-WebUI特点⭐ ️直观的界面:聊天界面从 ChatGPT 中汲取灵感,确保用户友好的体验。响应式设计:在桌面和移动设备上享受无缝体验。⚡快速响应:享受快速响应的性能。轻松设置:使用 Docker 或 Kubernetes(…

【自然语言处理】Encoder-Decoder模型中Attention机制的引入

在 Encoder-Decoder 模型中引入 Attention 机制,是为了改善基本Seq2Seq模型的性能,特别是当处理长序列时,传统的Encoder-Decoder模型容易面临信息压缩的困难。Attention机制可以帮助模型动态地选择源序列中相关的信息,从而提高翻译…

硬盘文件误删:原因、恢复方案与预防措施

一、硬盘文件误删现象描述 在日常使用电脑的过程中,硬盘文件误删是一个常见且令人头疼的问题。许多用户在进行文件整理、删除无用资料或进行系统清理时,一不小心就可能将重要文件误删。这些误删的文件可能包括工作文档、学习资料、家庭照片、视频等&…

【含文档】基于Springboot+Vue的采购管理系统(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

SpringBoot实现桂林旅游的智能推荐

3系统分析 3.1可行性分析 通过对本桂林旅游景点导游平台实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本桂林旅游景点导游平台采用SSM框架,JAVA作…

基于Docker安装Grafana及其基本功能

Grafana是一款用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,带有告警功能。 拉取Grafana镜像 docker pull grafana/grafana 运行镜像 docker run -d -p 3000:3000 --namegrafana grafana/grafana 打开浏览器,访问 http://l…

【Vue】Vue2(10)

文章目录 1 过度与动画1.1 Test.vue1.2 Test2.vue1.3 Test3.vue1.4 TodoList_动画:MyItem.vue 2 配置代理服务器2.1 方法一2.2 方法二2.3 vue.config.js2.4 App.vue 3 github搜索案例3.1 静态页面3.2 Search.vue3.3 List.vue3.4 App.vue3.5 main.js3.6 github搜索案…

免费插件集-illustrator插件-Ai插件-路径点到点连线

文章目录 1.介绍2.安装3.通过窗口>扩展>知了插件4.功能解释5.总结 1.介绍 本文介绍一款免费插件,加强illustrator使用人员工作效率,实现简单路径内部点到点连线功能。首先从下载网址下载这款插件 https://download.csdn.net/download/m0_67316550…

打造卓越APP体验:13款界面设计软件推荐

你知道如何选择正确的UI设计软件吗?你知道设计美观的用户界面,及带来良好用户体验的APP,需要什么界面设计软件吗?基于APP界面的功能不同,选择的APP界面设计软件也会有所不同。然而,并不是要把所有APP界面设…

1.2.3 TCP IP模型

TCP/IP模型(接网叔用) 网络接口层 网络层 传输层 应用层 理念:如果某些应用需要“数据格式转换”“会话管理功能”,就交给应用层的特定协议去实现 tip:数据 局部正确不等于全局正确 但是,数据的 全局正…

docker (desktopcompose) download

docker docker-compose download 百度网盘获取离线包链接release-notes 参考dockerdocker-composewlspowershell

基于Spring Boot的大创项目成本控制系统

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

Linux下ClamAV源代码安装与使用说明

Linux下ClamAV源代码安装与使用说明 ClamAV(Clam AntiVirus)是一款开源的防病毒工具,广泛应用于Linux平台上的网络安全领域。它以其高效的性能和灵活的配置选项,成为网络安全从业人员的重要工具。ClamAV支持多线程扫描,可以自动升级病毒库,并且支持多个操作系统,包括Li…

扫普通链接二维码打开小程序

1. 2.新增规则(注意下载文件到跟目录下,需要建个文件夹放下载的校验文件) 3.发布 ps:发布后,只能访问正式版本。体验版本如果加了 测试链接http://xxx/xsc/10 那么http://xxx/xsc/aa.....应该都能访问 例如aa101 aa…

5 -《本地部署开源大模型》在Ubuntu 22.04系统下ChatGLM3-6B高效微调实战

在Ubuntu 22.04系统下ChatGLM3-6B高效微调实战 无论是在单机单卡(一台机器上只有一块GPU)还是单机多卡(一台机器上有多块GPU)的硬件配置上启动ChatGLM3-6B模型,其前置环境配置和项目文件是相同的。如果大家对配置过程还…

前端excel的实现方案Luckysheet

一、介绍 Luckysheet是一款纯前端类似excel的在线表格&#xff0c;功能强大、配置简单、完全开源的插件。目前已暂停维护&#xff0c;但是其已有功能大概能满足常见需求的使用。 二、引入 ①cdn引入&#xff08;目前应该已经不支持&#xff0c;可自行尝试&#xff09; <l…

第二十七篇:传输层讲解,TCP系列一

一、传输层的功能 ① 分割与重组数据 传输层也要做数据分割&#xff0c;所以必然也需要做数据重组。 ② 按端口号寻址 IP只能定位数据哪台主机&#xff0c;无法判断数据报文应该交给哪个应用&#xff0c;传输层给每个应用都设置了一个编号&#xff0c;这个编号就是端口&…

大数据毕业设计选题推荐-电影数据分析系统-电影推荐系统-Python数据可视化-Hive-Hadoop-Spark

✨作者主页&#xff1a;IT研究室✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

大模型应用开发:如何在网页中嵌入3D人物

要实现的效果如图所示&#xff1a; 左侧是插入的3D人物&#xff0c;类似AI智能助手的角色。 我们这里是通过React做的。需要用到以下工具或者网站&#xff1a; readyplayer.me/ 自定义3D人物Blender 3维设计软件&#xff0c;3D文件格式转化&#xff0c;主要是fbx和glb的互转w…

【Docker】安装部署项目流程(Pycharm版)

安装部署步骤 1.准备项目 第一步要准备好你所需要部署的项目&#xff0c;确保在工作目录下所以程序.py文件正常调用并能正确运行 如上&#xff0c;main要在工作目录中能跑通&#xff0c;这里有一点需要注意 在IDE src不要标记为源代码根目录&#xff0c;观察一下是否能跑通代…