Large Spatial Model:End-to-end Unposed Images to Semantic 3D 论文解读

news2024/11/26 1:52:51

目录

一、概述

二、相关工作

1、SfM和可微神经表示

2、端到端的Image-to-3D

三、LSM

1、密集几何预测 

2、2D信息特征提取

3、点特征融合

4、可微渲染

5、损失函数

四、实验 


一、概述

        该论文提出一种大型空间模型(Larget Spatial Model,LSM)的统一框架,可以直接从无姿态的RGB图像中重建神经辐射场。LSM可以单次前向传递中同时估计几何、外观和语义,统一了多个三维视觉任务,首次实现实时的语义3D重建和渲染,无需显式的相机参数。

(1)提出统一的三维表示的端到端框架,并实现3D语义分割,以及直接从无显式相机参数的新视图中合成,无需额外的SfM步骤,可以同时执行多个任务,通过统一的方法扩展多种视觉任务,并超过当前SOTA基线。

(2)利用跨视图注意力的Transformer来进行几何预测,并结合分层跨模态注意力来丰富几何特征。

(3)引入预训练的2D语义网络模型来增强3D语义理解。

(4)通过点级的局部上下文聚合,实现细粒度的特征集成,并预测各向异性的3DGS分布和RGB,深度,语义的图像输出。

二、相关工作

1、SfM和可微神经表示

        SfM(运动恢复结构)从多视角图像中估计相机姿态和重建稀疏3D结构,传统的pipeline通常不是端到端的,一般分为描述子提取,对应关系估计,增量的捆绑调整。

        近期深度学习的发展提供了SfM的准确率和有效性,而这种方法也广泛的应用与3D视觉中,而可微的神经表示也就是从SfM计算的精确的相机姿态作为前提而来。NeRF方法依赖于COLMAP离线估计的相机姿态而来,3DGS使用SfM生成的3D点作为初始化,并逐渐应用到机器人,健康医疗等多领域。

        另外最新的工作就是该论文提出的,利用2D特征来上升到3D任务中。

2、端到端的Image-to-3D

        3D重建包含很多传统的工作比如SfM,MVS,SDF等。最近的工作包含显式和隐式来生成3D模型,语义理解工作一般通过额外的优化步骤或者在重建预处理中进行。

        大多数方法依赖于预处理工作,比如估计相机姿态,生成稀疏点云,最后在test-time中进行优化,但是这种依赖限制了大尺度数据的可伸缩性。

        最新的无姿态的前馈方法,如Scene Representation Transformers将多个图像表示为潜在场景表示,即使存在不准确的相机姿态或无相机姿态也可以生成新视角图像,但该方法很难建立显式的几何图形。

        DUSt3R考虑使用密集点云来生成标准尺度下的点对齐的几何预测,但是密集点云限制了可扩展性。

        InstantSplat集成了DUSt3R的优势,考虑利用几何约束来进行点云对齐,优化姿态。(该作者也是InstantSplat的作者)

        而该论文考虑引入三维注释(三维语义分割),通过引入语义各向异性高斯函数,在没有注释的情况下,将二维特征映射到三维语义嵌入,利用这种较为轻量的annotations在一个统一框架中解决3D感知问题。

三、LSM

        LSM(大型语义模型)分为五个模块:密集几何预测3D点并生成深度图,2D信息特征提取,点特征增强,可微渲染。

        首先输入两张无姿态图像经过分块,正弦编码,采用双目ViT架构利用跨视角注意力机制预测像素对齐的几何点图,另外输入无姿态图像到已训练好的2D多模态模型中来获得2D特征,3D特征与3D点坐标和2D特征进行点特征融合并通过一个特定的局部Transformer(Decoder部分也是跨视角的)经两组MLP分别输出5个参数(带有RGB的,和带有语义信息的),并经过可微渲染生成三维语义重建和RGB的一般新视角合成。

1、密集几何预测 

         首先输入两张无姿态图像v \in\left \{ 1,2 \right \}经过分块(patchify),正弦编码(Positional encoder)得到tokens,并通过Siamese ViT(就是一个双目的ViT,decoder用了共12层自注意力+跨视角交叉注意力机制,用于保证视角一致性),输出一个像素对齐的点图(貌似含每一个点的坐标和像素颜色)和置信度图。

        之后通过点图可以利用DPT Head回归得到深度图。

        此处有两个损失:深度损失和置信度图损失。

        深度损失L_{depth}:保证预测点图和真实点图在尺度上一致。其中将预测点图和真实点图均归一化到单位长度进行,目的是消除点图尺度差异。

                        L_{depth}=\sum_{v \in \left \{ 1,2 \right \}} || \frac{1}{z} \cdot P_{v,1}- \frac{1}{\hat{z}}\cdot \hat{P}_{v,1} ||

        其中归一化因子z,\hat{z}通过分别对真实情况和预测情况各两个图(输入就是两张无姿态图)中所有坐标点对于原点的差的集合作为分母进行归一化。

        置信度图损失L_{conf}

                        L_{conf}=\sum_{v \in \left \{ 1,2 \right \} }\sum_{i \in D^v} M_{v,1}^i \cdot L_{depth}(v,i)-\alpha \cdot log M_{v,1}^i

         其中M是像素对齐置信度图,类似于DUSt3R,D表示坐标点集合,\left \{ v,1 \right \}代表第v个视图对第1个视图,\alpha是超参数用于正则化。

2、2D信息特征提取

        LSM框架中利用一个预训练的2D多模态模型LSeg(未提及)来提取2D特征信息,通过引入多模态的特征嵌入,可能引入了文本特征嵌入,之后通过分词模块将特征映射到潜在空间,最终输出语义特征图。

        这里引入一个Dist特征损失:

                ​​​​​​​        L_{dist}=1-sim(\hat{S},S)=1-\frac{\hat{S} \cdot S}{||\hat{S}|| \ ||S||}

        其中\hat{S},S分别代表真实特征图和预测特征图。

3、点特征融合

        首先输入密集几何预测得到的点图,经部分Point Transformer的encoder部分得到中间层点特征,之后将密集几何预测中的encoder输出与LSeg中的特征信息concat到中间层,并经过Decoder部分(含跨视角交叉注意力机制,也是保证视角一致性的),分别经过两个并行MLP分支得到不同的4个参数,一个是RGB高斯参数用于一般三维重建,一个是语义信息高斯参数用于三维语义重建。

        连带密集几何预测的输出点坐标(用于高斯分布的中心位置\mu),RGB高斯分布五个参数记为\mu_a,\alpha_a,s_a,r_a,F_a,语义特征高斯分布记为\mu_b,\alpha_b,s_b,r_b,F_b

4、可微渲染

        可微渲染部分根据上述的两组高斯分布,经过快速光栅化来进行渲染,生成语义高斯场和RGB高斯场。最后通过新视角生成语义图和RGB图。

5、损失函数

        因为该框架是端到端的,所以可以直接定义一个完整的损失函数,在原有的三个损失函数的基础上,新增了对于RGB图像和语义的损失(两者的L2范数)

四、实验 

        通过无姿态图像进行新视角语义图生成。

        对于一般的RGB三维重建,相较于pixelsplat,我们不再需要获得相机姿态。 

         三维语义信息的分割,相较于以往的方法以及只使用LSeg更为细节。

参考项目:Large Spatial Model 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2247584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

A045-基于spring boot的个人博客系统的设计与实现

🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…

VMware17安装之VMware Workstation Pro 16升级到17详细教程

VMware17安装之VMware Workstation Pro 16升级到17详细教程 一、下载安装包二、开始安装三、升级成功 当前使用的是VMware Workstation 16 Pro版本,想用最新的17,但是又不想卸载原来的,所以想尝试下看看能不能直接升级,最终升级成…

nature communications论文 解读

题目《Transfer learning with graph neural networks for improved molecular property prediction in the multi-fidelity setting》 这篇文章主要讨论了如何在多保真数据环境(multi-fidelity setting)下,利用图神经网络(GNNs&…

接口上传视频和oss直传视频到阿里云组件

接口视频上传 <template><div class"component-upload-video"><el-uploadclass"avatar-uploader":action"uploadImgUrl":on-progress"uploadVideoProcess":on-success"handleUploadSuccess":limit"lim…

深度学习图像视觉 RKNN Toolkit2 部署 RK3588S边缘端 过程全记录

深度学习图像视觉 RKNN Toolkit2 部署 RK3588S边缘端 过程全记录 认识RKNN Toolkit2 工程文件学习路线&#xff1a; Anaconda Miniconda安装.condarc 文件配置镜像源自定义conda虚拟环境路径创建Conda虚拟环境 本地训练环境本地转换环境安装 RKNN-Toolkit2&#xff1a;添加 lin…

07-SpringCloud-Gateway新一代网关

一、概述 1、Gateway介绍 官网&#xff1a;https://spring.io/projects/spring-cloud-gateway Spring Cloud Gateway组件的核心是一系列的过滤器&#xff0c;通过这些过滤器可以将客户端发送的请求转发(路由)到对应的微服务。 Spring Cloud Gateway是加在整个微服务最前沿的防…

美创科技入选2024数字政府解决方案提供商TOP100!

11月19日&#xff0c;国内专业咨询机构DBC德本咨询发布“2024数字政府解决方案提供商TOP100”榜单。美创科技凭借在政府数据安全领域多年的项目经验、技术优势与创新能力&#xff0c;入选收录。 作为专业数据安全产品与服务提供商&#xff0c;美创科技一直致力于为政府、金融、…

Java编程,配置mongoUri连接mongodb时,需对特殊字符进行转义

一、背景 java程序连接mongo有两种方式&#xff1a; 用户名和密码方式uri方式 1、用户名和密码 以用户数据库为例&#xff0c;注意看它的密码 spring:data:mongodb:host: 192.168.10.17database: db_user_serviceport: 3717username: user_servicepassword: user_service3…

MySQL底层概述—1.InnoDB内存结构

大纲 1.InnoDB引擎架构 2.Buffer Pool 3.Page管理机制之Page页分类 4.Page管理机制之Page页管理 5.Change Buffer 6.Log Buffer 1.InnoDB引擎架构 (1)InnoDB引擎架构图 (2)InnoDB内存结构 (1)InnoDB引擎架构图 下面是InnoDB引擎架构图&#xff0c;主要分为内存结构和磁…

【Github】如何使用Git将本地项目上传到Github

【Github】如何使用Git将本地项目上传到Github 写在最前面1. 注册Github账号2. 安装Git工具配置用户名和邮箱仅为当前项目配置&#xff08;可选&#xff09; 3. 创建Github仓库4. 获取仓库地址5. 本地操作&#xff08;1&#xff09;进入项目文件夹&#xff08;2&#xff09;克隆…

大事件管理系统项目总结(上)

文章目录 大事件管理系统项目总结&#xff08;上&#xff09;Pinia - 配置仓库统一管理Vue3路由配置Vue3导航拦截 大事件管理系统项目总结&#xff08;上&#xff09; Pinia - 配置仓库统一管理 使用pinia多层文件夹嵌套时&#xff0c;导入某个文件的路径会很长&#xff0c;容…

鸿蒙征文|鸿蒙心路旅程:始于杭研所集训营,升华于横店

始于杭研所 在2024年7月&#xff0c;我踏上了一段全新的旅程&#xff0c;前往风景如画的杭州&#xff0c;参加华为杭研所举办的鲲鹏&昇腾集训营。这是一个专门为开发者设计的培训项目&#xff0c;中途深入学习HarmonyOS相关技术。对于我这样一个对技术充满热情的学生来说&…

flowable流程图详细绘制教程

文章目录 前言一、flowable是什么&#xff1f;回答下之前的问题 二、flowable-modeler使用1. 使用步骤2.开始绘制弄一个请假的流程 三 加载该流程总结 前言 flowable有些晦涩难懂的东西&#xff1a; 我最开始接触的时候,还是用的activity,当时觉得好复杂,那么这次经过我自己在…

【Linux 篇】Docker 的容器之海与镜像之岛:于 Linux 系统内探索容器化的奇妙航行

文章目录&#xff1a; 【Linux 篇】Docker 的容器之海与镜像之岛&#xff1a;于 Linux 系统内探索容器化的奇妙航行前言安装docker-centos7 【Linux 篇】Docker 的容器之海与镜像之岛&#xff1a;于 Linux 系统内探索容器化的奇妙航行 &#x1f4ac;欢迎交流&#xff1a;在学习…

linux从0到1——shell编程9

声明&#xff01; 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec团队无关&a…

go项目中比较好的实践方案

工作两年来&#xff0c;我并未遇到太大的挑战&#xff0c;也没有特别值得夸耀的项目。尽管如此&#xff0c;在日常的杂项工作中&#xff0c;我积累了不少心得&#xff0c;许多实践方法也在思考中逐渐得到优化。因此&#xff0c;我在这里记录下这些心得。 转发与封装 这个需求…

Maven的安装——给Idea配置Maven

一、什么是Maven? Maven是一个开源的项目管理工具&#xff0c;它主要用于Java项目的构建、依赖管理和项目生命周期管理。 二、准备环境 maven安装之前&#xff0c;我们要先安装jdk&#xff0c;确保你已经安装了jdk环境。可以通过【win】【r】打开任务管理器&#xff0c;输入…

vscode 远程连接ssh 密钥方式

目录 1. powershell 生成key&#xff1a; 2. 在服务器上安装公钥 linux测试成功&#xff1a; 3).为了确保连接成功&#xff0c;输入如下指令以保证以下文件权限正确&#xff1a; 3 开启 ssh 密钥登录 vscode 远程连接配置 python连接测试ok 查看日志&#xff1a; 命令…

Charles抓包工具-笔记

摘要 概念&#xff1a; Charles是一款基于 HTTP 协议的代理服务器&#xff0c;通过成为电脑或者浏览器的代理&#xff0c;然后截取请求和请求结果来达到分析抓包的目的。 功能&#xff1a; Charles 是一个功能全面的抓包工具&#xff0c;适用于各种网络调试和优化场景。 它…

Echarts+VUE饼图的使用(基础使用、多个饼图功能、单组饼图对应颜色使用)

安装&#xff1a;npm install echarts --save 配置:main.js // 引入echarts import * as echarts from echarts Vue.prototype.$echarts echarts一、基础饼图&#xff08;直接拷贝就能出效果&#xff09; <div class"big-box" ref"demoEhart"><…