论文笔记PhotoReg: Photometrically Registering 3D Gaussian Splatting Models

news2025/1/8 14:02:39

1.abstract

        最近推出的3D高斯飞溅(3DGS),它用多达数百万个原始椭球体来描述场景,可以实时渲染。3DGS迅速声名鹊起。然而,一个关键的悬而未决的问题仍然存在:我们如何将多个3DG融合到一个连贯的模型中?解决这个问题将使机器人团队能够共同建立其周围环境的3DGS模型。这项工作的一个关键见解是利用照片级真实感重建和3D基础模型之间的二元性,前者从3D结构渲染真实的2D图像,后者从图像对预测3D结构。为此,我们开发了PhotoReg,这是一个将多个照片级真实感3DGS模型与3D基础模型配准的框架。由于3DGS模型通常由单目摄像机图像构建,因此具有任意比例尺。为了解决这一问题,PhotoReg通过考虑这些模型中的深度估计,积极地在不同的3DGS模型之间执行比例一致性。然后,使用细粒度的光度损失迭代地精化对齐,以产生高质量的融合3DGS模型。我们在标准基准数据集和我们自定义收集的数据集上严格评估PhotoReg,包括使用两个四足机器人。

2.INTRODUCTION

        本文研究了将多个独立构建的3DGS模型组合成一个统一模型的问题。解决这个问题将允许机器人团队以分散的方式探索和绘制大型未知空间。为了应对3DGS融合的挑战,我们提出了我们的光度学三维高斯配准框架(PhotoReg)。经典的配准方法,如迭代最近点配准方法及其变种[5]、[6]、[7],主要集中在通过最小化相应点之间的距离来对齐点云[8]。然而,3DGS固有的连续和复杂的几何表示与传统配准方法管理的离散点集有很大的不同,这就需要像PhotoReg这样的创新方法来进行有效的配准。

        PhotoReg利用在互联网规模的数据集上训练的3D基础模型,从2D图像对得出初始3D结构。这些模型提供粗略的估计,以促进3DGS模型的初始对齐,特别是在模型之间重叠最小的情况下。由于各个3DGS模型可能具有不同的比例,PhotoReg通过在每个模型中考虑置信度感知深度估计来积极调整它们的比例。随后,PhotoReg优化了细粒度光度损失,该损失衡量模型中渲染图像的质量,以确保3DG之间紧密对齐。我们对PhotoReg提供了广泛的经验评估,包括对经典基准数据集和定制收集的数据的评估。这包括由在公共区域运行的两个四足动物收集的自定义数据集。

        本文的创新在于:

        1)利用3D基础模型在重叠最小的情况下处理3DGS对齐;

        2)通过计算具有置信度的深度估计来重新调整各个模型的比例,从而解决3DGS模型中的比例差异;

        3)通过优化渲染图像的质量来精确调整融合模型。

3.RELATED WORK

3D配准:在机器人感知中,配准是指寻找两个3D结构之间的变换。 随着时间的推移,配准两个点云已被广泛研究。 ICP [22] 或者找到对应点对并基于最近点假设估计它们之间的刚体变换。 color ICP [23]、Point to Plane ICP [24] 和鲁棒 ICP [25] 等变体在准确性和效率方面提高了该方法。 目前已经探索了注册两个 NeRF 的方法。 NeRF2NeRF [26]提出通过手动选择关键点来对齐两个 NeRF。 DReg-NeRF [27] 通过使用深度学习自动对齐 NeRF 模型,进一步推进了 3D 配准。 已经尝试探索 3DGS 配准:LoopSplat [28] 通过配准 3D 高斯图引入了一种新颖的环路闭合技术。 然而,LoopSplat 依赖 RGB-D 图像来获取深度传感器读数,这限制了其在深度传感器不可用或不可靠时的适用性。 PhotoReg 可以在没有深度传感器的情况下注册 3DGS。

可视化基础模型:机器人技术受益于互联网规模数据训练的transformer[29]。特别是对于机器人感知,这种视觉基础模型包括[30]、[31]、[32]。这些型号充当即插即用模块,以促进一系列下游任务。例如,DINOv2[33]在互联网规模的未标记数据上接受了培训,采用了自监督技术,使其能够深入理解视觉内容,而不需要明确的注释。DUSt3R[34]是PhotoReg中使用的3D基础模型。它被设计成从RGB图像生成3D点图,从而实现姿势估计,并已被应用于下游机器人机械手感知[35],[36]。PhotoReg利用基础模型的应急能力来执行稳健的对齐。

4.METHODOLOGY

 A.问题设置       

        这项工作中解决的主要挑战涉及3DGS模型的融合。具体地说,在给定输入3DGS模型G1和G2的情况下,我们提出的方法旨在找到在G1的坐标框架内将G2与G1内聚地对齐的变换函数T。由于3DG的规模是任意的,T需要处理可能具有非常不同的尺度的G1和G2。在深入研究我们提出的PhotoReg方法的细节之前,我们首先给出了3DGS模型的数学定义和相应的变换函数。

B.Notation and Transforming Gaussian Splats

        3DGS模型G包括一组3D高斯,其中每个高斯由其3D位置µ来定义;协方差矩阵Σ,其描述了高斯分布在3D空间中的扩散和方向;不透明度,α;以及球谐(SH)系数c,其包含颜色信息:

Transformation:3DGS 模型的变换涉及对每个高斯的每个属性应用缩放、旋转和平移。 表示将 3DGS 模型从某个通用坐标系 A 映射到坐标系 B 的变换函数。该函数将坐标系 A 中的 3DGS 模型 作为输入,输出 (对应的坐标系)。 B变换后的3DGS模型,表示为

        变换函数可以分别由缩放因子s、旋转R 和平移t 组成。 假设。 每个属性的转换映射定义如下:

C. PhotoReg Overview

        PhotoReg包括四个顺序阶段:基本图像匹配选择每个输入3DGS模型中相邻区域的渲染图像对作为输入到3D基础模型初始估计获得3D基础模型对齐所用的旋转和平移的初始估计尺度估计通过置信度加权深度图解决3DGS模型之间的比例差异优化通过光度损失最小化同时优化比例、旋转和平移。该工作流程如图4所示。

D. Foundational Image Matching

        我们详细介绍基础图像匹配 (FIM) 过程,该过程利用视觉基础模型(尤其是 DINOv2)来启动我们的注册过程。 FIM 过程的输入由两个 3DGS 模型组成,分别表示为 G1 和 G2,每个模型与一组相机pose C1 和 C2 相关联FIM 的主要目的是从 G1 和 G2 中识别和提取给定相机pose的两个高质量渲染图像,它们在语义级别上相似,并且不受观看pose的影响 也就是说,同一物体但角度相同也好截然不同也好,只要语义类似,那么这两个图像将被识别为相似。 为了选择适当的图像作为 3D 基础模型的输入,我们首先以不同的姿势渲染来自 G1 和 G2 的图像集 I1 和 I2。 我们的目标是选择合适的图像对进行粗配准。 我们寻求 v1 ∈ V1 和 v2 ∈ V2 使得:

        我们以这种方法识别图像对,其中一个从G1生成,另一个从G2生成,它们在语义和视觉上都是相似的。

E. Coarse Registration via 3D Foundation Models

        我们继续使用图像对(img1,img2)作为 3D 基础模型 DUSt3R [34] 的输入,以获得初始粗配准,将 G2 近似对齐到 G1 的坐标系中。 我们将 img1 和 img2 输入到 DUSt3R 中,它估计具有旋转和平移的刚性变换。 然而,G1 和 G2 之间的缩放因子仍然未知。 下一步把从 3D 基础模型获得的变换应用回原始 3DGS 模型。 该过程涉及一系列转换步骤,如图5所示。 我们定义坐标系如下: 对于坐标系 P,表示坐标系 P 下的 3DGS 模型 Gi。具体来说,Poi 是 3DGS模型 的原始坐标系,而是像机的坐标系,以产生图像img i。溅射模型的原始坐标系是任意构造的,表示模型原始坐标系o1到相机坐标系c1的变换。        

        我们的目标是获得到,该变换函数直接将G2坐标系变换到G1的坐标系中,公式是:

        我们遵循图5中的变换序列。这里,是世界到相机的变换w2c,对应于已知的图像img1和img2。两个摄像机位姿之间的变换被表示为,它包括旋转、平移和缩放。我们主要关注与DUSt3R的输出的匹配关系。然而,尺度是未知的。因此我们有,可以对着坐标系看公式,公式4是公式3的具体化

        上面公式中,从右往左看,是G2原始坐标系(world)变换到了他的一个相机坐标系c2,然后又从c2变换到了G1的一个相机坐标系c1,最后从c1变换到了G1的世界坐标系。

        唯一未知的参数是尺度比。由于两个世界到相机的变换都具有已知的绝对比例,因此是两个3DGS模型之间的比例差异。也就是说,。在接下来的小节中,我们将估计最终的未知参数,即G1和G2之间的尺度比。

F. Scale Estimation

        在这一步中,我们通过比较不同坐标系中同一个pose下的深度图来估计尺度比。深度图可以表示为二维矩阵,其中每个元素表示视点(例如,照相机)沿视线到场景中一点的距离

        给定一个相机pose,深度图可以从标准的3DGS模型[39]中提取,并且也可以在初始粗对准期间由DUSt3R输出。还输出深度图的像素方向置信度图。这里,我们将从它们各自的3DGS模型获得的深度图IMG1和IMG2表示为D1,D2∈RW×H,并且将来自DUST3R的深度图表示为∈RW×H,以及置信度图C1,C2∈RW×H。这里,W和H表示图像宽度和高度。

        一个关键的细节是,因为DUSt3R的性质(DUSt3R输出的pointmap、confidence map都是统在同一个坐标系下面的),深度位于相同的坐标系中,具有相同的尺度。然后,尺度不同,我们可以根据公式5这样估计G1和G2之间的置信度权重得到尺度比例:

        其中,⊗表示矩阵中各个对应元素之间的乘积。通过对尺度比的估计,我们得到一个初始变换(这个尺度比其实就是坐标系尺度比),它大致对齐了G1和G2。我们现在将重点转移到优化训练这个初始变换的路线上。

G. Precise Refinement via Photometric Optimization

        在粗略地对齐G1和G2之后,我们通过从G1和G2以一种新的姿势C来渲染图像来进一步优化对齐。然后,我们最小化渲染图像之间的光度损失,并根据我们的变换参数进行优化。我们注意到,3DGS模型和渲染的可微性使得基于梯度的优化能够传播回变换参数。使用的损失是 L1 距离,用mask标记相同pose下,同像素位置来自G1和G2的渲染

        其中 F 是可微渲染函数,可在给定摄像机姿势和 3DGS 模型的情况下生成图像。掩码的 L1 距离 l1masked 给出了由元素级二进制mask的 L1 距离。使用的元素级二进制掩码是 M1⊗M2,其中 M1 和 M2 是二进制掩码,指示是否在每个像素处渲染了任何内容。

        我们根据的参数对 L 进行微分,给出为。 我们使用基于梯度的优化器来最小化损失并执行详细的对齐。

5. EXPERIMENTS

(coming soon)

        在本节中,我们评估所提出的 PhotoReg 方法在合并两个或多个具有不同重叠级别的高斯 Splatting 模型时的性能。 我们在框架中使用的基础模型是 DUSt3R 和 DINOv2。 DUSt3R 从渲染图像中生成粗略的 3D 重建; DINOv2 基于图像中稳健的视觉特征执行特征提取。 我们寻求凭经验回答几个主要问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2271660.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaEE-网络原理-1初识

目录 一.网络发展史 1.独立模式 2.网络互联 二.局域网LAN 1.基于网线直连: 2.基于集线器组件: 3.基于交换机组件: 4.基于交换机和路由器组件 ​编辑 三、广域网WAN 四、网络通信基础 1.ip地址 2.端口号: 3.协议 4.五…

电子电气架构 --- 整车整车网络管理浅析

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所谓鸡汤,要么蛊惑你认命,要么怂恿你拼命,但都是回避问题的根源,以现象替代逻辑,以情绪代替思考,把消极接受现实的懦弱,伪装成乐观面对不幸的…

xml格式化(3):增加头部声明

前言 这篇文章&#xff0c;是用来增加头部声明。 正文 from lxml import etreedef pretty_print(element, level0, indent" "):result ""# 判断元素是否为注释节点if isinstance(element, etree._Comment):result f"{indent * level}<!--{el…

STM32 高级 物联网通讯之LoRa通讯

目录 LoRa通讯基础知识 常见的3种通讯协议 远距离高速率的传输协议 近距离高速率传输技术 近距离低功耗传输技术 低功耗广域网 采用授权频段技术 非授权频段 LoRa简介 LoRa的特点 远距离 低功耗 安全 标准化 地理定位 移动性 高性能 低成本 LoRa应用 LoRa组…

【FlutterDart】 拖动改变 widget 的窗口尺寸大小GestureDetector~简单实现(10 /100)

上效果 预期的是通过拖动一条边界线改变窗口大小&#xff0c;类似vscode里拖动效果。这个是简单的拖动实现 上代码&#xff1a; import package:flutter/material.dart;class MyDraggableViewDemo extends StatelessWidget {const MyDraggableViewDemo({super.key});override…

Luma AI 简单几步生成视频

简单几步生成视频 登录我们的 AceDataPlatform 网站&#xff0c;按照下图所示即可生成高质量的视频&#xff0c;同时&#xff0c;我们也提供了简单易用的 API 方便集成调用&#xff0c;可以查看 Luma API了解详情 技术介绍 我们使用了 Luma 的技术&#xff0c;实现了上面的图…

如何免费解锁 IPhone 网络

您是否担心 iPhone 上的网络锁定&#xff1f;如果您的 iPhone 被锁定到特定运营商&#xff0c;解锁它可以连接到不同的运营商。好吧&#xff0c;我们为您准备了一份指南。 iPhone运营商免费解锁将是小菜一碟。在我们的解锁运营商 iphone 免费指南中。我们为您提供了一份简介&am…

[读书日志]8051软核处理器设计实战(基于FPGA)第三篇:8051 keil编程配置 C语言开发流程 中断程序实例

第一篇https://blog.csdn.net/m0_74021449/article/details/144796689 第二篇https://blog.csdn.net/m0_74021449/article/details/144813103 3.8051中断与keil开发流程 3.1 keil的下载与概述 关于keil&#xff0c;大家都并不陌生&#xff0c;它是开发51单片机和ARM架构的32…

音视频-----RTSP协议 音视频编解码

流媒体协议详解&#xff1a;RTSP、RTP、RTCP、SIP、SDP、RTMP、WebRTC、WebSocket-CSDN博客 上文讲解比较清楚 多媒体编解码基础知识 一文详解WebRTC、RTSP、RTMP、SRT-腾讯云开发者社区-腾讯云 RTP :(Real-time Transport Protocol)是用于Internet上针对多媒体数据流的一种传…

Nginx代理本地exe服务http为https

Nginx代理本地exe服务http为https 下载NginxNginx命令exe服务http代理为https 下载Nginx 点击下载Nginx 下载好之后是一个压缩包&#xff0c;解压放到没有中文的路径下就可以了 Nginx命令 调出cmd窗口cd到安装路径 输入&#xff1a;nginx -v 查看版本 nginx -h&#xff…

《Vue3实战教程》40:Vue3安全

如果您有疑问&#xff0c;请观看视频教程《Vue3实战教程》 安全​ 报告漏洞​ 当一个漏洞被上报时&#xff0c;它会立刻成为我们最关心的问题&#xff0c;会有全职的贡献者暂时搁置其他所有任务来解决这个问题。如需报告漏洞&#xff0c;请发送电子邮件至 securityvuejs.org。…

【Go学习】-01-6-数据库泛型新特性

【Go学习】-01-6-数据库泛型新特性 1 数据库操作1.1 操作mysql1.1.1 Insert1.1.2 Select1.1.3 Update1.1.4 Delete1.1.5 sql事务 1.2 go操作Redis 2 泛型2.1 非泛型函数2.2 泛型函数2.3 泛型类型2.3.1 泛型结构体2.3.2 泛型接口 2.4 泛型约束2.5 泛型切片和映射2.5.1 泛型切片2…

STM32-笔记20-测量按键按下时间

1、按键按下的时间-思路 我们先检测下降沿信号&#xff0c;检测到以后&#xff0c;在回调函数里切换成检测上升沿信号&#xff0c;当两个信号都检测到的时候&#xff0c;这段时间就是按键按下的时间&#xff0c;如图所示&#xff1a;>N*(ARR1)CCRx的值 N是在这段时间内&…

【数据结构-堆】力扣2530. 执行 K 次操作后的最大分数

给你一个下标从 0 开始的整数数组 nums 和一个整数 k 。你的 起始分数 为 0 。 在一步 操作 中&#xff1a; 选出一个满足 0 < i < nums.length 的下标 i &#xff0c; 将你的 分数 增加 nums[i] &#xff0c;并且 将 nums[i] 替换为 ceil(nums[i] / 3) 。 返回在 恰好…

软件逆向之标志位

进位标志CF&#xff08;Carry Flag&#xff09; 介绍&#xff1a;如果运算结果的最高位产生了一个进位&#xff08;加法&#xff09;或借位&#xff08;减法&#xff09;&#xff0c;那么&#xff0c;其值为1&#xff0c;否则其值为0。无符号数。 示例&#xff1a; mov al&…

api接口技术开发系列如何调用电商平台的按图搜索商品API?

不同电商平台的按图搜索商品 API 调用方法大致相似&#xff0c;以下是一般的调用步骤&#xff1a; 注册与获取权限 注册账号&#xff1a;在相应的电商开放平台注册成为开发者&#xff0c;如淘宝平台、1688 平台等。创建应用&#xff1a;登录后创建应用&#xff0c;填写应用的相…

【Seed-Labs 2.0】Buffer Overflow Attack Lab (Server Version)

说在前面 实验总述 缓冲区溢出是指程序试图写入超出缓冲区边界的数据。恶意用户可利用这一漏洞改变程序的流控制&#xff0c;从而导致恶意代码的执行。本实验的目的是让学生从实践中了解这种类型的漏洞&#xff0c;并学习如何在攻击中利用这种漏洞。 在本实验中&#xff0c;…

WPS表格技巧01-项目管理中的基本功能-计划和每日记录的对应

前言&#xff1a; 在项目管理中&#xff0c;一般就是用些项目管理工具来管理这个任务和 task&#xff0c;但是就是要学这些工具很麻烦&#xff0c;比较好的方法&#xff0c;通用的方法就是用 Excel 表格去做&#xff08;这非常适合松散的团队组织&#xff09;&#xff0c;然后…

SpringBoot入门之创建一个Hello World项目

文章目录 一、使用传统的方式1、创建一个SpringBoot项目2、配置pom.xml文件3、下载Maven依赖4、创建一个Controller类&#xff1a;com.devops.controller.HelloController5、创建一个引导类&#xff1a;com.devops.HelloApplication6、启动项目8、访问80809、完整项目结构 二、…

机器学习笔记 - 单幅图像深度估计的最新技术

1、深度估计简述 单眼深度估计是一项计算机视觉任务,AI 模型从单个图像中预测场景的深度信息。模型估计场景中对象从一个照相机视点的距离。单目深度估计已广泛用于自动驾驶、机器人等领域。深度估计被认为是最困难的计算机视觉任务之一,因为它要求模型理解对象及其深度信息之…