学习笔记之——2D Gaussian Splatting(2DGS)

news2024/11/15 21:48:16

3DGS在辐射场重建中取得了巨大的成就,实现高质量的新视图合成和快速渲染。最近新出了3DGS的升级版本,2DGS。写下本博文记录本人学习及测试2DGS的过程,本博文仅为本人学习记录用~

  • Project Website
  • Github Code
  • Original paper

原理解读

由于3D 高斯在多视角下的不一致性,使得它在surface reconstruction中效果不佳。为此,作者提出用2D平面高斯圆盘(2D oriented planar Gaussian disks)来表征三维单元。2DGS通过采用surfels的表达方式,并使用针对surfels的投影方法较好地保证了多视角一致性。通过ray-splat intersection和 rasterization实现2D高斯的渲染。进一步的,通过在loss中引入depth distortion and normal consistency提高了重建几何的质量,而不能单单只靠RGB的loss。

从motivation来看,应该就是3D高斯难以处理复杂的几何形状下的重建,特别是平面会有比较多的noise(这点之前大量的实验也可观察到,也确实3D高斯球叠加一起的平面肯定有些棱角之类的noise)。对于3D高斯而言,对于相邻高斯球交汇处,不同的视角会有不同的渲染值/深度值(3DGS evaluates a Gaussian’s value at the intersection between a pixel ray and a 3D Gaussian, which leads to inconsistency depth when rendered from different viewpoints.)

而采用2D 高斯,也就是类似于Mesh或者surfels差不多的平面来构建的话,可以交换的拟合复杂的平面。

什么是surfels?

Surfels approximate the object surface locally with shape and shade attributes, and can be derived from known geometry.

Surfels(surface elements)是体积渲染文献中的“表面元素”或“表面体素”。其他人将其描述为零维n元组,其形状和阴影属性局部近似于对象表面。对象可以由一组密集的点(表面)表示,这些点(表面)保存照明信息。

A surfel, that is, a point structure representing Euclidean xyz coordinates, together with normal coordinates, a RGBA color, a radius, a confidence value and the surface curvature estimate.

其表达如下:

基于surfels的方法基本上都需要几何的GT、深度信息或者在光照已知的场景下才能运行。而2DGS将其结合起来。2DGS采用了扁平的基元(2D高斯,oriented elliptical disk)对3D场景进行表示,2DGS的基元辐射场垂直于其法线,使其可以更好地贴合场景表面。

2DGS与3DGS的区别

关于3DGS的原理,此处就不再阐述了,请见博客:学习笔记之——3D Gaussian Splatting及其在SLAM与自动驾驶上的应用调研_3d gaussian splatting slam-CSDN博客

虽然3DGS取得巨大的成就,但是由于3D 高斯在多视角下的不一致性,使得它在surface reconstruction中效果不佳。而2D高斯则是多视觉一致性强。而2DGS使用2D的圆盘来表示场景,这使得2DGS与3DGS相比能够表达精确的表面几何。3DGS通过像素发出的光线束和3D Gaussian之间的交平面来计算投影到像平面的高斯值,这在不同视点进行渲染时会导致得到不同的depth(因此depth sort的结果也会不连续)。2DGS使用ray-splat来得到准确连续的投影结果,大大提高了几何的质量。如下图所示。对于3DGS而言,不同的视角,其对应的是不同的交互平面(Intersection Plane),但是对于2DGS,都是相同的平面,因此多视角一致性较强~

此外,2D高斯中固有的表面法线使得能够通过法线约束进行直接的重构表面进行正则化,因此相比于传统的surfel-based的方法,2DGS可以从未知几何体中恢复。(2DGS天生具有normal使其可以很自然地使用normal进行监督,并且2DGS可以通过基于梯度的优化方法从未知的几何中进行重建。)

如下图所示,2DGS所构建的平面光滑一些~

下图放大一些细节就更明显了~

虽然效果比较不错,但是2DGS是通过不透明度来判断场景的表面,对于诸如玻璃一类半透明的物体会遇到较大困难。其次,2DGS的densification策略使其主要集中在纹理较丰富区域,对于弱纹理区域表示较差。

2DGS的理解

2DGS 的Modeling

2DGS采用了扁平的基元(planar disk)对场景进行表示,2DGS的基元辐射场垂直于其法线(the normal as the direction of steepest change of density),使其可以更好地贴合场景表面。也有其他类似的工作采用2D 高斯来做几何重建,但是需要稠密的点云以及真值法向量作为输入,但是本文只需要colmap或sfm得到的稀疏点以及作为supervision的图片。

如所图所示。2D高斯的定义为:其中心点 p_{k},两个切向量 t_{u}t_{v}一个控制2D Gaussians 方差的scaling向量(scalling vector)S=\left (s_{u}, s_{v} \right)。2D Gaussians的法线由两个互相正交的切向量来定义t_{w}=t_{u}\times t_{v} 。因此2D高斯的方位参数可以组织成旋转矩阵R=\left [ t_{u}, t_{v}, t_{w} \right ],缩放参数(scalling factors)可以组织为最后一列为0的对角矩阵 𝑆 。

一个2D Gaussian被定义在3D空间中局部的切平面(local tangent plane)坐标系如下:

其中H ∈ 4 × 4 是一个齐次变换矩阵,可以表示2D Gaussian的几何形状。这里的点u = (𝑢, 𝑣)是在2D Gaussian的局部的切平面(local tangent plane)中取得的,可以理解为此时高斯函数的均值为0,方差为1,因此可以通过一个简单的公式高效地计算点 𝑢 的函数值:

随后可以通过矩阵 𝐻 将局部点 𝑢 变换到全局坐标系中。中心点 p_{k} 、尺度S=\left (s_{u}, s_{v} \right)、rotation \left ( t_{u}, t_{v} \right )都是可学习的参数,并且与3DGS一样,2D Gaussian基元也有opacity 𝛼 和通过球谐函数计算的视角依赖的外观c。

2DGS的Splatting

渲染2D Gaussians的常用策略是利用透视投影的仿射近似将2D Gaussian基元投影到image space。但这个方法只有在接近基元中心是准确的,离中心越远误差越大。为了解决这个问题,采用基于齐次坐标的计算公式,将2D splat的投影过程描述为齐次表示下一个统一的2D-to-2D的映射。让W ∈ 4 × 4 为world space到camera space到变换矩阵(transformation matrix from world space to screen space),则screen space到点可以通过下式进行计算:

其中 𝑥 表示从像素 (𝑥,𝑦) 发射点一条齐次坐标表示的光线,其与2D splat在深度 𝑧 处相交。因此,给定一个屏幕坐标 (𝑥,𝑦) ,可以计算得到Gaussian space的坐标 。但这个逆变换矩阵带来了数值的不稳定性,特别是从侧面观察splat退化为线段时。以前的一些方法会设定一个阈值,当splat退化到一定程度时就不再使用这个变换,但这又会使得可微渲染的优化过程不稳定。为了解决这个问题,2DGS使用了一个显式的ray-splat intersection。

Ray-splat Intersection: 2DGS中采用了计算三个非平行平面的交点来得到ray和splat的交点。首先从图像坐标系下任意点 𝑥=(𝑥,𝑦) 出发,根据其两个坐标轴方向的normal (−1,0,0),(0,−1,0) 和任意位移量 𝑥,𝑦 确定两个以齐次坐标表示的平面h_{x} = \left (-1, 0, 0, x \right ) ; h_{y}=\left (0,-1,0,y \right ),这两个平面的交线确定从对应像素发出的ray。接下来将这两个平面变换到2D Gaussian的局部坐标系下(将平面内的点进行变换时使用变换矩阵 𝑀 ,等价于使用其逆转置矩阵M^{-T}):

由前面得到的2D Gaussian局部坐标系下点坐标为 (𝑢,𝑣,1,1) ,以及ray-splat intersection位于两个平面内,可以得到:

通过这个式子可以导出ray-splat intersection的计算公式:

其中h_{u}^{i} ; h_{v}^{i}分别代表齐次坐标平面的第i个参数。

Degenerate Solutions: 从一些很斜的角度看,2D Gaussian会退化成一条线,在rasterization过程中会突然消失。为了解决这个问题,2DGS中使用一个object-space的低通滤波:

其中 𝑢(𝑥) 为ray-splat intersection, 𝑐 是投影后的2D Gaussian的中心。

2DGS的Rasterization

2DGS的rasterization过程与3DGS一致,首先为2D Gaussian计算一个screen space的bound ing box,然后将2D Gaussians按照其depth进行排序并且根据bounding box将其划分为多个tiles,最后使用volumetric α blending来累加得到最终的color:

2DGS的训练及loss

如果仅仅使用photometric loss,重建得到的几何会比较noisy,于是2DGS引入了两个regularization terms对几何进行约束。

(由于3D重建任务的多解性,2DGS中除了rgb loss外还使用了两个loss,分别是对depth的监督和对normal连续性的约束。通过额外的两个约束,使得2DGS能够重建出精确的mesh)

Depth Distortion

由于3DGS的体渲染没有考虑intersected高斯基元之间的距离,因此分散的高斯会导致相似的颜色和深度渲染,即体渲染过程中没有准确地对表面部分进行渲染。为了解决这个问题,可以通过最小化ray-splat intersections之间的距离,来使体渲染的权重尽量集中在表面:

其中,。2DGS在CUDA中对这一项进行了高效的实现。

Normal Consistency

2DGS这种基于2D Gaussians的surfels表达需要在局部上保证和真实的表面对齐,但体渲染中一条光线上可能会有多个半透明的surfels,于是2DGS将中间的surfels即累积不透明度为0.5的点视为真实表面所在的位置。随后将真实表面位置对应的normal与depth maps的梯度对齐:

其中 𝑖 代表沿着光线排列的intersected splat, 𝜔 代表交点处的blending weight, 𝑛𝑖 ​​代表splat朝向camera的法线, N 代表depth maps的归一化梯度,可以由下式计算:

Final Loss

最终的loss为:

其中第一项为rgb loss, 𝛼=100∼1000,𝛽=0.05。那么就是Normal Consistency的贡献量相对少些?

下面图例将2DGS与3DGS的数学模型放在一起对比,有助于更加直观的感受二者的区别~

至于从论文的实验来看,视觉效果好像是2DGS好不少,但是数值效果跟3DGS差不多~

代码测试

安装

git clone https://github.com/hbb1/2d-gaussian-splatting.git --recursive


# if you have an environment used for 3dgs, use it
# if not, create a new environment
conda env create --file environment.yml
conda activate surfel_splatting

由于之前已经有3DGS的环境了,因此直接用原来的conda环境

conda activate 3DGS

但是运行的时候会报错,大几率是环境名字不一样,所以不能直接用3DGS的环境,重新安装2DGS的环境~

但是还是会报错如下:

看上去像是setuptools版本有问题。应该是由于安装的python包的环境不对?为此先把构建好的conda 环境remove掉。然后更新一下yaml文件如下

name: surfel_splatting
channels:
  - pytorch
  - nvidia
  - conda-forge
  - defaults
dependencies:
  - ffmpeg=4.2.2
  - pillow=10.2.0
  - pip=23.3.1
  - python=3.8.18
  - pytorch=2.0.0
  - torchaudio=2.0.0
  - torchvision=0.15.0
  - typing_extensions=4.9.0
  - setuptools=69.5.1
  - pip:
    - open3d==0.18.0
    - mediapy==1.1.2
    - lpips==0.1.4
    - scikit-image==0.21.0
    - tqdm==4.66.2
    - trimesh==4.3.2
    - submodules/diff-surfel-rasterization
    - submodules/simple-knn
conda remove --name surfel_splatting --all
conda env create --file environment.yml
conda activate surfel_splatting

配置成功

开启训练

conda activate surfel_splatting

python train.py -s <path to COLMAP or NeRF Synthetic dataset>


#测试tandt数据集
python train.py -s /home/gwp/dataset/tandt/train -m output/tandt/train 

#验证
python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --unbounded --skip_test --skip_train --mesh_res 1024

但是会报错No module named 'plyfile'

 pip install plyfile,然后再运行

又显示ModuleNotFoundError: No module named 'cv2'

安装

pip install opencv-python

终于可以了~~~~

先试试采用MobaXterm用SIBR_remoteGaussian_app来可视化,但是没有任何输出~(github issue中也提出了online SIBR viewer for 2dgs · Issue #17 · hbb1/2d-gaussian-splatting · GitHub)

因此,需要等待有模型保存后再运行下面命令

训练完后也有对应的模型输出了~

conda activate surfel_splatting


#验证
python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --unbounded --skip_test --skip_train --mesh_res 1024

CUDA_VISIBLE_DEVICES=3 python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --unbounded --skip_test --skip_train --mesh_res 1024

CUDA_VISIBLE_DEVICES=3 python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --skip_test --skip_train --mesh_res 1024

注意模型太大可能会爆掉内存,感觉这个可视化还是有点问题~(加载模型也很慢)

最终把渲染点云生成后再用gaussian-splatting-lightning来查看

python viewer.py TRAINING_OUTPUT_PATH
 
在本次实验中为如下:

conda activate gspl

python viewer.py /home/gwp/2d-gaussian-splatting/output/tandt/train/point_cloud/iteration_30000/point_cloud.ply

出来的不知道是什么鬼。。。

换个数据集再测试看看~

#测试chair数据集
python train.py -s /home/gwp/dataset/chair -m output/chair

后续把训练结果放上来~

代码解读

类似3DGS系列的博客,关于2DGS的代码解读后续会push到github仓库~

参考材料

2D Gaussian Splatting论文阅读笔记 - 知乎

更多关于3DGS的介绍及解读请见:

http://t.csdnimg.cn/ZwV2ricon-default.png?t=N7T8http://t.csdnimg.cn/ZwV2r

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1706338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

虚拟机报错:VMX 进程已提前退出。VMware Workstation 无法连接到虚拟机。

解决报错&#xff1a;VMware Workstation 无法连接到虚拟机。请确保您有权运行该程序、访问该程序使用的所有目录以及访问所有临时文件目录。 VMX 进程已提前退出。 解决方案&#xff1a;右键桌面图标进入VMware Workstation Pro的属性设置&#xff0c;兼容性–勾选“以管理员…

计算机找不到msvcr110.dll如何解决,总结5种简单靠谱的方法

在日常使用电脑的过程中&#xff0c;我们可能会遇到一些错误提示&#xff0c;其中之一就是“msvcr110.dll丢失”。这个错误通常会导致某些程序无法正常运行&#xff0c;为了解决这个问题&#xff0c;下面我将介绍5种有效的解决方法。 一&#xff0c;了解msvcr110.dll是什么 ms…

DISCO: Disentangled Control for Realistic Human Dance Generation

NTU&Microsoft CVPR24https://github.com/Wangt-CN/DisCo 问题引入 提高human motion transfer模型的泛化性&#xff1b;给出 f , g f,g f,g作为参考图片的前背景&#xff0c;然后给出单个pose p p t pp_t ppt​或者pose序列 p { p 1 , p 2 , ⋯ , p T } p \{p_1,p_2…

Java学习17

目录 一.System类&#xff1a; 1.System类常见方法 二.BigInteger和BigDecima类&#xff1a; 三.日期类&#xff1a; 1.Date&#xff1a;精确到毫秒&#xff0c;代表特定的瞬间。 2.Calendar: (1)简介&#xff1a; 3.第三代日期类&#xff1a; 1.第三代日期类的常用方…

使用canarytokens进行入侵检测

canarytokens 基本概念 canarytokens是一种用于识别网络入侵的工具。它们是一种虚拟的“蜜罐”&#xff0c;可以在网络上放置&#xff0c;当有人尝试访问它们时&#xff0c;可以立即触发警报&#xff0c;以便及时发现潜在的安全威胁。这些token可以是各种形式&#xff0c;可以…

Python bqplot:轻松打造炫酷交互式数据可视化

更多Python学习内容&#xff1a;ipengtao.com bqplot是一个用于Jupyter Notebook的交互式数据可视化库&#xff0c;由Jupyter团队开发。它基于HTML5 Canvas和d3.js&#xff0c;并使用ipywidgets进行交互&#xff0c;允许用户通过Python代码创建复杂的交互式图表。bqplot的设计目…

注意力机制篇 | YOLOv8改进之引入用于目标检测的混合局部通道注意力MLCA

前言:Hello大家好,我是小哥谈。注意力机制是可以帮助神经网络突出重要元素,抑制无关元素。然而,绝大多数通道注意力机制只包含通道特征信息,忽略了空间特征信息,导致模型表示效果或目标检测性能较差,且空间注意模块往往较为复杂。为了在性能和复杂性之间取得平衡,本文提…

28 Debian如何配置PXE网络装机(全自动无人值守)

作者:网络傅老师 特别提示:未经作者允许,不得转载任何内容。违者必究! Debian如何配置PXE网络装机(全自动无人值守) 《傅老师Debian小知识库系列之28》——原创 ==前言== 傅老师Debian小知识库特点: 1、最小化拆解Debian实用技能; 2、所有操作在VMware虚拟机实测完成…

文件压缩-42的魅力

让我们以一个非常简单的程序为例&#xff0c;一个什么都不做的程序 将数字返回给操作系统。为什么不呢&#xff1f;毕竟&#xff0c;Unix 已经附带了不少于两个这样的程序&#xff1a;true 和 假。由于已经取了 0 和 1&#xff0c;我们将使用数字 42。 所以&#xff0c;这是我…

AIGC行业:巨头引领的创新浪潮与市场前景

AIGC&#xff08;AI Generated Content&#xff09;技术&#xff0c;作为新兴的技术力量&#xff0c;正逐渐改变内容创作的生态。在这一变革中&#xff0c;国内科技巨头如百度、阿里巴巴、腾讯等的积极参与&#xff0c;不仅为行业带来资本和技术支持&#xff0c;更预示着AIGC技…

企业微信H5授权登录

在企业中如果需要在打开的网页里面携带用户的身份信息&#xff0c;第一步需要获取code参数 如何实现企业微信H5获取当前用户信息即accessToken&#xff1f; 1.在应用管理--》创建应用 2.创建好应用&#xff0c;点击应用主页-》设置-》网页-》将授权链接填上去 官方文档可以看…

西安航空学院电子工程学院领导莅临泰迪智能科技参观交流

5月26日&#xff0c;西安航空学院电子工程学院院长杨亚萍、专业教师刘坤莅临广东泰迪智能科技股份有限公司产教融合实训基地参观交流。泰迪智能科技董事长张良均、副总经理施兴、产品中心负责周东平、校企合作经理吴桂锋与泰迪智能科技韩伟进行热情了接待。双方就专业建设、协同…

不仅能逃生,更能自动灭火!神奇的全氟己酮灭火毯的原理是什么?

很多朋友对灭火毯的印象&#xff0c;还停留在火灾发生时披覆在身上逃生时使用&#xff0c;可以隔离火源。近年来兴起的全氟己酮自动灭火毯可以说大为颠覆大家的想法&#xff0c;这是一条真的可以自动灭火的神奇灭火毯&#xff01;为什么能做到这一点&#xff1f;全氟己酮灭火毯…

(1) 初识QT5

文章目录 Qt Quickdemo信号的命名方式 qml语言一个很重要的概念 qt 模块 Qt Quick Qt Quick是Qt5中⽤户界⾯技术的涵盖。Qt Quick⾃⾝包含了以下⼏种技术&#xff1a; QML-使⽤于⽤户界⾯的标识语⾔JavaScript-动态脚本语⾔Qt C具有⾼度可移植性的C库. 类似HTML语⾔&#xf…

MySQL连表查询练习

– 34. 查询所有员工的姓名和部门名称&#xff0c;没有部门的员工不需要展示 SELECTe.NAME 员工姓名,d.NAME 部门名称 FROMt_emp eINNER JOIN t_dept d ON e.dept_id d.id;– 35. 查询所有员工的姓名和部门名称&#xff0c;没有部门的员工展示BOSS SELECTe.NAME 员工姓名,i…

从华为云Redis到AWS ElastiCache的操作方法

越来越多企业选择出海&#xff0c;那么就涉及到IT系统的迁移&#xff0c;本文将详细介绍如何将华为云Redis顺利迁移到AWS ElastiCache的操作方法&#xff0c;九河云将为您介绍迁移步骤以帮助您顺利完成这一重要任务。 **1. 确定迁移计划** 在开始迁移之前&#xff0c;首先要制…

基于Freertos的工训机器人

一. 工训机器人 V1 1. 实物 将自制的F4开发板放置车底板下方&#xff0c;节省上方空间&#xff0c;且能保证布线方便整齐。 2. SW仿真 使用SolidWorks进行仿真&#xff0c;且绘制3D打印件。 工训仿真 3.3D打印爪测试 机械爪测试 二. 工训机器人 V2 1. 实物 工训机器人V2不同于…

效果炸裂!使用 GPT-4o 快速实现LLM OS

使用 GPT-4o 快速实现LLM OS 什么是 LLM OS&#xff1f;LLM OS 主要有以下5个部分组成&#xff1a; LLM OS 开源实现运行 LLM OS 开源实现 什么是 LLM OS&#xff1f; 关于 LLM OS 的最初构想源自karpathy 在2023年11月11日发布的一条Twitter 动态&#xff0c;这是 LLM OS 概念…

mipi-csi笔记

数据格式 长包&#xff0c;短包 用DI来判断数据类型 测试帧率&#xff0c;如用1G的示波器 下面的代表这是一张图片,用帧间隙来测试YUV422视频的帧率 fps10hz的外同步

JavaScript(ES5) 入门

01-简介 1)JavaScript 发展史 [1] 1995年,navigator(导航者),netscape(网景);用户体验性特别好 [2] 表单验证难题,表单验证都是在后台处理.当时处在网速特别慢的时代,发送一个请求,接收响应 需要5分钟左右的时候提高表单验证的速度,想开发一种语言在前端进行表单验证. [3] 1995…