109、Recent Advances in 3D Gaussian Splatting

简介

论文
对3D Gaussian Splatting的综述
在这里插入图片描述

质量提升

Mip-Splatting观察到，改变采样率，例如焦距，可以通过引入高频高斯类形伪影或强膨胀效应，极大地影响渲染图像的质量，因此Mip-Splatting将3D表示的频率限制在训练图像确定的最大采样频率的一半以下，为了避免膨胀效应，在高斯椭球投影中引入另一个二维Mip滤波器，近似于EWA-Splatting的盒形滤波器

MS3DGS也旨在解决原始3DGS中的混叠问题，引入了一种多尺度高斯溅射表示，在以新的分辨率水平渲染场景时，从不同的尺度水平中选择高斯值生成无混叠图像

除了混叠问题，渲染依赖于视图的效果的能力也需要改进

为了产生更忠实的依赖于视图的效果，VDGS提出用类似nerf的神经网络代替原始3DGS中的球面谐波(Spherical Harmonic, SH)系数对3DGS进行建模，以表示3D形状，并预测依赖于视图的颜色和不透明度等属性

Scaffold-GS提出初始化体素网格，并将可学习的特征附加到每个体素点上，并通过插值特征和轻量级神经网络确定高斯函数的所有属性。

StopThePop并没有改变依赖于视图的外观建模方法，而是指出3DGS倾向于通过逐射线深度排序弹出3D高斯函数来欺骗依赖于视图的效果，这导致视点旋转时的结果不那么忠实。为了减轻弹出3D高斯的可能性，StopThePop用基于tile的排序取代了每射线深度排序，以确保局部区域的排序顺序一致。

为了更好地指导3D高斯飞溅的增长，GaussianPro引入了一种渐进传播策略，通过考虑相邻视图之间的法向一致性并添加平面约束来更新高斯函数

为了处理更复杂的阴影，如镜面和各向异性分量，Spec-Gaussian提出利用各向异性球面高斯来近似3D场景的外观

压缩和正则化

虽然三维高斯喷溅实现了实时渲染，但在较低的计算要求和更好的点分布方面还有改进的空间。矢量量化是信号处理中的一种传统压缩方法，它将多维数据聚类到有限的表示集合中，主要用于高斯分布

C3DGS采用残差矢量量化(R-VQ)来表示几何属性，包括缩放和旋转

SASCGS采用灵敏度感知的KMeans方法，利用向量聚类将颜色和几何属性编码到两个码本中。

EAGLES量化了包括颜色、位置、不透明度、旋转和缩放在内的所有属性，它们表明，在新的视图合成任务中，不透明度的量化导致了更少的浮动或视觉伪影

Compact3D没有量化不透明度和位置，因为共享它们会导致重叠的高斯分布

LightGaussian对位置属性采用基于八叉树的G-PCC无损压缩，这是由于对位置后续光栅化精度的敏感性。

SOGS采用了与矢量量化不同的方法。它们将高斯属性排列到多个二维网格中。对这些网格进行排序，并应用平滑正则化来惩罚与2D网格上的局部邻域相比具有非常不同值的所有像素

在磁盘数据存储方面，SASCGS采用了LZ77算法和Huffman编码相结合的熵编码方法DEFLATE来压缩数据。SOGS使用JPEG XL压缩RGB网格，并使用zip压缩将所有其他属性存储为32位OpenEXR图像

动态三维重建

Luiten等将三维高斯的中心和旋转(四元数)作为随时间变化的变量，而其他属性在所有时间步长保持不变，从而通过重建动态场景实现6-DOF跟踪。然而，逐帧离散定义缺乏连续性，这可能导致长期跟踪效果不佳。因此，引入了基于物理的约束，即三种正则化损失，包括短期局部刚度和局部旋转相似损失以及长期局部等距损失。然而，这种方法仍然缺乏帧间的相关性，并且对于长序列需要较高的存储开销

规范空间是静态三维空间，那么问题就变成了如何对变形场进行建模。一种方法是使用MLP网络隐式拟合它，类似于动态NeRF。Yang等人遵循这一思路，提出将位置编码的高斯位置和时间步长t输入到输出三维高斯位置、旋转和缩放偏移量的MLP中。然而，不准确的姿势可能会影响渲染质量。这在NeRF的连续建模中并不明显，但离散3DGS会放大这个问题，特别是在时间插值任务中。因此，他们在编码的时间向量中添加线性衰减的高斯噪声，以改善时间平滑，而无需额外的计算开销

4D-GS采用多分辨率HexPlane体素来编码每个三维高斯的时空信息，而不是位置编码，并对不同的属性使用不同的紧凑mlp。对于稳定训练，首先对静态3DGS进行优化，然后对MLP表示的变形场进行优化

GauFRe在加入MLP预测的delta值后，分别对缩放和旋转进行指数运算和归一化运算，保证了优化的便利性和合理性。由于动态场景中包含大量的静态部分，因此将点云随机初始化为动态点云和静态点云，并对其进行相应的优化，并将它们一起渲染，实现动态部分和静态部分的解耦。

与NeRF相比，3DGS是一种显式表示，隐式变形建模需要大量参数，容易产生过拟合，因此也提出了一些显式变形建模方法，保证了快速训练

受到人类和关节物体运动有时是周期性的这一事实的启发，提出使用傅立叶级数来拟合高斯位置的变化。旋转由一个线性函数近似表示。其他属性随着时间的推移保持不变。动态优化就是对傅里叶级数和线性函数的参数进行优化，参数的数量与时间无关。这些参数函数是关于时间的连续函数，保证了时间的连续性，从而保证了新视图合成的鲁棒性。除了图像损失外，还介绍了双向光流损失。多项式拟合和傅里叶近似分别在模拟平滑运动和剧烈运动方面具有优势。因此，Gaussian-Flow将这两种方法在时间域和频率域结合起来捕捉属性的随时间变化的残差，称为双域变形模型(Dual-Domain Deformation Model, DDDM)。位置、旋转和颜色被认为是随时间变化的。为了避免统一时间分割带来的优化问题，本工作采用了自适应时间步长缩放。最后，在静态优化和动态优化之间迭代优化，并引入了时间平滑损失和KNN刚性损失。

Li等引入了时间径向基函数来表示时间不透明度，可以有效地对出现或消失的场景内容进行建模。然后，利用多项式函数对三维高斯体的运动和旋转进行建模。他们还用特征代替球面谐波，以表示与视图和时间相关的颜色。这些特征由基色、视图相关特征和时间相关特征三部分组成。后两者通过添加到基色上的MLP转换为残余色，从而获得最终颜色。在优化过程中，基于训练误差和粗深度，在未优化的位置采样新的三维高斯函数。以上方法所采用的显式建模方法都是基于常用的函数

DynMF假设每个动态场景由有限和固定数量的运动轨迹组成，并认为轨迹的学习基础将更平滑，更具表现力。场景中的所有运动轨迹都可以用这个学习基线性表示，并使用一个小的时间MLP来生成基。位置和旋转随着时间的推移而变化，并且它们与不同的运动基础共享运动系数。在优化过程中引入了运动系数的正则化、稀疏性和局部刚性项。

4D-GS将场景的时空作为一个整体，将三维高斯变换为四维高斯，即将高斯上定义的属性值变换为四维空间。例如，缩放矩阵是对角线，在对角线上加入一个时间维度的缩放因子，就形成了四维空间的缩放矩阵。球面谐波(SH)的四维扩展可以表示为SH与1d基函数的组合

SWAGS根据运动量将动态序列划分为不同的窗口，并在不同的窗口中训练独立的动态3DGS模型，具有不同的规范空间和变形场。变形场使用可调的MLP，它更侧重于对场景的动态部分建模。最后，微调确保使用重叠框架添加约束的窗口之间的时间一致性。MLP是固定的，在微调期间只优化规范表示。

与基于nerf的方法相比，基于3dgs的方法具有明显的优势，因为它们具有明确的几何表示，可以更容易地建模动力学。

具有挑战性的输入

FSGS是第一个探索从稀疏视图输入重建三维场景的算法。它从结构-从运动(SfM)方法初始化稀疏高斯，并通过解池现有高斯来识别它们。为了实现忠实的几何重建，一个额外的预训练的2D深度估计网络有助于监督渲染的深度图像

SparseGS还通过引入由预训练的2D网络估计的深度输入，从稀疏视图输入进行3D重建。它进一步去除具有不正确深度值的高斯函数，并利用分数蒸馏采样(SDS)损失来鼓励从新视角呈现的结果更加忠实

GaussainObject使用视觉船体初始化高斯函数，并对预训练的ControlNet进行微调，修复通过向高斯函数的属性添加噪声而生成的退化渲染图像，这优于先前基于nerf的稀疏视图重建方法

pixelSplat向前迈进了一步，在没有任何先验数据的情况下，从单视图输入重建3D场景。它提取类似于PixelNeRF的像素对齐图像特征，并使用神经网络预测每个高斯的属性

SplatterImage也适用于单视图数据，但使用U-Net网络将输入图像转换为高斯属性。它可以通过扭曲操作将不同视点的预测高斯值聚合到一起，从而扩展到多视点输入。

对于城市场景数据，PVG使高斯的均值和不透明度值与时间相关的函数以相应高斯的寿命峰值(随时间的最大突出)为中心

driinggaussian通过首先增量优化静态三维高斯分布，然后将其与动态对象的三维高斯分布组合来重建动态驾驶数据。该过程还得到了Segmentation Anything Model和输入LiDAR深度数据的辅助

streetgaussian用静态3DGS和动态3DGS对静态背景和动态对象进行建模，其中通过履带车辆姿态变换高斯，并使用与时间相关的球面谐波(SH)系数近似其外观。

为了便于对3DGS方法的城市场景进行比较，GauU-Scene提供了一个覆盖超过1.5km2的大规模数据集。

其他方法主要针对特殊输入数据，包括无摄像头图像COLMAP-Free 3D Gaussian Splatting、iComMa、模糊输入Deblurring 3D Gaussian Splatting、CT扫描Sparse-view CT Reconstruction with 3D
Gaussian Volumetric Representation、全景图像360-GS、卫星图像CHARACTERIZING SATELLITE GEOMETRY VIA ACCELERATED
3D GAUSSIAN SPLATTING等。

几何编辑

GaussianEditor使用来自提议的高斯语义跟踪的文本提示和语义信息来控制3DGS，这使得3D绘制、对象移除和高斯飞溅的合成成为可能

Gaussian Grouping同时在来自SAM的2D掩模预测和3D空间一致性约束的监督下重建和分割开放世界的3D对象，这进一步实现了多种编辑应用，包括3D对象移除，在绘画和构图上具有高质量的视觉效果和时间效率。

Point’n Move将交互式场景对象操作与曝光区域的绘图相结合。利用3DGS的显式表示，提出了双阶段自提示蒙版传播过程，将给定的2D提示点转移到3D蒙版分割中，从而实现用户友好的编辑体验和高质量的效果

以上方法虽然实现了在3DGS上的编辑，但仍然局限于对3D对象进行一些简单的编辑操作(移除、旋转、平移)

SuGaR通过在曲面上正则化高斯函数，从3DGS表示中提取显式网格。此外，它依赖于基于变形网格的高斯参数的手动调整来实现所需的几何编辑，但难以实现大规模的变形

SC-GS学习了一组稀疏控制点用于3D场景动态，但面临激烈运动和细节表面变形的挑战

GaMeS引入了一种新的基于GS的模型，它结合了传统网格和普通GS。利用显式网格作为输入，利用顶点参数化高斯分量，从而在推理过程中通过改变网格分量来实时修改高斯分量。然而，由于它不能在训练过程中改变网格拓扑结构，因此它不能处理显著的变形或变化，特别是大面上的变形。

上述方法虽然可以完成一些简单的刚性变换和非刚性变形，但在编辑效果和大规模变形方面仍面临挑战

Gao等人还利用显式表示的先验(网格的法线等表面属性，以及显式变形方法产生的梯度)和学习面分割，使基于网格的变形适应于3DGS，优化高斯参数和数量，为3DGS提供了足够的拓扑信息，提高了重建和几何编辑结果的质量

外观编辑

在外观方面，GaussianEditor提出，与之前的NeRF编辑工作Instruct-NeRF2NeRF类似，首先在最近的2D分割模型生成的掩蔽区域使用扩散模型修改带有语言输入的2D图像，并再次更新高斯函数的属性。

另一个独立的研究工作也被命名为GaussianEditor操作类似，但它进一步引入了一个分层高斯喷溅(HGS)，以允许3D编辑，如对象的绘画

为了更容易控制纹理和照明，研究人员已经开始解开纹理和照明，使独立编辑

GS-IR和RelightableGaussian分别对纹理和光照进行建模。在每个高斯上定义额外的材料参数来表示纹理，照明由可学习的环境图近似

GIR和GaussianShader通过将材料参数绑定到3D高斯函数上共享相同的解纠缠范式，但为了处理更具挑战性的反射场景，它们向高斯函数添加了类似Ref-NeRF的正常方向约束。在纹理和光照解纠缠后，这些方法可以在不影响对方的情况下独立修改纹理或光照

分割和理解

随着SAM及其变体在2D场景理解方面取得的显著进展，现有方法已经尝试将CLIP/DINO等语义特征整合到NeRF中，以处理3D分割、理解和编辑

由于隐式和连续表示，基于nerf的方法计算量很大。最近的方法试图将2D场景理解方法与3D高斯方法相结合，以产生实时且易于编辑的3D场景表示。大多数方法利用SAM生成输入多视图图像的语义掩码Gaussian Grouping、Point’n Move 、Segment Any 3D Gaussians 、Feature 3DGS 、 LangSplat、 Segment Anything in 3D Gaussians ，或提取每个像素的密集语言特征CLIP /DINO Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding 、FMGS 、CoSSegGaussians。

legaussian为每个高斯函数增加了不确定性值属性和语义特征向量属性。然后，它从给定的视点呈现具有不确定性的语义图，与量化的CLIP和DINO密集特征的地面真实图像进行比较

为了实现跨视图的二维掩码一致性，Gaussian Grouping采用DEVA从不同视点传播和关联掩码。它将身份编码属性添加到3D高斯图像中，并渲染身份特征映射，与提取的2D蒙版进行比较。

SLAM几何重建

SuGaR是一项开创性的工作，它用3DGS表示从多视图图像中构建3D表面。它引入了一个简单但有效的自正则化损失来约束相机与最近高斯之间的距离应尽可能接近渲染深度图中相应像素的深度值，从而鼓励3DGS与真实3D表面之间的对齐

NeuSG选择将之前基于nerf的表面重建方法NeuS纳入3DGS表示中，将表面属性转移到3DGS。更具体地说，它鼓励高斯的带符号距离值为零，并且3DGS和NeuS方法的法线方向尽可能一致。

SLAM

GS-SLAM提出了一种自适应三维高斯扩展策略，在训练阶段添加新的三维高斯，并删除具有捕获深度和渲染不透明度值的不可靠高斯。为了避免重复的致密化

SplaTAM使用与视图无关的颜色表示高斯值，并创建一个致密化蒙版，通过考虑当前高斯值和新帧的捕获深度来确定新帧中的像素是否需要致密化

为了稳定定位和映射，Gaussian Splatting SLAM和Gaussian-SLAM在高斯的尺度上增加了额外的尺度正则化损失，以鼓励各向同性的高斯。

为了更容易初始化，LIV-GaussMap使用LiDAR点云初始化高斯，并为全局地图构建可优化的自适应大小体素网格

SGS-SLAM通过提取二维语义信息，进一步考虑高斯在同时定位和映射过程中的语义信息，这些信息可以通过二维分割方法获得或由数据集提供。

3DGS提供的显式几何表示支持灵活的重投影，以减轻不同视点之间的不对齐，因此与基于nerf的方法相比，可以实现更好的重建。

数字人体

使用隐式表示学习虚拟人的方法有很多，特别是NeRF和SDF表示，它们从多视图图像中获得高质量的结果，但计算成本很高。由于3DGS的高效性，研究工作蓬勃发展，将3DGS推向数字人体创作

人体

旨在从多视角视频中重建动态人体

D3GA首先使用可驱动的3D高斯模型和四面体笼子创建可动画的人类头像，实现了有前途的几何和外观建模。

为了捕捉更多的动态细节，SplatArmor利用两种不同的mlp来预测基于SMPL和规范空间的大型运动，并允许提议的SE场的姿势依赖效应，从而实现更详细的结果

HuGS使用线性混合蒙皮和基于局部学习的细化创建了一个从粗到细的变形模块，用于基于3DGS构建和动画虚拟人类化身。它达到了最先进的人类神经渲染性能，每秒20帧

HUGS利用三平面表示对规范空间进行因式分解，可以在30分钟内从单目视频(50 - 100帧)中重建人和场景

由于3DGS学习了大量的高斯椭球体，HiFi4G将3DGS与其双图机制提供的非刚性跟踪结合起来进行高保真渲染，成功地以更紧凑的方式保持了时空一致性

为了在消费级设备上实现更高的渲染速度和高分辨率，GPS-Gaussian在稀疏源视图上引入高斯参数图，与深度估计模块联合回归高斯参数，无需任何微调或优化

GART将人类扩展到基于3DGS表示的更清晰的模型(例如，动物)。

为了充分利用来自多视图图像的信息，Animatable gaussian结合了3DGS和2D cnn，使用模板引导的参数化和姿态投影机制来获得更准确的人体外观和逼真的服装动态。

Gaussian Shell Maps (GSMs)将基于cnn的生成器与3DGS相结合，以复杂的细节(如服装和配饰)重新创建虚拟人

ASH使用网格UV参数化将3D高斯学习投影到2D纹理空间中以捕获外观，从而实现实时和高质量的动画人物

为了重建人体的丰富细节，例如布料，3DGS-Avatar引入了一个浅MLP而不是SH来建模3D高斯的颜色，并使用几何先验规则化变形，提供与姿势相关的布料变形的逼真渲染，并有效地推广到新的姿势3

对于基于单目视频的动态数字人体建模，GaussianBody进一步利用基于物理的先验来正则化规范空间中的高斯函数，以避免来自单目视频的动态布中的伪影

GauHuman重新设计了原始3DGS的修剪/分裂/克隆，以实现高效优化，并结合了姿态细化和权域模块，用于精细细节的学习。它实现了分钟级的训练和实时渲染(166 FPS)。

GaussianAvatar将可优化张量与动态外观网络相结合，以更好地捕捉动态，从而实现动态角色重建和实时逼真的新颖动画。

Human101使用固定视角相机进一步将高保真动态人体创作的速度提高到100秒。

头部重建

MonoGaussianAvatar首先使用规范空间建模和变形预测将3DGS应用于动态人头重建

PSAvatar引入了显式Flame人脸模型来初始化高斯函数，该模型可以捕获高保真的面部几何形状，甚至是复杂的体积物体(例如眼镜)

在GaussianHead中使用三平面表示和运动场来模拟连续运动中几何变化的头部，并渲染丰富的纹理，包括皮肤和头发

为了更容易控制头部表情，GaussianAvatars将几何先验(Flame人脸模型)引入3DGS，将高斯先验绑定到显式网格上，并优化高斯椭球体的参数

Rig3DGS采用可学习的变形，为新颖的表情、头部姿势和观看方向提供稳定性和泛化，从而在便携式设备上实现可控的肖像。

HeadGas用3dms的表达向量加权的潜在特征基来赋予3DGS属性，从而实现实时的可动画头部重建

flashhavatar进一步在参数化人脸模型中嵌入一个均匀的3D高斯场，并学习额外的空间偏移来捕捉面部细节，成功地将渲染速度提高到300 FPS

为了综合高分辨率的结果，Gaussian head avatar采用超分辨率网络实现高保真的头像学习

一些作品将3DGS扩展到基于文本的头部生成，DeepFake和重光照。

头发和手

人类的其他部位也被探索过，比如头发和手

3D-PSHR将手部几何先验(hand geometry prior, MANO)与3DGS相结合，首次实现了手部的实时重建

MANUS使用3DGS进一步探索了手与物体之间的相互作用

GaussianHair首先将Marschner Hair Model与UE4的实时头发渲染相结合，创建了高斯头发散射模型

它捕获复杂的头发几何形状和外观，用于快速栅格化和体积渲染，支持包括编辑和重照明在内的应用程序。

3D generation

DreamGaussian用3DGS取代DreamFusion框架中的MipNeRF表示，3DGS使用SDS损失来优化3D高斯分布。3DGS的拆分过程非常适合生成设置下的优化进程，因此可以将3DGS的效率优势带到基于SDS损耗的文本到三维生成中。为了提高最终质量，这项工作遵循了Magic3D的思想，该思想从生成的3DGS中提取网格，并通过像素均方误差(MSE)损失优化UV纹理，从而细化纹理细节

除了2D SDS之外，GSGEN还引入了基于Point-E的3D SDS损失，这是一种文本到点云扩散模型，以缓解多面或双面问题。它采用point - e初始化点云作为初始几何体进行优化，并且只优先使用二维图像来细化外观。

GaussianDreamer也结合了二维和三维扩散模型的先验。它利用shape - e生成初始点云，并利用2D SDS优化3DGS。然而，生成的初始点云相对稀疏，因此进一步提出了噪声点增长和颜色摄动来增强其密度。然而，即使引入了3D SDS损失，由于视图是逐次采样的，优化过程中仍可能存在Janus问题。

MVDream、ImageDream对二维扩散模型进行微调，一次生成多视图图像，从而在SDS优化过程中实现多视图监督

BoostDream提出的多视图SDS直接将4个采样视图的渲染图像拼接成2 × 2的大图像，并在多视图法线贴图条件下计算梯度。这是一种即插即用的方法，首先可以通过渲染监督将3D资产转换为可微分表示，包括NeRF, 3DGS和DMTet，然后对它们进行优化，以提高3D资产的质量。

一些方法对SDS损失有一定的改善。luciddream提出了区间分数匹配(Interval Score Matching, ISM)，用DDIM反演代替SDS中的DDPM，并从扩散过程的区间步长引入监督，避免了一步重构的高误差

GaussianDiffusion提出结合来自多个视点的结构化噪声来缓解Janus问题和变分3DGS，通过减轻浮动来获得更好的生成结果

指出扩散先验和扩散模型训练过程的差异会影响3D生成的质量，因此提出对3D模型和扩散先验进行迭代优化。具体来说，在无分类器引导公式中引入了两个额外的可学习参数，一个是可学习的无条件嵌入，另一个是添加到网络中的额外参数，如LoRA参数。这些方法并不局限于3DGS，其他最初基于nerf的方法包括VSD、CSD，旨在改善SDS损耗的方法也可用于3DGS生成。

人体作为一个特殊的类别，可以引入先验模型，如SMPL来辅助生成

Gaussian Shell Maps (GSMs)从SMPL模板构建多层壳，并在壳上绑定3D高斯函数。通过利用3DGS的可微分渲染和StyleGAN2的生成对抗网络，可以有效地生成可动画的3D人体

GAvatar采用了附加在SMPL-X上的基于基元的表示，并将三维高斯函数附加到每个基元的局部坐标系上。通过隐式网络预测三维高斯的属性值，并通过类似NeuS的方法将不透明度转换为符号距离场，提供几何约束并提取详细的纹理网格。生成以文本为基础，主要以SDS丢失为指导

HumanGaussian通过在SMPL-X模板表面随机采样点来初始化三维高斯函数。它扩展了Stable Diffusion，同时生成RGB和depth，并构建了双分支SDS作为优化指导。并将空文本提示提供的分类器评分与负提示提供的负提示评分相结合，构建负提示指导，解决过饱和问题

场景生成则需要考虑不同对象之间的相互作用和关系

CG3D将用户手动解构的文本提示输入到场景图中，文本场景图被解释为一个概率图形模型，其中有向边具有对象节点的尾部和交互节点的头部。然后场景生成成为一个祖先采样，首先生成对象，然后它们之间的相互作用。优化分为两个阶段，在第二阶段引入重力和法向接触力。

luciddream和Text2Immersion都基于参考图像(用户指定或文本生成)，并向外扩展以实现3D场景生成。前者利用稳定扩散(SD)进行图像绘制，在采样视图上生成未见区域，并结合单目深度估计和对齐，从这些视图建立3D点云。最后，以点云为初始值，以投影图像为地面真值训练3DGS，实现三维场景生成。后一种方法有类似的思路，但有一个去除点云中异常值的过程，并且3DGS优化有两个阶段:训练粗3DGS和细化。

图像到3D的生成，或者单目3D重建

对于图像条件，可以将SDS损失中使用的预训练扩散模型替换为 Zero -1 to 3 XL

Repaint123在DreamGaussian的图像到3d生成的基础上，提出了一种渐进式可控重绘机制来细化生成的网格纹理。在对遮挡进行重绘的过程中，通过注意特征注入(attention feature injection)将参考图像的纹理信息融合在一起，并提出了一种可见度感知的重绘过程，以细化不同强度的重叠区域。最后，将细化后的图像作为ground truth，直接通过MSE loss对纹理进行优化，实现快速优化

利用现有的3D数据集Objaverse、Objaverse-XL[185,186]并构建大型模型，直接从单个图像生成3DGS表示

TriplaneGaussian提出了三平面和3DGS的混合表示。通过基于变压器的点云解码器和三平面解码器，分别从输入的图像特征生成点云和三平面编码3DGS的属性信息。通过上采样方法对生成的点云进行致密化，然后将其投影到三平面上进行特征查询。查询的特征通过投影图像特征增强，并使用MLP将其转换为3D高斯属性，从而实现从单幅图像生成3DGS

AGG还引入了一个混合生成器来获得点云和三面特征。但它首先生成一个粗糙的3DGS，然后通过一个基于u - net的超分辨率模块对其进行采样，以提高生成结果的保真度

LGM首先利用现成的模型从文本[162]或单个图像[163]生成多视图图像。然后训练一个基于u - net的网络，从多视图图像中生成3DGS。U-Net是不对称的，这允许输入高分辨率图像，同时限制了输出高斯图像的数量

4D generation

对3DGS表示的四维生成也进行了初步探索

AYG通过变形网络赋予了3DGS动态，用于文本到4d的生成。它分为两个阶段:基于Stable Diffusion和MVDream的静态3DGS生成和SDS损失，以及基于文本到视频扩散模型的动态生成和视频SDS损失。在动态生成阶段，仅对变形场网络进行优化，随机选取部分帧加入基于图像的SDS以保证生成质量

DreamGaussian4D实现了给定参考图像的四维生成。静态3DGS首先使用DreamGaussian的改进版本生成。利用现成的稳定扩散视频从给定的图像生成视频。然后，通过在静态3DGS上添加一个变形网络的优化来实现动态生成，并将生成的视频作为监督，同时对采样视图进行基于Zero -1 to 3 XL的3D SDS损失。最后，该方法还提取了网格序列，并利用图像到视频扩散模型对纹理进行优化

对于视频到4d的生成，4DGen和Efficient4D都提出利用syncdream从输入帧生成多视图图像作为伪地真，以训练动态3DGS。前者引入HexPlane作为动态表示，使用生成的多视图图像作为三维变形伪地面真值构建点云。后者直接将三维高斯图像转换为四维高斯图像，通过融合相邻时间戳的空间体积，增强syncdream的时间连续性，实现时间同步，生成更好的跨时间多视图像供监督

Conclusions and Discussions

在处理具有挑战性的输入(如稀疏视图输入、复杂的阴影效果和大规模场景)时，其重建质量会下降。虽然已有尝试取得了较好的结果，但仍有改进的空间。如何提高其在不同输入条件下的重建鲁棒性是一个重要的问题。

与连续隐式表示(如NeRF和SDF)相比，3DGS的几何质量仍然受到其离散几何表示的影响。使用3D高斯飞溅表示构建高质量的几何/表面将促进下游应用，如自动车辆和动画。

一些方法已经深入到编辑3D高斯飞溅的几何，纹理和照明领域。然而，它们不能准确地分解几何、纹理和光照，或者需要重新优化高斯函数的属性。因此，这些方法在编辑过程中仍然缺乏独立的编辑能力或缺乏效率。它有望用更先进的渲染技术提取几何、纹理和照明，以方便独立编辑，并在3DGS和基于网格的表示之间建立连接，以实现高效的编辑。

利用基于SD的SDS损失，采用3DGS表示的生成模型得到了忠实的结果。然而，当前方法的4D生成结果仍然缺少真实的几何形状、外观和物理感知运动。整合先前的数据，如视频生成模型和物理定律产生的结果，可能会提高生成的4D内容的质量。