论文阅读笔记——ST-4DGS，WideRange4D

news2025/4/26 15:22:19

ST-4DGS

ST-4DGS 论文
在 4DGS 中，变形场 $\mathcal{F}$ 与运动参数 X 和形状参数 $(S, R)$ 高度耦合，导致训练时高斯表示紧凑型退化，影响动态渲染质量。由此，本文提出两种方法解耦运动与形状参数，保持高斯的紧凑性。
解决时空连续性中的几何撕裂（变形场在时间上分段不可导导致高斯椭球位置或形状的突变；高斯分布密度调整应随运动速度调整，即高速应高斯密集，低速应去除冗余）和闪烁伪影（借助信号处理，增加时域约束）
在这里插入图片描述

约束

局部刚性正则化

认为：相邻高斯在短时间内应遵循刚性变换，使用 KNN 构建局部高斯邻域，通过旋转一致性和位移一致性，优化高斯运动，权重 $w_{i,j}$ 基于高斯间距离调整，确保邻近高斯运动一致。
$\begin{gathered} \mathcal{L}_{loc}=\lambda_{rig}\mathcal{L}_{rig}+\lambda_{rot}\mathcal{L}_{rot}, \\ \mathcal{L}_{rig}=\frac{1}{k|\mathcal{G}|}\sum_{g_{i}\in\mathcal{G}}\sum_{j\in\mathcal{N}_{i}}w_{i,j}\|\Delta v_{t-1}-\Delta\mathcal{R}_{\mathrm{i}}\Delta v_{t}\|_{2}, \\ \mathcal{L}_{rot}=\frac{1}{k|G|}\sum_{g_{i}\in\mathcal{G}}\sum_{j\in\mathcal{N}_{i}}w_{i,j}\left\|\mathcal{R}_{i,t-1}\mathcal{R}_{i,t}^{-1}-\mathcal{R}_{j,t-1}\mathcal{R}_{j,t}^{-1}\right\|_{2}, \\ w_{i,j}=exp\left(-\lambda_{w}\left\|X_{j,t-1}-X_{i,t-1}\right\|_{2}^{2}\right) \end{gathered}$

时间扭曲约束

认为：高斯的 3D 运动应与其在 2D 图像的投影光流一致。使用 RAFT 光流估计计算 2D 像素偏移。
$\mathcal{L}_{tem}=\left\|I_{t}-\mathcal{F}\mathcal{W}\left(I_{t-w};F_{t,w}\right)\right\|_{1}$
同时，加入各项异形正则化，防止高斯形状过度拉伸，提高几何稳定性：
$\mathcal{L}_{ani}=\frac{1}{|S|}\sum_{s_{i}\in S}\max\left\{\frac{\max\left(S_{i}\right)}{\min\left(S_{i}\right)},\tau\right\}-\tau$
最后的损失函数为：
$\mathcal{L}_m=\lambda_{tem}\mathcal{L}_{tem}+\lambda_{ani}\mathcal{L}_{ani}+\mathcal{L}_{loc}$
在这里插入图片描述

密度控制

原始 3DGS 的密度控制主要适用于静态场景，但在动态场景中，该方法容易导致3D 高斯退化（漂浮物增多，几何结构松散）。

几何感知修剪：剔除不符合真实结构的漂浮高斯：对每个高斯 $g_i$ ，计算其 KNN 的局部中心 $\overline{X}=\frac{1}{|N_i|}\sum_{g_j\in N_i}$ （假设高斯位置到中心的距离服从 $\mathcal{N}(\overline{X}_i,\sigma)$ ），若某高斯的距离 $d_i=|X_i-\overline{X}_i| > 3\sigma$ ，则判定为漂浮物剔除
运动感知分裂：在动态区域增加高斯密度。基于 RAFT估计生成运动掩膜，标记动态区域。-将 3D 高斯投影到 2D 图像平面，得到 高斯投影图 $I_t$ ，在动态区域 均匀采样候选点 $U_t$ ，并与投影高斯进行匹配。对匹配成功的区域，执行 高斯分裂（Splitting），增加局部高斯密度。

损失函数

因为采用了 HexPlane，所以有 $\mathcal{L}_{TV}$ ， $\mathcal{L}_{c}$ 为视图合成损失。
$\mathcal{L}=\lambda_{c}\mathcal{L}_{c}+\lambda_{TV}\mathcal{L}_{TV}+\mathcal{L}_{m}$

WideRange4D

WideRange4D 论文

相比4DGS（4D Gaussian Splatting）的所有帧一起暴力优化，这个方法采用分阶段吃蛋糕策略：先搞定静态部分，再像拼拼图一样一块块啃动态部分，避免一口吃撑（误差累积）。
原先的变形场依赖MLP感受野有限，表现为轨迹断裂。且长距离通过多个小变形叠加，误差累积，且存储开销会增加。（局部离散建模全局离散）针对长距离空间位移，通过渐进式控制逐步学习。

在初始化3D场景时，我们对4D场景中所有物体在其静止状态下进行高质量的3D重建，以确保高质量的4D场景重建。
在这里插入图片描述
将 4D 场景划分为三种：

$T_0=\{t_0^0,t_0^1……\}$ 已对齐的时间步
$T_1=\{t_1^0,t_1^1……\}$ 当前对齐的时间步
$T_2=\{t_2^0,t_2^1……\}$ 待对齐的时间步
训练中，数据更新策略为：将 $T_1$ 中已对齐的时间步加入 $T_0$ ，将 $T_2$ 中与上一轮 $T_1$ 最接近的时间步加入 $T_1$ 。
基于每帧运动显著性，引入动态掩码 $M(t_1^i,t_0^k)$ ：
$\begin{aligned} w=\frac{w_0}{|t_1^i-t_0^k|+1.0}\cdot\frac{1}{1+\exp\left(-\|\Delta\mu_{t_1^i}-\Delta\mu_{t_0^k}\|\right)} \\\mathcal{L}_{align}=w\cdot\underbrace{\mathbb{I}\left(\|\Delta\mu_{t_1^i}-\Delta\mu_{t_0^k}\|>\tau\right)}_{M(t_1^i,t_0^k)}\cdot\|\Delta\mu_{t_1^i}-\Delta\mu_{t_0^k}\| \\\mathcal{L}=\mathcal{L}_1+\mathcal{L}_{tv}+\mathcal{L}_{align}\end{aligned}$