论文阅读笔记——ReconDreamer

news2025/4/24 15:40:08

ReconDreamer 论文

在 DriveDreamer4D 的基础上，通过渐进式数据更新，解决大范围机动（多车道连续变道、紧急避障）的问题。同时 DriveDreamer4D生成轨迹后直接渲染，而 ReconDreamer 会实时通过 DriveRestorer 检测渲染结果与物理规则的冲突，并反向调整高斯参数。

在这里插入图片描述

总结来看，ReconDreamer 是 DriveDreamer4D 的增强版，核心创新在于将「静态世界模型调用」升级为「动态渐进式知识融合」，从而解决大机动场景的渲染难题。

DriveRestorer
先利用原始数据训练一遍重建模型，然后沿原始轨迹生成渲染视频 $\hat{V_{ori}}=\mathcal{G}(\tau_{ori})$ 。
由于重建模型的欠拟合，会产生重影伪影，从不同训练阶段采样渲染视频，构成数据集 $\{\hat{V}_{ori}^k,V_{ori}\}$ 其中 $\hat{V}_{ori}^k$ 表示第 k 训练阶段采样的渲染视频。（模仿 DriveDreamer4D）对 $\hat{V}_{ori}^k$ 施加 mask，重点修复远景和天空等易失真的区域，通过 $\epsilon(\hat{V}_{mask})=\epsilon(\hat{V}_ori\bigodot M)$ 基于扩散模型的渐进式优化：
$\mathcal{L}_{\mathcal{R}}=\mathbb{E}_{\boldsymbol{z},\epsilon\sim\mathcal{N}(0,1),t}\left[\left\|\epsilon_t-\epsilon_\theta\left(\boldsymbol{z}_t,t,\boldsymbol{c}\right)\right\|_2^2\right]$
控制条件 c 为 $\hat{V}_{mask}$ ，3D 边界框与高清地图。
推理时，冻住 DriveRestorer 参数用于新轨迹渲染修复：
$V_{\mathrm{novel}}=\mathcal{R}(\hat{V}_{\mathrm{novel}},\mathcal{P}(s,\mathcal{T}_{\mathrm{novel}}^k)),$
其中 s 为 3D 边界框和高清地图， $\mathcal{P}(·)$ 表示将 s 对齐到 $\tau_{novel}^k$ 的投影变换。’
在这里插入图片描述

轨迹扩展：第k次更新时，新轨迹 $\tau_{novel}$ 扩展 $y=k\Delta y$ 米（ $\Delta y$ 为预设值，从 1.5m 开始，逐步生成 3m，6m）

数据生成：通过重建模型 $\mathcal{G}$ 渲染扩展轨迹视频 $\hat{V}_{novel}$ ，经 DriveRestorer 修复得 $V_{novel}$
加权更新：按采样概率 $w=\frac{k}{\sum_{j=1}^kj}$ 更新数据集：高伪影区域：70%修复数据+30%原始数据；低伪影区域：30%修复数据+70%原始数据。通过 KL 散度监控，保证数据分布不发生漂移。 $D_{\mathrm{novel}}=(1-w)\cdot D_{\mathrm{novel}}\cup w\cdot V_{\mathrm{novel}}$
原始数据： $\mathcal{L}_{\mathrm{ori}}(\phi)=\lambda_{1}\mathcal{L}_{\mathrm{ori}}^{\mathrm{RGB}}+\lambda_{2}\mathcal{L}_{\mathrm{ori}}^{\mathrm{Depth}}+\lambda_{3}\mathcal{L}_{\mathrm{ori}}^{\mathrm{SSIM}}$
新数据： $\mathcal{L}_{\mathrm{novel}}(\phi)=\lambda_1\mathcal{L}_{\mathrm{novel}}^{\mathrm{RGB}}+\lambda_3\mathcal{L}_{\mathrm{novel}}^{\mathrm{SSIM}}$
联合训练： $\mathcal{L}(\phi)=\mathcal{L}_{\mathrm{ori}}+\mathcal{L}_{\mathrm{novel}}.$