Patch-Based Deep Autoencoder for Point Cloud Geometry Compression

https://arxiv.org/abs/2110.09109

这篇论文使用深度自编码器，提出了一种基于分块（patch）的有损点云几何压缩模型。与现有的点云压缩网络(在整个原始点云上应用特征提取和重建)不同，该模型通过采样和KNN操作将输入点云划分为多个小块并独立地压缩处理。最终的完整点云由解压缩后的各个小块组合得到。此外，作者使用分块的局部重建损失训练整个模型，以逼近最优的全局重建性能。使用分块来训练模型有两个优点：

首先，由于分块已经是点云的局部区域，因此网络模型不需要使用多个集合抽象层堆栈来捕获局部细节，从而降低了训练模型的复杂性。
其次，将点云划分成块增强了训练数据，这可以避免过拟合问题，提高模型预测精度。

在点云压缩任务中，该模型可以保证重建的点云与输入点云的点数相同，有很好的率失真性能（尤其是在低比特率下）。此外，还可以通过调整重建点云的点数将该模型应用于其他点云重建任务，例如点云上采样。

压缩流程

首先原始点云被分为两部分：独立的分块和作为分块的辅助信息的采样点坐标。该过程描述如下：

对于 $N$ 个点的原始点云，使用FPS采集 $S$ 个点 ${p_1,p_2,...,p_S\}$ ，作为各个分块的辅助信息。
对于每个采样点，使用KNN得到 $K$ 个最近邻点 ${p_i^1,p_i^2,...,p_i^K\}$ 。然后计算每个最近邻点相对于采样点的坐标，即 ${p_i^1-p_i,p_i^2-p_i,...,p_i^K-p_i\}$ ，作为网络模型的输入。

即使使所有分块的总点数等于输入点云的总点数，也不足以覆盖整个点云。因此，作者令 $S \times K = α N （ α > 1 ）$ 来避免某些点无法被捕获。

在编码过程中，每个分块被传递给自编码器的编码器，然后生成一组潜在表示。使用量化器对这些表示进行量化，然后将其与采样点的坐标信息相结合，以形成整个点云的最终潜在表示。

最后，最终的潜在表示被熵编码成比特流并传输到解码器。

解码过程与编码过程基本相反。在获得点云的表示之后，作者从中分离出各个分块的潜在表示，并将这些表示分别传递给自编码器的解码器得到各个重建分块。

然后，作者将解码器输出与辅助坐标信息(采样点坐标 $𝑝_𝑖$ )相加，以形成最终的重建结果。每个独立预测结果的合并是最终的点云重建结果。为了获得与输入点云相同的分辨率，作者设置络预测点云分块的点数 $k = N / S$ 。

自编码架构

自编码器基于PointNet实现分块的变换和压缩。它包括分析变换(analysis transform) $f_a$ 、量化函数（quantization function） $Q$ 和合成变换（synthesis transform） $f_s$ 。

分析变换 $f_a$ ：分析变换用于提取分块的特征表示。在分析转换中，作者首先使用PointNet++的集合抽象（SA）层中的分组层和PointNet层来提取每个点的小尺度局部特征（ $D$ 维），然后使用PointNet提取更高级别的全局特征（ $d$ 维）。
量化函数 $Q$ ：量化函数用于量化隐特征表示以进一步压缩。在训练过程中作者向 $(1 ， d)$ 维隐藏特征添加[-0.5, 0.5]的均匀噪声近似量化，这可以使量化过程可微，因此允许在随机梯度下降优化期间进行反向传播。在测试中，作者对隐藏层特征使用舍入运算，以实现后续的熵编码。
合成变换 $f_s$ ：合成变换用于将量化特征重建为输入形状。使用几个全连接层将量化特征变换到 $k \times 3$ 维，然后重塑为 $(k, 3)$ 得到一个分块的重建结果。

重建结果和输入之间的误差（失真）用Chamfer distance计算：

在这里插入图片描述

其中 $P$ 为训练过程一个batch的总分块数。 $x$ 表示原始点云的分块 $S_i$ 的一个点。 $y$ 表示预测分块 $S'_i$ 的一个点。

最终损失函数设置为 $L=D_{CD}+λR$ ，其中 $R$ 是由隐藏层特征的概率分布估计的比特率。比特率估计表达式如下所示：

其中 $\tilde{z}_i$ 是在为分块 $S_i$ 添加均匀噪声之后的表示。 $q(\tilde{z}_i|S_i)$ 表示 $\tilde{z}_i$ 的实际边缘分布。 $p_{\tilde{z}_i}(\tilde{z}_i)$ 是 $\tilde{z}_i$ 的熵模型，使用[https://arxiv.org/abs/1802.01436]中的UNIVARIATE NON-PARAMETRIC DENSITY MODEL估计。需要解释的是， $λ$ 对压缩率的影响并不显著，作者主要依靠改变瓶颈层中 $d$ 的大小来调整压缩率。