PointNet++改进策略：模块改进 | x-Conv | PointCNN，结合局部结构与全局排列提升模型性能

news2025/7/15 17:16:20

前言

这篇论文介绍了一种名为 PointCNN 的方法，旨在从点云（point cloud）数据中学习特征。传统卷积神经网络（CNN）在处理规则网格数据（如图像）时非常有效，但由于点云是无序且不规则的，直接在其上应用卷积操作会导致形状信息丢失，并对点的排列顺序敏感。

为了解决这一问题，论文提出了一种 X-Conv 操作。该方法通过学习一种 X-transformation 来重新排列点云中的点并加权输入特征。然后，将典型的卷积操作应用于转换后的特征。这种方法将传统的 CNN 扩展到点云特征学习，并命名为 PointCNN。

实验表明，PointCNN 在多个基准数据集上达到了与当前最先进方法相当甚至更好的性能。这些数据集包括 3D 形状分类（如 ModelNet40）、分割任务（如 ShapeNet Parts 和 ScanNet），以及 2D 草图分类任务（如 TU-Berlin 和 Quick Draw）。

论文的关键贡献在于提出了适用于点云的卷积操作，并展示了其在多种任务上的有效性。

Pasted image 20240910094823

PointCNN实现细节

PointCNN 是一种针对点云数据进行特征学习的卷积神经网络架构。它的设计初衷是为了克服传统卷积神经网络（CNN）在处理点云数据时遇到的挑战。点云数据是不规则且无序的，因此直接将传统的卷积操作应用在点云上会导致形状信息的丢失，并且对点的排列顺序非常敏感。

PointCNN 的核心思想是引入一种叫做 X-Conv 的操作，这种操作通过学习一个 X-transformation 变换矩阵来同时加权和排列输入点云的数据，使得卷积操作可以更有效地应用于点云。具体来说，X-transformation 将点云的点映射到一个潜在的、或许是规范化的顺序中，然后在变换后的特征上应用卷积操作。

相比于直接对点云进行卷积，PointCNN 通过 X-Conv 操作保留了点云的局部结构信息，同时对点的排列顺序具有不变性。这使得它在点云的各种任务中表现出色，例如3D形状分类、分割任务和草图分类等。

简而言之，PointCNN 是一个能够处理不规则点云数据的通用卷积网络架构，解决了点云数据中的排列问题，并在多个任务上达到了与最先进方法相当甚至更好的性能。
Pasted image 20240910094835

1. $X$ -Conv 操作

$X$ -Conv 是 PointCNN 的核心操作，它通过学习一个 $X$ -转换矩阵，对输入点及其特征进行加权和排序，然后进行卷积操作。整个 $X$ -Conv 的过程如下：

输入

$K$ : 表示点邻域中的 $K$ 个点。
$p$ : 表示当前代表点。
$P$ : 当前点 $p$ 的 $K$ 个邻域点的坐标，表示为 $(p_1, p_2, \dots, p_K)^T$ 。
$F$ : 邻域点的特征矩阵，表示为 $(f_1, f_2, \dots, f_K)^T$ ，其中 $f_i \in \mathbb{R}^{C_1}$ 。

输出

$F_p$ : 聚合到代表点 $p$ 的输出特征。

步骤

局部坐标系变换：首先将邻域点的坐标转换为相对于代表点 $p$ 的局部坐标系，即 $\leftarrow P - p.$
升维操作：通过多层感知机（MLP），将每个邻域点的坐标升维到 $C_\delta$ 维空间，得到 $F_\delta$ ，即 $F_\delta \leftarrow \text{MLP}_\delta(P').$
特征拼接：将升维后的坐标特征 $F_\delta$ 与原始特征 $F$ 进行拼接，形成新的特征矩阵 $F^*$ ，其形状为 $\times (C_\delta + C_1)$ ： $F^* \leftarrow [F_\delta, F].$
$X$ -转换矩阵的学习：通过一个 MLP 网络，从局部坐标 $P^{'}$ 中学习到一个 $\times K$ 的 $X$ -转换矩阵： $\leftarrow \text{MLP}(P').$
加权和排序：对拼接后的特征矩阵 $F^*$ 进行加权和排序，得到 $F_X$ ： $F_X \leftarrow X \times F^*.$
卷积操作：最后，将加权后的特征 $F_X$ 与卷积核进行卷积操作，输出结果特征 $F_p$ ： $F_p \leftarrow \text{Conv}(K, F_X).$

该过程可以总结为如下公式： $F_p = X\text{-Conv}(K, p, P, F) = \text{Conv}(K, \text{MLP}(P - p) \times [\text{MLP}_\delta(P - p), F]).$

2. PointCNN 网络架构

PointCNN 使用 $X$ -Conv 操作递归地应用在点云的不同层级上，实现了层级特征表示。输入到 PointCNN 的是点集 $\{(p_1, f_1), (p_2, f_2), \dots, (p_N, f_N)\}$ ，其中 $p_i$ 是点的坐标， $f_i$ 是与点关联的特征。

层级卷积

类似于传统 CNN 的层级卷积，PointCNN 通过多层的 $X$ -Conv 逐步减少点的数量，并增大特征维度。层级的每一层通过聚合局部点的特征，得到新的代表点及其特征。对于输入点云 $F_1 = \{(p_{1,i}, f_{1,i})\}$ ，我们可以递归应用 $X$ -Conv，生成新的表示 $F_2 = \{(p_{2,i}, f_{2,i})\}$ ，其中 $F_2| < |F_1|$ 且特征维度更高。

每一层的输出可表示为： $F_{l+1} = X\text{-Conv}(K, P_l, F_l),$ 其中 $P_l$ 是第 $l$ 层的代表点坐标， $F_l$ 是第 $l$ 层的特征矩阵， $K$ 是邻域点数。

分类与分割任务

分类网络：PointCNN 将通过若干 $X$ -Conv 层逐步将输入点聚合为较少的代表点，并最终通过全连接层实现分类。在分类网络中，最后一个 $X$ -Conv 层的输出是一个全局表示，通常只保留一个代表点，并应用全连接层进行分类。
分割网络：在分割任务中，PointCNN 采用类似于 U-Net 的架构， $X$ -Conv 不仅在卷积部分应用，也在 DeConv 部分应用，以逐步将全局信息传播到高分辨率的点云表示上。