Transformer是如何进军点云学习领域的？

点击进入—>3D视觉工坊学习交流群

0.笔者个人体会：

这个工作来自于牛津大学、香港大学、香港中文大学和Intel Labs，发表于ICCV2021。我们知道，Transformer在近两年来于各个领域内大放异彩。其最开始是自然语言处理领域的一个强有力的工具。后来，在图像处理领域，Transformer由于其可以感知远距离的像素，从而学习到更全面的特征表示。并且这项工具已经被应用在多个二维图像处理任务中，例如目标检测、语义分割等。而将Transformer应用于三维点云相关的任务是一个必然的趋势。由于三维点云的不规则性和密度多样性，Transformer在点云数据上甚至具有更大的潜力。实际上，在早期的工作中就已经有将Transformer应用到点云相关的任务中，例如DCP利用Transformer对源点云和目标点云的互信息进行建模，实现输入点云对的同时感知。但是，彼时的Transformer并不是一个重点。这篇Point Transformer则是将Transformer应用到点云学习的一个标志性成果，其设计了一个Point Transformer网络，并展现了其在点云点特征提取和全局特征提取的优势作用。这使得这篇论文的工作有着更广阔的应用范围和潜力，为后续很多点云相关任务的研究提供了一个有力的工具和参考。

1、论文相关内容介绍：

论文标题： Point Transformer

作者列表： Hengshuang Zhao， Li Jiang， Jiaya Jia， Philip Torr，Vladlen Koltun

摘要：自注意力网络彻底改变了自然语言处理，并在图像分类和目标检测等图像分析任务中取得了令人瞩目的进步。受此成功的启发，我们研究了自注意力网络在3D点云处理中的应用。我们为点云设计了自注意力层，并使用它们为语义场景分割、对象部分分割和对象分类等任务构建了自注意力网络。我们的Point Transformer在交叉领域和任务上改进了先前的工作。例如，在用于大规模语义场景分割的具有挑战性的 S3DIS 数据集上，Point Transformer在区域5上的 mIoU达到了70.4%，比之前最强的模型高出 3.3 个绝对百分点并首次超过了70% 的mIoU阈值。

主要贡献：

1）我们针对多实例点云配准问题提出了一种高效且鲁棒的解决方案，在准确性、鲁棒性和速度方面取得了卓越的性能。

2）我们提出了三个指标（Mean Hit Recall、Mean Hit Precision和Mean Hit F1）来全面评估多实例点云配准的性能。

a、我们为点云处理设计了一个极具表达能力的Point Transformer层。该层对于排序和基数是不变的，因此自然地适合点云处理。

b、基于Point Transformer层，我们构建了用于点云分类和稠密预测的高性能Point Transformer网络。这些网络可以作为3D场景理解的通用网络架构。

c、我们报告了对多个领域和数据集的广泛实验。我们进行了多组对照实验来验证Point Transformer设计中的特定设计，并在多个竞争激烈的基准上实现了最先进的性能水平，优于之前的大量工作。

Fig1：Point transformer层

方法介绍：

我们首先简要回顾一下Transformer和自注意力机制的一般建模。然后我们介绍了用于 3D 点云处理的Point transformer层。最后，我们展示了用于 3D 场景理解的网络架构。

一、背景介绍

Transformers 和自注意力网络彻底改变了自然语言处理，并在2D图像分析中展示了令人印象深刻的结果。自注意力算子可以分为两种类型：标量注意力和向量注意力。

设是一组特征向量。标准标量点积注意力层可以表示如下：

在向量注意力中，注意力权重的计算是不同的。具体的说，注意力权重是可以调节单个特征通道的向量：

其中β是一个关系函数（例如，减法），γ是一个映射函数（例如，MLP），它为特征聚合生成注意力向量。

标量和向量自注意力都是集合算子。该集合可以是表示整个信号的特征向量的集合，也可以是来自信号内局部块的特征向量的集合。

二、Point Transformer层

自注意力非常适合点云，因为点云本质上是不规则地编码到度量空间中的集合。我们的Point Transformer层基于向量自注意力。我们使用减法关系函数并将位置编码δ添加到注意力向量γ和变换特征ɑ：

这里的子集是的局部邻域（k最近邻）中的一组点。因此，我们采用最近用于图像分析的自注意力网络的做法，在每个数据点周围的局部邻域内局部应用自注意机制。映射函数γ是具有两个线性层和一个ReLU非线性层的MLP。Point Transformer层如图1所示。

Fig2.用于语义分割（上）和分类的Point Transformer网络结构

三、位置编码

位置编码在自注意力机制中起着重要作用，其允许算子适应数据中的局部结构。序列和图像网格的标准位置编码方案是手动制作的，例如基于正弦和余弦函数或归一化范围值。在3D点云处理中，3D点坐标本身是位置编码的自然候选者。我们通过引入可训练的、参数化的位置编码来超越这一点。我们的位置编码函数定义如下：

这里和是点i和j的3D点坐标。编码函数θ是一个具有两个线性层和一个 ReLU非线性层的MLP。值得注意的是，我们发现位置编码对于注意力生成分支和特征转换分支都很重要。因此在两个分支中都添加了可训练位置编码。位置编码函数θ与其他子网络一起进行端到端训练。

四、Point Transformer块

我们构建了一个以Point Transformer层为核心的残差Point Transformer块，如图3(a)所示。Transformer块集成了自注意力层、可以降低维度和加速处理的线性投影以及残差连接。输入是一组特征向量X及其3D坐标P。Point Transformer块促进了这些局部特征向量之间的信息交换，为所有数据点生成新的特征向量作为其输出。信息聚合适应特征向量的内容及其在3D空间中的结构。

Fig3.每个模块的详细结构

五、网络结构

我们构建了基于Point Transformer块的完整3D点云理解网络。请注意，Point Transformer是整个网络中的主要特征聚合运算符。我们不使用卷积进行预处理或用作辅助分支：网络完全基于Point Transformer层、逐点变换和池化。网络架构如图2所示。

主干框架：用于语义分割和分类的Point Transformer网络中的特征编码器有五个阶段，它们对逐渐下采样的点集进行操作。这些阶段的下采样率是 [1, 4, 4, 4, 4]，因此每个阶段产生的点集的基数是 [N, N/4, N/16, N/64, N/256]，其中N是输入点的数量。请注意，阶段数和下采样率可以根据应用而变化，例如构建轻量级主干以进行快速处理时就可以进一步简化。阶段间由过渡模块连接：向下过渡用于特征编码，向上过渡用于特征解码。

向下过渡：向下过渡模块的一个关键功能是根据需要减少点集的基数，例如在从第一阶段到第二阶段的过渡中从N到N/4。将作为输入提供给向下过渡模块的点集表示为，将输出点集表示为。我们在中执行最远点采样以识别具有必要基数的分布良好的子集。为了将特征向量从池化到，我们在上使用了kNN 图。每个输入特征都经过线性变换，然后是批量归一化和ReLU，然后是从中的k个邻域点通过最大池化到中的每个点。图3(b)给出了向下过渡模块的示意图。

向上过渡：对于语义分割等稠密预测任务，我们采用U-net设计，其中上述编码器与解码器对称。解码器中的连续阶段由向上过渡模块连接。它们的主要功能是将下采样后的点集中的特征映射到其超集上，其中。为此，每个输入点特征都经过线性层处理，然后进行批量归一化和ReLU，然后通过三线性插值将特征映射到更高分辨率的点集上。这些来自前一个解码器阶段的内插特征通过跨层连接被总结为相应的编码器特征。图3(b)给出了向上过渡模块的示意图。

输出头：对于语义分割，最终的解码器阶段为输入点集中的每个点生成一个特征向量。我们应用MLP将此特征映射到最终的语义得分。对于分类，我们对逐点特征执行全局平均池化以获得整个点集的全局特征向量。该全局特征通过MLP传递以获得全局分类得分。

本文仅做学术分享，如有侵权，请联系删文。

点击进入—>3D视觉工坊学习交流群

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
2.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
3.国内首个面向工业级实战的点云处理课程
4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
5.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

8.从零搭建一套结构光3D重建系统[理论+源码+实践]

9.单目深度估计方法：算法梳理与代码实现

10.自动驾驶中的深度学习模型部署实战

11.相机模型与标定(单目+双目+鱼眼）

12.重磅！四旋翼飞行器：算法与实战

13.ROS2从入门到精通：理论与实战

14.国内首个3D缺陷检测教程：理论、源码与实战

15.基于Open3D的点云处理入门与实战教程

16.透彻理解视觉ORB-SLAM3：理论基础+代码解析+算法改进

重磅！粉丝学习交流群已成立

交流群主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、ORB-SLAM系列源码交流、深度估计、TOF、求职交流等方向。

扫描以下二维码，添加小助理微信（dddvisiona）,一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿，微信号：dddvisiona

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，6000+星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看，3天内无条件退款