Transformer是如何进军点云学习领域的?

news2024/12/23 18:18:08

点击进入—>3D视觉工坊学习交流群

0.笔者个人体会:

这个工作来自于牛津大学、香港大学、香港中文大学和Intel Labs,发表于ICCV2021。我们知道,Transformer在近两年来于各个领域内大放异彩。其最开始是自然语言处理领域的一个强有力的工具。后来,在图像处理领域,Transformer由于其可以感知远距离的像素,从而学习到更全面的特征表示。并且这项工具已经被应用在多个二维图像处理任务中,例如目标检测、语义分割等。而将Transformer应用于三维点云相关的任务是一个必然的趋势。由于三维点云的不规则性和密度多样性,Transformer在点云数据上甚至具有更大的潜力。实际上,在早期的工作中就已经有将Transformer应用到点云相关的任务中,例如DCP利用Transformer对源点云和目标点云的互信息进行建模,实现输入点云对的同时感知。但是,彼时的Transformer并不是一个重点。这篇Point Transformer则是将Transformer应用到点云学习的一个标志性成果,其设计了一个Point Transformer网络,并展现了其在点云点特征提取和全局特征提取的优势作用。这使得这篇论文的工作有着更广阔的应用范围和潜力,为后续很多点云相关任务的研究提供了一个有力的工具和参考。

1、论文相关内容介绍:

论文标题: Point Transformer

作者列表: Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr,Vladlen Koltun

摘要:自注意力网络彻底改变了自然语言处理,并在图像分类和目标检测等图像分析任务中取得了令人瞩目的进步。受此成功的启发,我们研究了自注意力网络在3D点云处理中的应用。我们为点云设计了自注意力层,并使用它们为语义场景分割、对象部分分割和对象分类等任务构建了自注意力网络。我们的Point Transformer在交叉领域和任务上改进了先前的工作。例如,在用于大规模语义场景分割的具有挑战性的 S3DIS 数据集上,Point Transformer在区域5上的 mIoU达到了70.4%,比之前最强的模型高出 3.3 个绝对百分点并首次超过了70% 的mIoU阈值。

主要贡献:

1)我们针对多实例点云配准问题提出了一种高效且鲁棒的解决方案,在准确性、鲁棒性和速度方面取得了卓越的性能。

2)我们提出了三个指标(Mean Hit Recall、Mean Hit Precision和Mean Hit F1)来全面评估多实例点云配准的性能。

a、我们为点云处理设计了一个极具表达能力的Point Transformer层。该层对于排序和基数是不变的,因此自然地适合点云处理。

b、基于Point Transformer层,我们构建了用于点云分类和稠密预测的高性能Point Transformer网络。这些网络可以作为3D场景理解的通用网络架构。

c、我们报告了对多个领域和数据集的广泛实验。我们进行了多组对照实验来验证Point Transformer设计中的特定设计,并在多个竞争激烈的基准上实现了最先进的性能水平,优于之前的大量工作。

9efef23860b81b1188c5601cfdb8783a.png

Fig1:Point transformer层

方法介绍:

我们首先简要回顾一下Transformer和自注意力机制的一般建模。然后我们介绍了用于 3D 点云处理的Point transformer层。最后,我们展示了用于 3D 场景理解的网络架构。

一、背景介绍

Transformers 和自注意力网络彻底改变了自然语言处理,并在2D图像分析中展示了令人印象深刻的结果。自注意力算子可以分为两种类型:标量注意力和向量注意力。

359375db5374f0d1eba5627cb0dbf3c1.png是一组特征向量。标准标量点积注意力层可以表示如下:

19eed674ae25a4219607a154563efbec.png

0fa3ff8e47fa731d51a26c74e645040e.png

在向量注意力中,注意力权重的计算是不同的。具体的说,注意力权重是可以调节单个特征通道的向量:

5bd537cfe8973da4b4d02bd1fc8834b3.png

其中β是一个关系函数(例如,减法),γ是一个映射函数(例如,MLP),它为特征聚合生成注意力向量。

标量和向量自注意力都是集合算子。该集合可以是表示整个信号的特征向量的集合,也可以是来自信号内局部块的特征向量的集合。

二、Point Transformer层

自注意力非常适合点云,因为点云本质上是不规则地编码到度量空间中的集合。我们的Point Transformer层基于向量自注意力。我们使用减法关系函数并将位置编码δ添加到注意力向量γ和变换特征ɑ

2e87f53b398f4664e7116c11447a956f.png

这里的子集4679ae71101edd98891fb5f8c1a70c6c.png是的局部邻域(k最近邻)中的一组点。因此,我们采用最近用于图像分析的自注意力网络的做法,在每个数据点周围的局部邻域内局部应用自注意机制。映射函数γ是具有两个线性层和一个ReLU非线性层的MLP。Point Transformer层如图1所示。

c5d431368c48fdc2fff077502a67b059.png

Fig2.用于语义分割(上)和分类的Point Transformer网络结构

三、位置编码

位置编码在自注意力机制中起着重要作用,其允许算子适应数据中的局部结构。序列和图像网格的标准位置编码方案是手动制作的,例如基于正弦和余弦函数或归一化范围值。在3D点云处理中,3D点坐标本身是位置编码的自然候选者。我们通过引入可训练的、参数化的位置编码来超越这一点。我们的位置编码函数 定义如下:

08072be97124815aa469a41b205330c4.png

这里d27d881ecff110eba1bf71bfe2828e66.pngb9efabf28bdfbcbf72b6a3f22cd21758.png是点i和j的3D点坐标。编码函数θ是一个具有两个线性层和一个 ReLU非线性层的MLP。值得注意的是,我们发现位置编码对于注意力生成分支和特征转换分支都很重要。因此在两个分支中都添加了可训练位置编码。位置编码函数θ与其他子网络一起进行端到端训练。

四、Point Transformer块

我们构建了一个以Point Transformer层为核心的残差Point Transformer块,如图3(a)所示。Transformer块集成了自注意力层、可以降低维度和加速处理的线性投影以及残差连接。输入是一组特征向量X及其3D坐标P。Point Transformer块促进了这些局部特征向量之间的信息交换,为所有数据点生成新的特征向量作为其输出。信息聚合适应特征向量的内容及其在3D空间中的结构。

521b68bfc5d3fd9ce0a2c8377d7cd57c.png

Fig3.每个模块的详细结构

五、网络结构

我们构建了基于Point Transformer块的完整3D点云理解网络。请注意,Point Transformer是整个网络中的主要特征聚合运算符。我们不使用卷积进行预处理或用作辅助分支:网络完全基于Point Transformer层、逐点变换和池化。网络架构如图2所示。

主干框架:用于语义分割和分类的Point Transformer网络中的特征编码器有五个阶段,它们对逐渐下采样的点集进行操作。这些阶段的下采样率是 [1, 4, 4, 4, 4],因此每个阶段产生的点集的基数是 [N, N/4, N/16, N/64, N/256],其中N是输入点的数量。请注意,阶段数和下采样率可以根据应用而变化,例如构建轻量级主干以进行快速处理时就可以进一步简化。阶段间由过渡模块连接:向下过渡用于特征编码,向上过渡用于特征解码。

向下过渡:向下过渡模块的一个关键功能是根据需要减少点集的基数,例如在从第一阶段到第二阶段的过渡中从N到N/4。将作为输入提供给向下过渡模块的点集表示为5d0fbccab366491d52056f8221935dc6.png,将输出点集表示为73c2e17686217c33e743f4520a6286c9.png。我们在68983a2f16d060cba072256951d6bf5f.png中执行最远点采样以识别具有必要基数的分布良好的子集37bd9e43f72e19ef8aff54864544ddaf.png。为了将特征向量从b611da88de076907f08b90438d894407.png池化到e15e68b10b031e2922712ec867c80f90.png,我们在9a411c43ea71a09330d74449b6be2ffb.png上使用了kNN 图。每个输入特征都经过线性变换,然后是批量归一化和ReLU,然后是从267acd02e38ad5fff42e44a6f4ad2549.png中的k个邻域点通过最大池化到81cb7d34dc4fce3549d3cf7105d1531e.png中的每个点。图3(b)给出了向下过渡模块的示意图。

向上过渡:对于语义分割等稠密预测任务,我们采用U-net设计,其中上述编码器与解码器对称。解码器中的连续阶段由向上过渡模块连接。它们的主要功能是将下采样后的点集628a3e616c3e87f70c625f6de04f5e06.png中的特征映射到其超集cea7eb4c6b2bdc6e975ac936b7655842.png上,其中6245023c385448ee713dd7f1c79d4cdb.png。为此,每个输入点特征都经过线性层处理,然后进行批量归一化和ReLU,然后通过三线性插值将特征映射到更高分辨率的点集139bd17c7b1e4b9866479760323c8c55.png上。这些来自前一个解码器阶段的内插特征通过跨层连接被总结为相应的编码器特征。图3(b)给出了向上过渡模块的示意图。

输出头:对于语义分割,最终的解码器阶段为输入点集中的每个点生成一个特征向量。我们应用MLP将此特征映射到最终的语义得分。对于分类,我们对逐点特征执行全局平均池化以获得整个点集的全局特征向量。该全局特征通过MLP传递以获得全局分类得分。

本文仅做学术分享,如有侵权,请联系删文。

点击进入—>3D视觉工坊学习交流群

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
2.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
3.国内首个面向工业级实战的点云处理课程
4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
5.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

8.从零搭建一套结构光3D重建系统[理论+源码+实践]

9.单目深度估计方法:算法梳理与代码实现

10.自动驾驶中的深度学习模型部署实战

11.相机模型与标定(单目+双目+鱼眼)

12.重磅!四旋翼飞行器:算法与实战

13.ROS2从入门到精通:理论与实战

14.国内首个3D缺陷检测教程:理论、源码与实战

15.基于Open3D的点云处理入门与实战教程

16.透彻理解视觉ORB-SLAM3:理论基础+代码解析+算法改进

重磅!粉丝学习交流群已成立

交流群主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、ORB-SLAM系列源码交流、深度估计、TOF、求职交流等方向。

扫描以下二维码,添加小助理微信(dddvisiona),一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

6a5de3309e3be643e148d68a2db02fdd.jpeg

▲长按加微信群或投稿,微信号:dddvisiona

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看,3天内无条件退款

74d361bcb7b70f59eb64c9c01b53f3ac.jpeg

高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/66273.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity 动画系统(Animation,Animator,Timeline)

文章目录1. Animation1.1 创建Animation1.2 Animation 属性2. Animator2.1 Animator 组件2.2 Animation 状态2.3 状态控制参数2.4 代码中控制状态3. 代码控制动画的播放/暂停/继续播放1. Animation 1.1 创建Animation 选中需要添加动画的物体,打开Animation面板 …

乡村科技杂志乡村科技杂志社乡村科技编辑部2022年第20期目录

三农资讯 科技特派员助力柘城县大豆玉米带状复合种植见成效 宋先锋;贾志远; 1《乡村科技》投稿:cnqikantg126.com 河南省科技特派员赴遂平县指导多花黑麦草防治 蒋洪杰;欧阳曦; 2 河南省肉牛产业科技特派员服务团到光山县开展技术培训服务 翟媛媛;朱燚波…

la3_系统调用(上)

1. 实验内容 理解操作系统接口;系统调用的实现: 应用程序 调用库函数 (API)API 将 系统调用号 放入 EAX 中, 然后通过中断调用 使系统进入内核态;内核中的中断处理函数 根据系统调用号, 调用对…

通过postgres_fdw实现跨库访问

瀚高数据库 目录 文档用途 详细信息 介绍Postgresql跨库访问中postgres_fdw的使用方法 详细信息 PostgreSQL 外部数据包装器,即 PostgreSQL Foreign Data Wrappers,是现实数据库使用场景中一个非常实用的功能,PostgreSQL 的 FDW 类似于 Ora…

2022年12月编程语言排行榜,数据来了!

2022年迎来了最后一个月,我们可以看到,在这一年中编程语言起起伏伏,有的语言始终炙手可热,而有的语言却逐渐“没落”… 日前,全球知名TIOBE编程语言社区发布了12月编程语言排行榜,有哪些新变化&#xff1f…

木聚糖-聚乙二醇-透明质酸,Hyaluronicacid-PEG-Xylan,透明质酸-PEG-木聚糖

木聚糖-聚乙二醇-透明质酸,Hyaluronicacid-PEG-Xylan,透明质酸-PEG-木聚糖 中文名称:木聚糖-透明质酸 英文名称:Xylan-Hyaluronicacid 别称:透明质酸修饰木聚糖,HA-木聚糖 存储条件:-20C,避光&#xff…

农产品商城毕业设计,农产品销售系统毕业设计,农产品电商毕业设计论文方案需求分析作品参考

项目背景和意义 目的:本课题主要目标是设计并能够实现一个基于web网页的多用户商城系统,整个网站项目使用了B/S架构,基于python的Django框架下开发;用户通过登录网站,查询商品,购买商品,下单&am…

奋勇拼搏绿茵场,永不言败足球魂——2022卡塔尔世界杯纪念

“我从来都不惧怕压力,老实说,我享受这种压力。”——C罗 第一部分:🇶🇦卡塔尔世界杯 2022年卡塔尔世界杯(英语:FIFA World Cup Qatar 2022)是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中…

Apple官方优化Stable Diffusion绘画教程

Apple官方优化Stable Diffusion绘画教程 苹果为M1芯片优化Stable Diffusion模型,其中Mac Studio (M1 Ultra, 64-core GPU)生成512*512的图像时间为9秒。想要1秒出图,可以在线体验3090显卡AI绘画。 AI绘图在线体验 二次元绘图 在线体验地址:Stable Di…

AI模型神预测谁是卡塔尔世界杯冠军

推荐教程:AI模型神预测谁是冠军 2022年卡塔尔世界杯 猜猜他们是谁? 谁是最后的冠军? 2022年FIFA世界杯已经拉开帷幕,全世界的球迷都热切地想要知道:谁将获得那梦寐以求的 大力神杯? 2018年俄罗斯世界杯 方…

1,2-二苯基-1,2-二(4-羧基苯)乙烯 ;CAS: 1609575-40-7

英文名称: 4,4-(1,2-Diphenylethene-1,2-diyl)dibenzoic acid 中文名称: 1,2-二苯基-1,2-二(4-羧基苯)乙烯 MF: C28H20O4 MW: 420.46 CAS: 1609575-40-7 AIE聚集诱导发光材料的特点: 1.在固态下有强…

学编程:Python入门考级必备[11]

目录 1.查找字符串 2.字符串的格式化 3.字符串的转义字符 \ \" 4. 修改字符串 5.字符串连接与分割 附件代码: 炼 知识模块(11) 名符其实--字符串 1.查找字符串 # 1.1用 in 函数 a aa in acacacacaabaac print(a) # 1.2 用index 找不到就报错 b h…

ArcGIS_地质多样性评价方法

详细内容请自行查看参考文献 [1] Forte J P , Brilha J , Pereira D I , et al. Kernel Density Applied to the Quantitative Assessment of Geodiversity[J]. Geoheritage, 2018, 10:205-217. https://doi.org/10.1007/s12371-018-0282-3 本文只介绍如何在ArcGIS中实现该…

PostGIS数据测试-一百万点要素

PostGIS数据测试-一百万点要素 小小测试一下,看看单表百万数据的情况 服务器配置 系统版本:Centos7.9.2009CPU:两颗Intel Xeon Gold 6226R CPU 2.90GHz处理器,共32核心内存:DDR4 256G硬盘:Raid5 共24T数…

树选择排序(Tree Selection Sorting)介绍

简介 或许你有一个疑问:为什么堆排序使用二叉树,但是叫堆排序,而不是树排序? 因为堆排序的前身正是叫做树选择排序(Tree Selection Sorting),使用树结构,但是要稍微简单一些。 高德…

CNN卷积参数量计算

参考:轻量级网络-Mobilenet系列(v1,v2,v3) - 知乎 盘点下每种类型的层计算可学习参数的数量 Input layer:输入层所做的只是读取输入图像,因此这里没有可以学习的参数。 Convolutional layers:一个卷积层,其输入为l个特…

cassandra安装及配置

Cassandra介绍 Cassandra是一个开源的、分布式、无中心节点、弹性可扩展、高可用、容错、一致性协调、面向列的NoSQL数据库。 Cassandra的主要组成部分主要有: • 节点(Node):Cassandra节点是存储数据的地方。 • 数据中心(Data center):数据中心是相关节点的集合。 • 集群…

Vue3 企业级优雅实战 - 组件库框架 - 8 搭建组件库 cli

前面的文章分享了组件库的开发、example、组件库文档,本文分享组件库 cli 开发。 1 为什么要开发组件库 cli 回顾一个新组件的完整开发步骤: 1 在 packages 目录下创建组件目录 xxx: 1.1 使用 pnpm 初始化 package.json,修改 n…

【正点原子FPGA连载】第二十八章 以太网ARP测试实验 摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0

1)实验平台:正点原子MPSoC开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id692450874670 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第二十八章 以太…

(十七) 共享模型之工具【JUC】【读写锁】

一、ReentrantReadWriteLock(P247) 当读操作远远高于写操作时,这时候使用 【读写锁】让 【读-读】可以并发,提高性能。 类似于数据库中的 select ... from ... lock in share mode 提供一个 数据容器类内部分别使用读锁保护数据的…