【论文解读】Point Transformer

news2024/12/29 10:12:49

Point Tranformer

  • 摘要
  • 引言
  • 方法
  • 实验
  • 结论

摘要

自注意网络已经彻底改变了自然语言处理,并在图像分析任务(如图像分类和对象检测)方面取得了令人印象深刻的进展。受这一成功的启发,我们研究了自注意网络在三维点云处理中的应用。我们为点云设计了自注意层,并使用这些层来构建用于语义场景分割、对象部分分割和对象分类等任务的自注意网络。我们的Point Transformer设计改进了先前跨域和任务的工作。例如,在具有挑战性的用于大规模语义场景分割的S3DIS数据集上,Point Tranformer在区域5上的mIoU达到70.4%,比最强的先验模型高3.3个绝对百分点,并首次超过70%mIoU阈值。

引言

3D数据出现在许多应用领域,如自动驾驶、增强现实和机器人。与排列在规则像素网格上的图像不同,3D点云是嵌入在连续空间中的集合。这使得3D点云在结构上与图像不同,并且阻碍了深度网络设计的立即应用,而深度网络设计已经成为计算机视觉的标准,例如基于离散卷积算子的网络。
transformer模型族特别适合于点云处理,因为自关注算子是变压器网络的核心,本质上是一个集合算子:它对输入元素的排列和基数是不变的。因此,自关注3D点云的应用是很自然的,因为点云本质上是嵌入在3D空间中的集合。
基于此,我们开发了一个用于3D点云处理的自注意力层。基于这一层,我们构建了用于各种三维理解任务的Point Transformer网络。我们研究了自注意算子的形式,自注意在每个点周围的局部邻域的应用,以及网络中位置信息的编码。由此产生的网络完全基于自我关注和点操作。
我们的贡献:

  • 我们为点云处理设计了一个高表现力的点转换器层。该层不受排列和基数的影响,因此天生就适合于点云处理。
  • 基于点变压器层,构建高性能点变压器网络,对点云进行分类和密集预测。这些网络可以作为3D场景理解的一般主干。
  • 我们报告了在多个领域和数据集上的广泛实验。我们进行对照研究,以检查点变压器设计中的特定选择,并在多个高度竞争的基准上达到sota,优于之前的工作。

方法

自注意算子可分为两类:

  • 标量注意力(Scalar Attention):在标量注意力中,使用一个标量(单一的数值)来表示注意力权重。典型的标量注意力计算方式是通过将注意力分数(即输入的某个特征与上下文之间的相似度)传递给 softmax 函数,以获得标准化的权重。这个标量用于加权求和,产生最终的上下文向量。
    在这里插入图片描述
    其中yi是输出特征。φ, ψ和α是点向特征变换,如线性投影或mlp。δ是一个位置编码函数,ρ是一个归一化函数,如softmax。标量注意层计算φ和ψ变换后的特征之间的标量积,并将其输出作为对α变换后的特征进行聚合的注意权值

  • 向量注意力(Vector Attention):在向量注意力中,使用一个向量来表示注意力权重,而不是标量。向量注意力通常通过对每个特征计算一个注意力权重向量,然后将这些权重向量组合成最终的上下文向量。
    在这里插入图片描述
    其中β是一个关系函数(例如,减法),γ是一个映射函数(例如,MLP),它产生用于特征聚合的注意向量。

我们使用减法关系,并在注意向量γ和变换后的特征α上添加位置编码δ。
在这里插入图片描述
其中,子集X (i)是xi的局部邻域(即k个最近邻)中的点的集合。因此,我们采用最新的自注意网络进行图像分析,在每个数据点周围的局部邻域中应用局部自注意。映射函数γ是一个具有两个线性层和一个ReLU非线性的MLP。
在这里插入图片描述
Poistion Encoding
位置编码在自关注中起着重要的作用,使算子能够适应数据[39]中的局部结构。序列和图像网格的标准位置编码方案是手动制作的,例如基于正弦和余弦函数或归一化范围值[39,54]。在三维点云处理中,三维点坐标本身是位置编码的自然候选者。除此之外,我们还引入了可训练的参数化位置编码。我们的位置编码函数δ定义如下
在这里插入图片描述
其中pi和pj是点i和点j的三维点坐标。编码函数θ是一个具有两个线性层和一个ReLU非线性的MLP。值得注意的是,我们发现位置编码对注意生成分支和特征转换分支都很重要。因此,Eq. 3在两个分支中添加了可训练位置编码。位置编码θ与其他子网端到端进行训练。

Point Transformer Block
我们构建了一个以点变压器层为核心的残余点变压器块,如图4(a)所示。
在这里插入图片描述

变压器块集成了自关注层,可以降低维数和加速处理的线性投影,以及残余连接。输入是一组带有相关3D坐标的特征向量x。点变换块促进了这些局部特征向量之间的信息交换,为所有数据点生成新的特征向量作为其输出。信息聚合既适应特征向量的内容,又适应特征向量在三维中的布局。
我们基于点变压器块构建了完整的三维点云理解网络。注意,点转换器是整个网络中的主要特征聚合算子。我们不使用卷积进行预处理或辅助分支:网络完全基于点转换层、点变换和池化。网络体系结构如图3所示。
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

transformer已经彻底改变了自然语言处理,并在2D图像分析方面取得了令人印象深刻的进展。受这一进展的启发,我们开发了一种用于3D点云的转换器架构。与语言或图像处理相比,transformer可能更适合点云处理,因为点云本质上是嵌入度量空间的集合,而transformer网络核心的自注意算子本质上是集合算子。我们已经证明,除了这种概念兼容性之外,转换器在点云处理方面非常有效,优于各种家族的最先进设计:基于图的模型、稀疏卷积网络、连续卷积网络等。我们希望我们的工作将启发对点变换器特性的进一步研究,新算子和网络设计的开发,以及变换器在其他任务中的应用,如3D对象检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1434463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

流浪动物救助|基于Springboot的流浪动物救助平台设计与实现(源码+数据库+文档)

流浪动物救助平台目录 目录 基于Springboot的流浪动物救助平台设计与实现 一、前言 二、系统功能设计 三、系统实现 1、用户信息管理 2、动物信息管理 3、商品评论管理 4、公告信息管理 四、数据库设计 1、实体ER图 五、核心代码 六、论文参考 七、最新计算机毕设…

常用Hallmark及KEGG、GO基因查询

文献:The Molecular Signatures Database (MSigDB) hallmark gene set collection - PMC (nih.gov) GSEA | MSigDB | Browse Human Gene Sets (gsea-msigdb.org)通过msigdb数据库可以查看各个Hallmark、KEGG、GO具体包含的基因细节。 Hallmark nameProcess categor…

python中的三种程序控制结构-顺序结构、分支结构、循环结构

程序控制结构 一、顺序结构二、分支结构三、循环结构条件循环-while遍历循环-for循环控制-break、continue 一、顺序结构 顺序结构是指程序在执行时按照代码的顺序逐一执行,每一行代码只执行一次,然后依次执行下一行代码。顺序结构是程序最基本的执行方式…

springboot果蔬配送商城

技术架构: java mysql bootstrap jquery mybatis springboot 有需要该项目的小伙伴可以私信我你的Q。 功能介绍: 系统基于Java技术进行开发,后台数据库使用MySQL,在Windows环境下使用idea开发工具进行开发,主…

异地办公必不可缺的远程控制软件,原理到底是什么?

目录 引言远程桌面连接软件的作用与重要性 基本概念与架构客户端-服务器模型网络通信协议 核心技术组件图形界面捕获与传输输入转发会话管理 性能优化策略带宽优化延迟优化 引言 远程桌面连接软件的作用与重要性 在当今这个高度数字化和网络化的时代,远程桌面连接软…

基于springboot智慧养老平台源码和论文

首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设计。本项…

Yarn常见问题处理

任务出现container OOM异常导致作业失败 原因 Container内存不足或者作业数据倾斜 解决方案 检查Container相关参数,判断是否设置过小(低于4GB)。如果Container小于4GB,优先考虑调大当前作业container大小,如果是Tez任务,还需要同步调整以下参数 # tez container size…

教你一招如何半小时把C语言的 scanf printf sscanf sprintf fscanf fprintf wscanf wprintf 玩出花来

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 我会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人能…

SpringBoot注解--04--@Repository 和@Mapper的区别

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.Repository的作用1.1 含义1.2 Repository与Service和Component有什么区别?1.3 使用场景单独使用Repository,需要配合使用MapperScannerCon…

微信小程序的图片色彩分析,窃取网络图片的主色调

1、安装 Mini App Color Thief 包 包括下载包,简单使用都有,之前写了,这里就不写了 网址:微信小程序的图片色彩分析,窃取主色调,调色板-CSDN博客 2、 问题和解决方案 问题:由于我们的窃取图片的…

【ArcGIS微课1000例】0102:面状要素空洞填充

文章目录 一、实验描述二、实验数据三、实验步骤1. 手动补全空洞2. 批量补全空洞四、注意事项一、实验描述 在对地理数据进行编辑时,时常会遇到面数据中存在个别或大量的空洞,考虑实际情况中空洞的数量多少、分布情况,填充空洞区域可以采用逐个填充的方式,也可以采用快速大…

安全SCDN有什么作用

当前网络安全形势日益严峻,网络攻击事件频发,攻击手段不断升级,给企业和个人带来了严重的安全威胁。在这种背景下,安全SCDN作为一种网络安全解决方案,受到了广泛的关注。那么,安全SCDN真的可以应对网络攻击…

十分钟掌握前端获取实时数据的三种主流方式

前端获取实时数据的三种主流方式 本文聊聊前端获取实时数据的三种主要方式。想象一下,我们在网上购物时,经常能看到最新的优惠信息弹出,或者在社交媒体上看到朋友的最新动态更新。这些都是因为后端在默默地向我们的页面推送了最新的消息。那…

logback日志配置

springboot默认使用logback 无需额外添加pom依赖 1.指定日志文件路径 当前项目路径 testlog文件夹下 linux会在项目jar包同级目录 <property name"log.path" value"./testlog" /> 如果是下面这样配置的话 window会保存在当前项目所在盘的home文件夹…

arcgis各种版本下载

arcgic 下载&#xff01;&#xff01;&#xff01; ArcGIS是一款地理信息系统软件&#xff0c;由美国Esri公司开发。它提供了一系列完整的GIS功能&#xff0c;包括地图制作、空间数据管理、空间分析、空间信息整合、发布与共享等。ArcGIS是一个可扩展的GIS平台&#xff0c;提供…

详细了解ref和reactive.

这几天看到好多文章标题都是类似于&#xff1a; 不用 ref 的 xx 个理由不用 reactive 的 xx 个理由历数 ref 的 xx 宗罪 我就很不解&#xff0c;到底是什么原因导致有这两批人&#xff1a; 抵触 ref 的人抵触 reactive 的人 看了这些文章&#xff0c;我可以总结出他们的想法…

【PTA编程题】7-1 保持链表有序

对于输入的若干学生的信息&#xff0c;按学号顺序从小到大建立有序链表&#xff0c;最后遍历链表&#xff0c;并按顺序输出学生信息。 输入格式: 首先输入一个正整数T&#xff0c;表示测试数据的组数&#xff0c;然后是T组测试数据。每组测试数据首先输入一个正整数n&#xf…

OpenCV 图像处理六(傅里叶变换、模板匹配与霍夫变换)

文章目录 一、傅里叶变换1.1 NumPy实现和逆实现1.1.1 NumPy实现傅里叶变换Demo 1.1.2 NumPy实现逆傅里叶变换Demo 1.2 OpenCV实现和逆实现1.2.1 OpenCV实现傅里叶变换Demo 1.2.2 OpenCV实现逆傅里叶变换Demo 1.3 频域滤波1.3.1低频、高频1.3.2 高通滤波器构造高通滤波器Demo 1.…

ubuntu系统更改了/etc/fstab文件后无法进入系统,解决办法!

背景&#xff1a; ubuntu更改了/etc/fstab文件后&#xff0c;重启无法进入系统&#xff0c;比如设置硬盘自动挂载之类的。 说明&#xff1a; /etc/fstab是linux系统的文件系统表。 在进入系统前是通过检查此文件来加载相应的分区文件系统&#xff08;被记录到本文件中的所有文…