EGST:Explicit Geometric Structure Transformer论文解读

news2024/10/6 0:32:41

目录

一、导言

二、相关工作

1、3D局部描述子

2、点云配准方法

三、EGST模型

1、结构化特征

2、特征提取

3、点云匹配

4、变换估计 

5、损失函数

四、实验 

1、数据集

2、评估指标

3、细节

4、对比实验


一、导言

        该论文提出一种基于增强几何结构特征的点云配准方法EGST(Explicit Geometric Structure Transformer)用于编码显式几何结构。

        (1)EGST构建了三种几何描述子来描述点云内部和外部结构,三种几何描述子:表面法线、差分向量、差分向量之间的夹角。

        (2)Encoder部分使用structure attention来建立两对应点云间的结构一致性

        (3)Decoder部分使用可学习的RPM来提取对应关系,并且在对抗离群点和噪声中保持鲁棒性,用几何结构特征的距离进行初始化,而非空间距离。

        注意:本文没有使用显式Embedding,以及额外的特征注意力模块,如交叉注意力机制。

二、相关工作

1、3D局部描述子

LRF

        LRF(Localized Receptive Field)局部特征子一般表示三维物体表面的局部区域,如局部的几何形状、法向量信息等,可以用来检测具体的物体部分或是整体形状,进而用于物体的识别和分割。一般的用到LRF的算法有:SHOT、RoPS、USC等。

(1)SHOT

        SHOT算法中,根据特征点球邻域内建立局部参考坐标系LRF,对特征点在径向、经度、纬度三个方向进行区域划分,之后对每个区域的法向量夹角余弦值分布情况进行直方图统计(Bilinear interpolation)

(2)RoPS

        RoPS算法中,对于给定的感兴趣点局部进行区域裁剪,并在裁剪区域建立LRF,然后旋转裁剪区域与三个轴Ox,Oy,Oz对齐,并将裁剪区域投影到yz,xz,xy平面,为每个投影区域建立分布矩阵。将每个投影区域离散成L*L个图像,提取更丰富的点云特征,最终目的是对于这些离散的图像区域,来统计其覆盖区域内的点云数据特征,并综合成一个特征描述向量,提高点云数据的表达描述能力。

PPF

        PPF(Point Pair Feature)旋转不变点对特征,在匹配点云时具有旋转不变性,并考虑点对之间的对称性,以实现在旋转角度下的匹配关系。PPF算法中,首先选择一个参考点,并选取一个候选点,计算参考点与候选点间的特征,形成点对特征描述。

其他结构

(1)3DMatch使用截断距离函数,直接从两个点云间提取局部特征,这积累了巨大的参数量。

(2)PPFNet提出增强的PPF,引入严格的旋转不变性,但过分依赖数据,会对噪声和离群点异常敏感。

(3)GeoTransformer提出构建显式的内部几何关系,对其进行编码,由于点云的稀疏性(点与点间没什么太大的关系),引入了大量的位置编码,而这些位置编码是没意义的,缺少了点云的外部表示。

2、点云配准方法

ICP算法

        ICP算法用于两个或多个点云数据集对齐,在ICP算法中,通过迭代计算最小化两个点云间的距离,来优化一个点云到另一个点云间的转换矩阵(R,T)。SVD一般用于计算最佳的变换矩阵,将点云的几何关系转化为代数问题,来优化点云的配准过程,减小对应点间误差(类似线性齐次方程组的最小二乘解)。

基于学习的方法

        基于学习的方法通常分为无对应的方法和基于对应的方法。

        无对应的方法先提取输入点云的全局特征向量然后将变换参数与全局特征向量进行回归,如PointNetLk方法,在小型数据集表现很好,但在大型数据集和复杂场景中表现较差。

        基于对应的方法,在遵循ICP的思想下,建立对应的软分配(Soft assignment),用于处理对应点间的不确定性和模糊性。在传统的点对点对应方法,称为硬分配,而由于实际场景中存在噪声、遮挡,在点云配准中会出现一对多、多对一的映射关系。而使用软分配可以通过引入权重和概率,获得每个点对应的概率分布,以描述点云的模糊对应关系增强鲁棒性。如GeoTransformer。

三、EGST模型

        EGST模型由四个部分构成:结构化特征、特征提取(Encoder)、点云匹配(Decoder)、参数估计。

1、结构化特征

        在原始坐标的基础上建立了三个几何特征子,分别为:差分向量、角度、表面法线。

        对于这一部分的字母注释:

P:模板点云

Q:源点云(对源点云变换R,T得到模板点云)

p_r:中心点,用于收集p_r周围球形区域的点云集\left \{ p_1,p_2,...,p_f \right \}

p_{f}:点云集中的一个点

p_{dis}(p_r,f):差分向量,p_{dis}(p_r,f)=p_r-p_f \in K (三维向量)

p_{ppf}(p_r,f):点对特征 (四维向量)p_{ppf}(p_r,f)=cat(\angle (n_r,p_{dis}(p_r,f)), \angle(n_f,p_{dis}(p_r,f)),\angle(n_r,n_f),||p_{dis}(p_r,f)||_2) 

其中\angle(\cdot _1,\cdot_2)=atan2(||\cdot_1 \times \cdot_2||,(\cdot_1) \cdot (\cdot_2))计算了向量夹角的弧度值

p_{ang}(p_r,f):角度,p_{arg}(p_r,f)=\angle(max R,p_{dis}(p_r,f)) (标量)

其中R=\left \{ d_{rv}=p_v-p_r|p_v \in P,v=1,2,...,N \right \},d_{rv}为全局差分信息(参考向量),P对应全局若干中心点。

D_P:模板点云的组合向量,十一维向量,由上述若干特征组合而成。D_P=cat(p_{xyz}(p_r),p_{dis}(p_r,f),p_{ppf}(p_r,f),p_{ang}(p_r,f)),第一项为坐标(三维向量)

D_Q计算公式与D_P同理。

        最终结构化特征提取出来两个11维向量,包含了点云的内部特征(差分向量、点对特征、坐标)和外部特征(角度)

2、特征提取

        特征提取部分,输入两个11维向量D_QD_P,经结构化Embedding后得到N \times d_e维的向量F_P^eM \times d_e维的向量F_Q^e,然后经过结构注意力机制,得到同样维度的F_P^oF_Q^o

        结构化Embedding:通过结构化特征提取出的内部和外部特征,来作隐式位置编码,替代传统如Geotransformer中的显式几何编码,更好的利用点云中的无序性来构建点云结构的一致性。

        结构注意力机制:在原有的transformer结构中取消了位置编码,并引入了对应的点云,对两点云进行结构一致性关系进行挖掘,在最终的加权求和也多了对应点云侧枝的权重:

        结构注意力机制如下: 

3、点云匹配

        使用可学习的RPM来提取对应关系,使用退火方式的β参数和软分配的α参数来进行软分配,而不是传统ICP算法的硬分配,通过概率分配来提高点云间的模糊性和不确定性,提高系统鲁棒性。

        RPM算法就是将任意一个源点云中的点,建立与模板点云间点的对应关系,并对任意点对赋予0到1的值,并通过最小化,最终收敛到0或1,其中1为对应,0为完全不对应。对应赋值如下:

        经过上述RPM算法工作后得到一个预匹配矩阵M,此时利用可微分的Sinkhorn算法对预匹配矩阵进行交替的行和列的归一化,来尽可能满足双随机矩阵约束条件,即任意一行或一列的元素和为1,保证点云匹配矩阵是完全软分配的。

4、变换估计 

        利用已生成的匹配矩阵来构建伪点对,依照模板点云计算新模板点云,将新模板点云作为源点云,用于损失计算。

5、损失函数

        损失函数由三个部分组成:点匹配变换损失L_{trans}、配准全局对应损失L_{corr}、匹配矩阵匹配损失L_{match}

        L_{trans}:针对于模板点云计算真实值的变换与预测的变换之间的误差关系。

        L_{corr}:计算模板点云相较于源点云之间的误差和源点云相较于模板点云之间的误差

        L_{match}:为了解决离群点问题,计算匹配矩阵的损失作为惩罚项

        总损失L_{total}:其中N为迭代次数。

四、实验 

1、数据集

        使用合成数据集ModelNet40以及真实场景数据集3DMatch和KITTI进行测试。

2、评估指标

        使用均方根误差RMSE、平均绝对误差MAE、相对误差ERROR和其中ERROR(R)计算旋转距离,ERROR(t)计算平移距离。

3、细节

        在不可见物体、不可见类别、高斯噪音相较于SOTA都有较好的提升,部分重叠情况相较于RGM有较好的提升,但GeoTransformer这种依赖显式点云位置编码的效果更优。

4、对比实验

        在结构化特征子、结构注意力机制、大旋转点云的鲁棒性问题上进行对比实验,证明了EGST模型的稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1812194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【华为 ICT HCIA eNSP 习题汇总】——题目集21

1、OSPF协议中的hello报文不包括以下哪个字段? A、Priority(优先级) B、Neighbor(邻居表) C、Interval(时间间隔) D、Checksum(校验和) 考点:路由技术原理 解…

三十而已,逐梦AI新赛道,解锁职业第二春

前言 哎,你说这年头,一晃眼就三十了,是不是觉得找工作就像在走钢丝,小心翼翼还生怕踩空?特别是想换个跑道,跑到AI那边去,心里头那个忐忑啊,感觉比相亲还紧张。总担心老板们会不会嫌…

Linux-笔记 设备树插件

前言: 设备树插件(Device Tree Blob Overlay,简称 DTBO)是Linux内核和嵌入式系统中用于动态修改或扩展系统运行时的设备树配置的一种机制。它是对传统设备(Device Tree Source,简称 DTS)的补充&…

shiro反序列化分析

shiro反序列化分析 基础知识简单介绍关键组件SecurityManagerSubjectRealm总结 shiro安全框架在web中使用配置文件配置具体实现ShiroFilter过滤器分析 shiro的漏洞shiro550链子分析序列化加密cookie反序列化解密cookie验证总结 poc编写存在的问题和解决CC6TemplatesImlCC6insta…

AI写作助手:五款超实用工具让创作更轻松

写作这件事一直让我们从小学生头痛到打工人,初高中时期800字的作文让我们焦头烂额,一篇作文里用尽了口水话,拼拼凑凑才勉强完成。 大学时期以为可以轻松顺利毕业,结果毕业前的最后一道坎拦住我们的是毕业论文,苦战几个…

Day48 代码随想录打卡|二叉树篇---合并二叉树

题目(leecode T617): 给你两棵二叉树: root1 和 root2 。 想象一下,当你将其中一棵覆盖到另一棵之上时,两棵树上的一些节点将会重叠(而另一些不会)。你需要将这两棵树合并成一棵新…

C++ 不定参数模版

使用不定参数模版遇到一个小问题&#xff0c;做个记录 测试代码如下&#xff1a; template<typename T, typename ...Args> void pushToVectorIfParamIsStr(std::vector<std::string>& vec, T &&value,Args&&... args) {const bool is std:…

linux-计划任务

作用&#xff1a;定时自动完成特定的工作 计划任务的分类 一次性的计划任务&#xff1a;例如下周三对文档的重要文件备份一次 周期性的计划任务&#xff1a;每天12:00创建一个文件 命令 一次性的任务计划 at batch 周期性计划任务 crontab anacron 一次性计划任务 …

快手可灵AI开始内测,对标Sora?免费体验!

最近&#xff0c;国内第一个可以和 Sora 相媲美的 AI 视频生成模型&#xff0c;快手的可灵大模型&#xff08;Kling&#xff09;开始免费内测。 在快手旗下的快影App&#xff0c;就可以申请。 别忘记填写表格信息&#xff0c;可以加快你的申请通过&#xff0c;链接我放在这里…

macOS Sequoia 开发者测试版下载和安装教程

macOS Sequoia 于 2024年6月10日在WWDC 2024 上发布&#xff0c;里面添加了AI、窗口排列、操控iPhone等功能&#xff0c;目前发布的为测试版本&#xff0c;可能很多人不知道怎么去下载安装&#xff0c;现在小编教一下大家怎么安装最新的 macOS Sequoia 开发者测试版。 下载 mac…

基于 Transformer 的大语言模型

语言建模作为语言模型&#xff08;LMs&#xff09;的基本功能&#xff0c;涉及对单词序列的建模以及预测后续单词的分布。 近年来&#xff0c;研究人员发现&#xff0c;扩大语言模型的规模不仅增强了它们的语言建模能力&#xff0c;而且还产生了处理传统NLP任务之外更复杂任务…

[总线]AMBA总线架构的发展历程

目录 引言 发展历程 第一代AMBA&#xff08;AMBA 1&#xff09; 第二代AMBA&#xff08;AMBA 2&#xff09; 第三代AMBA&#xff08;AMBA 3&#xff09; 第四代AMBA&#xff08;AMBA 4&#xff09; 第五代AMBA&#xff08;AMBA 5&#xff09; AMBA协议简介 ASB&#x…

PCIe学习——重点提纲

PCIe学习-重点提纲 基础知识 计算机架构基础总线系统概述PCI vs PCI-X vs PCIe PCIe 概述 PCIe 的发展历史PCIe 与其他总线的对比PCIe 的优势和应用场景 PCIe 体系结构 PCIe 分层模型 物理层&#xff08;Physical Layer&#xff09;数据链路层&#xff08;Data Link Layer&…

.NET 全局过滤器

过滤器流程图: 过滤器描述: 1、Authorization Filter : 是五种Filter中优先级最高的,通常用于验证Request合不合法、用户身份是否被认证(然后授权等)、复杂的权限角色认证、登录授权等操作。 2、Resource Filter: 会在Authorization之后,Model Binding之…

网络数据库后端相关面试题(其三)

18&#xff0c; 传输控制协议tcp和用户数据报协议udp有哪些区别 第一&#xff0c;tcp是面向字节流的&#xff0c;基本的传输单位是tcp报文段&#xff1b;而udp是面向报文的&#xff0c;基本传输单位是用户数据报。 第二&#xff0c; tcp注重安全可靠性&#xff0c;连接双方在…

C++学习日记 | LAB 7 shared library 共享库

资料来源&#xff1a;南科大 于仕琪 C/C Program Design LINK&#xff1a;CPP/week07 at main ShiqiYu/CPP GitHub 一、本节内容 本节主要介绍建立共享库的内容。习题主要内容为 共享库将开发人员希望与其他开发人员共享的功能的编译代码打包在一起。共享库通常具有以下特点…

33 _ 跨站脚本攻击(XSS):为什么Cookie中有HttpOnly属性?

通过上篇文章的介绍&#xff0c;我们知道了同源策略可以隔离各个站点之间的DOM交互、页面数据和网络通信&#xff0c;虽然严格的同源策略会带来更多的安全&#xff0c;但是也束缚了Web。这就需要在安全和自由之间找到一个平衡点&#xff0c;所以我们默认页面中可以引用任意第三…

颠覆传统,重塑未来:物业服务新篇章,从售后服务管理系统开始!

数字化时代再不断发展&#xff0c;面向了各行各业。因此&#xff0c;物业行业也面临着前所未有的挑战与机遇。你是否曾经遇到过这样的困扰&#xff1a;报修流程繁琐、响应速度慢、服务质量参差不齐&#xff1f;这些问题严重影响了日常生活&#xff0c;同时&#xff0c;物业公司…

Android Jetpack Compose 实现一个电视剧选集界面

文章目录 需求概述效果展示实现思路代码实现总结 需求概述 我们经常能看到爱奇艺或者腾讯视频这类的视频APP在看电视剧的时候都会有一个选集的功能。如下图所示 这个功能其实很简单&#xff0c;就是绘制一些方块&#xff0c;在上面绘制上数字&#xff0c;还有标签啥的。当用户…

AI Pin 仅获1万订单,公司或10亿美元卖给惠普

Humane投入了五年时间研发一款旨在颠覆智能手机市场的设备&#xff0c;最终却可能以失败收场&#xff0c;该公司曾获OpenAI Sam Altman和Salesforce Marc Benioff的投资。 内容提要 1、Humane推出的AI Pin设备&#xff0c;近来遭到广泛批评&#xff0c;销量低迷。公司因此开始…