Deep Active Contours for Real-time 6-DoF Object Tracking

news2024/9/20 13:17:22

这篇论文解决了从RGB视频进行实时6自由度(6-DoF)物体跟踪的问题。此前的基于优化的方法通过对齐投影模型与图像来优化物体姿态,这种方法依赖于手工设计的特征,因此容易陷入次优解。最近的基于学习的方法使用神经网络来预测姿态,但它们在泛化能力或计算效率上有所欠缺。我们提出了一种基于学习的主动轮廓模型,以充分利用这两种方法的优点。具体来说,给定一个初始姿态,我们将物体模型投影到图像平面上以获得初始轮廓,并使用一个轻量级网络预测轮廓如何移动以匹配真实的物体边界,从而提供优化物体姿态的梯度。我们还设计了一种高效的优化算法,以姿态监督的方式对我们的模型进行端到端训练。实验结果表明,在半合成和真实的6自由度物体跟踪数据集上,我们的模型在姿态精度上比最先进的方法有显著的提升,同时在移动设备上实现了实时性能。代码可以在我们的项目页面上获取: Deep Active Contour for Real-time 6-DoF Object Tracking.

  1. 引言

基于视频的6自由度(6-DoF)物体跟踪任务旨在从RGB图像序列中跟踪刚性物体的姿态,前提是已知预定义的物体CAD模型和第一帧中的初始姿态。这项任务有着广泛的应用,包括增强现实、机器人操作和人机交互。这些应用要求跟踪算法能够实时运行,并避免需要针对特定物体进行训练。

主流的6-DoF物体跟踪方法通常基于关键点、边缘或区域特征来优化物体姿态。关键点方法[34, 42, 18, 17, 43, 27]涉及在2D图像和3D真实模型之间匹配关键点。诸如SIFT[25]、ORB[30]或BRISK[19]等关键点特征被广泛应用于这些任务中。然而,这些方法依赖于丰富的纹理,这限制了它们的适用性。相比之下,基于边缘的跟踪方法[6, 33, 53, 32]依赖于边缘(显式或隐式)来计算两幅连续图像之间的相对姿态。不幸的是,这些方法在处理背景杂乱和运动模糊时面临挑战,从而限制了其有效性。为了解决这一问题,较新的基于边缘的方法[46, 44, 14, 13, 39]进一步结合了局部颜色信息以提高精度。最近的进展主要由基于区域的方法[28, 40, 41, 36]推动。其基本前提是物体区域的颜色统计信息可以与背景区分开来。随着近年来的不断发展,基于区域的方法现在具备了即使在嘈杂和杂乱的图像中,也能仅利用无纹理的3D模型高效且准确地跟踪物体的能力。然而,这些基于优化的方法的一个缺点是需要手工设计特征和精心调整的超参数,这在实际场景中可能不够稳健。

最近,端到端的基于学习的方法被提出,以增强6-DoF物体检测和跟踪的鲁棒性。这些方法回归几何参数,如相机姿态[54, 16]和物体坐标[3, 12, 45],或采用渲染与比较[23, 15, 55, 24, 48]的策略迭代优化姿态。尽管这些方法取得了有希望的结果,但姿态回归方法表现出有限的精度和较差的泛化能力,而渲染与比较方法则计算量大,不适用于实时应用。

在本文中,我们提出了一种基于学习的主动轮廓模型(DeepAC),用于实时的6-DoF物体跟踪。通过结合传统的基于优化和基于学习的方法的优势,DeepAC同时实现了鲁棒性和实时性能。受到基于区域的方法RBGT[35]的启发,DeepAC将投影轮廓周围的局部区域作为输入,预测轮廓更新的方向。与依赖于手工设计特征和统计假设的传统方法不同,我们采用网络来估计方向,如图1所示。具体来说,所提出的方法呈现了一个三阶段的流程。首先,DeepAC使用FPN-Lite网络与MobileNetV2[31]提取当前图像的多层次特征,并通过投影3D物体模型来获取上一帧姿态的2D轮廓。然后,设计了一个边界预测网络,利用轮廓周围局部区域的特征作为输入,输出真实边界位置的概率分布。最后,使用基于边界概率的牛顿法优化6-DoF物体姿态。这个优化过程相对于网络输出是可微分的,允许使用真实姿态作为监督信号来训练特征提取和边界预测网络,从而消除了对手工设计中间监督的需求。

我们在半合成和真实的6-DoF物体跟踪数据集上验证了所提出方法的有效性。结果表明,DeepAC在姿态精度上大幅超越了其他基于优化和基于学习的基准方法。此外,我们展示了该算法在移动设备上的实时性能,在iPhone 11上实现了25帧/秒的帧率。请参见补充材料中的演示视频。

我们的主要贡献总结如下:

  • 一种用于实时6-DoF物体跟踪的新型基于学习的主动轮廓模型。
  • 一个基于图像特征演化轮廓的轻量级网络,确保了鲁棒性和高效性。
  • 一个高效的优化算法,允许整个流程在姿态监督下进行端到端训练。
  1. 相关工作

基于关键点的优化。 早期的基于关键点的方法[25, 30, 19]通过利用局部特征匹配[34, 42, 18, 17]或光流技术[11, 43, 27]来建立2D-3D对应关系。尽管这些方法展现了显著的性能,但它们需要存在有纹理的物体模型。

基于边缘的优化。 为了减轻对有纹理模型的需求,研究人员转向了基于边缘的方法,这些方法通常依赖于分析物体边缘的位移。例如,RAPiD[6]通过在投影边缘的垂直方向上寻找显著的梯度来估计连续帧之间的相对姿态。为了增强跟踪的稳定性,Simon和Berger[33]实施了稳健的估计技术,以减少异常值对RAPiD优化的影响。进一步的改进包括结合局部颜色信息[32],集成粒子滤波器进行初始化[44, 39],以及在姿态优化中添加边缘权重[44, 14]。然而,基于边缘的方法在处理背景杂乱和运动模糊时仍然面临困难。

基于区域的优化。 近来,基于区域的方法在复杂环境中跟踪无纹理物体方面表现出了显著的成功。该研究可以追溯到PWP3D[28]的工作,该方法有效地结合了颜色分割统计模型和物体渲染边界距离场来优化物体姿态。后续的RBOT估计[40]和RBOT跟踪[41]工作扩展了这一方法,结合了时间一致的局部颜色直方图,并利用高斯-牛顿法来优化能量函数。RBGT[35]引入了多个视点的预计算稀疏对应线,并建立了符合高斯分布的概率模型。这使得使用牛顿法的物体姿态快速收敛成为可能。该领域的最新进展SRT3D[36]引入了平滑的阶跃函数,考虑了全局和局部不确定性,相较于现有方法提供了显著的改进。ICG方法[37]通过将深度信息与区域统计相结合,获得了比多个基于学习的方法更好的性能。然而,基于区域的物体跟踪的性能常常因为需要定义多个手工设计的特征和参数而受到影响,这在实际应用中是一个显著的限制。

基于学习的方法。 近年来,基于深度学习的6自由度物体姿态估计方法取得了显著进展。一种方法是直接预测旋转和平移参数,如[54, 16]的工作所示。另一种方法[3, 12, 45]是通过回归每个像素对应的物体坐标来生成2D-3D对应关系,然后通过PnP求解器估计6自由度姿态。然而,在单次处理设置中准确估计物体姿态可能具有挑战性。为了解决这一问题,各种研究[23, 15, 55, 24, 48]利用了迭代优化技术,产生更精确的结果。这种方法的关键思想是一个迭代的“渲染与比较”方案。在每次迭代中,使用当前的物体姿态估计来渲染3D模型,并将渲染的图像与实际图像进行比较,以获得姿态更新,从而改善两者之间的对齐。PoseRBPF[4]通过训练代码库来估计用于实例级物体跟踪的粒子滤波器后验概率。最近的物体跟踪方法[47, 49, 50]结合了深度信息,从而不再需要CAD模型。当前基于学习的方法的主要缺点是需要使用高端GPU,使其不适合在移动应用中部署,例如增强现实。我们的框架通过将轻量级神经网络集成到基于优化的方法中,解决了这一限制,允许在移动设备上快速处理,同时在姿态精度上取得显著改进。

实验

4.1. 评估协议

数据集
我们在三个标准的目标跟踪基准数据集上评估了我们的方法,即RBOT [41]、BCOT [21]和OPT [52]数据集。RBOT数据集包含18个不同的物体,每个物体有4个序列,具有不同的变化场景,包括常规、动态光照、噪声和遮挡场景。BCOT数据集由20个无纹理物体、22个场景和404个视频序列组成,总共包含126K帧,均在现实环境中捕捉,涉及各种相机设置、室内/室外场景和运动模式。OPT数据集包含6个物体和552个现实世界的序列,这些序列具有多样的光照条件,并由机器人手臂记录的预设轨迹。

基线方法
我们将提出的方法与以下基线方法进行了比较,分为两类:1) 基于优化的基线方法,包括基于关键点的方法 [51, 26, 1],基于边缘的方法 [22, 2, 14, 38, 44, 39] 和基于区域的方法 [28, 41, 56, 57, 13, 20, 35, 36],这些方法的设置与我们的方法相似。2) 基于学习的基线方法 [23, 24],这些方法利用“渲染与比较”的框架来估计单张图像与预定义纹理模型之间的相对姿态。我们将这些基于学习的基线方法纳入分析,以展示我们提出的方法在未见过物体上的优越泛化性能。需要注意的是,我们的方法可以在移动设备上实时运行,并且仅依赖于无纹理的物体,而 [23, 24] 由于时间开销大且需要纹理模型,无法实现这一点。

实验

4.1. 评估协议

数据集
我们在三个标准的目标跟踪基准数据集上评估了我们的方法,即RBOT [41]、BCOT [21]和OPT [52]数据集。RBOT数据集包含18个不同的物体,每个物体有4个序列,具有不同的变化场景,包括常规、动态光照、噪声和遮挡场景。BCOT数据集由20个无纹理物体、22个场景和404个视频序列组成,总共包含126K帧,均在现实环境中捕捉,涉及各种相机设置、室内/室外场景和运动模式。OPT数据集包含6个物体和552个现实世界的序列,这些序列具有多样的光照条件,并由机器人手臂记录的预设轨迹。

基线方法
我们将提出的方法与以下基线方法进行了比较,分为两类:1) 基于优化的基线方法,包括基于关键点的方法 [51, 26, 1],基于边缘的方法 [22, 2, 14, 38, 44, 39] 和基于区域的方法 [28, 41, 56, 57, 13, 20, 35, 36],这些方法的设置与我们的方法相似。2) 基于学习的基线方法 [23, 24],这些方法利用“渲染与比较”的框架来估计单张图像与预定义纹理模型之间的相对姿态。我们将这些基于学习的基线方法纳入分析,以展示我们提出的方法在未见过物体上的优越泛化性能。需要注意的是,我们的方法可以在移动设备上实时运行,并且仅依赖于无纹理的物体,而 [23, 24] 由于时间开销大且需要纹理模型,无法实现这一点。

 

与基于优化的方法的比较
在RBOT数据集中,准确性计算遵循之前的研究[41],采用标准的5cm-5°评分。表1展示了我们提出的方法与各种对比方法的比较。实验结果表明,对于常规、动态光照和遮挡场景,现有的基于优化的方法已经达到了性能的瓶颈,成功率超过了95%。在这种情况下,DeepAC表现出了类似的性能。然而,在噪声场景中,我们的方法显著提升了性能,平均成功率从83.2%提高到88.0%。这一观察结果表明了DeepAC在应对噪声方面的优越鲁棒性。

在BCOT数据集中,我们采用ADD得分和厘米-度得分来量化姿态误差。与RBOT基准不同,我们采用更严格的标准来评估跟踪性能,包括ADD-0.02d、ADD-0.05d和2cm-2°评分,以评估高精度的跟踪能力。结果如表2所示,DeepAC在所有ADD和厘米-度评分上均表现出优于所有基线方法的性能。值得注意的是,我们的方法在非常严格的ADD标准上表现出显著的优势,包括在ADD-0.02d上的9.1%提升、ADD-0.05d上的14.1%提升和ADD-0.1d上的9.6%提升。这些结果表明,我们的方法在高精度跟踪方面非常有效。此外,我们选择了三个表现最好的方法,即SRT3D[36]、LDT3D[39]和DeepAC,比较了在RBOT和BCOT数据集中姿态重置的次数以及不进行任何姿态重置的跟踪结果,如表3所示。除了在BCOT数据集上的5cm-5°评分外,DeepAC在所有指标上均取得了最佳结果,并且在其他两个基线方法上取得了较大幅度的优越表现。

在OPT数据集中,按照[52]的方法,我们采用AUC(0, 0.2)评分作为评估目标跟踪性能的指标。表4显示,我们的方法在所有六个物体上均优于当前最先进的基于优化的方法。这些结果强调了DeepAC在现实应用中的有效性。此外,我们观察到LDT3D[39]在RBOT和BCOT中排名第二,但在OPT数据集上的性能显著下降。该结果可能归因于OPT数据集相对较小的帧差异,其中LDT3D采用的非局部优化对其性能产生了负面影响。

与基于学习的方法的比较
为了展示DeepAC的泛化能力,我们在RBOT数据集上与两种基于学习的方法[23, 24]进行了对比实验,尽管它们的时间成本很高。具体来说,我们使用DeepIM [23]的官方代码库1,在YCB-V [54]数据集上训练模型,同时测试了[24]提供的预训练模型2,该模型在YCB-V [54]数据集上进行了训练。为了公平比较,我们在相同的训练配置下,在YCB-V [54]数据集上训练了我们的DeepAC模型,称为DeepAC−。表5显示的实验结果表明,即使在为[24]提供了真实物体掩码的情况下,DeepAC−在性能上仍然显著优于基于学习的基线方法[23, 24],展示了我们跨数据集泛化的能力。

消融实验
我们验证了DeepAC中的设计选择:1)统计信息组合,2)多层次特征,3)对应线不确定性,4)对应线的数量,以及5)每条对应线上的样本数量。我们使用与RBOT和BCOT数据集上的6-DoF物体跟踪相同的训练和评估协议进行这些实验。表6中展示的结果表明,DeepAC中的所有设计选择都带来了显著的性能提升。表7提供了关于对应线数量和每条线上样本数量的影响结果,使我们能够在精度和效率之间取得平衡。

4.3. 移动设备上的实现
除了在桌面上实现DeepAC外,我们还将其移植到移动设备(iPhone 11)上。具体来说,我们使用coremltools3来促进DeepAC网络的部署,并使用C++实现了补充模块。

姿态初始化
为了在第一帧中初始化姿态,我们通过预定义的姿态将3D模型投影到手机屏幕上,并要求用户手动移动手机以匹配实际物体和投影模型。该过程在补充材料中的演示视频中有所说明。初始化的成功判定方式如下。首先,我们使用神经网络估计边界位置μi和不确定性σi²。然后,我们计算边界位置和对应线中点之间的平均距离以及平均不确定性。如果计算的距离低于某个阈值,我们将使用此姿态作为初始化并开始跟踪。

运行时间
我们分析了DeepAC在iPhone 11上每个模块的时间成本。图像预处理和FPN-Lite网络模块分别耗时6ms和8.1ms。提取对应线、轮廓特征和边界图的模块分别需要5.1ms、3.7ms和4.2ms。姿态优化耗时4.2ms,颜色直方图更新耗时0.7ms。总体而言,将所有这些模块结合在一起的整个流程平均运行速度大约为25帧每秒。

5. 结论
本文提出了一种名为DeepAC的基于学习的主动轮廓模型,用于从RGB视频中进行实时6-DoF物体跟踪。通过初始姿态,提出的DeepAC使用三阶段流程来跟踪物体:轮廓特征图提取、边界图预测和姿态优化。实验表明,DeepAC在多个半合成和真实的6-DoF物体跟踪数据集上实现了最先进的结果,超越了传统的基于优化的方法和最近的基于学习的方法,同时能够在移动设备上实时运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2128483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

等保测评中的访问控制策略:企业优化指南

在信息安全等级保护(等保)测评中,访问控制作等保测评中的访问控制策略:企业优化指南为保障信息系统安全的关键环节,其策略的合理性和有效性直接影响到测评结果。企业如何优化访问控制策略,以满足等保测评的…

21432423

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话: 知不足而奋进,望远山而前行&am…

NC 兑换零钱(一)

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 给定数组arr&…

VMware Workstation Player虚拟机Ubuntu启用Windows共享目录

1、新建共享目录 2、安装并启用vmtools、fuse sudo apt update sudo apt install open-vm-tools open-vm-tools-desktop sudo apt install fuse sudo systemctl start open-vm-tools sudo systemctl enable open-vm-tools 3、命令挂载 sudo vmhgfs-fuse .host:/SharedFold…

svg画进度条

直接返回一个进度条的组件&#xff0c;代码如下所示&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

vscode+vue3+vite项目配置stylelint 2024版本

项目场景&#xff1a; 在搭建前端项目时经常要用到一些工程化的东西&#xff0c;还有一个规范化的东西&#xff0c;现在eslint已经在各大脚手架工具集成的很好&#xff0c;但是stylelint还是有点欠缺&#xff0c;而且每次的版本更新迭代是个最让人头疼的问题&#xff0c;写这篇…

uniapp+vue3 使用canvas,并保存图片(图片是空白的问题)

首先把其中的要点先说一下 uni.createCanvasContext(canvasId, componentInstance) 当我们没有使用自定义组件时, 参数 componentInstance 可以不传 但如果我们的 canvas 是放在自定义组件中, 在vue2中一般传的是 this , 在vue3中是没有this的, 当我们在 vue3中要使用 th…

亚数TrustAsia亮相第十四届智慧城市与智能经济博览会,入围“2024数据要素创新应用优秀成果”!

智博会 2024年9月6日至8日&#xff0c;由宁波市人民政府、浙江省经济和信息化厅、中国信息通信研究院、中国电子信息行业联合会、中国电信、中国移动、中国联通主办的2024世界数字经济大会暨第十四届智慧城市与智能经济博览会&#xff08;以下简称“智博会”&#xff09;在宁波…

SpringCloud-03 LoadBalancer服务调用与负载均衡

LoadBalancer&#xff08;负载均衡器&#xff09;是一种网络设备或软件&#xff0c;用于将网络流量分配到多个服务器&#xff0c;以实现负载均衡和高可用性。它可以帮助确保网络服务器能够有效地处理大量的请求&#xff0c;并避免某些服务器过载而导致性能下降或服务不可用。 …

CCRC-DSO数据安全官评AI:烧出的热度?美丽的泡沫?

中国AI产业的热潮持续高涨&#xff0c;这主要显现在企业获得融资的速度和规模上。 近期&#xff0c;智谱AI这家大模型独角兽公司完成了本年度的第三次融资&#xff0c;其投资前估值已达到惊人的200亿元&#xff1b;同时&#xff0c;无问芯穹也完成了接近5亿元的A轮融资&#x…

# 欢迎使用Markdown编辑器

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

使用单个位存储结点颜色在深度优先搜索(DFS)中的充分性证明

使用单个位存储结点颜色在深度优先搜索(DFS)中的充分性证明 证明思路证明过程C语言实现结论在图论中的深度优先搜索(DFS)算法中,通常使用“颜色”来标记结点的访问状态。传统上,可以使用三种颜色: 白色:表示结点未被访问。灰色:表示结点正在被访问(即已访问但其邻接结…

再次进阶 舞台王者 第八季完美童模全球赛首席体验官【雷璨旖】赛场秀场超燃合集!

7月20-23日&#xff0c;2024第八季完美童模全球总决赛在青岛圆满落幕。在盛大的颁奖典礼上&#xff0c;一位才能出众的少女——雷璨旖&#xff0c;迎来了她舞台生涯的璀璨时刻。 首席体验官——雷璨旖&#xff0c;以璀璨童星之姿&#xff0c;优雅地踏上完美童模盛宴的绚丽舞台&…

Java面试篇基础部分-Java中的异常以及异常处理

导语   在实际的开发过程中,往往会遇到各种各样的编程异常,如何处理这些异常,直接会影响到整个程序和系统的稳定性,如果不能在合适的地方抛出合适的异常或者是对异常进行捕获。那么就会影响到整个程序的运行。所以如何处理异常,是作为每个开发者来说必不可少的开发技能。…

电脑开机速度慢怎么解决?

电脑开机速度慢怎么解决&#xff1f;电脑开机速度慢的原因可以是多方面的&#xff0c;以下是一些常见的原因&#xff1a; 启动项过多&#xff1a; 许多软件在系统启动时会自动启动&#xff0c;导致启动项过多&#xff0c;从而延长了开机时间。过时的驱动程序&#xff1a; 设备…

html+css网页制作 旅游 厦门旅游网3个页面

htmlcss网页制作 旅游 厦门旅游网3个页面 网页作品代码简单&#xff0c;可使用任意HTML辑软件&#xff08;如&#xff1a;Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作&#xff09;。 获取源码 1&#…

分类预测|基于黑翅鸢优化最小二乘支持向量机分类预测Matlab程序BKA-LSSVM 多特征输入多类别输出 含基础LSSVM

分类预测|基于黑翅鸢优化最小二乘支持向量机分类预测Matlab程序BKA-LSSVM 多特征输入多类别输出 含基础LSSVM 文章目录 一、基本原理1. BKA&#xff08;Binary Killer Algorithm&#xff09;2. LSSVM&#xff08;最小二乘支持向量机&#xff09;BKA-LSSVM模型流程总结 二、实验…

社保缴纳时长对资质申请的影响:郑州建筑智能化乙级资质案例解析

社保缴纳时长对资质申请的影响在郑州建筑智能化乙级资质的案例中尤为显著。以下是对该影响的详细解析&#xff1a; 一、社保缴纳时长的基本要求 在申请建筑智能化乙级资质时&#xff0c;郑州市及河南省住房和城乡建设厅通常会对企业为工程师等关键技术人员缴纳的社保时长提出明…

算法41:位1的个数

一、需求 编写一个函数&#xff0c;获取一个正整数的二进制形式并返回其二进制表达式中 设置位的个数&#xff08;也被称为汉明重量&#xff09;。 示例 1: 输入&#xff1a;n 11 输出&#xff1a;3 解释&#xff1a;输入的二进制串 1011 中&#xff0c;共有 3 个设置位。示…

VS2019界面介绍

文章目录 1、界面组成2、调试配置界面3、调试相关快捷键使用4、调试过程设置以及窗口 1、界面组成 1&#xff09;新建文件 筛选器 目录 2&#xff09;大纲显示 3&#xff09;IntelliSense智能提醒 IntelliSense 智能提醒IntelliSense 是一组功能&#xff0c;可用于在编辑器中…