Deep Active Contour for Real-time 6-DoF Object Tracking
ICCV 2023
Project Page
【Question&Thinking】
- 解决的问题?
- RGB 视频的实时六自由度目标跟踪
- 现有的问题?
- 提出的方法?
- 达到的效果?
- 存在的问题?
Abstract
本文解决了RGB 视频的实时六自由度目标跟踪问题。先前基于优化的方法通过基于手工特征将投影模型与图像对齐来优化物体姿态,这很容易出现次优解决方案。最近的基于学习的方法使用神经网络来预测位姿,但其通用性或计算效率有限。我们提出了一种基于学习的主动轮廓模型,以充分利用这两个方法。
具体来说,在给定初始姿态的情况下,将目标模型投影到图像平面上以获得初始轮廓,并利用一个轻量级网络预测轮廓应该如何移动以匹配真实目标边界,从而提供梯度来优化目标姿态。我们还设计了一个有效的优化算法,通过姿势监督来端到端训练我们的模型。在半合成和真实世界的6自由度目标跟踪数据集上的实验结果表明,模型在姿势精度方面明显优于最先进的方法,同时在移动设备上实现了实时性能。
1. Introduction
基于视频的 6-DoF 对象跟踪:在给定预定义对象 CAD 模型和第一帧中的初始姿势的情况下,从 RGB 图像序列跟踪刚性对象的位姿。 在增强现实和机器人操纵到人机交互中具有广泛的应用。这些应用要求跟踪算法是实时的,并且不需要进行对特定对象的训练。
六自由度目标跟踪对目标姿态进行优化的主要方法:
- 基于关键点法对包括在二维图像和三维真实模型之间匹配关键点。SIFT [25]、 ORB [30]或 BRISK [19]等关键点特性已经被广泛应用于此类任务中。对丰富纹理的依赖缩小了这些方法的适用性。
- 基于边缘的跟踪方法[6,33,53,32]依赖于边缘(显式或隐式)来计算两个连续图像之间的相对姿态。这些方法在处理背景杂乱和运动模糊时面临挑战,从而限制了它们的有效性。为了解决这个问题,更新的基于边缘的方法[46,44,14,13,39]进一步结合本地颜色信息,以提高准确性。
- 基于区域的方法[28,40,41,36]。基本前提是物体区域的颜色统计可以从背景中区分出来。随着近年来的不断进步,基于区域的方法现在能够仅利用无纹理的 3D 模型,即使在噪声和杂乱的图像中也能高效、准确地跟踪对象。
然而,这些基于优化的方法的一个缺点是需要手工制作的特征和经过仔细调整的超参数,这在现实世界的场景中可能不稳健。 - 基于端到端学习的方法来增强 6-DoF 对象检测和跟踪的鲁棒性。 这些方法回归几何参数,例如相机姿势 [54, 16] 和物体坐标 [3, 12, 45],或采用渲染和比较 [23,15, 55, 24, 48] 策略来迭代地细化位姿。 尽管显示出有希望的结果,但姿势回归方法的准确性有限且泛化性差,而渲染和比较方法的计算成本昂贵且不适用于实时应用。
本文提出了一种基于学习的主动轮廓模型(DeepAC) 结合传统优化方法和基于学习方法的优点,实现了鲁棒性和实时性。受基于区域的方法 RBGT [35]的启发,DeepAC 将预测轮廓周围的局部区域作为输入,并预测更新轮廓的方向。与依赖于手工特征和统计假设的传统方法不同,采用网络来估计方向,如图1所示。具体来说,该方法提出了一个三相管道。首先,DeepAC 使用带有 MobileNetV2[31]的 FPN-Lite 网络提取当前图像的多级特征,并投影三维对象模型以从最后一帧姿态获取二维轮廓。然后,设计边界预测网络,利用轮廓周围局部区域的特征作为输入,并输出真实边界位置的概率分布。最后,利用基于边界概率的牛顿法对六自由度目标姿态进行优化。优化过程是可微分的网络输出,允许使用地面真实姿态作为监督训练特征提取和边界预测网络,从而消除了手工中间监督的需要。
图1 深活动轮廓线的基本思想。在给定初始目标姿态的情况下,将目标模型投影到图像上,对投影轮廓上的一组点进行采样,利用网络预测每个采样点的真实边界位置沿法线的分布,并对姿态进行优化,使投影轮廓与预测边界对齐。
主要贡献:
- 一个新颖的基于学习的实时6自由度目标跟踪主动轮廓模型。
- 根据图像特征进行轮廓演化的轻量级网络,确保鲁棒性和高效性。
- 一种高效的优化算法,允许对整个流程进行端到端的姿态监控训练。
2. Related Work
2.1 基于关键点的优化
早期的基于关键点的方法[25,30,19]涉及通过利用局部特征匹配[34,42,18,17]或光流[11,43,27]技术建立2D-3D 相关性。尽管演示了一个显着的性能,这种方法需要存在的纹理对象模型。
2.2 基于边缘的优化
为了减轻对纹理模型的需求,研究者们转向了基于边缘的方法,这种方法通常依赖于对物体边缘位移的分析。例如,RAPiD [6]通过沿着正交方向在接近投影边缘的地方寻找明显的梯度来估计连续帧之间的相对姿态。为了增强跟踪的稳定性,Si-mon 和 Berger [33]实现了可靠的估计技术,减少了异常值对 RAPiD 优化的影响。进一步的改进包括结合局部颜色信息[32] ,集成用于初始化的粒子过滤器[44,39] ,以及添加用于姿态优化的边缘权重[44,14]。然而,基于边缘的方法在处理背景杂波和运动模糊方面仍然存在困难。
2.3 基于区域的优化
最近,基于区域的方法在复杂环境下跟踪无纹理物体方面取得了显著的成功。本文的研究工作可以追溯到 PWP3D [28]的工作,它有效地结合了颜色分割统计模型和目标渲染边界距离场来优化目标姿态。随后的工作中的 RBOT 估计[40]和 RBOT 跟踪[41]扩大了这种方法,结合时间一致的本地颜色直方图,以及利用 Gaussian-Newton 方法优化能量函数。RBGT [35]引入了预先计算的多视点稀疏对应线,并建立了一个符合正态分布的概率模型。这允许快速收敛的目标姿态使用牛顿方法。该领域的最新进展 SRT3D [36]引入了平滑步长函数,同时考虑了全局和局部不确定性,比现有方法提供了显著的改进。ICG 方法[37]通过将光栅深度信息与区域统计信息相结合,取得了比几种基于学习的方法更好的性能。然而,由于需要定义多种手工特征和参数,基于区域的目标跟踪性能往往受到影响,这在实际应用中表现出明显的局限性。
2.4 基于学习的方法
一种方法是直接预测旋转和平移参数,如[54,16]。另一种方法[3,12,45]通过回归对应于每个像素的目标坐标来生成2D-3D 对应,然后用 PnP 求解器估计6-DoF 姿态。然而,准确估计目标的姿态在一个单一的拍摄设置可能是具有挑战性的。为了克服这个问题,各种研究[23,15,55,24,48]已经利用迭代再细化技术,产生更精确的结果。这种方法背后的关键思想涉及一个迭代的“渲染和比较”方案。在每次迭代中,使用当前的目标姿态估计来渲染三维模型,并将渲染后的图像与实际图像进行比较以获得姿态更新,从而改善两者之间的对齐。PoseRBPF [4]训练一个码本来估计粒子过滤器的后验概率,用于实例级的目标跟踪。最近的目标跟踪方法[47,49,50]集成了深度信息,以消除对 CAD 模型的需要。当前基于学习的方法的主要不足之处在于,它们需要使用高端的图形处理器,因此不适合部署在移动应用程序中,例如扩增实境。相反,我们的框架通过将一个轻量级神经网络结合到一个基于优化的方法中来解决这个限制,允许在移动设备上进行快速处理,同时在姿态精度上取得显著的改善。
3. Methods
3.1. Overview
给定一个三维 CAD 模型
M
M
M,一个图像序列
I
k
{ I_k }
Ik和第一帧的初始姿态,该方法采用当前帧的单个 RGB 图像
I
k
{ I_k }
Ik和前一帧的姿态
P
k
−
1
P_{k-1}
Pk−1迭代恢复当前姿态
P
k
P_{k}
Pk。首先,将三维模型
M
M
M投影到图像平面上,利用前一个位姿
P
k
−
1
P_{k-1}
Pk−1获得二维轮廓,并根据局部区域提取轮廓特征图(3.2节)。然后,利用轮廓特征映射估计边界概率映射(第3.3节)。最后,基于边界概率图对当前姿态
P
k
P_{k}
Pk进行了优化(3.4节)。该方法的概述如图2所示。
图2.提出的方法概述。
1.该方法利用 FPN-Lite CNN 提取当前裁剪帧
I
k
{ I_k }
Ik的多级特征
F
k
{ F_k }
Fk,并用对应线模型表示轮廓的局部区域。(第3.2节)。
2.轮廓特征映射
F
k
c
F_{k}^{c}
Fkc是通过对图像特征映射上的一系列对应线进行采样,然后通过边界预测模块来预测边界位置概率
B
k
B_k
Bk (第3.3节)来建立的。
3.一个可微优化层被用来以一种从粗到细的方式估计姿态
P
k
P_{k}
Pk(第3.4节)
3.2. Contour Feature Map Extraction
我们使用从前一帧估计的位姿
P
k
−
1
P_{k-1}
Pk−1来初始化当前帧的位姿
P
k
P_{k}
Pk。姿态
P
P
P 定义为
[
R
,
t
]
[ R,t ]
[R,t] ,其中
R
R
R 是三维旋转,
t
t
t 是三维平移。然后对三维模型
M
M
M 进行投影,获取二维轮廓线,并计算其二维边界框,用于提取裁剪后的图像
I
k
I_k
Ik。三维模型
M
M
M 由一个三角形网格表示,网格的顶点
X
i
=
[
X
i
,
Y
i
,
Z
i
]
∈
R
3
X_ i = [ Xi,Yi,Zi ]∈ R^3
Xi=[Xi,Yi,Zi]∈R3,其中
i
=
1
,
.
.
,
n
i = 1,. . ,n
i=1,..,n。利用带有 MobileNetV2[31]的 FPN-Lite 网络从裁剪后的图像
I
k
I_k
Ik 中提取多级特征。该特征映射由
F
k
∈
R
W
s
×
H
s
×
D
s
F_k ∈ \begin{aligned}\mathbb{R}^{W_s\times H_s\times D_s}\end{aligned}
Fk∈RWs×Hs×Ds表示,表示一系列由粗到精的特征,其中 s 表示水平索引。从粗到精的设计使得图像能够编码更大的空间上下文,从而提高了跟踪精度,特别是在涉及大位移的情况下。我们在图3中可视化多级特征映射。在补充材料中详细介绍了所提出的网络结构。
图3 多级特征映射。不同层次的特征图反映了不同的感受野。主成分分析是用来降低尺寸的特征映射菲克,然后可视化的 RGB 颜色。
受到 RBGT[35], 的启发,论文使用对应线模型 (Correspondence Line Model) 描述二维轮廓的局部区域。具体来说,对应线模型在二维轮廓上均匀采样若干个二维点,并建立相应的对应线
l
i
\boldsymbol{l}_{i}
li。每条对应线由一个中心点
c
i
=
[
c
x
i
,
c
y
i
]
⊤
∈
R
2
\mathbf{c}_i=[c_{x_i},c_{y_i}]^\top\in\mathbb{R}^2
ci=[cxi,cyi]⊤∈R2和一个单位法向量
n
i
=
[
n
x
i
,
n
y
i
]
⊤
∈
R
2
\mathbf{n}_i=\begin{bmatrix}n_{x_i},n_{y_i}\end{bmatrix}^\top\in\mathbb{R}^2
ni=[nxi,nyi]⊤∈R2组成,它们通过三维轮廓点
X
c
i
\mathbf{X}_{c_i}
Xci及其相关的三维法向量
N
c
i
\boldsymbol{N}_{c_{i}}
Nci投影到二维图像平面上得到。通过在特征图
c
F
k
_{c}{F}_{k}
cFk上插值采样这些二维点集 (使用 PyTorch 的 grid_sample 函数),可生成轮廓特征图
c
t
F
k
∈
R
(
2
m
+
1
)
×
n
c
l
×
D
s
\begin{aligned}&_{ct}\mathbf{F}_k\in\mathbb{R}^{(2m+1)\times n_{cl}\times D_s}\end{aligned}
ctFk∈R(2m+1)×ncl×Ds ,
n
c
l
\mathbf{n}_{c_l}
ncl是采样的二维轮廓点的数量。
3.3. Boundary Map Prediction
3.4. Pose Optimization
为了最大化该似然估计,本小节采用了迭代牛顿法和 Tikhonov 正则化来优化位姿求解。具体的位姿更新方式如下:
3.5. Supervision
其中,P是 Huber 鲁棒核函数。为了避免困难样例对模型训练产生不利影响,论文采用了条件损失函数:只有在前一次迭代优化后所得的位姿在真实解附近时,才将其纳入损失函数的计算中;如果某次迭代优化后所得的位姿偏离真实解过大,则忽略其对应的损失项。这样可以保证模型只使用可信度高的训练样本。
4. Experiments
1 与基于优化的方法比较
(1)RBOT 数据集
在 RBOT 数据集上,论文采用 5cm−5◦召回率,来评估定位的精度。具体而言,每一帧图像是否被成功定位取决于其平移误差是否小于 5cm 且旋转误差是否小于 5◦。
实验结果表明,在常规、动态光照和场景遮挡下,现有的基于优化的方法已经非常接近性能上限,SRT3D 和 LDT3D 的 5cm−5◦召回率已接近或超过 95%。在这三种情况下,DeepAC 表现出了相似的性能,在常规和动态光照情况下小幅领先,在场景遮挡情况下略微落后。但是,在噪声情况下,所提方法显著优于其他基于优化的方法,5cm−5◦召回率从 83.2% 提高到 88.0%,这一结果证明了 DeepAC 对图像噪声具有较强的鲁棒性。
(2)BCOT 数据集
论文在 BCOT 数据集上对所提方法进行了实验验证,并采用 ADD-(s) d 和厘米 - 度召回率来评估位姿估计的精度。与在 RBOT 数据集上进行的实验不同,在 BCOT 数据集上,增加了一些更严格的评价指标,即 ADD-0.02d、ADD-0.05d、 ADD-0.1d 以及 2cm−2◦召回率,以评估算法的高精度定位能力。其中,d 表示物体模型 3D 包围盒的最大长度。
实验结果表明,DeepAC 在所有阈值下的 ADD-(s) d 和厘米 - 度召回率均优于其他基于优化的基线方法。特别是,在非常严格的 ADD-(s) d 标准下,所提方法表现出显著的优势,相比于排名第二的 LDT3D,在 ADD-0.02d、ADD-0.05d 和 ADD-0.1d 上分别提高了 9.1 个百分点、14.1 个百分点和 9.6 个百分点。这些结果充分表明了 DeepAC 具有高精度定位的能力。
(3) OPT 数据集
在 OPT 数据集上,论文先计算不同误差阈值 s 下的 ADD-(s) d 得分,再通过计算曲线下面积 (AUC) 得分来衡量视频序列中物体位姿估计的质量。其中,误差阈值 s 的范围设定为 [0, 0.2]。
下表显示了 DeepAC 在六个物体上均优于当前最先进的基于优化的方法,在 AUC 分数上取得了明显提升。在平均 AUC 分数方面,DeepAC 达到 16.69,比排名第二的方法 SRT3D 高出 6.10%。这些结果表明 DeepAC 在真实场景下具有优异的跟踪能力。 whaosoft aiot http://143ai.com
2 与基于学习的方法比较
为了验证 DeepAC 模型在不同数据集上具有很好的泛化能力,论文在 RBOT 数据集上与当前最先进的基于学习的方法进行了对比实验。论文选取了除 “Clown” 物体外 (因为其纹理图有误) 所有序列作为测试集,并使用平均 ADD-(s) d 和厘米 - 度召回率作为评估指标。为了与其他基于学习的方法公平比较,所提方法 DeepAC 使用相同的训练数据和方式,并记作 DeepAC−。
实验结果显示,其他典型的基于学习的方法定位精度远低于 DeepAC,这充分说明了 DeepAC 在不同数据集上具有很强大且稳定的泛化能力。
3 消融分析
论文通过消融实验分析 DeepAC 中三个主要的设计对物体六自由度定位性能的影响,分别是:1) 统计信息融入;2) 多层特征提取;3) 边界不确定性估计。实验在 RBOT 和 BCOT 数据集上进行,并将结果展示在下表。
应用前景
该研究成果在民用和军事领域都有广泛的应用。在民用领域,该研究可用于强现实、机器人操作和人机交互等众多应用。在军事领域,该研究可用于支持空中无人装备与巡飞弹在复杂光照条件下对目标的多角度实时跟踪与打击。