Fine-Grained Egocentric Hand-Object（中文翻译）

精细化自我中心手-物体分割：数据集、模型（model）与应用

灵芝张1, 盛昊周1, 西蒙·斯滕特 $ {}^{2} $, 和健博·石 $ {}^{1} $

摘要。

自我中心视频提供了高保真度建模人类行为的细粒度信息。手和交互对象是理解观众行为和意图的一个关键方面。我们提供了一个标注数据集，包含11,243个自我中心图像，并具有在各种日常活动中与手和对象互动的逐像素分割标签。我们的数据集是首个标注详细手-对象接触边界的数据集。我们引入了一种上下文感知的组合数据增强技术，以适应分布外的YouTube自我中心视频。我们表明，我们的稳健手-对象分割模型和数据集可以作为推动或启用多个下游视觉应用的基础工具，包括手状态分类、视频活动识别、手-对象交互的3D网格重建，以及在自我中心视频中手-对象前景的视频修复。数据集和代码可在以下链接获取：https://github.com/owenzlz/EgoHOS

关键词：数据集，自我中心手-对象分割，自我中心活动识别，手-对象网格重建

1 引言

从第三人称的视角观看某人烹饪时，我们可以回答诸如“这个人正在做什么食物？”或“这个人使用了什么烹饪技巧？”的问题。而第一人称的自我中心视频则通常可以展示更详细的人类行为信息，例如“切牛排需要什么手指姿势？”、“用所有的部件和螺丝组装宜家的桌子的步骤是什么？”因此，自我中心视频是研究和理解人类与世界如何进行细致互动的重要信息来源。在这些视频中，自我中心观看者的手和交互物体是理解人类行为的极其重要的视觉线索。然而，现有提取这些线索的工具受到限制，主要是由于在实际环境中的稳健性不足或粗糙的手-物体表征(representation)。我们的目标是创建数据标签和数据增强工具，以建立一个稳健的细粒度自我中心手-物体分割系统，能够在实际环境中进行泛化。利用

$ 1 * $ 表示平等贡献

在这里插入图片描述

图1. 最左侧的图像：我们提出的数据集使我们能够训练一个稳健的手-物体分割模型。我们引入接触边界以明确建模手-物体（hand-object）交互。右侧：我们的手-物体分割模型对许多视觉任务有帮助，包括识别手的状态（state）、动作（action）、网格重建和透视手-物体。

在细粒度交互分割中，我们展示了如何构建一个高保真模型（model），该模型可以作为理解和建模人类手部与物体（object）行为的基础。

构建一个稳健的自我中心手-物体分割模型的首要因素是高质量的标记数据集。之前的研究 $ \left\lbrack {1,{33},{73}}\right\rbrack $ 已经为自我中心视频构建了手部分割数据集。然而，收集的数据大多限于实验室环境或有限的场景，且缺乏与交互对象相关的标签。最近，100-DOH [58] 在野外对大规模手和物体交互进行了标注，但手和物体的标签仅在边界框级别。为了解决这一差距并进一步提升手-物体交互的细粒度理解，我们提出了一个新数据集，包含11,243张带有逐像素分割标签的图像。一个主要特征是我们的数据集包含非常多样的手-物体交互活动和场景，帧是从近1,000个视频中稀疏抽样的，这些视频来自Ego4D [16]、EPIC-KITCHEN [8]、THU-READ [68]以及我们自己收集的GoPro视频。此外，我们还提供了是否由左手、右手或双手交互以及交互方式（直接接触或间接接触）的细粒度标签。

为了作为评估现实环境表现的超出分布测试集，我们从30个YouTube的自我中心视频中稀疏地抽样并标记了500帧额外的图像。通过我们新的分割数据集，相比于之前的数据集 $ \left\lbrack {1,{33},{73}}\right\rbrack $ ，我们显著提升了手的分割性能。我们的数据集是第一个标记自我中心视频中交互手-物体接触边界的。我们展示了该标签可以改善交互对象的检测和分割。无论我们的数据集多么多样化，我们必然会遇到具有非常不同的照明、物体和背景杂乱的新领域。我们提出了一种上下文感知的数据增强技术，它可以自适应地将手-物体对组合到多样但合理的背景中。我们的实验表明，我们的方法对超出领域的适应是有效的。

我们将我们的手-物体分割模型视为提升或启用许多视觉应用的基础，其中我们展示了三种，如图1所示。首先，我们展示了通过简单地添加可靠分割的手或物体掩码作为输入，识别任务可以获得一致的性能提升。我们在一个低级识别任务中进行了实验，以分类左/右手状态，并在一个高级识别任务中通过预测动词和名词来理解自我中心的视频活动。另一个有用但具有挑战性的应用是重建$ 3\mathrm{D} $网格中的手 - 物体交互，这在优化过程中依赖于$ 2\mathrm{D} $手-物体掩码。在这个应用中，我们将我们的手-物体分割模型集成到网格重建流程[18]中，并展示了与其最初在COCO[39]上预训练的手-物体分割流程相比，手-物体网格重建的改进和泛化。最后，我们通过结合我们准确的逐帧手分割和视频填充[12]展示一个有趣的应用，以便在自我中心的视频中透视手，这可能有助于未经过训练的手在前景中的场景理解模型。每个应用的更多细节在第7节中讨论。

我们总结了本工作的贡献如下：1) 我们提出了一个包含11,243张图像的数据集，提供每个像素的细粒度标签，涵盖手部和交互对象，包括交互对象掩码（masks），使得手部分割模型能够比之前的数据集更好地进行泛化。2) 我们引入了密集接触边界的概念，明确建模手部与交互对象之间的关系，我们展示了这有助于改善分割性能。3) 我们提出了一种上下文感知的组合数据增强技术，有效提升了对象分割。4) 我们展示了我们的系统可以作为一个可靠的基础工具，以提升或启用许多视觉应用，如手部状态（state）分类、视频活动识别、手部-对象交互的3D重建，以及在自我中心视频中透过手部观察。我们将向公众发布我们的数据集、代码和检查点，以供未来研究使用。

2.1 手部分割

在深度学习之前，已经有几项工作尝试解决手部分割任务。Jedynak等人[22]使用基于颜色统计的方法来分离皮肤区域和背景。Ren和Gu [52]提出了一种自下而上的基于运动的方法，通过在自我中心视频中手与背景之间不同的运动模式来对手和物体进行分割。在[52]的基础上，Fathi等人[10]进一步假设手部超像素的颜色直方图先验，分离手与交互对象，并使用图切割（graph-cut）技术来进行手和物体的分割。Li和Kitani [31,32]首次解决了不同照明条件下的手部分割问题，并提出在推理过程中自适应地选择在不同照明场景下表现最佳的模型。Zhu等人[84]提出了一种新方法，通过使用形状感知的结构化森林来估计像素的概率形状掩码。超越自我中心视角，Lee等人[30]研究了如何在自我中心视频中对多个个体的手进行去歧义处理，建模移动手的空间、时间和外观一致性约束。

最近，许多工作 $ \left\lbrack {1,{73},4,{34},{36},{37},{58},{59},{61},{24},{50}}\right\rbrack $ 应用深度网络进行手或物体分割。Bambach等人[1]引入了一个数据集，该数据集包含48个自我中心视频片段，记录了人们在真实环境中与他人互动，标注了超过15,000个手的实例。作者还提出了CNN首先检测手的边界框，然后使用GrabCut [56]来分割手。在同一数据集上，Urooj和Borji [73]使用RefineNet-ResNet101 [38]在当时达到了最先进的手部分割性能。为了解决泛化问题，Cai等人[4]提出使用贝叶斯CNN来预测模型不确定性，并利用手部形状的共同信息更好地适应未见领域。还有其他一些手部分割的数据集工作。Li等人[34]提出了乔治亚理工学院自我中心活动数据集（GTEA），包括625个框架的双手标注和38个框架的二进制标注。后来，Li等人[33]扩展了该数据集（EGTEA），其中包含1,046帧的双手标签和12,799帧的二进制掩码。Lin等人[36,37]还探索了带有各种背景的人为合成手，以扩大大规模合成数据集。Urooj等人[73]意识到受限环境是现有数据集的一大限制，并通过从YouTube视频（EYTH）中采样帧收集了一个野外数据集。虽然它更加多样化，但仅从3个视频中采样的约2,000帧相对较小。由于帧是通过以固定速率简单采样选择的，许多帧在外观上彼此相似。除了具有逐像素标签的数据集外，Shan等人[58]为手和交互物体标注了 $ {100}\mathrm{;K} $个视频帧的边界框标签。最近，Shan等人[59]还提出使用图像和手的位置作为输入，从运动中学习手和手持物体的分割。

我们的工作与之前的工作在两个主要方面不同。虽然之前的工作主要集中在自我中心手部分割上，我们更进一步，研究手部分割和交互对象分割。此外，以前的数据集主要集中在某些受限场景和有限活动上。我们提出的数据集包括数百个人体的多样化日常活动。更详细的比较将在第3节中显示。

2.2 手部与物体的互动

许多研究从不同角度研究手部与物体的互动，而非仅仅是分割。其中一个高度相关的方向是建模和估计三维手关节 [5,44,45,53,60,63,66,72,78,79,80,85,3] 和网格 [26,27,51,55,75,83,46]，物体姿态 $ \left\lbrack {{14},{28},{29},{35},{43},{57},{64},{71},{76},{81}}\right\rbrack $，或者两者兼顾 $ \left\lbrack {6,{17},{18},{19},{69}}\right\rbrack $。一系列研究工作 $ \left\lbrack {2,7,{21},{23},{67}}\right\rbrack $ 也尝试根据物体生成手部姿态。与我们的工作最相关，Hasson 等 [18] 和 Cao 等 [6] 使用手部和交互物体的分割掩码（segmentation mask）来计算 $ 2\mathrm{D} $ 投影损失，以优化手部与物体对的三维网格重建。然而，他们用于预计算手部和物体掩码的实例分割模型 [25] 是在 COCO [39] 上预训练的，并未针对自我中心的手部与物体分割进行定制，因此通常需要大量人工干预来修正或过滤错误预测的掩码。手部与物体互动的其他方向包括将手作为物体理解的探针 [15]，可用性热点推理 $ \left\lbrack {{47},{49}}\right\rbrack $，甚至利用视觉手部与物体理解进行机器人学习 $ \left\lbrack {{41},{42},{48}}\right\rbrack $。总体而言，我们将我们的工作视为许多视觉任务的一个正交基础工具。

3 数据集

从多个来源收集数据。此项工作的一个主要动机是现有的数据集无法支持研究人员训练一个在实际环境中表现良好的模型。因此，我们从多个来源收集数据，包括来自 Ego4d [16] 的 7,458 帧、来自 EPIC-KITCHENS [8] 的 2,121 帧、来自 THU-READ [68] 的 806 帧，以及 350 帧我们自己收集的室内自我中心视频。这导致总共 11,243 帧，稀疏地从近 1,000 个涵盖多种日常活动的不同场景中抽取而来。我们手动从采样集选择多样且不重复的视频帧，这些帧包含有趣的手与物体（hand-object）交互，并对其进行逐像素分割标注，如图 2 所示。关于视频帧采样的更多细节包含在补充材料中。

在这里插入图片描述

图 2. 来自多个来源的图像选择，我们将其标记为每像素的手和物体分段。颜色映射：红色 $ \rightarrow $ 左手，蓝色 $ \rightarrow $ 右手，绿色 $ \rightarrow $ 两只手交互的物体，粉色 $ \rightarrow $ 左手交互的物体，青色 $ \rightarrow $ 右手交互的物体。

注释。对于数据集中每一张图片，我们获得了以下每个像素的掩码（mask）注释（如果适用）：（a）左手；（b）右手；（c）左手物体；（d）右手物体；（e）双手物体。对于每种交互对象，我们还提供了两种交互级别：直接交互和间接交互。如果手接触到对象，我们定义手与对象之间的直接交互，例如在图2中的蓝色、青色或粉色掩码（mask）。否则，如果对象在不接触的情况下被手间接交互，我们将其标记为手间接交互过的对象，例如在图2第三行中的浅青色掩码（mask）。在这项工作中，我们只研究直接交互的对象，但我们会发布数据以支持未来对间接交互对象分割的研究。请注意，以前的工作将手掩码（mask）定义为两种类型：仅手 $\left\lbrack {1,{73}}\right\rbrack $ 和带手臂的手 [33]。我们认为这两种标签根据应用的不同都很有用，因此我们为数据集中所有图像提供这两种类型的手掩码（mask）标签，一种用于手，另一种用于其余部分。

武器。

数据集	标签	#帧	#手	#物体	物体	互动	L/R 手	#主题	#活动
100-DOH [33]	盒子。	$ {100}\mathrm{\;K} $	189.6K	$ {110.1}\mathrm{\;K} $	是	是	是	-	-
EGTEA [33]	分段。	13,847	$ - $	-	是	否	否	32	1
EgoHand[1]	分段。	4,800	15,053	-	是	$ - $	是	4	4
EYTH [73]	分段。	1,290	2,600	-	否	否	否	-	-
我们的	分段。	11,243	20,701	17,568	是	是	是	$ {100} + $	300+

表1. 自我中心手-物体分割数据集比较。未知信息用短横线 “-” 表示。与之前的数据集相比，我们提出的数据集涵盖了相对多样的场景和活动，并且提供了手部和相互作用物体的细粒度分割标签。

与现有数据集的比较。在表1中，我们将提出的数据集与现有的标注数据集进行比较。100-DOH [58] 也提供了大量的标注图像和对象，但其标签是在边界框（bounding box）层级，并非专门针对自我中心（egocentric）图像。尽管 100-DOH [58] 在改善手-物体边界框检测的泛化能力上付出了很大的努力，我们认为获取分割预测对于许多下游视觉应用来说是特别有用或必要的，例如手-物体交互的网格重构和透视手部，如第7节所示。与其他分割数据集相比，我们数据集的一个重要特征是我们的图像涵盖了多样的活动和许多人类主体。由于我们没有帧级语义标签，我们对人类主体和活动类型数量的保守估计分别为300+和100+，这是根据数据集中视频ID/名称得出的[8,16,68]。主体和活动的数量都是比以前的分割数据集大几个数量级。此外，与以往的分割数据集不同，我们也是首个为交互对象提供每像素掩码（mask）标签的数据集。

4 手-物体接触边界

手-物体分割的一个关键挑战是明确理解和建模手与交互对象之间的关系。仅仅基于外观对对象进行分割，如同传统分割任务那样，并不能妥善解决我们的问题。其原因在于，同一对象在某些帧中需要分割，而在其他帧中则不需要，这取决于手是否与对象接触。为此，我们提出通过引入密集接触边界的概念来明确建模手与物体之间的交互关系。

在这里插入图片描述

图 3. 左：我们的因果手-物体分割管道的概述。右：演示密集接触边界如何定义。

在概念上，密集接触边界被定义为手与交互对象之间的接触区域。在我们的实现中，我们首先对图像中的标记手和对象掩码进行膨胀，接着找到两个膨胀掩码之间的重叠区域，最后将重叠区域二值化作为我们接触边界的伪真实值，如图 3 中的黄色区域所示。通过这种管道，我们自动生成所有图像的接触边界的监督信号，使得我们可以使用标准的二元交叉熵损失训练网络进行预测。

明确预测交互对象分割的密集接触边界的优势有：1）接触边界可以提供一个线索，指示某个手掩码是否存在交互对象；2）它还提供了一个更清晰的手-物体分离线索，以提高分割精度。我们的实验表明，接触边界帮助分割模型在平均对象掩码性能上取得了更高的表现，更多的消融研究在第 6.2 节中展示。除了提升分割性能之外，接触边界的其他优势包括：1）接触边界分割包含了许多下游任务所需的关键信息，如活动识别和手与物体的 3D 网格建模；2）它还可以为评估分割提供潜在指标，尤其是在交互过程中对于物体-手的分割。

我们实验了一个使用密集交互边界作为中间阶段输出的手-物体分割管道。我们依次预测左/右手，然后是接触边界，最后是交互对象，共三个阶段，左侧见图 3。在每个阶段，我们将来自前一阶段的输出连接为额外输入。例如，左/右手掩码与 RGB 图像连接作为预测接触边界的输入；而在最后一个阶段，RGB 图像、手掩码和接触边界掩码被连接作为预测交互对象掩码的输入。我们的模型通过顺序堆叠网络构建，我们尝试了一种卷积架构（ResNet-18 主干 [20] 和 HRNet 头 [74]）和一种 transformer 架构（Swin-L 主干 [40] 和 UperNet 头 [77]）。需要注意的是，我们在此项工作中并不关注架构和损失设计，更多训练细节在补充材料中描述。

5 语境感知组合数据增强

在不同背景场景中复制和粘贴前景实例已被证明是一种简单有效的对象检测和实例分割的数据增强技术，如文献[9,13,82]所示。为了进一步扩展数据集并提高我们模型的性能，我们构建了一个语境感知组合数据增强管道，使得新组合图像具有语义一致的前景（手-物体）和背景语境。

在这里插入图片描述

图4. 我们的语境感知组合数据增强管道概览。

我们的整体管道设计如图4所示。在第一步，我们需要找到不包含任何手或交互物体的“干净”背景场景。原因是经过组合后，图像应该只包含一个自我中心视角的手和交互物体。为此，我们提出两种生成“干净”背景的方法。第一种是构建一个简单的二元分类器，从大量视频帧中找到没有手的帧，如图4左上角所示。第二种方法是使用图像修复模型[65]和标记的分割掩码去除现有的手-物体，如图4右上角所示。这两种方法使我们能够生成大量“干净”背景候选者。另一方面，当给定具有手-物体分割掩码的图像时，我们首先使用修复模型[65]对手-物体区域进行修复，以生成“干净”的查询背景，然后基于[62]提取的深度特征，从“干净”背景候选池中检索前K个相似背景场景。最后，从前K个检索的背景图像中抽样多个背景场景，如图4底部所示。总体而言，我们设计的语境感知图像组合管道使我们能够生成尽可能多的语义一致的手-物体和背景。实验中，我们展示了我们提出的数据增强技术的有效性。

6 手部-物体分割实验

在本节中，我们首先与现有的手部分割数据集进行比较研究，然后讨论手部-物体分割的基准性能，并进行消融研究（ablation study）。为了评估在真实环境中的分割性能，我们从30个收集的YouTube自我中心视频中稀疏采样了500帧，标记为我们的分布外测试集。在接下来的分割实验中，除非另有说明，所有结果均在该测试集上进行评估。我们所有的模型都使用 ${\text{MMSegmentation codebase}}^{1}$ 进行训练和评估。

6.1 双手分割

之前的手部分割数据集对手部标签的定义各不相同，例如左手/右手 [1]、二进制手 [73] 或二进制手 + 手臂 [33]。由于我们的数据集提供了所有这些类型的手部标签，我们在其设置上分别与之前的数据集进行比较。为了公平比较，我们在每个数据集上训练相同的 ResNet-18 主干 [20] 和 HRNet 头部 [74]，根据验证集选择最佳的检查点，最后在相同的保留测试集上计算结果。

数据集	$ \mathrm{{mIoU}} $	$ \mathrm{{mPrec}} $	$ \mathrm{{mRec}} $	$ \mathrm{{mF}}1 $
EgoHand[1]	10.68/33.28	43.61/43.20	12.39/59.16	19.30/49.93
100-DOH[58] + BoxInst[70]	$ {36.30}/{37.51} $	50.06/61.63	56.91/48.94	$ {53.27}/{54.55} $
我们的	$ {76.29}/{77.00} $	83.39/87.06	89.97/86.95	86.55/87.00
+ CCDA	79.73/82.17	84.26/90.38	93.68/90.04	88.72/90.21

表 2. 左/右手分割。

数据集	mIoU	$ \mathrm{{mPrec}} $	mRec	mF1
$ \mathrm{{EgoHand}}\left\lbrack 1\right\rbrack $	56.51	76.33	68.52	72.22
100- $ \mathrm{{DOH}}\left\lbrack {58}\right\rbrack + $ BoxInst[70]	69.50	84.80	79.67	82.00
EYTH[73]	75.94	85.17	87.51	86.32
我们的方法	83.18	89.34	92.34	90.82
+ CCDA	85.45	90.11	94.3	92.15

表 3. 二进制手部分割.

在这里插入图片描述

图5. 在之前的数据集上训练的分割模型与我们提出的数据集之间的定性比较。顶部行显示在左手/右手分割中与EgoHand和100-DOH + BoxInst的比较，其中红色和青色分别表示左手和右手。左下角显示与EGTEA在二元手+臂分割上的比较。右下角显示与EYTH在二元手分割上的比较。

在第一种标注类型中，EgoHand [1] 标注了在自我中心活动中人们的左右手。同样，100-DOH [58] 也标注了大规模的左/右手，但仅使用了边界框注释。我们通过训练一个弱监督分割模型 BoxInst [70] 来与 100-DOH 进行比较，该模型学习在给定边界框注释的情况下进行对象分割。为了使 100-DOH 的手部分割性能尽可能好，我们在从 EPIC-KITCHEN 中采样的 2000 帧上对 BoxInst 进行了预训练。如表 1 所示，在我们的数据集上训练的模型显著优于在 EgoHand 和 100-DOH 上使用 BoxInst 训练的模型。从视觉结果来看，如图 5 的第一行所示，我们观察到在 EgoHand 和 100-DOH 上训练的模型常常生成错误的掩码（mask）分类标签，这导致左右手分割的 mIoU（均值交并比）显著降低。当我们对 EgoHand 和 100-DOH 的预测左右手掩码进行二值化，并在二元手部分割任务上评估时，性能差距缩小到我们这边，如表 2 所示。这再次表明，左右手的误分类确实是一个主要问题，导致在表 1 中使用 $ \left\lbrack {1,{58}}\right\rbrack $ 训练的模型的 mIoU 较低。

另外两个数据集EYTH [73] 和 EGTEA [33] 仅提供双手的二元掩码标签，而不区分左右手。EYTH [73] 仅标注了手部区域，而EGTEA [33] 则标注了手和手臂区域。在表2和表4中，定量结果显示，基于我们的数据集训练的模型在“手”和“手 + 臂”设置中明显优于之前的数据集，视觉比较也展示在图5的底部。在所有这些手部分割设置中，我们观察到我们的上下文感知组合数据增强（CCDA）始终在定量上提高了手部分割性能。更多定性的比较材料已包含在补充材料中。

6.2 手部与互动物体分割

由于我们的数据集是第一个为互动物体提供掩码（mask）标签的，因此在本节中我们讨论手部-物体分割的基准性能及消融研究。在此任务中，我们将手分为左手和右手两类，并根据互动手将物体分为三类：左手物体、右手物体和双手物体。一种naive解法是训练一个并行解码五个输出通道的分割网络，如表5的第1行所示。然而，这可能并不是理想的，因为输出的并行解码并没有利用对手部-物体关系的任何明确理解，如第4节所讨论的。因此，我们建议首先依次解码手部，然后使用预测的左右手掩码信息来明确指导互动物体分割，如表5的第3行所示。我们还研究了将接触边界（CB）作为中间指导信息的添加，并发现这有效提升了物体分割性能，如第3行和第5行之间的比较所示。关于接触边界的更多细节在第4节中讨论。最后，我们通过在并行和顺序模型上集成上下文感知组合数据增强（CCDA）来评估其有效性。如第1、3、5行与第2、4、6行的比较所示，CCDA在一定程度上改善了左右手分割，并显著提升了物体分割性能。我们认为原因在于组合增强使得网络在将物体放置于许多不同背景中时，可以更容易地学习物体的像素分组。关于我们如何选择增强图像的数量的更多细节在补充材料中讨论。对于不同活动中密集接触边界预测和手部-物体分割的定性结果分别显示在图6和图7中。

模型	左手	右手	左手物体	右手物体	双手物体
Para. Decode	69.08	73.50	48.67	36.21	37.46
Para. Decode + CCDA	77.57	81.06	54.83	38.48	39.14
Seq. Decode	73.17	80.56	54.83	38.48	39.14
Seq. Decode + CCDA	87.70	88.79	58.32	40.18	46.24
Seq. Decode + CB	77.25	81.17	59.05	40.85	49.94
Seq. Decode + CB + CCDA	87.70	88.79	62.20	44.40	52.77

表5. 手部-物体分割的消融研究，以mIoU衡量。

在这里插入图片描述

图6. 所预测的稠密接触边界的定性结果。

在这里插入图片描述

图 7. 在不同场景中的手部和交互物体分割的定性结果。颜色编码如下：红色 $ \rightarrow $ 左手，青色 $ \rightarrow $ 右手，绿色 $ \rightarrow $ 左手物体，黄色 $ \rightarrow $ 右手物体，橙色 $ \rightarrow $ 双手物体。

7 应用

在前一部分中，我们展示了我们的手部-物体分割模型（model）在各种场景中具有可靠的定量和定性表现。在本节中，我们将展示我们的手部-物体分割系统可以应用于提升或实现多个有用和有趣的视觉应用。

7.1 Boosting 手部状态分类与动作识别

理解手部状态和在自我中心视频中识别活动类型对人类行为分析至关重要。类似于100-DOH [58]，我们将左右手的手部状态定义为以下几种：(与)移动物体接触、(与)静止物体接触、无接触、自接触和不存在。此任务的目标是为自我中心观察者的两只手分类正确的状态，我们为此使用两个分类头。为此，我们对来自EPIC-KITCHEN [8] 数据集中3,531帧具有多样化手物体交互的手部状态进行了标注。在训练过程中，我们采用8:1:1的比例分割训练、验证和测试集。如表6所示，通过将手部掩码和手物体掩码添加到输入通道，具有相同主干的分类器 [62] 相较于仅使用RGB图像的基线模型有效提升了分类性能。在视频活动识别中，我们使用EPIC-KITCHEN动作识别基准 [8] 的子集数据及其评估协议。通过SlowFast网络 [11]，我们表明通过在训练中添加手部掩码，“动词/名词”的最高分类准确率从 $ {23.95}% /{36.77}% $ 提升到 $ {25.98}% /{37.04}% $ 。这两个任务的视觉示例如图8所示。

模型	准确率	精确率	召回率	F1分数
基线	78.53%/74.29%	43.02%/37.70%	36.86%/30.60%	37.53%/32.02%
+ 手部掩码	84.18%/83.33%	64.33%/66.16%	57.31%/56.34%	59.42%/59.00%
+ 手部与物体掩码	86.72%/83.33%	68.18%/69.04%	57.12%/56.08%	60.35%/59.64%

表6. 左右手状态分类的定量结果。

在这里插入图片描述

图8. 基线与我们的方法在手部状态分类和视频活动识别上的视觉比较示例。BL代表基线模型。

7.2 改进的手-物体交互的三维网格重建

手-物体交互的网格重建是一项有用但极具挑战性的任务。解决该任务的一种主流方法 $ \left\lbrack {6,{18}}\right\rbrack $ 是联合优化给定的 $ 3\mathrm{D} $ 物体模型的尺度、平移和旋转，以及手的MANO参数 [54]。这种优化过程通常依赖于估计的手和物体的分割掩码（mask）来计算三维网格到二维投影的误差。在之前的研究中，研究人员 [6,18] 利用100-DOH的 [58] 检测器在边界框级别定位手和交互物体，然后使用在COCO [39] 上预训练的PointRend [25] 来分割手和物体的掩码。交互物体的掩码是通过一种启发式方法分配的，即具有最高置信度得分的物体掩码被认为是正在交互的对象。

带手-物体分割的图像	网格 (原始视图)	网格 (旋转视图)	带手-物体分割的图像	网格 (原始视图)	网格 (旋转视图)

	3	4

图9. 手与物体交互的3D网格重建的视觉比较。左侧结果来自于[18]的原创代码，其中他们使用100-DOH [58]探测器与PointRend [25]计算手-物体掩码 (mask)。右侧结果通过将我们的手-物体分割集成到[18]中进行网格优化计算得出。

在这项工作中，我们将我们强大的手-物体分割模型集成到之前的网格重建管道 [18] 中。由于我们的手-物体分割能够比之前的分割组件更好地泛化，我们使手-物体重建能够在更具多样性的场景中进行，更高的视觉保真度。如图9的第一行所示，之前的分割管道常常无法完整分割物体，因此物体被优化为错误的 $ 3\mathrm{D} $ 位置，而我们准确的手-物体分割使物体网格重建更加准确。在图9的第二行中，我们观察到之前的分割管道在边界框检测阶段有时完全遗漏了交互物体，因此无法生成分割和3D网格。相比之下，我们的管道在物体检测上提供了更高的召回率，因此能够恢复物体网格，如图9的右下方所示。

7.3 透过手部观察自我中心视频

最后，在这项工作中，我们提出了一种新的有趣应用，目标是透过自我中心视频中的手。通过我们对手部掩码的稳健逐帧分割，我们使用最近的流引导视频修复算法 [12] 完全移除手部，从而能够看到被手部遮挡的原始内容。该应用的视觉示例如图10所示，手部被移除，瓶子和冰箱层在每个视频帧中都可以被可视化，这些层之前被遮挡。更多视频结果包含在补充材料中。在自我中心视频中，由于手部的普遍存在且几乎始终在移动，它们造成了大量视觉内容的遮挡。我们“透过手部观察”系统的实际应用是，我们可能能够让视觉系统分析更多先前被遮挡的信息，例如在未来的增强现实系统中。

在这里插入图片描述

图10. 一项定性演示，展示在自我中心视频中透过手部的应用。该应用得益于我们稳健的逐帧手部分割以及视频修复模型 [12]。顶部行是带有预测手部分割掩码的帧，底部行显示了在相应时间戳的“透过”帧。更多视频结果在补充材料中展示。

8 结论

我们创建了一个细粒度的以自我为中心的手-物体分割数据集及合成数据增强方法，以实现 1) 针对分布外领域变化的鲁棒性和 2) 支持下游任务。我们的标记数据集包含 11,243 张图片，包含了手和交互物体的逐像素分割标签以及密集的接触边界。我们的上下文感知组合数据增强技术显著提高了分割性能，尤其是在交互物体方面。我们展示了我们的鲁棒手-物体分割模型可以作为多个视觉应用的基础工具，包括手的状态分类、活动识别、手-物体交互的 3D 网格重建，以及在以自我为中心的影片中透视手部。

致谢。本研究基于丰田研究院和 Adobe 赠款资金的支持。文中所包含的观点和结论均代表作者个人见解，不应被解读为赞助方的官方政策，无论是明示还是暗示。

附加材料：细粒度以自我为中心的手-物体分割：数据集、模型和应用

张灵芝1，周晟豪1，西蒙·斯坦特 $ {}^{2} $，和石剑波 $ {}^{1} $

1 费城佩恩大学

2 丰田研究院

在这些附加材料中，我们首先描述本工作的以下细节：1). 视频帧收集的细节；2). 分割网络的训练细节；3). 我们是如何选择数据增强的数量的；4). 使用 100-DOH 结合 PointRend 的性能。请注意，我们还提供了逐帧的手-物体分割结果以及在以自我为中心的影片中“透视手”的应用。请查阅我们附加材料中的 “.mp4” 文件以获取详细信息。

1 数据集

我们的标记数据集由多个来源稀疏采样的视频帧组成，包括来自Ego4D [16] 的7,458帧，来自EPIC-KITCHEN [8] 的2,212帧，来自THU-READ [68] 的806帧，以及350帧我们自己收集的参与者玩逃生室的第一人称视频。在Ego4D视频 [16] 中，我们使用来自手-物体互动挑战的约1,000个视频。在这些视频中，我们首先每三秒稀疏采样一帧，然后使用100-DOH检测器 [58] 过滤掉实际上不包含手-物体互动的帧。为了使我们的标记数据尽可能有意义，我们请人类在这些提取的帧中手动选择出7,458帧具有多样性和趣味性的手-物体互动。同样，我们在EPIC-KITCHEN [8] 视频中均匀地每三秒采样一帧，涉及37位参与者，然后过滤掉包含手-物体的帧，最终手动选择有趣的帧进行标记。THU-READ [68] 数据集由40类手-物体互动的短视频片段组成，我们在每个类别中均匀采样了一些图像。最后，对于我们自己收集的GoPro视频，我们也每三秒稀疏采样一帧，并手动过滤帧进行标记。

2 分割网络的训练细节

在本节中，我们讨论我们分割网络训练的细节。我们使用 ResNet-18 骨干网络 [20] 和 HRNet 头部 [74] 作为我们所有实验的基础模型。对于每个实验，我们使用 SGD 优化器训练网络 80,000 次迭代，批量大小为 8，学习率为 0.01，动量为 0.9，权重衰减为 0.0005。我们使用随机翻转和光度畸变（随机亮度、随机对比度变化等）作为我们的数据增强技术，除了我们提出的上下文感知数据增强之外。

$ 1 * $ 表示等贡献

3 选择增强数据的数量

我们提出的上下文感知组合数据增强（CCDA）技术在训练开始之前，以离线方式生成复合数据。一个关键问题是我们应该为增强数据集生成多少数据。为此，我们进行了实验，以评估在逐渐增加复合图像数量的情况下，分割性能会如何变化，如图 1 所示。我们发现，当分别增强 16K 和 8K 复合图像时，手部和物体的交并比（IoU）达到了最大值，在 YouTube 测试集中。在这里插入图片描述

图 1. 左侧和右侧分别为增强数据数量与平均手部和物体 IoU 分数的关系。

4 PointRend 与 BoxInst 的比较：100-DOH

由于 100-DOH [58] 只预测手和物体的边界，我们比较了两种将边界框进一步转换为分割的方法。在第一种方法中，我们使用 100-DOH [58] 检测器生成手-物体的伪标签，并训练 BoxInst [70] 模型进行手和物体的分割。在第二种方法中，我们使用 100-DOH [58] 检测器定位手-物体的边界框，并使用 PointRend [25] 对掩码 (mask) 进行分割。我们发现 100-DOH [58] + PointRend [25] 在左右手的分割上性能更佳，而 100-DOH [58] + BoxInst [70] 在二元手的分割上表现更好，如表 1 和表 2 所示。然而，在我们的数据集上训练的模型明显超越了这两种方法的性能。

我们还进行了一项实验，使用 100-DOH [58] + PointRend [25] 来计算交互对象的分割掩码 (mask)。然而，我们观察到

数据集	mIoU	$ \mathrm{{mPrec}} $	$ \mathrm{{mRec}} $	$ \mathrm{{mF}}1 $
100-DOH[58] + BoxInst[70]	36.30/37.51	50.06/61.63	56.91/48.94	$ {53.27}/{54.55} $
100-DOH[58] + PointRend [25]	61.83/62.72	76.17/78.41	$ {76.66}/{75.8} $	76.41/77.09
我们的	$ {79.73}/{82.17} $	84.26/90.38	93.68/90.04	88.72/90.21

表 1. 左/右手分割。

数据集	mIoU	$ \mathrm{{mPrec}} $	$ \mathrm{{mRec}} $	mF1
100-DOH[58] + BoxInst[70]	69.50	84.80	79.67	82.00
100-DOH[58] + PointRend [25]	63.62	78.39	77.14	77.76
我们的	85.45	90.11	94.30	92.15

表 2. 二元手分割。

这种推理流程往往完全遗漏或错误分类交互对象的分割，换句话说，召回率低，如图 2 所示。从量化的角度，我们发现 100-DOH [58] + PointRend [25] 的平均对象 IoU 仅为 12.24，显著低于我们的 YouTube 测试集结果。

在这里插入图片描述

图 2. 100-DOH [58] + PointRend [25] 与我们的手-物体分割的视觉比较。颜色编码如下：红色 $ \rightarrow $ 左手，青色 $ \rightarrow $ 右手，绿色 $ \rightarrow $ 左手对象，黄色 $ \rightarrow $ 右手对象，橙色 $ \rightarrow $ 双手对象。