CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向

news2024/11/25 18:46:00

论文题目:
TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding
论文链接:

https://arxiv.org/pdf/2401.08399.pdf
项目主页:

https://taco2024.github.io/
视频链接:

https://www.youtube.com/watch?v=bIgHylU1oZo&feature=youtu.be
数据集链接:

https://onedrive.live.com/?authkey=%21AGNkrHubnoo8LCs&id=5411ECE5D2EDAD9F%21126&cid=5411ECE5D2EDAD9F
代码链接:

https://github.com/leolyliu/TACO-Instructions

TL; DR

本工作构建了一个大规模双手协作双物体的数据集 TACO,涵盖了大量日常生活中双手使用工具进行多物体协作的场景,通过提供丰富的交互三元组数据(工具、动作、使用对象),为通用手物交互的理解与生成带来了新的挑战和机遇。

在这里插入图片描述

研究目标和主要贡献
人们在日常生活中能轻易地用双手协作工具和使用对象,例如炒菜时用铲子在锅中搅拌。我们将这样的行为模式刻画成<工具、动作、使用对象>的交互三元组,如<铲子、搅拌、锅>。
不同的交互三元组之间通常会因享有相似的工具、动作或使用对象而拥有相似的动作模式,因此本工作按照三元组对手物交互的数据进行分类,致力于研究技术方法在不同物体形状和不同三元组间的泛化能力。这类手物交互动作的生成可被广泛应用于虚拟现实、增强现实、人机协作和灵巧手操作等领域。
理解与生成这种交互动作需要大量数据的支持,然而先前的手物交互数据集大多关注单手或单个物体的动作。先前唯一的双手多物体数据集 [1] 受限于极少的物体和三元组而难以支持有关泛化性的研究。
为了填补数据的空缺,本工作首先构建了一个真实世界中大规模四维手物交互数据集——TACO。TACO 数据集包含从 12 个第三人称视角和一个第一人称视角下采集到的 5.2M 张彩色图片、2500 余段交互动作、131 种三元组和 196 个精细的物体网格模型,从而成为了双手多物体协作的一个知识库。为支持动作预测与生成相关的研究,数据集提供手物网格序列、手物二维掩码和去除标志点的彩色图片等标注。
其次,本工作提出了一种全自动的数据标注方法以用低成本扩大数据集规模同时保证数据标注的高质量。该方法融合来自第三视角的视频和来自光学动捕系统的物体标志点坐标,用基于优化的算法得到手物网格序列,进而利用预训练的分割网络估算手物的掩码,并利用先进的图像补全模型生成去除标志点的图片。
得益于 TACO 数据集丰富的动作模式和标注信息,本工作提出了三个关注可泛化手物交互理解与生成的基准任务——动作识别、动作预测和合作式抓取生成。三个基准任务中的大量实验证明了现有的技术方法在物体几何的泛化、物体类别的泛化和交互三元组的泛化上表现欠佳,这为今后的研究带来了新的挑战和机遇。
本工作的主要贡献如下:
构建了 TACO 数据集,是首个真实世界中大规模四维双手协作多物体的数据集,涵盖多样的“工具-动作-使用对象”的组合和物体几何形状。
设计了一个全自动的数据标注方法,能够获取手和物体精确的网格序列和二维掩码,以及无标志点的彩色图像。
提出了三个关注可泛化的手物交互理解与生成的基准任务,并详细探讨了 TACO 数据集带来的挑战和机遇。
数据集动作示例如下:
在这里插入图片描述

TACO数据集构建
如下图所示,数据采集系统包含 12 个第三人称视角下的 FLIR 工业相机(分辨率 4096x3000)、1 个头戴 Realsense L515 相机(分辨率 1920x1080)和包含 6 个红外相机的 NOKOV 光学动作捕捉系统。所有数据的录制频率均为 30Hz。
在这里插入图片描述

本工作使用 EinScan 手持式三维扫描仪获取物体的高精度网格模型,每个物体模型包含约 100K 个三角面片。数据集的物体均为刚体,数据采集时每个物体的表面会贴上 4 个标志点,由光学动捕系统跟踪标志点位置并由此解算物体位姿。
在这里插入图片描述

数据标注方法如上图所示,给定第三人称视角彩色图像、物体网格模型和其上标志点的坐标,方法依次执行物体位姿优化、手部关键点定位、手部位姿优化、手物分割和标志点移除步骤。
物体位姿优化的目标是求解各个标志点相对物体的精确位置。由于人工测量结果存在较大误差,物体位姿优化以人工测量的结果为初值,优化出最优的相对位置使得各个标志点到物体表面最近点的平均距离和各个标志点与物体的平均穿模距离的加权和最小。
手部关键点定位希望估计手部骨骼各个关键点在世界系下的三维坐标。为此,针对每个视角的彩色图像,本工作使用预训练的 YOLOv3 网络 [2] 检测双手在图中的外接矩形框,并将其输入 MMPose 骨骼检测模型 [3] 得到手部关键点在图像上的像素坐标。本工作使用三角化将多视角像素坐标转化为世界系下的三维坐标,并利用 RANSAC 算法 [4] 提高结果的鲁棒性。
手部位姿优化希望获得 MANO 模型 [5] 表示的手部网格,方法是设计关于模型参数的损失函数并求解最优参数最小化损失函数的值。损失函数综合考虑 MANO 模型骨骼与手部关键点三维坐标的偏差、手部骨骼转动范围、骨骼运动的连续性、手物接触情况和手物穿模情况这五个方面。
手物分割即获取手和物体在彩色图像上的二维掩码。这一环节直接应用 SAM 模型 [6],将上一步得到的手物网格投影至图像得到其外接矩形框并将其作为模型的提示。
由于物体上的标志点破坏了物体的外观,本工作额外设计了标志点移除模块,针对中心位于 P、半径为 R 的标志点,该模块将一个中心位于 P、半径为 2R 的球投影至各个视角的图像上获取其掩码,进而使用 LAMA 图像补全模型 [7] 重新绘制掩码区域的颜色。下图展示了一个标志点移除的示例:

在这里插入图片描述

数据多样性
TACO 数据集包含 2.5K 段交互动作、20 种家用物体类别、196 个物体网格模型、15 种家务动作和 14 位采集员,涵盖共计 131 种“工具-动作-使用对象”的交互三元组。如下面的视频和图片所示,数据集的物体形状多样,且不同三元组之间关系紧密,因而其能够支持不同物体几何形状、不同物体类别、不同动作类别等多个方面的泛化性研究。

在这里插入图片描述

基准任务
基于 TACO 数据集物体几何和交互三元组的多样性,本工作将数据集划分为一个训练集和四个关注不同泛化方式的测试集:
S1:无泛化。工具的几何形状和交互三元组均存在于训练集。
S2:几何形状的泛化。工具的几何形状是全新的,交互三元组存在于训练集。
S3:交互三元组的泛化。交互三元组是全新的,而工具的类别和几何形状均存在于训练集。
S4:综合泛化。工具的类别是全新的,导致出现新的工具的几何形状和交互三元组。
动作识别任务致力于分析第一人称视角下的手物交互的视频中的动作类别,物体的外接矩形框可以作为任务的额外输入辅助分析。不同于传统的动作识别任务,本工作关注模型在遇见全新物体或交互三元组时的表现。此基准任务采用 Acc-1 和 Acc-5 两种常用的评价指标。
下表对比了一个传统的动作识别模型 AIM [8] 和一个关注组合泛化的少样本模型 CACNF [9]。两个模型在 S4 上的两种准确率均显著低于在 S1 上的准确率,揭示了现有方法泛化能力的不足。相比物体几何的泛化,模型在交互三元组上的泛化更加困难。CACNF 在更困难的 S3 和 S4 集合上显著优于 AIM,体现出关注组合泛化的模型对物体和动作更强的解耦能力以及更强的泛化能力。

动作预测任务目标是根据物体几何形状和前 10 帧的手物位姿序列预测接下来 10 帧二者的序列。不同于先前研究的人-物交互动作预测,完整的手物交互动作通常在更短的时间内完成,这使得此任务极具挑战性。
本任务的评价指标为平均关节位置误差、平均位移误差和平均朝向误差。实验对比两种预测模型 InterRNN [10]、CAHMP [11] 和两种生成模型 InterVAE [10]、MDM [12]。如下表所示,实验表明现有预测模型的表现优于生成模型,且两类模型在运动较快的右手和工具的预测上均存在泛化能力的不足。
在这里插入图片描述

合作式抓取生成任务希望在给定左手、工具和使用对象的网格的情景下生成右手的网格。任务要求方法不仅考虑工具的抓握,还应关注和环境(即使用对象和左手)的配合。为此,除常用的穿模体积和接触比例两个指标外,本工作额外设计了碰撞比例和 FID 分数分别用于评估右手和环境的接触程度和抓取的真实程度。
下表汇报了三种现有方法 [13][14] 的表现。应用于新的工具几何形状时,三种方法均得到了更大的碰撞比例和更低的 FID 分数。
在这里插入图片描述
在这里插入图片描述

下图展示了方法的失败案例,表明现有方法在复杂纤细工具的抓取生成的物理可行性和动作自然性方面表现欠佳。
在这里插入图片描述

总结
本工作构建了首个真实世界中大规模四维双手协作多物体的数据集 TACO,涵盖 5.2M 张来自第一和第三人称视角的彩色图片、2.5K 段交互动作、131 种“工具-动作-使用对象”的组合和 196 种物体形状。为扩大数据规模,本工作贡献了一个全自动的数据标注算法提供准确的手物网格序列和二维分割,以及去除标志点的彩色图片。
本工作在 TACO 数据集上提出了三个基准任务:动作识别、动作预测和合作式抓取生成。实验表明现有方法在跨三元组的动作理解和在新物体、新类别上的抓取生成等方面尚存较大的提升空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1875577.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习笔记 人脸识别技术全面回顾和小结(1)

一、简述 人脸识别是视觉模式识别的一个细分问题。人类一直在识别视觉模式&#xff0c;我们通过眼睛获得视觉信息。这些信息被大脑识别为有意义的概念。对于计算机来说&#xff0c;无论是图片还是视频&#xff0c;它都是许多像素的矩阵。机器应该找出数据的某一部分在数据中代表…

OBD诊断(ISO15031) 02服务

文章目录 功能简介请求和响应1、read-supported PIDs1.1、请求1.2、肯定响应 2、read PID value1.1、请求1.2、肯定响应 3、同时请求多个PID4、同时读取多个PID数据 Parameter definition报文示例1、单个PID请求和读取2、多个PID请求和读取 功能简介 02服务&#xff0c;即 Req…

【技术追踪】UNest:一种用于非配对医学图像合成的新框架(MICCAI-2024)

前天看了一篇文章图像分割用diffusion&#xff0c;今天看了篇文章图像合成不用diffusion&#xff0c;你说说这~ 传送门&#xff1a;【技术追踪】SDSeg&#xff1a;医学图像的 Stable Diffusion 分割&#xff08;MICCAI-2024&#xff09; UNest&#xff1a;UNet结构的Transforme…

收银系统源码-千呼新零售【分销商城】

千呼新零售2.0系统是零售行业连锁店一体化收银系统&#xff0c;包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体&#xff0c;线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

帮助某服务业公司制定发展战略与未来规划

在集团公司高速发展、业务范围不断扩大时&#xff0c;组织往往对公司未来的发展方向感到迷茫&#xff0c;不知道如何进行更好的规划&#xff0c;找到合适的发展战略&#xff0c;为企业提供更长远的发展空间&#xff0c;带来更多是利益。面对这个问题&#xff0c;华恒智信认为企…

【知识学习】Unity3D中Post Processing的概念及使用方法示例

Unity3D中的Post Processing&#xff08;后处理&#xff09;是一种在渲染管线的最后阶段对最终图像进行处理的技术。它允许开发者添加各种视觉效果&#xff0c;如模糊、颜色分级、镜头光晕等&#xff0c;以增强场景的视觉表现力。 Post Processing 的基本概念 Post Processin…

【递归、搜索与回溯】记忆化搜索

记忆化搜索 1.记忆化搜索2.不同路径3.最长递增子序列4. 猜数字大小 II5.矩阵中的最长递增路径 点赞&#x1f44d;&#x1f44d;收藏&#x1f31f;&#x1f31f;关注&#x1f496;&#x1f496; 你的支持是对我最大的鼓励&#xff0c;我们一起努力吧!&#x1f603;&#x1f603;…

eclipse基础工程配置( tomcat配置JRE环境)

文章目录 I eclipse1.1 工程配置1.2 编译工程1.3 添加 JRE for the project build pathII tomcat配置JRE环境2.1 Eclipse编辑tomcat运行环境(Mac版本)2.2 Eclipse编辑tomcat运行环境(windows版本)2.3 通过tomcat7W.exe配置运行环境(windows系统)I eclipse 1.1 工程配置 …

PPT中的文字跟随Excel动态变化,且保留文字格式

今天协助客户解决了一个有趣的问题&#xff0c;这里记录一下&#xff0c;以此共勉。 目录 1. 提出问题2. 此功能的应用场景3. 开始制作4. 注意事项5. 若遇到任何问题 1. 提出问题 PPT的图表是可以引用Excel的&#xff0c;那PPT的文本是否可以引用Excel实现动态更新呢&#xff…

Unidbg调用-补环境V3-Hook

结合IDA和unidbg,可以在so的执行过程进行Hook,这样可以让我们了解并分析具体的执行步骤。 应用场景:基于unidbg调试执行步骤 或 还原算法(以Hookzz为例)。 1.大姨妈 1.1 0x1DA0 public void hook1() {

精品UI知识付费系统源码网站EyouCMS模版源码

这是一款知识付费平台模板&#xff0c;后台可上传本地视频&#xff0c;批量上传视频连接&#xff0c; 视频后台可设计权限观看&#xff0c;免费试看时间时长&#xff0c;会员等级观看&#xff0c;付费观看等功能&#xff0c; 也带软件app权限下载&#xff0c;帮助知识教育和软件…

OpenHarmony开发实战:GPIO控制器接口

功能简介 GPIO&#xff08;General-purpose input/output&#xff09;即通用型输入输出。通常&#xff0c;GPIO控制器通过分组的方式管理所有GPIO管脚&#xff0c;每组GPIO有一个或多个寄存器与之关联&#xff0c;通过读写寄存器完成对GPIO管脚的操作。 GPIO接口定义了操作GP…

Java应用cpu过高如何分析

1. 查看进程cpu使用情况 top 2. 根据PID查看指定进程的各线程的cpu使用情况 top -H -p PID

Zookeeper节点ACL权限设置—digest模式

ACL全称为Access Control List&#xff08;访问控制列表&#xff09;&#xff0c;用于控制资源的访问权限。ZooKeeper使用ACL来控制对其znode&#xff08;ZooKeeper数据树的数据节点&#xff09;的访问。 zk利用ACL策略控制节点的访问权限: CREATE c 可以创建子节点 DELETE …

2024年每个月有哪些数学建模和数学挖掘竞赛?

文章目录 2024年每个月有哪些竞赛&#xff1f;2024年32个数学建模和数据挖掘竞赛重磅来袭&#xff01;&#xff01;&#xff01;2024年数学建模和数学挖掘竞赛时间目录汇总数学建模助手使用一月二月三月四月五月六月七月八月九月十月十一月十二月 2024年每个月有哪些竞赛&#…

甄选版“论软件系统架构评估”,软考高级论文,系统架构设计师论文

论文真题 对于软件系统,尤其是大规模的复杂软件系统来说,软件的系统架构对于确保最终系统的质量具有十分重要的意义,不恰当的系统架构将给项目开发带来高昂的代价和难以避免的灾难。对一个系统架构进行评估,是为了:分析现有架构存在的潜在风险,检验设计中提出的质量需求,…

大跨度气膜综合馆:未来建筑的新标杆—轻空间

在当今建筑技术迅速发展的时代&#xff0c;气膜结构作为一种新型的建筑形式&#xff0c;正在被广泛应用于各种场所。大跨度气膜综合馆&#xff0c;以其独特的设计理念和先进的技术手段&#xff0c;成为现代建筑中的一颗新星。这类建筑不仅具有经济性和实用性&#xff0c;还在环…

[图解]企业应用架构模式2024新译本讲解18-活动记录2

1 00:00:00,940 --> 00:00:04,890 接下来&#xff0c;就是要把这个列表输出到控制台 2 00:00:06,490 --> 00:00:12,280 这里面有3个 3 00:00:15,420 --> 00:00:17,480 Id有了&#xff0c;姓 4 00:00:18,600 --> 00:00:28,500 一个一个取&#xff0c;ID&#xff…

读AI新生:破解人机共存密码笔记15辅助博弈

1. 辅助博弈 1.1. assistance game 1.2. 逆强化学习如今已经是构建有效的人工智能系统的重要工具&#xff0c;但它做了一些简化的假设 1.2.1. 机器人一旦通过观察人类学会了奖励函数&#xff0c;它就会采用奖励函数&#xff0c;这样它就可以执行相同的任务 1.2.1.1. 解决这…

Firefox 编译指南2024 Windows10- 定制化您的Firefox(四)

1. 引言 定制化您的Firefox浏览器是一个充满乐趣且富有成就感的过程。在2024年&#xff0c;Mozilla进一步增强了Firefox的灵活性和可定制性&#xff0c;使得开发者和高级用户能够更深入地改造和优化浏览器以满足个人需求。从界面的微调到功能的增强&#xff0c;甚至是核心代码…