IRMV Lab新作:Mamba Diffusion模型实现高精度2D手部轨迹预测

news2024/11/29 20:45:36

作者主页:
https://bit-mjy.github.io/
https://xieyuanli-chen.com/

论文标题:
MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos

1. 背景与挑战

在具身人工智能(Embodied AI)领域,如何实现对人类行为和意图的深入理解以及灵活的迁移应用是一个关键问题。通过大规模互联网视频提取可重复利用和迁移的知识,被认为是理解人类意图和动作的高效途径。许多研究已经在动作识别、动作预测、注视点预测、物体交互预测等方向取得进展。

然而,手部轨迹预测(HTP)仍然是其中一个具有挑战性的任务,目标是预测未来人类的动作,而不仅仅是识别动作类别或注视点。HTP技术对于机器人学习中的动作空间表示和扩展现实中的人类活动辅助具有重要价值。现有的基于卷积和Trasnformer的模型尽管取得了一定进展,但仍存在多个未解决的挑战:

●相机自我运动影响: 当前的HTP方法未能无缝集成相机佩戴者自我运动信息来解决运动相关的误差。未来手部轨迹的3D运动投影到2D平面时,会因空间维度混淆而产生差异,自我运动信息能够帮助缓解这一问题。此外,相机视角的变化导致各帧中的手部位置和场景信息相对“预测画布”视角存在差异,这也需要通过引入相机自我运动来校正。

●物体可供性标签缺失: HTP模型通常需要物体可供性标签来引导手部轨迹的优化,但这些标签的标注非常耗时且复杂。现有的自动检测交互物体的技术精度较低,无法得到高质量的真值数据,这使得模型在缺少可供性标签的情况下,难以有效提取手部运动与场景之间的语义关系。

●因果关系和运动连续性约束不足: 现有的HTP模型在处理手部运动与相机自我运动之间的因果关系时表现较差,未能捕捉到二者交织的运动模式,可解释性也不足。此外,现有的损失函数也不足以为手部运动的潜在物理模型提供足够的优化方向,导致轨迹预测不够精准。

2. MADiff算法简介

▲图1|MADiff算法框架©️【深蓝AI】

■2.1 算法结构

MADiff算法以过去的第一视角视频片段、2D手部轨迹以及文本提示作为输入。首先,通过Tokenzier生成视觉-语言融合特征,并使用轨迹编码器对手部轨迹进行编码,然后通过融合模块将特征融合。之后,利用运动感知的Mamba模块在扩散模型中对手部潜在特征进行条件重构。最终,轨迹解码器将重构特征转化为预测的未来手部轨迹。

●Tokenizer

Tokenizer包括基础模型、轨迹编码器和融合模块。它结合了三种输入数据:第一视角视频片段、文本提示和2D手部轨迹。通过这些多模态数据,Tokenizer能够提升手部轨迹预测的表现。本文基础模型采用GLIP,通过视觉和文本信息融合提取语义特征,帮助捕捉手部姿态及其与场景的关系,优化轨迹预测。轨迹编码器则使用MLP对手部轨迹编码。融合模块将语义特征与轨迹特征融合以生成用于扩散过程的潜在特征。视觉基础模型和融合模块的使用,使得MADiff在缺少可供性标签的情况下,仍然可以有效提取手部运动与场景之间的语义关系。

▲图2|视觉-语言融合特征©️【深蓝AI】

▲图3|特征融合模块©️【深蓝AI】

●运动感知Mamba模块

MADiff中,运动感知Mamba模块用于在连续去噪步骤中捕捉手部运动的时间因果关系。该模块通过整合相机的自我运动特性,设计了运动驱动的选择性扫描机制(MDSS)来恢复过去到未来的潜在特征。MDSS引入了相机自我运动信息,将状态转移过程与相机自身运动带来的手部运动偏移相对齐,促进了相机自身运动和手部运动的关联因果性提取,增强了网络设计的可解释性。这一设计将相机自身运动带来的干扰转换成有利于手部预测的外部信息,克服空间混淆和视角差异带来的挑战。

▲图4|相机运动驱动Mamba的状态转移在图像平面和特征层面具有直观的对应性©️【深蓝AI】

●Mamba扩散模型

MADiff将运动感知的Mamba模块无缝集成到去噪扩散过程中。本文提出的Mamba+diffusion为手部轨迹预测提供了新的迭代范式,在使用扩散模型沿特征降噪方向保证足够迭代轮次的同时,使用运动感知Mamba在时间维度上迭代以捕捉因果关系。两个方向的迭代共同保证了MADiff的高精度手部轨迹预测。

▲图5|MADiff与不同预测范式对比©️【深蓝AI】

■2.2 训练和推理

MADiff的训练过程使用了扩散模型相关损失、轨迹偏移损失和正则化项。此外,本文还设计了两个新的损失函数:角度损失和长度损失。角度损失通过计算预测轨迹与真实轨迹之间的角度差异,确保预测的方向性;长度损失通过比较预测和真实轨迹的长度差异,约束轨迹的稳定性。角度和长度损失函数以潜在物理模型为约束,提升手部预测轨迹的连续性。

▲图6|角度和长度约束提供更加合理的优化方向©️【深蓝AI】

在推理阶段,MADiff首先从标准高斯分布中采样噪声,将其与过去特征拼接,生成潜在特征。然后,结合运动感知的Mamba模块与“连续-离散-连续”(CDC)操作,对未来的潜在特征进行去噪。“连续-离散-连续”操作在隐式的去噪过程中增加显式因素,即在每次去噪步骤结束时,将连续的潜在特征转换为离散的轨迹像素坐标,再投射回连续潜在空间,继续进行下一步去噪。最终去噪的特征被轨迹解码器转换为预测的未来手部轨迹。

▲图7|降噪过程中的“连续-离散-连续”操作©️【深蓝AI】

3. 实验结果

■3.1 轨迹预测评估

MADiff在EK55、EK100、EG、EgoPAT3D-DT和H2O-PT数据集上与多个基线模型进行了对比。实验使用平均偏移误差(ADE)、加权偏移误差(WDE)、最终偏移误差(FDE)等指标评估手部轨迹预测性能,MADiff在各个数据集中的表现显著优于其他基线模型,尤其在面对新场景时展现了较强的泛化能力。此外,设计的新指标评估了预测的手部轨迹与交互物体的关系,MADiff即使在没有物体可供性标签的情况下,也能够生成合理的交互分布。

在这里插入图片描述
▲图8|MADiff在多个数据集上表现出优异性能©️【深蓝AI】

▲图9|预测结果可视化©️【深蓝AI】

■3.2 消融实验

通过消融实验,本文验证了运动驱动选择性扫描(MDSS)的有效性,显示出在引入相机自我运动特征后,轨迹预测精度显著提升。本文进一步还验证了Mamba块的最佳数量,以及新的角度和长度损失函数的有效性等。

▲图10|MDSS消融实验©️【深蓝AI】

▲图11|Mamba模块数量消融实验 ©️【深蓝AI】

▲图12|损失函数消融实验©️【深蓝AI】

本文还提供了关于预测长度(输入视频片段的长度)的消融实验。当测试集保持与训练集相同的观测长度时,预测精度和观测长度在一定范围内呈正相关关系,这表明了长序列能够为手部轨迹预测提供更加丰富的语义信息。但将测试集的观测长度改为由随机采样生成后,这种正相关关系不再存在,过长的观测序列用于训练反而导致更低的测试精度,这表明预测模型过度依赖输入信息的丰富度时,会展现出较差的“想象力”。

▲图13|观测长度消融(训练集和测试集设置相同观测长度)©️【深蓝AI】

▲图14|观测长度消融(测试集观测长度随机采样)©️【深蓝AI】

本文首次分析了手部轨迹预测精度和动作类别的关系。通过统计不同类别动作对应的轨迹预测精度,本文得出如下结论:对于增加交互物体不确定性的动作(如打开,拿起),其轨迹更难以预测,反之降低交互物体不确定性的动作(如关闭,放下)则轨迹预测的更准确。

▲图15|针对不同动作动词的预测误差分析©️【深蓝AI】

此外,本文发现通过针对性地改变输入文本提示能够提升特定动作的轨迹预测精度,这为手部预测算法在真实应用场景中的部署提供了更加灵活的解决方案。本工作也希望这种基于动作类别分析预测性能的思路能够对未来后续工作提供启发。

▲图16|文本提示不同促使模型关注点不同©️【深蓝AI】

▲图17|用动词丰富文本提示以提示对应轨迹预测精度©️【深蓝AI】

4. 总结与未来展望

本文提出了一种新颖的手部轨迹预测方法MADiff。首先,本文使用基础模型来提取高阶语义特征,无需依赖物体可供性标签的监督。此外,本文设计了一个基于运动感知Mamba的扩散模型恢复未来手部轨迹。MDSS扫描机制将Mamba的状态转移过程与相机自身运动带来的手部运动偏移相对齐,促进了相机自身运动和手部运动的关联因果性提取,增强了网络设计的可解释性。本文进一步将“连续-离散-连续”操作集成到扩散去噪过程中,结合显式的轨迹迭代和隐式的特征迭代。此外,本文在训练过程中引入了角度损失和长度损失,帮助模型更好地捕捉轨迹的方向性和稳定性。在五个公开数据集上的实验结果表明MADiff在所有最先进的手部轨迹预测基线中表现出强大的竞争力。实验部分还对MADiff各个模块进行了详细分析,并揭示了预测误差与动作类别之间的关系。

MADiff的未来数据预测范式将Mamba无缝集成到扩散模型中,并结合了自回归模型和迭代非自回归模型的特性,可以作为手部轨迹预测或其它时间序列预测任务的基础框架。其次,在时间因果关系捕捉中考虑自我运动,为扩散模型在第一视角视觉领域中的应用提供了新的见解。此外,本文的动作相关分析为未来的研究开辟了潜在方向,即为特定动作设计针对性的语义特征。然而,现有数据集的标注特异性导致了不同数据集之间训练和推理设置的差异,因此未来研究将关注统一多个数据集的训练和测试设置。此外,本文还提出未来为MADiff增加一个物体可供性预测分支的可能性。©️【深蓝AI】

本文为一作独家授权编译于【深蓝AI】,如需转载请移步🫱深蓝AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2218525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NAT机制

目录 1、NAT机制的定义 2、NAT机制的工作原理 1、NAT机制的定义 如今IP地址的分配已经不够使用,为了解决这一问题,NAT机制起到了很关键的作用。 NAT机制(网络地址转换),本质上,让一个IP地址代表一批设备…

【SpringBoot】14 缓存(cache)

Gitee仓库 https://gitee.com/Lin_DH/system 介绍 Spring 框架支持透明地向应用程序添加缓存对缓存进行管理,其管理缓存的核心是将缓存应用于操作数据的方法(包括增删查改等),从而减少操作数据的执行次数(主要是查询…

录微课专用提词器,不会被录进视频中的提词器,还能显示PPT中备注的内容

不坑提词器,全称:不坑隐形提词器。是一款能够在截图、录屏、直播过程中隐藏界面的提词器软件。 系统要求:Win10 1024 以上(特别提醒:Win7状态下不可隐身) ⏬下载 提词器默认放在不坑盒子的安装目录下&…

基于springboot家乡特色推荐系统

作者:计算机学长阿伟 开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。 系统展示 【2024最新】基于JavaSpringBootVueMySQL的,前后端分离。 开发语言:Java数据库:MySQL技术:…

【YOLOv11】制作使用YOLOv11的docker环境

目录 一 安装docker 1 安装依赖 2 添加docker官网 GPG 密钥、设置stable 仓库 3 安装 4 使用 二 环境制作 ① 拉基础镜像 ② 起容器 ③ 安装Anaconda3 ④ 安装YOLO11 ⑤ /root/.bashrc ⑥ 退出容器 ⑦ 保存镜像 ⑧ 镜像的使用 一 安装docker ubuntu:20.04 1 安装…

与双指针的亲密接触:快与慢的浪漫交错

公主请阅 1.合并两个有序数组1.1 题目说明示例 1示例 2示例 3 1.2 题目分析 1.3代码部分1.4 代码解析 2.移动零2.1题目说明示例 1示例 2 2.2题目分析2.3代码部分2.4代码解析 1.合并两个有序数组 题目传送门 1.1 题目说明 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums…

25计软新增考研院校!或可捡漏上岸!

C哥专业提供——计软考研院校选择分析专业课备考指南规划 新增的计算机与软件工程考研院校为考研同学带来了多方面的机遇,这些机遇不仅体现在过国家线后可能面临的更低竞争压力,还包括更多元化的教育选择和更广阔的就业前景: 一、降低竞争压…

周报5<仅供自己学习>

文章目录 一、NeRF代码1.齐次化位姿坐标2.理解rays_d和rays_o3.min_line_dist的函数问题1:该函数的作用问题2:为何要计算ray_d的外积①形成投影矩阵(1)投影矩阵(2)投影矩阵的性质(3)…

网络编程基础-IO模型深入理解

一、IO的基本概念 什么是IO? I/O就是计算机内存与外部设备之间拷贝数据的过程 什么是网络IO? 网络IO是指在计算机网络环境中进行的输入和输出操作,涉及数据在网络设备之间的传输。 网络IO操作可以是发送请求、接收响应、下载文件、传输数…

adb devices没找到安卓设备的解决办法

要想让设备让adb识别到,要开启设备的开发者模式,并且开启USB调试功能: 然后重新运行:就找到了

Linux零基础教程学习(黑马)

1.初识Linux 1.2远程连接Linux系统 图形化、命令行 对于操作系统的使用,有2种使用形式: 图形化页面使用操作系统 以命令的形式使用操作系统 不论是Windows还是Linux亦或是MacOS系统,都是支持这两种使用形式。 图形化:使用操作…

前端页面使用google地图api实现导航功能,开发国外网站免费简单好用

开发国外软件的时候,想使用goole map实现导航等功能,可以使用google的api来做,官方文档地址:https://developers.google.com/maps/documentation/urls/get-started?hlzh-cn ,比如: 支持的请求的操作&…

基于MATLAB/octave的容积卡尔曼滤波(CKF)【带逐行注释】

介绍 CKF的三维滤波程序例程 产品概述 我们的 MATLAB 数据处理工具是专为科研人员、工程师和数据分析师设计的高效解决方案。该工具提供了一系列强大的功能,能够快速处理和分析大规模数据集,适用于各种科学和工程应用,包括信号处理、图像分…

Redis Search系列 - 第四讲 支持中文

目录 一、支持中文二、自定义中文词典2.1 Redis Search设置FRISOINI参数2.2 friso.ini文件相关配置1)自定义friso UTF-8字典2)修改friso.ini配置文件 三、实测中文分词效果 一、支持中文 Redis Stack 从版本 0.99.0 开始支持中文文档的添加和分词。中文…

什么是大数据分析:定义、优缺点、应用、机遇和风险

大数据分析的概念已经成为我们社会不可或缺的一部分。众多公司和机构已经开发了大数据应用程序,取得了不同程度的成功。社交媒体平台和传感器等技术正在以前所未有的速度生成数据,就像一条装配线。如今,几乎所有东西都是物联网的一部分&#…

C#教程笔记

C#开发的程序依附.NET平台 编译器->IL中间语言->CLR->机器指令 .NET CORE平台 跨平台 .cs后缀名 快捷键 CtrlKD格式化CtrlL或CtrlX删除一行CtrlY反撤销cwTab快速生成命令行输出Ctrl空格或CtrlJ获取提示///方法注释CtrlMO代码全部折叠CtrlML代码全部展开 上升沿0变1 安…

硬件产品经理的开店冒险之旅(下篇)

缘起:自己为何想要去寻找职业第二曲线 承接上篇的内容,一名工作13年的普通硬件产品经理将尝试探索第二职业曲线。根本原因不是出于什么高大上的人生追求或者什么职业理想主义,就是限于目前的整体就业形式到了40岁的IT从业人员基本不可能在岗…

Spring Boot技术栈在电影评论网站中的应用

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

【论文阅读】Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting

文章目录 概要阅读背景知识引言创新之处 研究方法概述方法部分的核心模块多尺度打补丁(Multi-Scale Patching)Mamba:全局模式专家Local Window Transformer(LWT):局部变化专家长短期路由器(Long…

Aatrox-Bert-VITS2部署指南

一、模型介绍 【AI 剑魔 ①】在线语音合成(Bert-Vits2),将输入文字转化成暗裔剑魔亚托克斯音色的音频输出。 作者:Xz 乔希 https://space.bilibili.com/5859321 声音归属:Riot Games《英雄联盟》暗裔剑魔亚托克斯 …