[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

news2024/11/16 13:22:02

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

KS Shashank, S Maheshwari, RK Sarvadevabhatla - arXiv preprint arXiv:2409.12140, 2024

MoRAG - 基于多部分融合的检索增强型人体动作生成

1.

目录

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

1. 摘要

创新点

算法模型

实验效果

结论

推荐阅读指数:★★★★☆


摘要

本文介绍了一种新颖的基于多部分融合的检索增强型文本驱动人体动作生成策略,名为MoRAG。该方法通过改进的运动检索流程来增强运动扩散模型,利用额外的知识来提升生成和检索任务的质量。通过有效提示大型语言模型(LLMs),解决了运动检索中的拼写错误和改写问题。本方法采用多部分检索策略,提高了运动检索在语言空间的泛化能力。通过空间组合检索到的动作,创建了多样化的样本。此外,通过使用低层次的、特定部分的运动信息,我们可以为未见过的文本描述构建运动样本。实验表明,我们的框架可以作为插件模块,提高运动扩散模型的性能。

论文研究背景

技术背景: 文本驱动的人体动作生成是计算机视觉和自然语言处理交叉领域的一个研究热点。近年来,随着深度学习技术的发展,尤其是大型语言模型和生成模型的突破,该领域取得了显著的进展。

发展历史: 早期的工作主要集中在使用编码器-解码器架构来生成动作序列。后来,随着变分自编码器和生成对抗网络的发展,研究者们开始探索使用这些模型来生成更精细、更真实的动作序列。最近,基于扩散模型的方法因其能够生成高质量、高分辨率的动作序列而受到关注。

技术挑战

  • 如何处理复杂的文本描述,尤其是那些训练数据中未出现过的描述。
  • 如何提高生成动作的多样性和真实感。
  • 如何有效地检索和利用与文本描述相关的运动信息。

创新点

  1. 提出了一种新的多部分融合的检索增强型动作生成框架(MoRAG),通过整合特定部分的运动检索模型与大型语言模型来提高生成任务的性能。
  2. 使用多部分检索策略来提高运动检索在语言空间的泛化能力。
  3. 通过空间组合检索到的动作来创建多样化的样本。
  4. 利用低层次的、特定部分的运动信息,为未见过的文本描述构建运动样本

算法模型

  • MoRAG框架:通过整合特定部分的运动检索模型与大型语言模型,来提升文本描述驱动的动作生成质量。
  • 部分特定描述生成:使用LLM生成针对特定身体部分(如躯干、手、腿)的动作描述。
  • 多部分运动检索:独立训练针对不同身体部分的运动检索模型,以检索与文本描述相对应的动作序列。
  • 空间动作组合:将检索到的部分动作序列组合成全身动作序列,以用于动作生成模型的附加条件。

实验效果

  • 定性分析:MoRAG在处理复杂或未见过的文本描述时,展现出更好的泛化能力。
  • 定量分析:与现有的扩散模型相比,在多样性、多模态距离和多模态性能方面取得了更好的结果。
  • 重要数据
    • 精确度:在top-1、top-2和top-3的召回率上,MoRAG均优于其他方法。
    • FID:在生成动作的Fréchet Inception Distance(FID)上,MoRAG达到了更低的值,表明生成的动作与真实动作更接近。
    • 多样性:MoRAG在生成动作的多样性上优于现有技术。

结论

MoRAG通过使用多部分融合策略,显著提高了文本到人体动作生成的性能。该方法不仅能够处理典型的输入条件,还能有效处理复杂或未见过的输入,提高了模型的泛化能力。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的人体动作生成方法,通过结合检索增强型生成策略,提高了模型对文本描述的理解和生成动作的准确性。
- 实验结果表明,MoRAG在处理复杂文本描述和提升动作生成多样性方面具有显著优势。

代码:
Motion-RAG/MoRAG: A framework for text-based retrieval augmented motion generation (github.com)
------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击( 点赞,关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2163055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis:缓存

为什么要理解Redis缓存问题 在高并发的业务场景下,数据库大多数情况都是用户并发访问最薄弱的环节。所以,就需要使用redis做一个缓冲操作,让请求先访问到redis,而不是直接访问Mysql等数据库。这样可以大大缓解数据库的压力。 当…

【MySql】在ubuntu下安装MySql数据库

目录 查看操作系统版本 添加 MySql APT源 访问下载页面并下载发布包 安装发布包 执行安装命令 从MySql APT源更新包信息 安装MySql 执行安装命令 查看MySql状态 开启自启动 登录MySql 查看操作系统版本 rootVM-24-2-ubuntu:~# lsb_release -a No LSB modules are ava…

软考高级:需求工程- 4+1 视图 AI 解读

这几个术语常见于软件架构的描述中,它们分别代表软件系统的不同角度或视角。为了更好理解它们,我们可以把软件系统想象成一个公司,每个视图就像从不同角度观察这个公司的运作方式。 生活化例子 想象你在经营一家餐馆: 逻辑视图…

SSM+Vue共享单车管理系统

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 spring-mybatis.xml3.5 spring-mvc.xml3.5 Vue 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优质创作…

C++网络编程之网络模型

概述 所谓网络模型,是指一组定义了网络通信功能和行为的规则和标准。这些模型通过将网络通信功能分解成不同的层次,使得网络通信更加模块化,也更易于理解和实施。每一层都有其特定的功能,通过层与层之间的交互,确保数据…

await命令的用法

正常情况下,await 命令后面是一个 Promise 对象,返回值是该 Promise 对象的结果。如果不是 Promise 对象,就会进行自动转换,使用 Promise.resolve(),就直接返回对应的值 await 命令后面的 Promise 对象如果变为 reject…

方法部分 学习

方法是程序中最小的执行单元 方法的定义调用 public static void 方法名(){ 方法体 } 写在main方法外面,在main函数里面直接调用带参数:public static void 方法名(int num1 , int num2&am…

计算机的错误计算(一百零三)

摘要 探讨 的计算精度问题。 从计算机的错误计算(九十九)知, 在IEEE 754-2019的列表中,并且定义域是实数域。但是,截止撰写本节内容时,本文作者仍未找到内置了该函数的语言或编译器。 例1. 已知 计算…

Vue3:shallowRef与shallowReactive

目录 一.shallowRef 和 shallowReactive 1.shallowRef 2.shallowReactive 二.ref 和 reactive 1. ref 2. reactive 三.各自使用场景 1.shallowRef 2.shallowReactive 3.ref 4.reactive 四.shallowRef 使用 五.shallowReactive使用 六.效果 一.shallowRef 和 shal…

Redis 分布式缓存服务(集群)

作者:程序那点事儿 日期:2023/11/17 13:05 准备6台虚拟机,ip分别是 192.168.10.101 192.168.10.102 192.168.10.103 192.168.10.104 192.168.10.105 192.168.10.106 创建6个节点 mkdir -p /usr/local/cluster/redis-node1 #对应192.168.10.…

【html网页制作】旅游风景主题网页制作含css动画及js特效(8页面附效果源码)

HTMLCSS旅游风景主题旅游网页制作 🍔涉及知识🥤写在前面🍧一、网页主题🌳二、网页效果菜单切换效果PageA、整体页Page1、首页Page2、旅行趣事页Page3、旅行美景页Page4、旅行指南页Page5、旅行视频页Page6、留言页Page7、西湖简介…

玩手机数据集 8201张玩手机的照片,有对应的xml和txt文件,可以用于yolo训练

玩手机数据集 8201张玩手机的照片,有对应的xml和txt文件,可以用于yolo训练 玩手机数据集(Phone Usage Detection Dataset) 数据集概述 该数据集专为检测人们使用手机的行为设计,旨在帮助研究人员和工程师开发高效的…

openai最新o1上线(2024年09月12日)

gpt-4o-2024-08-06输出文本价格 10美元/M o1-preview输出价格 60美元/M https://lmarena.ai/?leaderboard 数字9.11和9.8谁大些 人工智能学习网站 https://chat.xutongbao.top/

240924-Windows映射网络驱动器的方法

在Windows上加载网络盘(映射网络驱动器)可以通过以下步骤完成: 方法一:通过文件资源管理器 打开文件资源管理器: 可以按 Win E 打开,或者直接点击任务栏上的文件资源管理器图标。 点击“此电脑”&#x…

macOS与Ubuntu虚拟机使用SSH文件互传

1.ubuntu配置: 安装openssh服务: sudo apt-get install openssh-server -y 查看服务启动状态: systemctl status ssh 2.macOS使用scp连接ubuntu并发送文件 查看ubuntu IP : ifconfigmacOS终端连接ubuntu : sc

Linux入门学习:进程概念

文章目录 1. 什么是进程?1.1 基本概念1.2 task_struct 2. 组织进程3. 查看进程3.1 父进程与子进程3.2 fork创建子进程3.3 kill3.4 /proc 1. 什么是进程? 1.1 基本概念 在课本的概念中,进程程序的一个执行实例,正在执行的程序。其…

『功能项目』3D模型动态UI显示【76】

本章项目成果展示 我们打开上一篇75主角属性值显示的项目, 本章要做的事情是将3D模型动态显示在主角属性展示界面 首先创建RawImage 调整尺寸 创建文件夹:RenderTexture 创建 Render Texture 创建Camera 在场景中放置一个主角预制体删除所有组件 清空标…

LVGL第一篇-了解lvgl显示原理以及使用C++移植

一、引言 在当今嵌入式系统与图形界面开发的广阔领域中,轻量级图形库 LVGL(Light and Versatile Graphics Library)恰似一颗璀璨耀眼的明星,正日益受到开发者们的热烈推崇与追逐。它以小巧精致之姿、高效卓越之能以及丰富多元之功…

计算机毕业设计之:宠物互助平台的微信小程序系统(源码+文档+讲解)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

读构建可扩展分布式系统:方法与实践14流处理系统

1. 流处理系统 1.1. 时间就是金钱 1.1.1. 从数据中提取有价值的知识和获得洞见的速度越快,就能越快地响应系统所观察的世界的变化 1.1.2. 信用卡欺诈检测 1.1.3. 网络安全中异常网络流量的捕获 1.1.4. 在支持GPS的驾驶应用程序中进行的实时路线规划 1.1.5. 社交…