[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作

news2024/11/17 11:30:21

​​​​​​Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models

L Mandelli, S Berretti - arXiv preprint arXiv:2409.11920, 2024

通过时间和空间组合扩散模型生成复杂的3D人物动作

摘要

本文提出了一种新的方法,用于生成在训练阶段从未见过的3D人物动作。该方法利用GPT模型的人类动作知识,将复杂动作分解为在训练中观察到的简单动作。然后,这些简单动作通过扩散模型的特性重新组合成单一、逼真的动画。作者声称,这种分解和简单动作的重新组合可以合成准确表示复杂输入动作的动画。这种方法在推理阶段进行操作,并且可以与任何预训练的扩散模型集成,从而实现训练数据集中不存在的动作类别的合成。

技术背景: 生成3D人物动作是计算机图形学和机器学习领域的一个活跃研究方向。该项技术在视频游戏,电影制作和影视娱乐等领域有广泛的应用。随着深度学习技术的发展,研究者们提出了多种方法来生成更自然、逼真的人物动作。不过,先前的研究主要集中在基于文本的条件生成,但这些方法在生成动作时严重依赖于训练数据集中已有的动作。

发展历史: 早期的方法主要依赖于运动捕捉数据的统计模型。近年来,随着深度学习技术的发展,研究者们开始使用生成对抗网络(GANs)、变分自编码器(VAEs)和扩散模型等方法来生成3D人物动作。最近,采用Diffusion Models技术的方法逐步受到重视,该类方法在生成质量和控制方面均有较好的表现。

技术挑战: 

  • 如何生成训练数据中未出现过的动作类别。
  • 如何有效地将复杂的动作分解为简单的、已知的动作,并在生成过程中重新组合。

具体困难:

  • 现有的生成模型通常需要重新训练以包含新的动作类别。
  • 动作的复杂性和多样性使得分解和重组成为一个挑战。

如何破局?

  • 分解与重组: 使用GPT模型将复杂动作分解为简单动作,然后利用扩散模型的属性将这些简单动作重新组合成复杂的动作。
  • 推理阶段操作: MCD方法在推理阶段操作,可以与任何预训练的扩散模型集成,以合成训练数据中不存在的动作类别。

创新点

  1. 提出了一种在训练阶段后从未见过的动作类别的生成方法。
  2. 提出了一种新的通用方法,用于时间和空间上的人体动作组合,无约束条件。
  3. 通过将已知数据集分割成简单和复杂动作,证明了所提出方法的有效性。
  4. 展示了通过同时使用多个文本注释来实现比传统文本条件生成更好的结果。

算法模型

  • MCD (Motion Composition Diffusion): 一种用于在训练阶段后生成未见过的行动的方法。MCD将文本注释分解成训练集中存在的一个或多个已知子动作,每个子动作都有开始和结束时间。在推理过程中,通过扩散去噪的每一步,分别处理每个子动作,然后根据它们各自的开始和结束时间将它们组合起来。
  • GPT分解模块: 使用GPT模型来将输入动作分解成基本动作。
  • 扩散模型: 在推理过程中,用于生成基于分解子动作的最终动作。

实验效果

  • 数据集: 使用HumanML3D和KitML数据集进行实验。
  • 指标: 使用TMR模型评估生成动作与文本之间的相似度,计算M2M(动作与动作之间的相似度)和M2T(生成动作与文本之间的相似度)。
  • 结果: 在两个数据集上,MCD方法在检索得分、嵌入相似度和FID值方面均优于仅使用文本条件生成的动作。
  • 重要数据:
    • R1, R3, R10: 检索得分显示MCD方法在生成动作的语义对齐方面表现更好。
    • M2M, M2T: 嵌入相似度表明MCD生成的动作与原始动作的分布更接近。
    • FID: 生成动作的分布与原始数据集的分布相似度更高。

重要结论: 

MCD方法能够在不需要重新训练新模型的情况下,在推理阶段生成训练集中未包含的动作类别。通过将数据集分割为基础动作和复杂动作,并与仅使用文本条件生成的动作以及最新的动作组合方法进行比较,证明了MCD方法的有效性。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的方法,用于生成训练阶段未出现过的复杂3D人物动作,这对于动画制作、虚拟现实等领域具有重要意义。
- 实验结果表明,所提出的方法在多个评估指标上均优于现有技术,特别是在处理复杂动作生成任务时。
------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apache POI快速入门

介绍 Apache POl是一个处理Miscrosoft Office各种文件格式的开源项目。简单来说就是,我们可以使用 POI 在 Java 程序中对Miscrosoft Office各种文件进行读写操作。 一般情况下,POI都是用于操作 Excel 文件。 Apache POI的主要组件包括: HS…

【开源免费】基于SpringBoot+Vue.JS服装销售平台(JAVA毕业设计)

博主说明:本文项目编号 T 054 ,文末自助获取源码 \color{red}{T054,文末自助获取源码} T054,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

LeetCode从入门到超凡(四)深入浅出理解贪心算法

引言 大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者。本系列文章是我跟随DataWhale 2024年9月学习赛的LeetCode学习总结文档;本文主要讲解贪心算法。💕💕😊 介绍 贪心算法是一种经典的算法…

代码随想录Day 57|prim算法和kruskal算法精讲,题目:寻宝

提示:DDU,供自己复习使用。欢迎大家前来讨论~ 文章目录 图论part07**prim算法精讲**题目:53. 寻宝解题思路:Prim算法Kruskal算法总结Prim算法的核心步骤(三部曲):关键数据结构:算法…

Rust 语言开发 ESP32C3 并在 Wokwi 电子模拟器上运行(esp-hal 非标准库、LCD1602、I2C)

文章目录 esp-rs 简介GithubRust 包仓库Wokwi 电子模拟器开发环境Rust 环境esp-rs 环境创建 ESP32C3 项目项目结构编译项目命令运行模拟器ESP32C3 烧录 esp-rs 简介 esp-rs 是一个专注于为 Espressif 系列芯片(如 ESP32、ESP32-S2、ESP32-C3 等)提供 Ru…

嵌入式边缘计算软硬件开发“1+X”考证建设方案

一、引言 随着物联网、大数据、人工智能等技术的飞速发展,嵌入式边缘计算作为连接物理世界与数字世界的桥梁,其重要性日益凸显。为了适应行业对高技能人才的需求,推动嵌入式边缘计算技术的普及与应用,特制定本“1X”考证建设方案…

本地部署开源在线PPT制作与演示应用PPTist并实现异地远程使用

文章目录 前言1. 本地安装PPTist2. PPTist 使用介绍3. 安装Cpolar内网穿透4. 配置公网地址5. 配置固定公网地址 前言 本文主要介绍如何在Windows系统环境本地部署开源在线演示文稿应用PPTist,并结合cpolar内网穿透工具实现随时随地远程访问与使用该项目。 PPTist …

Vue3(五) 组件通信大汇总

文章目录 一、props二、自定义事件三、mitt四、v-model1.v-model的本质2.v-model用在组件标签上3.更换modelValue4.更换modelValue时,可以在组件标签上多次使用v-model 五、$attrs六、$refs,与¥parent1. 回顾标签ref属性修改组件信息2. $refs实现父修改所…

学校周赛(1)

A - Short Sort 题目: 思路: 本条题目只允许改一处地方,只有三个字母,我们可以直接枚举所有移动过的结果,同时使用哈希去记录其值,对于每一个输入我们都寻找是否有这个值记录,有则输出YES否则…

毕业设计选题:基于ssm+vue+uniapp的校园订餐小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

数据库管理与开发的全面解决方案——Devart全线产品测评

在现代数据库管理和应用开发中,拥有一套高效且强大的工具是至关重要的。Devart,作为一家专业提供数据库开发和管理工具的公司,已经在行业内树立了坚实的声誉。其产品线涵盖了从数据库连接驱动到全面的数据集成和管理解决方案,满足…

读数据湖仓02数据抽象

1. 不同类型的数据 1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式 1.2. 结构化数据 1.2.1. 在企业等组织中,只有少量的数据是结构化数据 1.2.2. 结构化数据是基于事务的数据,是组织日…

[spring]用MyBatis XML操作数据库 其他查询操作 数据库连接池 mysql企业开发规范 动态sql

文章目录 一. MyBatis XML配置文件1. 配置链接字符串和MyBatis2. 写持久层代码方法定义Interface方法实现xml测试 3. 增删改查增:删改查 二. 开发规范(mysql)三. 其他查询操作1. 多表查询2. #{} 和 ${}(面试题)使用区别 排序功能like查询 三. 数据库连接池四. 动态sql1. < i…

【补充】倒易点阵定义

晶体点阵&#xff1a;晶体内部结构在三维空间周期平移的客观存在的数学抽象&#xff0c;反映晶体实际原子排列。 倒易点阵&#xff1a;通过对晶体的正点阵进行傅里叶变换得到的&#xff0c;其中正点阵中每个阵点的位置矢量方向代表晶面族的法向&#xff0c;位置矢量的长度是晶…

C++ | Leetcode C++题解之第442题数组中重复的数据

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> findDuplicates(vector<int>& nums) {int n nums.size();vector<int> ans;for (int i 0; i < n; i) {int x abs(nums[i]);if (nums[x - 1] > 0) {nums[x - 1] -nums[…

我把101篇公众号文章喂给了AI,终于,「小爱」可以为我代言了!

前段时间&#xff0c;搞了个微信 AI 小助理-小爱(AI)&#xff0c;爸妈玩的不亦乐乎。 零风险&#xff01;零费用&#xff01;我把AI接入微信群&#xff0c;爸妈玩嗨了&#xff0c;附教程&#xff08;下&#xff09; 目前小爱(AI)仍在持续迭代中&#xff0c;受到了很多粉丝朋友…

使用transformers中的pipeline调用huggingface中模型过程中可能遇到的问题和修改建议

使用transformers中的pipeline调用huggingface中模型过程 前言管线使用中的问题和解决huggingface的连接问题使用huggingface示例修改源继续使用pipeline No module named keras.engine 前言 HuggingFace有一个巨大的模型库&#xff0c;其中包括很多的比较成熟的经典模型&…

牛犇啊!LSTM+Transformer炸裂创新,精准度高至95.65%!

【LSTMTransformer】作为一种混合深度学习模型&#xff0c;近年来在学术界和工业界都受到了极大的关注。它巧妙地融合了长短期记忆网络&#xff08;LSTM&#xff09;在处理时序数据方面的专长和Transformer在捕捉长距离依赖关系上的优势&#xff0c;从而在文本生成、机器翻译、…

Request 原理

目录 request原理 Request继承体系 ​编辑Request获取请求行数据方法介绍 1、获取请求行数据 2、获取请求头数据 3、获取请求体数据 4、其他功能 1、获取请求参数通用方式&#xff1a; 中文乱码问题&#xff1a; 2.请求转发 3.共享数据 4.获取servletcontext reques…

set和map结构的使用

个人主页&#xff1a;敲上瘾-CSDN博客 个人专栏&#xff1a;游戏、数据结构、c语言基础、c学习、算法 目录 一、序列式容器和关联式容器 二、set和multiset 1.insert 2.erase 3.find 4.count 三、map和mapmulti 1.pair 2.insert 3.find 4.operator[ ] 5.erase 6.lo…