计算机视觉: 可控的高质量人体生成

计算机视觉: 可控的高质量人体生成

news2025/4/26 23:21:20

背景

关于人体动作的生成范式目前主流的方向可以分为以下两种:

Sequence based motion generation: 给定控制信号然后一次性生成连续的动作，能生成一些连续高阶语义的动作信号，因为其能看到整个动作信号。eg: MDM: Human Motion Diffusion Model, Tevet, et al, ICLR 2023
Auto-regression based motion generation: 由T帧的环境和状态去预测T+1帧的状态，这样用户能在中途去随时的改变输入信号，从而便于用户去交互去改变输出的状态。eg : Synthesizing Physical Character-Scene Interactions, Hassan et al. SIGGRAPH 2023

针对上面的两种范式的特点，在实际应用过程中，作者认为第二种范式会更加友好的方便用户去控制动作的生成或者说人的状态，以便后续生成的动作与环境做交互。基于此，本篇论文也是基于自回归模型范式。

COMODO: Online Controlled MDM model

作者提出COMODO自回归模型，它通过对可实时改变对基模型输入动作信号从而实现得到高质量的可控的动作，其输入的信号有三种模式分别是random sampling(生模模型随机采样无控制信号输入) / conditional inpainting(例如控制其动作的范围，只能在下图红线上做动作生成) / policy-based controlling (去改变一些点或者说是指定手或者脚的动作)，最终实现整个流程。COMODO主要有3点贡献:

更好的多样性
更加灵活，方便用户随时改变输入信号做交互
更加高质量的结果

在这里插入图片描述

COMODO模型大致流程如下图，其可以大致分为三步：

Noise Reconstruction : 标准的DDPM的噪声重建过程
Step Inference: 通过推理多帧得到当前时刻的模型
Motion Synthesis: 将基础模型与引入的前文说明的控制信号所结合生成最终的动作

在这里插入图片描述

简单来说，在推理过程中，当人工加入了控制信号后，controlled就会将这些信号转化为噪声信号加入到扩散模型的生成过程种，从而改变最终的生成动作结果。并且由于是将控制信号转换成噪声信号引入扩散过程，这个过程有一定的随机性，所以导致最终生成的动作可以产生多样性。

在这里插入图片描述

未来方向

细粒度可控制的动作生成
将生成的动作与真实(虚拟)世界的交互
大语言模型与动作生成模型的结合
其他

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1051689.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

机器学习（20）---神经网络详解

机器学习（20）---神经网络详解

神经网络一、神经网络概述1.1 神经元模型1.2 激活函数二、感知机2.1 概述2.2 实现逻辑运算2.3 多层感知机三、神经网络3.1 工作原理3.2 前向传播3.3 Tensorflow实战演示3.3.1 导入数据集查看3.3.2 数据预处理3.3.3 建立模型3.3.4 评估模型四、反向传播五、例题5.1 题15.2 题…

阅读更多...

【SQL】Mysql 时区设置解决--20230928

【SQL】Mysql 时区设置解决--20230928

https://blog.csdn.net/qq_44392492/article/details/108717616 输入命令show variables like “%time_zone%”;（注意分号结尾）设置时区，输入 set global time_zone “8:00”; 回车,然后退出重启（一定记得重启，不然查…

阅读更多...

Mysql 本地计算机无法启动 mysql 服务错误 1067：进程意外终止

Mysql 本地计算机无法启动 mysql 服务错误 1067：进程意外终止

有时候一段时间本地mysql不用，在连接本地数据库的时候，会报mysql无法连接出现错误提示10061错误， 这时候一般是本地mysql服务没有启动去左下角搜“服务”，进入后选择Mysql，点击启动（我的截图是已经启动好…

阅读更多...

C#，数值计算——Ranfib的计算方法与源程序

C#，数值计算——Ranfib的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// Implements Knuths subtractive generator using only floating operations. See /// text for cautions. /// </summary> public class Ranfib { p…

阅读更多...

通过茶叶酒水小程序商城的作用是什么？

通过茶叶酒水小程序商城的作用是什么？

茶叶酒水往往会在一起经营，同时又具备较强的送礼属性，需求度较高但经营商家同样不少，同行竞争激烈，加之同城生意有限、外地客户难以拓展、销售营销不足、品牌宣传效果差等痛点，传统酒水茶叶门店需要线上带来增长。那…

阅读更多...

大数据Flink（九十二）：DML：集合操作

大数据Flink（九十二）：DML：集合操作

文章目录 DML：集合操作 DML：集合操作集合操作支持 Batch\Streaming 任务。 UNION：将集合合并并且去重。

阅读更多...

uni-app：js修改元素样式（宽度、外边距）

uni-app：js修改元素样式（宽度、外边距）

效果代码 1、在<view>元素上添加一个ref属性，用于在JavaScript代码中获取对该元素的引用：<view ref"myView" id"mybox"></view> 2、获取元素引用 ：const viewElement this.$refs.myView.$el; 3、修改…

阅读更多...

【Flink】

【Flink】

事件驱动型应用核心目标：数据流上的有状态计算 Apache Flink是一个框架和分布式处理引擎，用于对无界或有界数据流进行有状态计算。运行逻辑状态把流处理需要的额外数据保存成一个“状态”,然后针对这条数据进行处理,并且更新状态。这就是所谓的“…

阅读更多...

mrctf2020_shellcode_revenge

mrctf2020_shellcode_revenge

mrctf2020_shellcode_revenge Arch: amd64-64-little RELRO: Full RELRO Stack: No canary found NX: NX disabled PIE: PIE enabled RWX: Has RWX segments64位，开了PIE和RELRO，看到RWX出来，就感觉是shellcode了…

阅读更多...

如何使用PyInstaller打包Python应用（包含参数详解，spec文件详解，反编译和防止反编译）

如何使用PyInstaller打包Python应用（包含参数详解，spec文件详解，反编译和防止反编译）

文章目录介绍PyInstaller安装PyInstaller参数及使用方法PyInstaller打包技巧和注意事项反编译和防止反编译介绍PyInstaller PyInstaller是一个强大的Python打包工具，它可以将Python程序打包成独立的可执行文件，方便在不同的操作系统上分发和运行。使用PyInstaller，你可以将…

阅读更多...

react.js在visual code 下的hello World

react.js在visual code 下的hello World

想学习reacr.js ，就开始做一个hello world。我的环境是visual code ，所以我找这个环境下的例子。参照： https://code.visualstudio.com/docs/nodejs/reactjs-tutorial 要学习react.js ，还得先安装node.js，我在visual …

阅读更多...

Mysql高级语句（进阶查询语句、数据库函数、连接查询）

Mysql高级语句（进阶查询语句、数据库函数、连接查询）

Mysql高级语句（进阶查询语句、MySQL数据库函数、连接查询一、mysql查询语句1.1、 select ----显示表格中一个或数个字段的所有数据记录1.2、 distinct ----不显示重复的数据记录1.3、where ----有条件查询1.4、 and or ----且或1.5 、in----显示已知的值的数据记录…

阅读更多...

9_分类算法—决策树

9_分类算法—决策树

文章目录 1 信息熵1.1 比特化（Bits）1.2 一般化的比特化（Bits）1.3 信息熵（Entropy）1.3.1 熵越大混乱程度越大 1.4 条件熵H（YIX） 2 决策树2.1 什么是决策树2.2 决策树构建过程&#xf…

阅读更多...

MySQL 索引的作用、索引结构及执行流程介绍（索引篇一）

MySQL 索引的作用、索引结构及执行流程介绍（索引篇一）

索引介绍 MySQL索引（index）是一种用于加快数据库中数据搜索和查询的数据结构。它类似于书籍的目录，可以帮助数据库快速定位和访问特定数据，而无需扫描整个数据表。索引的作用和缺点 1. 加快数据搜索：通过使用索引&…

阅读更多...

《C++ Primer》练习7.31:定义互相嵌套的类

《C++ Primer》练习7.31:定义互相嵌套的类

类可以先声明再定义，可以用下面这个题目理解一下 class Y; class X {Y *y; };class Y {X x; };未出现的类类型要在前面声明。参考《C Primer》

阅读更多...

0x84加密数据传输服务

0x84加密数据传输服务

为了在安全模式下实现一些诊断服务，在服务端和客户端应用程序之间添加了Security sub-layer。在客户端与服务端之间进行诊断服务数据传输有两种方法： 1、非安全模式下数据传输应用程序使用诊断服务(diagnostic Services)和应用层服务原语(Applicati…

阅读更多...

网络-跨域解决

网络-跨域解决

文章目录前言一、跨域是什么？二、跨域的解决1.JSONP2.前端代理dev环境3.后端设置请求头CORS4.运维nginx代理总结前言本文主要介绍跨域问题介绍并提供了四种解决办法。一、跨域是什么？ 准确的来说是浏览器存在跨域问题，浏览器为了安全考…

阅读更多...

pygame实现跳跃发射子弹打怪效果

pygame实现跳跃发射子弹打怪效果

import pygame import sys,time,random from pygame.locals import * pygame.init() # 设置按下鼠标的时候一直触发 pygame.key.set_repeat(10, 10) # 加载背景图片 bg pygame.image.load(./img/bg.png) # 加载左方向行走和站立图片 heroLStand pygame.image.load(img/heroLs…

阅读更多...

IoT 物联网 JavaScript 全栈开发，构建家居环境监控系统实战

IoT 物联网 JavaScript 全栈开发，构建家居环境监控系统实战

智能家居环境监测端到端场景，全栈JavaScript开发，串联Ruff硬件、温湿度和空气质量传感器、阿里云 IoT、Serverless函数计算、百度ECharts可视化、最终以微信小程序形式在微信里实时展示家中实时温度，湿度，PM2.5指数。 01 技术架构…

阅读更多...

嵌入式Linux应用开发-第十一章设备树的引入及简明教程

嵌入式Linux应用开发-第十一章设备树的引入及简明教程

嵌入式Linux应用开发-第十一章设备树的引入及简明教程第十一章驱动进化之路：设备树的引入及简明教程11.1 设备树的引入与作用11.2 设备树的语法11.2.1 1Devicetree格式11.2.1.1 1DTS文件的格式11.2.1.2 node的格式11.2.1.3 properties的格式 11.2.2 dts文件包含 d…

阅读更多...

推荐文章

最新文章