开启视频创作新篇章!腾讯发布MimicMotion:单张图像+简单姿势,瞬间“活”化视频。

news2025/2/22 9:18:17

腾讯和上交发布了一个根据图片生成跳舞视频的项目MimicMotion。效果同时支持面部特征和唇形同步,不止可以搞跳舞视频,也可以做数字人。

MimicMotion方案优化的内容有:

  • 引入基于置信度的姿态引导机制。确保生成的视频在时间上更加连贯流畅。

  • 开发了基于姿态置信度的区域损失放大技术。能够显著减少生成图像中的扭曲和变形。

  • 提出创新的渐进式融合策略。能够在可接受的计算资源消耗下,实现任意长度视频的生成。

相关链接

代码地址:https://github.com/tencent/MimicMotion

论文地址:https://arxiv.org/abs/2406.19680

论文阅读

MimicMotion :利用置信度感知姿势引导生成高质量人体运动视频

摘要

近年来,生成式人工智能在图像生成领域取得了长足进步,催生出各种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临巨大挑战,阻碍了这项技术的应用和普及。本文提出了一个可控的视频生成框架MimicMotion,可以在任意动作引导下生成任意长度的高质量视频。

与以前的方法相比,我们的方法有几个亮点。首先,通过置信度感知的姿势引导,可以实现时间平滑性,从而利用大规模训练数据增强模型鲁棒性。其次,基于姿势置信度的区域损失放大显著缓解了图像的失真。最后,为了生成长而流畅的视频,提出了一种渐进式潜在融合策略。通过这种方式,可以在可接受的资源消耗下生成任意长度的视频。经过大量的实验和用户研究,MimicMotion在多个方面比以前的方法有了显著的改进。

方法

MimicMotion 将图像到视频的扩散模型与新颖的置信感知姿势引导相结合。该模型的可训练组件包括时空 U-Net 和用于引入姿势序列作为条件的 PoseNet。置信感知姿势引导的主要特点包括:1) 姿势序列附有关键点置信度分数,使模型能够根据分数自适应地调整姿势引导的影响。2) 置信度高的区域在损失函数中被赋予更大的权重,从而放大它们在训练中的影响。

置信度感知姿势引导

我们利用姿势指导框架上的亮度来表示姿势估计的置信度。

特定区域手动精炼机

我们实施了一种基于置信度阈值生成掩码的掩码策略。我们取消掩码置信度得分超过预定义阈值的区域,从而识别可靠区域。在计算视频扩散模型的损失时,未掩码区域对应的损失值会按一定比例放大,因此它们可以比其他掩码区域对模型训练产生更大的影响。

逐渐潜在融合以实现时间平滑

我们提出了一种渐进式方法来生成具有时间平滑度的长视频。在每个去噪步骤中,首先使用训练模型对视频片段进行单独去噪,以相同的参考图像和相应的姿势子序列为条件。在每个去噪步骤中,重叠帧(在图中虚线框内标记)根据其帧位置逐步融合。

效果展示

跳舞&谈话

定量评估

我们的方法实现了更好的手部生成质量,并且更准确地遵循参考姿势。请注意,我们的方法不是在 TikTok 数据集上进行训练的。

我们对 TikTok 数据集 seq 338 中的第 106 帧以及连续帧之间的像素差异进行了可视化。MagicPose 表现出突然的过渡,而 Moore 和 MuseV 表现出纹理和文本的不稳定性。相比之下,我们的方法表现出稳定的帧间差异和更好的时间平滑度。

时间平滑度与最先进方法的比较

定量评估

MimicMotion(我们的)在TikTok数据集测试分裂上优于基线方法的偏好。相比其他方法,用户更喜欢MimicMotion。

消融研究

置信度感知姿势引导

这种设计增强了对错误引导信号(姿势 1 和 2)的生成鲁棒性,并提供了可见性提示来解决姿势模糊性(姿势 3)。

手部区域增强

在相同的参考图像和姿势指导下,通过手部增强训练可以持续减少手部扭曲并增强视觉吸引力。

渐进性潜在融合

渐进式潜在融合可实现平滑过渡并避免跨视频片段边界的突然变化,从而增强长视频生成的整体视觉时间连贯性。

结论

在本研究中,我们引入了 MimicMotion,这是一种姿势引导的人体视频生成模型,它利用置信度感知姿势引导和渐进式潜在融合来制作高质量的长视频,其中人体运动由姿势引导。通过大量的实验和消融研究,我们表明我们的模型对嘈杂的姿势估计具有出色的适应性,提高了手部质量并确保了时间平滑度。将置信度得分整合到姿势引导中、增强手部区域损失以及实施渐进式潜在融合对于实现这些改进至关重要,从而产生更具视觉吸引力和逼真的人体视频生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1899933.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python爬虫教程第1篇-基础知识

文章目录 什么是爬虫爬虫的工作原理用途搜索引擎爬虫Robots协议HTTP的请求过程URL的含义HTTP常见请求头爬虫常用的技术 什么是爬虫 信息的交互是通过web网页、或者移动端等不同的客户端端形式进行交互,这个过程是一个人与网路正常的交互行为。而爬虫可以用来模拟人…

二维树状数组区域查询

落谷4514 过关代码如下 #define _CRT_SECURE_NO_WARNINGS #include<bits/stdc.h> using namespace std; //#define int long longconst int N 2050; int t1[N][N], t2[N][N], t3[N][N], t4[N][N]; int lowbit(int x) { return x & (-x); } int n, m; void update(…

将循环转化为递归的三种方法,求1+2+3……+n等差数列

解法一&#xff1a;使用公共变量s&#xff0c;递归循环1~n加到s上 #include<bits/stdc.h> using namespace std; int n,s; void fun(int i){if(i<n){ssi;fun(i1);}}int main(){cin>>n;fun(1);cout<<s;return 0; } 解法二&#xff1a;通过层层累加&#x…

Vue的民族民俗文化分享平台-计算机毕业设计源码22552

基于Vue的民族民俗文化分享平台设计与实现 摘 要 本文介绍了一种基于Vue.js前端框架和Express后端框架的民族民俗文化分享平台的设计和实现。该平台旨在通过线上方式&#xff0c;促进民族民俗文化的传播与分享&#xff0c;增强公众对多元文化的了解和认同。 平台为普通用户提供…

如何第一次从零上传项目到GitLab

嗨&#xff0c;我是兰若&#xff0c;今天想给大家说下&#xff0c;如何上传一个完整的项目到与LDAP集成的GitLab&#xff0c;也就是说这个项目之前是不在git上面的&#xff0c;这是第一次上传&#xff0c;这样上传上去之后&#xff0c;其他小伙伴就可以根据你这个项目的git地址…

L1218-L5298清零软件使用图解

清零前请取消打印任务&#xff0c;打印机用USB线接电脑并开启 双击[Resetter.exe]启动软件,点击[Select],选择Port打印机型号&#xff0c;然后点[OK]&#xff0c;如图。 [如果port下拉列表中找不到你的打印机&#xff0c;请更换USB接口&#xff0c;并重新开打印机重试。] 2.…

C语言自定义类型——联合体、枚举

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、联合体&#xff08;一&#xff09;、联合体的声明&#xff08;二&#xff09;、联合体的特点&#xff08;三&#xff09;、联合体大小的计算&#xff01;&a…

在本地运行React集成TypeScript的项目

首先问ChatGPT&#xff0c;贴一段TypeScript代码&#xff0c;问ChatGPT&#xff1a;要运行以上代码&#xff0c;该怎么操作&#xff1f; ChatGPT给出了详细步骤&#xff0c;下面是实际操作&#xff1a; 创建一个react项目&#xff1a; npx create-react-app yuanyu-timeline …

js函数扩展内容---多参数,函数属性,字符串生成函数

1.多参数 在js中&#xff0c;Math.max()方法可以接受任意数量的参数&#xff0c; Math.max(1,2,3,4);//4 Math.max(1,2,3,4,5,6,7,8,9,10)//10 在max方法里面有一个rest参数&#xff0c;它接受了所有参数全部合成到了一个number数组里面&#xff0c; function rest(a,b,...a…

在Linux系统中配置GitHub的SSH公钥

在Linux系统中配置GitHub的SSH公钥&#xff0c;可以让您无需频繁输入密码即可与GitHub仓库进行交互&#xff0c;提高工作效率。以下是配置步骤: 第一步&#xff1a; 检查SSH密钥是否存在 首先&#xff0c;检查您的用户目录下的.ssh文件夹中是否已有SSH密钥。打开终端&#xff0…

openrestry中的hello world

目录 概述实践部署openrestry脚本效果验证 概述 此篇将在 k8s 运行起一个 openrestry   环境&#xff1a;k8s&#xff1a;1.27.9 &#xff0c;openrestry(docker镜像版本)&#xff1a; 1.25.x &#xff0c;k8s 与 ingress 请参考我的其它文章 离线镜像包请参考&#xff1a;op…

Wish卖家必读:如何安全有效地进行店铺测评

Wish以其独特的商业模式和先进的技术在电商领域独树一帜。作为北美和欧洲最大的移动电商平台之一&#xff0c;Wish拥有庞大的用户基础&#xff0c;其中90%的卖家来自中国&#xff0c;这不仅显示了其在全球电商市场中的影响力&#xff0c;也反映了其对中国卖家的吸引力。 Wish平…

微信小程序UGC类功能场景内容安全识别检测实现方案

概念普及 最近开发了一个小程序&#xff0c;属于同城信息发布类的&#xff0c;提交上架的时候&#xff0c;说需要补充社交-笔记类目。 补充完再次提审&#xff0c;又说是项目包含UGC类功能场景。所谓的UGC类功能&#xff0c;就是指用户可以在平台上自由发布信息&#xff0c;这…

创新引领未来,智慧水利在路上:数字孪生技术为水库管理开辟新机遇,带来新挑战,引领水利行业迈向智能化新纪元

目录 前言 一、数字孪生技术概述 二、新机遇&#xff1a;数字孪生技术如何重塑水库管理 1、精准预测&#xff0c;科学调度 2、智能监测&#xff0c;及时预警 3、优化资源配置&#xff0c;提升管理效率 4、促进公众参与&#xff0c;增强透明度 三、新挑战&#xff1a;数字…

【C语言小知识】getchar与putchar

getchar与putchar getchar介绍putchar介绍总结 在学习c语言阶段存在着许多要求输入数值的例子&#xff0c;在输入字符时&#xff0c;如果使用scanf()和printf()根据%c转换说明读写字符&#xff0c;接下来介绍一堆字符输入/输出函数&#xff1a;getchar()和putchar()。 getchar…

nacos源码 nacos注册中心1.4.x 源码 nacos源码如何下载 nacos 客户端源码下载地址 nacos discovery下载地址(一)

首先&#xff0c;发现很多解读文章对核心点讲解的很多&#xff0c;但是我感觉没讲全&#xff0c;记录下&#xff0c;我自己看源码时候一些心得 1. 读源码第一步&#xff0c;先去github, issue, 官网&#xff1a; 1.1 github : https://github.com/alibaba/…

R语言数据分析案例42-基于时间序列模型对股票预测分析和研究

一、研究背景和意义 随着全球经济的不断发展和数字化转型的加速推进&#xff0c;科技公司在全球市场中扮演着日益重要的角色。其中&#xff0c;中国的阿里巴巴集团作为全球最大的电子商务公司之一&#xff0c;其业务范围覆盖电子商务、云计算、金融科技等多个领域。由于其在中…

盘点各个国家的国宝

中国&#xff1a;熊猫 熊猫已有800万年的历史&#xff0c;和它们同时代的动物都已灭绝&#xff0c;大熊猫生存至今成为“活化石”。 俄罗斯&#xff1a;北极熊 北极熊是世界上最大的陆地食肉动物&#xff0c;体型巨大&#xff0c;性格凶猛。 美国&#xff1a;白头海雕 白头海雕…

python基础语法 006 内置函数

1 内置函数 材料参考&#xff1a;内置函数 — Python 3.12.4 文档 Python 解释器内置了很多函数和类型&#xff0c;任何时候都能直接使用 内置函数有无返回值&#xff0c;是python自己定义&#xff0c;不能以偏概全说都有返回值 以下为较为常用的内置函数&#xff0c;欢迎补充…

docker 重要且常用命令大全

本文将总结一些常见的重要的docker命令&#xff0c;以作备忘。后续如果有新的比较常用重要的也会更新进来。欢迎补充。 docker服务管理 首先我们要解释一下&#xff1a;systemctl和docker命令的不同 systemctl&#xff1a;是许多 Linux 发行版中默认的初始化系统和服务管理器。…