打破视频生成难题,腾讯提出 MimicMotion引领AI模仿人体动作新纪元

news2024/12/23 14:03:23

ce37bd17fd1ecb723b30f150a87edb01.jpeg

该论文提出了一种可控的视频生成框架MimicMotion,能够生成高质量且任意长度的视频,模仿特定的运动指导。该研究引入信心感知姿势指导,确保视频帧的高质量和时间平滑性。同时,还引入了基于姿势信心的区域性损失放大策略,显著减少了图像失真。此外,为了生成长而平滑的视频,该研究还提出了一种渐进式潜在融合策略。总的来说,该研究在视频生成方面取得了显著的改进和突破。

  地址:https://arxiv.org/pdf/2406.19680

  代码:https://tencent.github.io/MimicMotion

97d9feba459a129b55a8da6622cc5585.jpeg


MimicMotion框架介绍

MimicMotion是一个创新的视频生成框架,专注于通过模仿特定的动作引导来生成任意长度的高质量视频。与以往的方法相比,MimicMotion具有几个显著的特点。首先,它引入了置信感知的姿态引导,确保了高帧质量和时间平滑性。其次,基于姿态置信度的区域损失放大显著减少了图像失真。最后,为了生成长时间和平滑的视频,我们提出了一种渐进式潜在融合策略。通过这种方法,我们可以在可接受的资源消耗下生成任意长度的视频。

77078c0046f1b3f8b211cdbd2f5bf190.jpeg

MimicMotion利用置信感知的姿态引导和图像参考来生成视频。这种方法不仅包含丰富的图像细节,而且还遵循参考图像和姿态引导。通过引入置信度的概念到姿态序列表示中,可以实现更好的时间平滑性,并且也可以缓解图像失真。此外,我们提出了一种用于实现长时间但仍然平滑视频生成的渐进式潜在融合方法。通过生成具有重叠帧的视频片段,我们的模型可以处理任意长度的姿态序列引导。通过合并生成的视频片段,最终的长视频同时可以具有良好的跨帧平滑性和图像丰富性。

f6587c096e96b8644cb43a85fd3a8e96.jpeg

置信感知姿态引导的重要性

在动态视频中,从图像中准确估计姿态是一项挑战。动态外观和运动的固有不确定性使得姿态估计充满挑战。不准确的姿态引导信号可能会误导模型,导致生成不准确或扭曲的输出。此外,嘈杂的姿态引导信号可能导致在包含不正确姿态的样本上过拟合,可能导致训练不稳定。这反过来可能会阻碍模型从扩展的训练时间表中受益。

为了解决这个问题,我们提出了置信感知姿态引导,利用姿态估计模型与每个关键点相关联的置信分数。这些分数反映了准确检测的可能性,数值较高表示可见性高、遮挡少和运动模糊少。我们使用亮度在姿态引导帧上表示姿态估计的置信水平。具体来说,我们将分配给每个关键点和肢体的颜色乘以其置信分数。因此,置信分数较高的关键点和相应的肢体在姿态引导图上会显得更加突出。这种方法使模型在其引导中优先考虑更可靠的姿态信息,从而提高了姿态引导生成的整体准确性。

此外,我们还利用姿态估计和相关的置信分数来缓解特定区域的伪影,例如手部扭曲,这在基于扩散的图像和视频生成模型中很常见。通过设置阈值,我们可以区分出置信度高的关键点和由于遮挡或运动模糊可能不准确的关键点。超过阈值的关键点被认为是可靠的。我们实施了一种掩码策略,根据置信阈值生成掩码。我们取消掩码那些置信分数超过预定义阈值的区域,从而识别出可靠的区域。在计算视频扩散模型的损失时,未掩蔽区域的损失值会被放大一定的比例,从而在模型训练中比其他掩蔽区域产生更大的影响。

长视频生成技术

在视频生成领域,尽管已有多种技术尝试解决长视频生成的问题,但大多数现有方法仍然面临着视频质量下降和时间连贯性缺失的挑战。为了克服这些限制,我们提出了一种新的长视频生成框架,名为MimicMotion,它采用了置信度感知的姿态引导渐进式潜在融合策略,以生成高质量的长视频。

1. 置信度感知的姿态引导

在传统的视频生成方法中,姿态估计的不准确性常常导致生成的视频质量不佳。为了解决这一问题,我们引入了置信度感知的姿态引导。通过将姿态估计模型(如DWPose)生成的关键点置信度分数整合到姿态表示中,我们的模型能够根据置信度分数动态调整姿态引导的影响力。这种方法不仅减少了由于姿态估计不准确而引起的视频质量问题,还通过强化高置信度区域(如手部区域)的训练损失,显著提高了手部等细节的生成质量。

2. 渐进式潜在融合

为了生成长视频,我们采用了一种名为渐进式潜在融合的策略。这种方法首先将视频分割成多个时间段,每个时间段包含一定数量的帧,并在相邻时间段之间设置重叠的帧。在生成过程中,我们分别对每个时间段的潜在特征进行去噪,然后通过渐进式融合这些特征,以确保时间段之间的平滑过渡。这种策略有效地减少了视频段之间的突变和闪烁,从而提高了视频的整体时间连贯性。

ed23fccf27540558a98153078dcc16eb.jpeg

通过这两种技术的结合,MimicMotion能够生成既长又平滑的高质量视频,显著优于现有的视频生成方法。

实验设计与数据准备

为了训练和验证我们的MimicMotion模型,我们进行了详尽的实验设计和数据准备工作。

1. 数据收集与预处理

我们首先收集了多种包含人类动作的视频数据集,这些视频涵盖了从简单的日常动作到复杂的舞蹈动作。每个视频都被分割成帧,并进行了大小调整和裁剪以符合模型输入的要求。对于每个视频帧,我们使用DWPose模型提取姿态信息,并将这些信息与相应的视频帧一起作为模型的输入。

2. 模型训练

在模型训练阶段,我们利用预训练的图像到视频的扩散模型作为基础,通过在此基础上增加置信度感知的姿态引导和渐进式潜在融合技术,来训练我们的MimicMotion模型。训练过程中,我们特别关注于优化模型对于长视频生成的能力,以及在生成过程中保持高质量和时间连贯性。

通过这样的实验设计和数据准备,我们的MimicMotion模型不仅能够生成视觉上吸引人的长视频,还能确保视频内容的动态连贯性和细节的丰富性,满足实际应用中对长视频生成的需求。

性能评估与比较

1. 性能评估

MimicMotion的性能评估主要通过与现有的最先进方法进行比较来完成。这些方法包括MagicPose、Moore-AnymateAnyone和MuseV。通过在TikTok数据集的特定序列上进行测试,我们能够进行定性和定量的比较。定性评估显示,我们的方法在单帧质量和时间平滑性方面均优于其他方法。特别是在手部生成质量和对参考姿势的精确遵循方面,MimicMotion展示了显著的改进。

定量评估使用FID-VID和FVD指标进行,结果显示MimicMotion在这两个指标上均优于其他所有方法。这些结果不仅证明了我们方法的有效性,也显示了在处理动态视频生成时,对姿势估计的准确性和时间连贯性的改进。

70a1e3bf1176ac1fe3f639594a71304f.jpeg

8101b36acea438a3d4cdf7808d27a439.jpeg

2. 用户研究与市场反馈

为了进一步验证MimicMotion的实用性和用户接受度,我们进行了用户研究。这项研究涉及向参与者展示由我们的方法生成的视频与其他基线方法生成的视频。参与者需要选择他们认为质量更高的视频,考虑因素包括图像质量、闪烁和角色及服装的时间平滑性。

研究结果表明,绝大多数参与者更喜欢我们的方法生成的视频。尽管MuseV在图像质量方面表现较好,但在视频生成的总体偏好中,我们的方法仍然达到了75.5%的偏好率。这些反馈强化了我们的定性和定量评估结果,证明了MimicMotion在高质量人类视频生成方面的有效性。

通过这些综合评估,MimicMotion证明了其在动态视频生成领域的领先地位,特别是在处理长视频和复杂动作时的能力。

7709aaf1c8b38c949e52568e852046d6.jpeg

d24b717981315663c4257afcb0436f16.jpeg

挑战与未来方向

1. 挑战

尽管人工智能在图像生成领域取得了显著进展,视频生成仍面临诸多挑战。首先,视频生成需要高质量的图像和无缝的时间平滑性,这对技术提出了更高的要求。其次,控制生成内容并扩展到较长的长度而不影响质量,对于实际应用至关重要。此外,由于计算限制和模型能力,生成包含大量帧的高质量长视频仍然是一个重大挑战。

2. 未来方向

为了解决这些问题,我们提出了一系列方法,包括信心感知的姿势引导和渐进式潜在融合策略。这些方法不仅可以提高帧的质量和时间平滑性,还可以在接受的资源消耗下生成任意长度的视频。此外,我们的方法基于一般预训练的视频生成模型,这减少了模型训练的成本,并且不需要大量的训练数据或特殊的手动注释。

总结

本研究引入了MimicMotion,一个以姿势引导的人体视频生成模型,该模型利用信心感知的姿势引导和渐进式潜在融合策略,生成高质量的长视频。通过广泛的实验和消融研究,我们展示了我们的模型在适应噪声姿势估计、提高手部质量和确保时间平滑性方面的优越性。信心分数的整合到姿势引导中、手部区域损失的增强以及渐进式潜在融合的实施,是实现这些改进的关键,结果是更具视觉吸引力和现实感的人体视频生成。

6a0c228701bff118b73551d09c3a630e.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1988333.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

hashmap底层原理(数据结构 put原理 get原理 remove原理)

目录 一、数据结构 二、put原理 进入put方法 第一步:通过 HashMap 自己提供的hash 算法算出当前 key 的hash 值 第二步: 进入putVal(hash(key), key, value, false, true) 第三步: resize 完整源码 putval resize 流程图​ 三、get原…

如何不需要通过试单(多单未成功)来关闭被禁用的PayPal账号

轮询自检系统 可以最大程度不浪费订单,当你的PayPal被禁止收单时,无需通过试单(多单不成功)功能来关闭你的账号,极大的保证订单的成功率。 除了在接单时候系统自检,我们还提供一个批量检测PayPal账号系统,可大批量的检…

【运维自动化-配置平台】平台管理功能如何使用

蓝鲸智云配置平台,以下简称配置平台 配置平台里的平台管理功能是管理员的一些操作,比如一些全局纬度的设置1、全局配置-业务通用 业务快照名称:通常不需要修改,保持平台搭建好默认业务(蓝鲸)即可 拓扑最大…

主从备份及安装准备

主从复制 学习内容 1. 备份的三种类型 1. 热备份 2. 逻辑备份 3. 物理备份 2. 情景 ⼊职企业,发现企业架构为⼀主多从,但是两台从服务器和主库不同 步,但是每天会全库北⽅主服务器上的数据到从服务器,由于数据量 不是很⼤&a…

C++校园线上点餐系统-计算机毕业设计源码82032

摘要 本论文旨在设计并实现一种基于C语言的校园线上点餐系统,以解决校园内学生和教职员工点餐的便利性问题。该系统采用C语言作为主要开发语言,结合文件操作、数据结构和用户界面设计等技术,实现了一个功能完善的点餐系统。 论文介绍了校园线…

【书生大模型实战营第三期 | 基础岛第2关-8G 显存玩转书生大模型 Demo】

学习心得:8G 显存玩转书生大模型 Demo 摘要 本文是对《8G 显存玩转书生大模型 Demo》文档的学习心得。通过阅读文档,我了解了如何在有限的硬件资源下部署和使用大型语言模型,包括InternLM2-Chat-1.8B、InternLM-XComposer2-VL-1.8B和Intern…

langchain实现大模型结构化输出

文章目录 前言大模型对话函数返回列表格式返回对象类型返回对象格式(信息抽取)返回json格式做选择题(在给定答案中选一个答案) 前言 这里大模型使用GLM4。 结构化输出的稳定性与大模型的能力挂钩 听话的就容易出 不听话的就容易报…

SQL布尔盲注

目录 1 布尔盲注 2布尔盲注流程 2.1输入id进行测试 2.2判断注入类型 2.3爆数据库名 2.4爆表名 2.5爆字段名 2.6查询数据 1 布尔盲注 布尔盲注就是在SQL注入过程中,SQL语句执行后,查询到的数据不能回显到前端页面,如果正确执行了构造的…

连接一切:Web3如何重塑物联网的未来

传统物联网的挑战 物联网(IoT)正在迅速改变我们的世界,通过将各种设备连接到互联网,它使得设备能够相互交流,提供智能化的服务和解决方案。然而,随着物联网的迅猛发展,安全性、隐私保护和设备互…

C++ primer plus 第17 章 输入、输出和文件:文件输入和输出05:文件模式:内核格式化

C primer plus 第17 章 输入、输出和文件:文件输入和输出05:文件模式:内核格式化 C primer plus 第17 章 输入、输出和文件:文件输入和输出05:文件模式:内核格式化 17.5 内核格式化 程序清单 17.21 strout.cpp 文章目录 C primer plus 第17 章 输入、输…

第41届CCF

第41届CCF中国数据库学术会议 NDBC2024中国乌鲁木齐 《电信领域数据库新需求与挑战》分论坛介绍 2024年08月09日上午09:00-12:30 电信领域进入算力网络时代,数据库国产化需求迫切,对数据库可用性、扩展性、一体化、多模、跨域传输和调度等提出新的要求。基于此,本论坛重点讨…

UE5 右键菜单缺少Generate Visual Studio project files

前言 在安装完毕 ue5 后,看到别人右键菜单有 多出来的三个选项 ,但是我却没有,如下图: 解决方式 1、在 “C:\Program Files (x86)\Epic Games\Launcher\Engine\Binaries\Win64” 路径下有 UnrealVersionSelector.exe 文件。 …

fme从json中提取位置到kml中

fme从json中提取位置到kml中 简单参考,我自己要用的,越弄越复杂。 概述-模板总体结构 数据就是官方提供的数据,模板的基本节结构是读模块+转换器+写模块,最近爬取一些json文件,用到了。 1.使用json读模块读取数据 首先检查一下源数据 使用文本打开数据集,可以看到非缩…

压电雨量传感器的工作原理

型号推荐:云境天合TH-Y1】压电动能式雨量计通过雨滴撞击传感器产生的微小形变,将机械能转化为电能。这种转化过程基于压电效应,即某些材料在受到压力作用时会产生电荷,从而产生电信号。雨滴撞击传感器时,传感器发生形变…

写给大模型新人的经验,刷到少走三年弯路!

这篇文章,我将结合自己在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道? 比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的…

扩散模型系列笔记(一)——DDPM

直观理解 扩散模型分为前向过程(扩散过程,Data → \to →Noise)和后向过程(生成过程或逆扩散过程,Noise → \to →Data)。在前向过程中,对于每一个观测样本,不断向样本中添加少量噪…

智能编程新纪元:腾讯AI代码助手的高效编程体验

智能编程新纪元:腾讯AI代码助手的高效编程体验 智能编程新纪元:腾讯AI代码助手的高效编程体验引言一、配置开发环境二、AI助手实现高效编程2.1 AI助手自动补全2.2 AI助手实现编程思维2.3 AI助手高效注解2.4 AI助手打破语言壁垒 三、帮助和提升四、优化和…

【CSS入门】第一课 - CSS内容都可以写在哪里?

从这一小节开始,我们开始学习CSS的内容。之前都是学习的HTML标签,还用几节课的时间做了纯HTML标签的实战。 但是只用纯HTML标签做出来的东西呢,不是那么好看,而且你看那么多网站,没有哪个网站只用纯HTML标签做东西的&…

游戏加速器推荐

游戏加速器推荐,玩游戏用什么加速器!我得给你推荐一款我常用的。 首先呢,就是深度加速器,它针对目前手游网游的游戏加速效果特别棒,而且界面也很友好。 另外,还有深度加速器,这款加速器不仅支持…

springboot青少年科普平台-计算机毕业设计源码76194

摘 要 对于搭建一个青少年科普平台,您可以考虑使用Spring Boot作为后端框架。Spring Boot是一个能够简化Spring应用开发的框架,能够帮助您快速搭建稳定、高效的后端服务。您可以利用Spring Boot的特性来构建一个可靠的数据服务,用于展示和传播…