超越AnimateAnyone, 华中科大中科大阿里提出Unimate,可以根据单张图片和姿势指导生成视频。

news2024/11/25 0:34:28

阿里新发布的UniAnimate,与 AnimateAnyone 非常相似,它可以根据单张图片和姿势指导生成视频。项目核心技术是统一视频扩散模型,通过将参考图像和估计视频内容嵌入到共享特征空间,实现外观和动作的同步。

相关链接

项目:unianimate.github.io

论文:arxiv.org/abs/2406.01188

代码:github.com/ali-vilab/UniAnimate

论文阅读

利用统一视频传播模型实现一致的人体图像动画

摘要

最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。

尽管如此,仍然存在两个限制:

  • 需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;

  • 生成的视频通常时间较短(例如24帧),阻碍了实际应用。

为了解决这些缺点,我们提出了一个 UniAnimate 框架来实现高效和长期的人体视频生成。

首先,为了降低优化难度并确保时间连贯性,我们通过结合统一的视频扩散模型将参考图像与姿势指导和噪声视频一起映射到一个共同的特征空间中。

其次,我们提出了一种统一的噪声输入,它支持随机噪声输入以及第一帧条件输入,从而增强了生成长期视频的能力。

最后,为了进一步有效地处理长序列,我们探索了一种基于状态空间模型的替代时间建模架构,以取代原始的计算耗时的 Transformer。

大量实验结果表明,UniAnimate 在定量和定性评估中都取得了优于现有最先进技术的合成结果。值得注意的是,UniAnimate 甚至可以通过迭代采用第一帧调节策略来生成高度一致的一分钟视频。代码和模型将公开提供。

方法

所提出的 UniAnimate 的整体架构。

首先,我们利用 CLIP 编码器和 VAE 编码器提取给定参考图像的潜在特征。为了便于学习参考图像中的人体结构,我们还将参考姿势的表示纳入最终的参考指导中。

随后,我们使用姿势编码器对目标驱动姿势序列进行编码,并将其与沿通道维度的噪声输入连接起来。噪声输入来自第一帧条件视频或噪声视频。

然后,将连接的噪声输入与参考指导沿时间维度堆叠,并输入到统一视频扩散模型中以消除噪声。统一视频扩散模型中的时间模块可以是时间 Transformer 或时间 Mamba。

最后,采用 VAE 解码器将生成的潜在视频映射到像素空间。

实验

为合成模型角色制作动画

真实模型角色动画

制作粘土风格角色动画

人物:Yann LeCun & Elon Musk

动画其他跨域角色

更多

结论

在本文中,我们介绍了 UniAnimate,这是一种用于生成高保真、时间平滑的人体图像动画视频的新方法。通过引入统一视频扩散模型、统一噪声输入和时间 Mamba,我们解决了现有方法的外观错位限制,并提高了视频生成质量和效率。大量实验结果定量和定性地验证了所提出的 UniAnimate 的有效性,并强调了其在实际应用部署中的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1846144.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode 二分查找·系统掌握 寻找旋转排序数组中的最小值II

题目: 题解: 本题比普通的寻找旋转排序数组中的最小值多了一个数组中的元素可以重复这一点。 这会时原来的思路出现一个漏洞(大家感兴趣可以看看我做普通版寻找旋转排序数组最小值的思路),就是旋转后的数组中的第二个…

【AI】AI在创造还是毁掉音乐?

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

Vue3插件安装

一、volar插件安装 volar:Vue文件的语法提示和高亮提醒。volar已经更名为Vue - Official,其安装步骤如下。 (1)打开vscode,点击扩展面板,在搜索窗口中输入volar,选择Vue - Official进行安装。 (2&#xff0…

公网内网IP地址如何申请SSL证书实现HTTPS加密?

公网或者内网IP地址如果要实现HTTPS加密,必须申请特定的IP地址SSL证书。个人或者企业都可以申请。下面是IP地址SSL证书申请流程 IP SSL证书-JoySSLhttps://www.joyssl.com/certificate/select/ip_certificate.html?nid16 1 访问CA 登录提供IP地址证书的服务商—…

【MAUI】resource xml/file_paths (aka com.xxx.xxx:xml/ file _paths) not found.

APP2260:resource xml/file_paths (aka com.zettlercn.wms:xml/ file _paths) not found. This error is likely caused by an issue with the AndroidManifest.xml file or an Android manifest generation attribute in a source code file MAUI从6.0升级到8.0,调试发现资源…

程序猿大战Python——面向对象——面向对象的概念

两个重要概念 目标:了解什么是类,什么是对象? 要掌握Python面向对象的特性,首先需要了解两个重要概念:类、对象。 我们通过公司职员-张三为例子来解释说明。 类是抽象的概念,指的是:对某些事物…

学会python——获取文件信息(python实例八)

目录 1、认识Python 2、环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3、获取文件信息 3.1 代码构思 3.2 代码示例 3.3 运行结果 4、总结 1、认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的…

JavaWeb——Mysql的启动/登录/卸载

目录 1.Mysql服务器 2.Mysql的简单使用 2.1 启动Mysql: 2.2 登录Mysql 2.3 退出 3. 连接别人的数据库 4.卸载mqsql 1.Mysql服务器 安装了Mysql的计算机都成为Mysql服务器 2.Mysql的简单使用 2.1 启动Mysql: 第一种方法:搜索服务&am…

【QCustomPlot实战系列】QCPGraph堆叠面积图

在【QCustomPlot实战系列】QCPGraph堆叠图的基础上,使用setChannelFillGraph函数即可 static QCPScatterStyle GetScatterStyle(const QColor& color) {QPen pen(color, 2);return QCPScatterStyle(QCPScatterStyle::ssCircle,pen,Qt::white, 5); }static QCP…

【无线感知】【P4】无线感知手势识别- WIFI 感知边界

前言: 这篇是北大2022 在Ubicomp 上面的论文 《placement Matters: understanding the Effects of Device placements for WiFi Sensing》 放置很重要:了解设备放置对WiFi传感的影响 目录: 简介 感知质量定义(SSNR…

uniapp小程序button按钮去掉黑色线条

文章目录 导文去除方法 导文 在uniapp的button按钮中有一个莫名其妙的黑色线条 去除方法 button::after{border: none; }该问题并不是所有的手机机型都有,最好添加一下,以防用户手机端样式有问题。 您好,我是肥晨。 欢迎关注我获取前端学习…

LPD6803是专为LED(LED)灯光系统设计的驱动芯片

一般简介: LPD6803是专为LED(LED)灯光系统设计的驱动芯片,它采用先进的高压CMOS芯片工艺,提供三路恒流驱动和灰度调制输出,特别适合离散的多灰度全彩色灯光系统。 LPD6803芯片包括串行移位寄存器和级联驱动电路,灰度数据在时钟…

9.0分下跌至2.5分!110本SSCI影响因子下降!经济学领域SSCI最新IF汇总!

【欧亚科睿学术】 2023影响因子:经济学 1 影响因子概况 在170本经济学领域SSCI期刊中,有60本SSCI期刊2023年影响因子上涨。其中,期刊ECONOMIC POLICY由原来的2.5增长到了4.5,涨幅为2.0,也是经济学领域涨幅最大的SSCI…

【日记】梦到兄长要给鳄鱼换牙齿……(421 字)

正文 今天中午睡了一个小时多一点,做了一个很奇怪的梦。梦见兄长要给一条鳄鱼换牙齿,还说早上不好操作,要三天之后的中午或晚上,颇有一种翻黄历寻个良辰吉日之感。但我没那样大的耐性,便捏住鳄鱼的嘴,左摔右…

如何编写基本的Java程序

安装Java Development Kit(JDK)是开发Java应用程序的第一步。 1.下载JDK Java程序必须运行在JVM上,我们第一件事情就是安装JDK。 1.下载地址:Java Downloads | Oraclehttps://www.oracle.com/java/technologies/downloads/#jdk…

利用Java easyExcel库实现高效Excel数据处理

在Java应用程序中,处理Excel文件是一项常见任务,尤其是在需要读取、写入或分析大量数据时。easyExcel是一个基于Java的高性能Excel处理库,它提供了简洁的API和优化的性能,以简化Excel文件的处理。本文将指导您如何使用easyExcel库…

docker curl:(56) Recv failure: Connection reset by peer

docker容器启动后,查看日志未发现错误,通过查询和分析,发现是期望容器打开的端口与容器实际打开的端口不一致导致。 1)docker run -itd -p 8082:8082 vulfocus/log4j2-rce-2021-12-09:latest 2)curl localhost:8082 …

“湖仓一体架构及其应用”写作框架,系统架构设计师

论文真题 随着5G、大数据、人工智能、物联网等技术的不断成熟,各行各业的业务场景日益复杂,企业数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式增长趋势。在这一背景下,企业数据管理不再局限于传统的结构化OLTP…

性能不降反增?缩减率2.64的伪图索引为何有助于RAG

论文题目: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning 作者单位: 中国人民大学(RUC),上海算法创新研究院(IAAR) 论文地址: h…

微信公众号多域名回调系统V1.5 源码

这是一款基于ThinkPHP6.0开发的微信公众号多域名回调系统。本系统有如下功能: 微信公众号多域名回调功能:微信公众号后台默认只能授权2个网页域名,用本系统突破这个限制,用同一个公众号对接无限多个网站。网站后台支持回调域名白…