继阿里EMO后,腾讯也提出了AniPortrait:用于生成由音频和参考肖像图像驱动的高质量动画

news2025/1/12 5:59:37

腾讯提出了一种新颖的框架-AniPortrait,用于生成由音频和参考肖像图像驱动的高质量动画。通俗讲,就是给张照片生成说话的视频。类似阿里的EMO,大家先可以简单看下效果。

相关链接

  • 论文:arxiv.org/abs/2403.17694

  • 代码:github.com/Zejun-Yang/AniPortrait

  • Jupyter:github.com/camenduru/AniPortrait-jupyter

论文阅读

AniPortrait:逼真的人像动画的音频驱动合成

摘要

这项研究提出了一个新的框架:AniPortrait。生成由音频和参考肖像图像驱动的高质量动画。方法分为两个阶段。

最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中。

随后,我们采用鲁棒的扩散模型,结合运动模块,将地标序列转换为逼真且时间一致的肖像动画。

实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面的优越性,从而提供了增强的感知体验。

此外,我们的方法在灵活性和可控性方面表现出巨大的潜力,可以有效地应用于面部运动编辑或面部重演等领域。

方法

提出的方法概述:框架分为两个阶段。 首先,从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到2D关键点中。在第二阶段,使用扩散模型将2D关键点转换为人像视频。这两个阶段是同时在框架内进行训练。

提出的框架包括两个模块:

  • Audio2Lmk:目的是提取一系列的地标,捕捉错综复杂的来自音频输入的面部表情和嘴唇动作。

  • Lmk2Video:利用了这个具有里程碑意义的序列,以产生高质量的肖像视频与时间的稳定性。

结果展示

AniPortrait方法生成一系列的动画在质量和现实主义两方面都引人注目。利用一个中间的三维表示AniPortrait可以编辑它以操纵最终输出。例如AniPortrait可以从来源中提取地标并更改其ID,从而能够创建面部重现效果。

结论

本研究提出了一种基于扩散模型的肖像动画框架-AniPortrait。通过简单地输入一个音频剪辑和一个参考图像,框架能够生成一个肖像视频,具有平滑的嘴唇运动和 自然的头部运动。

感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1565875.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【技术访谈】与Babbage项目团队畅谈BSV区块链的新代码库

​​发表时间:2024年3月12日 BSV区块链协会近期宣布上线了JavaScript和TypeScript SDK,后者旨在为开发者提供先进的统一核心代码库,以便利开发者在BSV区块链上开发具备可扩展性的应用程序。 新上线的SDK替代了此前被广泛使用的、但已长期不再…

家用洗地机如何选?四款2024高性能洗地机力荐

家庭清洁是每个家庭都需要面对的日常任务,而一款高效、实用的洗地机能够极大地减轻我们的清洁负担。然而,在众多洗地机品牌和型号中选择一款适合自己的产品并不容易。本文将为您提供一份全面的洗地机选购指南,帮助您了解各种洗地机的特点和功…

el-form表单去除部分校验结果

需求说明 如图: 当点击右边的叉时, 需要删除这个输入框,删除这个输入框只需要一个变量就可以解决。 但使用v-show的方式去除这个输入框的时候,但下面的校验信息却没有消失 解决方法 找了半天,表单局部重置的方法&a…

收下这份地表最强参会指南,4月16日,玩转百度Create大会不迷路

欢迎来到英杰社区: https://bbs.csdn.net/topics/617804998 欢迎来到阿Q社区: https://bbs.csdn.net/topics/617897397 📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步&#xff…

windows qt打包保姆级教学

windows qt打包保姆级教学 简述打包打包进阶 简述 在windows下开发的qt程序,想在其他windows计算机上运行,而那个计算机没有qt环境,执行时候会报错各种dll找不到,那么就需要将自己开发的qt程序和用到的库打包。 打包 这里先编译…

Transformer的代码实现 day03(Positional Encoding)

Positional Encoding的理论部分 注意力机制是不含有位置信息,这也就表明:“我爱你”,“你爱我”这两者没有区别,而在现实世界中,这两者有区别。所以位置编码是在进行注意力计算之前,给输入加上一个位置信息…

真·面试题总结——JVM虚拟机

JVM虚拟机 JVM虚拟机规范与实现 JVM虚拟机规范 JVM虚拟机实现 JVM的常见实现 JVM虚拟机物理架构 JVM虚拟机的运转流程 JVM类加载过程 JVM类加载器及类加载器类型 JVM类加载器双亲委派机制 JVM运行时数据区的内存模型 JVM运行时数据区的内存模型:程序计数器…

使用OpenCV4.9的随机生成器和文本

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV 4.9基本绘图 下一篇:OpenCV系列文章目录(持续更新中......) 目标 在本教程中,您将学习如何: 使用随机数生…

Java中的可变字符串

Java中的可变字符串 一、什么是可变字符串二、可变字符串的使用场景以及使用步骤1.新建一个可变字符串2.可变字符串的一系列方法 一、什么是可变字符串 可变字符串是Java.lang包下的 在我们学习到JDBC的时候需要将原有的sql语句根据不同的差异添加一段新的关键字或者单词&…

C语言_第一轮笔记_指针

8.1 密码开锁 地址和指针 一般以变量所在的内存单元的第一个字节的地址作为他的地址NULL的值为0,代表空指针 指针变量的定义 类型名 *指针变量名类型名指定指针变量所指向变量的类型指针声明符*在定义指针变量时被使用,说明被定义的那个变量是指针指针变…

护眼台灯十大排名品牌有哪些?2024护眼台灯十大排名品牌推荐

在当今的教育环境中,学生们面临着相当沉重的学业压力。放学后,许多孩子便投入到无休止的作业之中,常常夜深人静时还未完成。作为家长,孩子的视力健康自然成为了我们心中的一块大石。夜间学习时,灯光的质量至关重要。标…

批量转换图片神器,支持tiff图片转换成png格式,图片高效转换

在数字图像处理领域,格式转换一直是关键且必要的环节。尤其对于设计师、摄影师、网站开发者等专业人士来说,能够快速、高效地将图片从一种格式转换为另一种格式,是提升工作效率和保障项目质量的关键。今天,我们荣幸地向您推荐一款…

低压配电室数字孪生实现区域内的无人值守

众所周知,电力设备的精益管控、精益检修与精益维护对于电网智慧化转型的重要性。因此数字孪生公司深圳华锐视点利用精湛的数字孪生、虚拟仿真、3D建模和图形图像技术,集成数据采集、监控预警、计划维护、数据分析、决策支持等核心模块,为电力…

从零开始构建gRPC的Go服务

介绍 Protocol Buffers and gRPC是用于定义通过网络有效通信的微服务的流行技术。许多公司在Go中构建gRPC微服务,发布了他们开发的框架,本文将从gRPC入门开始,一步一步构建一个gRPC服务。 背景 之前在B站看过一个gRPC教学视频,…

Linux进程控制(改)

Linux进程控制 进程 内核数据结构(struct task_struct,struct mm_struct,页表) 代码和数据 在Linux中fork函数时非常重要的函数,它从已存在进程中创建一个新进程。新进程为子进程,而原进程为父进程 1.进程创建 ./程序fork&am…

GPS坐标转换为百度地图坐标并显示到百度地图上

百度地图有个坐标识取系统:https://api.map.baidu.com/lbsapi/getpoint/index.html,打开链接如下: 如上图,可以搜索某一个位置,然后会出现该位置的许多选择,选择一个就会显示出对应的百度地图的坐标&#x…

抖音小店正确的起店方法是什么?别再闭门造车了,快来学习!

大家好,我是电商糖果 随着抖音卖货的火爆的,开抖音小店的商家也越来越多。 很多没有电商经验的朋友就发现,想要起店非常难。 有的好一两个月了,都不出单。 糖果做抖音小店有四年时间了,也经营了多家小店。 这里就…

从零开始:如何进入IT行业

微信扫码体验我自己做的小程序(很有意思哦~~【坏笑】): 随着科技的飞速发展,IT行业已经成为了许多人梦寐以求的职业之一。不过,对于那些没有任何相关经验或技能的人来说,进入这个领域…

坦克大战_java源码_swing界面_带毕业论文

一. 演示视频 坦克大战_java源码_swing界面_带毕业论文 二. 实现步骤 完整项目获取 https://githubs.xyz/y22.html 部分截图 启动类是 TankClinet.java,内置碰撞检测算法,线程,安全集合,一切皆对象思想等,是java进阶…

filetype: python中判断图像格式库imghdr替代库

引言 imghdr库是python中的一个内置库,用来判断图像原本格式的。自己一直有在用,不过近来看到这个库在python 3.13中会被移除。 自己感觉一直被python版本赶着走。这不找了好久,才找到一个替代库–filetype Python各个版本将要移除和可替代…