复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。

news2024/11/26 11:27:07

之前和大家介绍过阿里的EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。感兴趣的小伙伴可以点击下面链接阅读。

近日,复旦发布了一个开源版本的 EMO。

通过输入音频让面部照片开始说话,并且有对于的表情。看起来效果很自然。

采用端到端的扩散范式,引入了分层的音频驱动视觉合成模块,以提高音频输入与视觉输出之间的对齐精度,包括唇部、表情和姿势的运动。

分层音频驱动的视觉合成模块提供了对表情和姿势多样性的自适应控制,更有效地实现了针对不同身份的个性化定制。

相关链接

论文地址:https://arxiv.org/pdf/2406.08801

代码地址:https://github.com/fudan-generative-vision/hallo

试用链接:https://huggingface.co/fudan-generative-ai/hallo

论文阅读

Hallo:用于肖像图像动画的分层音频驱动视觉合成

摘要

由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势运动。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。所提出的分层音频驱动的视觉合成提供了对表情和姿势多样性的自适应控制,从而能够针对不同身份进行更有效的个性化。通过结合定性和定量分析的综合评估,我们的方法在图像和视频质量、嘴唇同步精度和运动多样性方面表现出明显的增强。

方法

方法概述。具体来说,我们集成了一个参考图像 包含具有相应音频输入的肖像以驱动肖像动画。可选的视觉合成重量可以用来平衡嘴唇,表情和姿势的重量。ReferenceNet编码全局视觉纹理信息一致和可控的角色动画。人脸和音频编码器生成高保真肖像身份特征,并将音频编码为运动信息。层次化视听合成模块建立关系在视听之间。

可视化的层次化听觉驱动视觉合成与对比分析, 对视听交叉注意在原全法和我们提出的分层法之间进行了比较。

效果

与现有方法在HDTF数据集上的定性比较。

在CelebV数据集上与现有方法的定性比较。

在不同的肖像风格下,提出的方法的视频生成结果。

给出不同音频风格的视频生成结果。

结论

本文介绍了一种使用端到端扩散模型进行肖像图像动画的新方法,解决了音频驱动面部动态同步和具有时间一致性的高质量动画生成方面的挑战。所提出的分层音频驱动视觉合成模块通过交叉注意机制和自适应加权增强了视听对齐。通过集成基于扩散的生成建模、UNet 去噪、时间对齐和 ReferenceNet,该方法提高了动画质量和真实感。实验评估证明了卓越的图像和视频质量、增强的唇部同步和增加的运动多样性,并通过卓越的 FID 和 FVD 指标进行了验证。该方法允许灵活控制表达和姿势多样性,以适应不同的视觉身份。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1832603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

示例:WPF中绑定枚举到ComboBox的方式

一、目的:在开发过程中,经常会需要把枚举绑定到ComboxBox下拉列表中,其实方法有很多,这里面通过MarkupExtension扩展GetEnumSourceExtension去绑定到列表 二、实现 定义GetEnumSourceExtension类 public class GetEnumSourceExte…

前端菜鸡流水账日记 -- git管理工具(多版本)

哈喽哇,我又又又来了,其实之前就挺想进行一篇关于git管理工具的分享的,但是一直都没有来的及,直到今天,在学习的时候,,一个朋友新发现了一个vscode中的小插件,所以我就决定一起来分享…

DPDK环境配置

DPDK环境配置 DPDK(Data Plane Development Kit)是一个开源的软件框架,最初由Intel开发,旨在提升数据包处理性能,尤其是在Intel架构的处理器上。它允许开发者在用户空间(user space)而不是传统…

EasyRecovery2024你的电脑数据恢复神器!

EasyRecovery电脑数据恢复软件,简直是我的数据救星啊!🙌以前不小心删除了一些重要的文件,整个人都慌了神。但自从有了它,再也不用担心数据丢失的问题啦!💁‍♀️ 这款神奇的软件不仅可以恢复误…

持续学习的综述: 理论、方法与应用

摘要 为了应对现实世界的动态,智能系统需要在其整个生命周期中增量地获取、更新、积累和利用知识。这种能力被称为持续学习,为人工智能系统自适应发展提供了基础。从一般意义上讲,持续学习明显受到灾难性遗忘的限制,在这种情况下…

个人在家如何获取World Scientific文献的经验分享

今天有位同学求助一篇World Scientific文献,他的学校虽然有这个数据库,但订购的该数据库资源内容有限,这位同学所需的文献不在学校订购范围内所以下载不了。今天小编就分享一个在家就可获取各个数据库文献的方法。本文以这篇求助文献为例&…

TC3xx A\B SWAP机制的小细节(2)

目录 1.引入 2.TC3xx Swap机制小细节 3.小结 1.引入 上文TC3xx A\B SWAP机制的小细节(1)-CSDN博客主要把OTA的概念,以及MCU的硬件A\B Swap机制做了简单介绍,下面我们来聊聊TC3xx的SWAP机制 2.TC3xx Swap机制小细节 英飞凌TC3xx提供了硬件SOTA机制&…

一招解决家里粉尘螨虫太多难题?家用空气净化器哪款品牌效果好?

一到夏天,两天不打扫家里,家里就会布满一层粉尘。而且春夏的气候也是粉尘螨虫生长和繁殖疯狂时期,一不注意室内空气污染卫生的情况下,就会加剧尘螨的滋生,体质弱、敏感的人群生活在这样的空气环境下,还会增…

Web数据提取:Python中BeautifulSoup与htmltab的结合使用

1. 引言 Web数据提取,通常被称为Web Scraping或Web Crawling,是指从网页中自动提取信息的过程。这项技术在市场研究、数据分析、信息聚合等多个领域都有广泛的应用。Python社区提供了丰富的工具和库来支持这一技术,其中BeautifulSoup和htmlt…

五大维度大比拼:ChatGPT比较文心一言,你的AI助手选择指南

文章目录 一、评估AI助手的五个关键维度二、ChatGPT和文心一言的比较 评估AI助手的五个关键维度,以及ChatGPT和文心一言的比较如下: 一、评估AI助手的五个关键维度 界面友好性 : 评估标准:用户界面是否直观易用,是否…

NVIDIA发布Nemotron-4 340B 用于生成高质量的合成数据

Nemotron-4 340B 是一系列为 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型,包括最先进的指令和奖励模型,以及用于生成式 AI 训练的数据集。 英伟达今日宣布推出 Nemotron-4 340B,这是一系列开放模型,开发者可以使用它们生成用于…

MySQL Server和Server启动程序(一)

MySQL Server mysqld,也称为MySQL Server,是一个单线程多任务的程序,它在MySQL安装中执行大部分工作。它不会生成额外的进程。MySQL Server管理对包含数据库和表的MySQL数据目录的访问。数据目录也是其他信息(如日志文件和状态文…

小区噪音监测管理系统设计

一、引言 随着城市化进程的加快,小区居民对于居住环境的要求日益提高。其中,噪音污染已成为影响居民生活质量的重要因素。因此,设计一套小区噪音监测管理系统,对于提升居民的生活品质和小区管理效率具有重要意义。本文将详细阐述…

中国星网时空信息集团春招Offer面经

本文介绍2024届春招中,中国卫星网络集团有限公司下属中国时空信息集团有限公司中,业务助理岗位1场面试的基本情况、提问问题等。 2024年04月投递了中国卫星网络集团有限公司下属中国时空信息集团有限公司中的业务助理岗位,所属部门为运营中心…

如何使用nginx部署https网站(亲测可行)

公司本来有网站sqlynx.com是http运行的,但因为产品出海,基本上都要求使用https,但又需要兼容已有的http服务,所以我自己尝试做了一次https的部署,目前是正常可用的。 目录 步骤 1:安装 Nginx 步骤 2&…

关于从大平台跳转各个应用,更新应用前端包后,显示的仍是旧的内容,刷新应用页面后方才显示新的内容的问题的排查和解决

我们从绿洲物联平台跳转智能锁应用, 如下,我们可以看到,我们是通过a标签去跳转应用的。但是我们打开控制台的话,因为a标签是另外新开一个页面,我们看不到新页面的html文档的加载情况。 我们可以临时把_blank改成_sel…

MySQL约束详解:构建数据完整性基石

目录 MySQL约束1.1 约束1.1 数据类型1.2 主键约束[重要]1.3 自增约束1.4 唯一约束1.5 非空约束1.6 默认值代码演示 1.7 外键约束[了解]思维导图最后 MySQL约束 MySQL作为广泛使用的开源关系型数据库管理系统,其强大的数据约束功能对于维护数据的一致性和准确性至关…

鸿蒙原生App开发之:套用混合app开发思路

2024年,似乎华为迎来了新的企业机遇--鸿蒙独立操作系统。 受到全球国际形势的影响,加之第四次科技革命(AI革命)冷不丁的出现,在他国AI技术领先的前提下,中国自主研发的独立操作系统再次提上新的战略高度。…

【NLP项目-01】手把手教你基于TF-IDF提取向量+贝叶斯或者随机森林进行文本分类

【NLP项目-01】手把手教你基于TF-IDF提取向量贝叶斯或者随机森林进行文本分类 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 相关内容文…

List, Set, Map, Queue介绍

Java集合框架是一组接口和实现这些接口的类的集合,它提供了对数据集合的高效率存储和操作。以下是Java集合框架中一些核心接口的介绍: 1.List: List是一个有序的集合,允许包含重复的元素。它提供了按插入顺序访问元素的方法&…