Hallo2 长视频和高分辨率的音频驱动的肖像图像动画 (数字人技术)

news2024/10/24 5:09:12

HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION

论文:https://arxiv.org/abs/2410.07718
代码:https://github.com/fudan-generative-vision/hallo2
模型:https://huggingface.co/fudan-generative-ai/hallo2

  前言:24年6月,该团队推出了Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation用于纵向图像动画的分层音频驱动视觉合成,得到了广泛关注,同时京东健康在Hallo基础上用中文数据训练的新的模型JoyHallo,10月16日,Hallo2横空出世,本文主要是介绍Hallo2论文相关内容

Hallo2演示demo

摘要

  最近,基于潜在扩散的人像动画生成模型,如Hallo,在短时间视频合成中取得了令人印象深刻的结果。在本文中,作者介绍了Hallo的更新,介绍了几个设计增强以扩展其功能。首先,将该方法扩展到制作长时间的视频。为了解决诸如外观漂移和时间伪影等实质性挑战,研究了条件运动帧图像空间内的增强策略。具体来说,引入了一种增强高斯噪声的贴片掉落技术,以增强长时间的视觉一致性和时间相干性。第二,实现4K分辨率人像视频生成。为了实现这一点,实现了潜在代码的矢量量化,并应用时间对齐技术来保持跨时间维度的一致性。通过集成高质量的解码器,实现了4K分辨率的视觉合成。第三,将纵向表达式的可调语义文本标签作为条件输入。这超越了传统的音频线索,提高了可控性,增加了生成内容的多样性。本文提出的Hallo2是第一个实现4K分辨率并生成长达一小时的音频驱动肖像图像动画的方法,并通过文本提示进行增强。已经进行了大量的实验来评估在公开可用数据集上的方法,包括HDTF、CelebV和引入的“Wild”数据集。实验结果表明,作者的方法在长时间人像视频动画中实现了最先进的性能,成功地生成了长达数十分钟的4K分辨率的丰富可控内容。

技术介绍

  肖像图像动画-是一个快速发展的领域,具有跨多个领域的巨大潜力。这些领域包括高质量的电影和动画制作,虚拟助理的开发,个性化的客户服务解决方案,互动教育内容的创作,以及游戏行业中的逼真角色动画。因此,生成长时间、高分辨率、音频驱动的人像动画的能力,特别是那些由文本提示辅助的动画,对这些应用程序至关重要。最近的技术进步,特别是在潜在扩散模型方面,极大地推动了这一领域的发展。

  近年来出现了几种利用潜在扩散模型进行人像动画的方法。例如,VASA-1 采用Peebles和DiT模型作为扩散过程中的去噪器,将单个静态图像和音频片段转换为逼真的会话面部动画。同样,EMO框架代表了第一个端到端系统,该系统使用基于unet的扩散模型,仅使用单个参考图像和音频输入,能够生成具有高表现力和真实感的动画,无缝帧转换和身份保存。该领域的其他重大进展包括AniPortrait,EchoMimic,V-Express, Loopy和CyberHost,每个人都有助于增强肖像图像动画的功能和应用。Hallo是另一个值得注意的贡献,他们在先前的研究基础上引入了分层音频驱动的视觉合成,以实现面部表情生成、头部姿势控制和个性化动画定制。在本文中,通过引入几个设计增强来扩展其功能,对Hallo进行了更新。
在这里插入图片描述
图1:该方法处理一个参考图像和一个持续几分钟的音频输入。此外,可以在不同的间隔引入可选的文本提示,以调节和细化肖像的表达。由此产生的输出是一个高分辨率的4K视频,与音频同步,并受可选的表达式提示的影响,确保在整个延长的视频持续时间内的连续性

  首先,将hello从生成简短的、第二长的肖像动画扩展到支持长达数十分钟的持续时间。如图2所示,长期视频生成通常采用两种主要方法。第一种方法包括在控制信号的引导下并行生成音频驱动的视频剪辑,然后在这些剪辑的相邻帧之间应用外观和运动约束。这种方法的一个重要限制是必须在生成的剪辑中保持最小的外观和运动差异,这阻碍了嘴唇运动,面部表情和姿势的实质性变化,由于强制连续性约束,经常导致模糊和扭曲的表情和姿势。第二种方法通过利用之前的帧作为条件信息,增量地生成新的视频内容。虽然这种方法允许连续运动,但容易产生错误积累。相对于参考图像的扭曲、变形、噪声伪影或前一帧中的运动不一致会传播到后续帧,从而降低整体视频质量。

  为了达到高表现力,现实主义和丰富的运动动态,遵循第二种方法。方法主要是从参考图像中提取外观,仅利用之前生成的帧来传达运动动态-包括嘴唇运动,面部表情和姿势。为了防止前一帧对外观信息的污染,实现了一种patch-drop数据增强技术,该技术在保留运动特征的同时,对条件帧中的外观信息引入了可控的损坏。这种方法鼓励外观主要来自参考肖像图像,在整个动画中保持强大的身份一致性,并使长视频具有连续的运动。此外,为了增强对外观污染的恢复能力,将高斯噪声作为附加的数据增强技术应用于条件帧,进一步增强对参考图像的保真度,同时有效地利用运动信息。

在这里插入图片描述
图2:基于并行和增量扩散的长期人像动画生成模型的比较。(a)由于帧间连续性约束,并行生成方法可能导致模糊和表达式失真。(b)增量生成法在人脸特征和背景上都容易产生误差积累

  其次,为了实现4K视频分辨率,将用于码序列预测任务的矢量量化生成对抗网络(VQGAN)离散码本空间方法扩展到时间维度。通过将时序对齐整合到码序列预测网络中,实现了生成视频的预测码序列的平滑过渡。在应用高质量解码器后,外观和运动的强一致性使方法能够增强高分辨率细节的时间相干性。

  第三,为了增强长时间人像视频生成的语义控制,引入了可调节的人像表情语义文本提示作为条件输入和音频信号。通过在不同的时间间隔注入文本提示,方法可以帮助调整面部表情和头部姿势,从而使动画更加逼真和富有表现力。

  为了评估提出的方法的有效性,在公开可用的数据集上进行了全面的实验,包括HDTF、CelebV和引入的“Wild”数据集。方法是第一个在肖像图像动画中实现4K分辨率,持续时间长达十分钟甚至几个小时。此外,通过结合可调节的文本提示,可以在生成过程中精确控制面部特征,方法确保了生成动画的高水平真实感和多样性。

最新的相关工作

  视频扩散模型:基于扩散的模型在从文本和图像输入生成高质量和逼真的视频方面表现出了非凡的能力。稳定视频扩散强调潜在视频扩散方法,利用预训练,微调和策划数据集来提高视频质量。Make-A-Video利用文本到图像的合成技术来优化文本到视频的生成,而不需要配对数据。MagicVideo引入了一个具有新颖3D U-Net设计的高效框架,降低了计算成本。通过即插即用运动模块实现个性化文本到图像模型的动画。进一步的贡献,如VideoComposer和VideoCrafter,强调视频生成的可控性和质量。VideoComposer集成了动态指导的运动矢量,而videocafter提供了开源模型。CogVideoX通过专家转换器增强文本-视频对齐,MagicTime通过变形延时模型解决物理知识的编码问题。在这些进步的基础上,方法采用了专门为肖像图像动画量身定制的高级预训练扩散模型,专注于长时间和高分辨率合成。

在这里插入图片描述

  肖像图像动画:在音频驱动的说话头生成和人像动画方面取得了重大进展,强调了与音频输入的真实感和同步性。LipSyncExpert使用鉴别器和新的评估基准提高了对口型的准确性。随后的SadTalker和VividTalk等方法结合了3D运动建模和头部姿势生成,以增强表现力和时间同步。扩散技术进一步推动了该领域的发展。DiffTalk和DreamTalk提高了视频质量,同时保持了不同身份之间的同步。VASA-1和AniTalker整合了细致入微的面部表情和通用的运动表现,产生了栩栩如生的同步动画。AniPortrait、EchoMimic、VExpress、Loopy、CyberHost和EMO都对增强的功能做出了贡献,重点是表现力、真实感和身份保护。尽管取得了这些进步,但生成具有一致视觉质量和时间一致性的长时间高分辨率人像视频仍然是一个挑战。方法建立在hello上,通过在长期肖像图像动画中实现逼真的高分辨率运动动态来解决这一差距

  长视频和高分辨率视频生成:视频扩散模型的最新进展显著增强了长时间高分辨率视频的生成。像Flexible Diffusion Modeling和Gen-L-Video这样的框架提高了时间一致性,并使文本驱动的视频生成无需额外的培训。SEINE和StoryDiffusion等方法引入了生成过渡和语义运动预测器,用于平滑的场景变化和视觉叙事。StreamingT2V和MovieDreamer等方法使用自回归策略和扩散渲染来处理具有无缝过渡的扩展叙事视频。VideoInfinity通过分布式推理优化长视频合成,而FreeLong集成了全局和本地视频功能,而无需训练一致性。在本文中,采用斑块下降和高斯噪声增强来实现长时间的肖像图像动画。
  离散先验表示与学习字典已被证明是有效的图像恢复。VQ-VAE通过矢量量化引入离散潜在空间来增强vae,解决后验崩溃问题,并实现高质量的图像,视频和语音生成。在此基础上,VQ-GAN结合cnn和transformer来创建一个上下文丰富的图像组件词汇表,在条件图像生成中实现了最先进的结果。CodeFormer使用学习的离散码本进行盲脸恢复,采用基于transformer的网络增强抗退化的鲁棒性。本文提出了用时间对齐技术对潜在码进行矢量量化,以保持4K合成的时间高分辨率相干性。

方法

  肖像图像动画的扩展技术有效地解决了生成具有复杂运动动力学的长时间高分辨率视频的挑战,以及启用音频驱动和文本提示控制。提出的方法主要从单个参考图像中提取受试者的外观,同时利用先前生成的帧作为条件输入来捕获运动信息。为了保留参考图像的外观细节并防止前一帧的污染,引入了一种结合高斯噪声注入的斑块滴数据增强技术。此外,将VQGAN离散码本预测扩展到时域,促进高分辨率视频生成并增强时间相干性。此外,将文本条件与音频信号结合起来,在长期视频生成过程中实现对面部表情和动作的多种控制。
在这里插入图片描述
图4:提出的高分辨率增强模块的示意图,演示了提取输入潜在特征的两种备选设计

具体的推理公式请参考论文原文,论文中写的很详细

实验对比

在这里插入图片描述
  表1 在HDTF数据集上与现有人像动画方法的定量比较。
在这里插入图片描述
  图6:与现有方法在HDTF数据集上的定性比较

在这里插入图片描述
  表2:在CelebV数据集上与现有人像动画方法的定量比较

在这里插入图片描述
  表3:在建议的“Wild”数据集上与现有方法的定量比较
在这里插入图片描述
  图9:不同肖像风格下的肖像图像动画效果
在这里插入图片描述
在这里插入图片描述
  表6:CelebV数据集上patch drop和高斯噪声增强的消蚀研究
在这里插入图片描述
定性比较了高分辨率增强前后的人像动画效果
在这里插入图片描述
  参考图像和动作帧的注意力地图可视化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2222114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TCP(三次握手)和UDP(面向无连接)的原理以及区别

TCP(三次握手)和UDP(面向无连接)的原理以及区别 网络协议是每个前端工程师都必须要掌握的知识,TCP/IP 中有两个具有代表性的传输层协议。 概述 📡TCP(Transmission Control Protocol)是一种网络协议&#…

YOLO V3 网络构架解析

YOLO V3(You Only Look Once version 3)是由Joseph Redmon等人于2018年提出的一种基于深度学习的目标检测算法。它在速度和精度上相较于之前的版本有了显著提升,成为计算机视觉领域的一个重要里程碑。本文将详细解析YOLO V3的网络架构&#x…

【Origin科技绘图】最新Origin2024中文版软件安装教程

Origin是由OriginLab公司开发的一个科学绘图、数据分析软件,支持在MicrosoftWindows下运行。Origin支持各种各样的2D/3D图形。Origin中的数据分析功能包括统计,信号处理,曲线拟合以及峰值分析。Origin中的曲线拟合是采用基Levernberg-Marquardt算法(LMA)的非线性最小二乘法拟合…

网站漏扫:守护网络安全的关键防线

网站漏洞扫描,简称漏扫,是一种针对网站进行漏洞检测的安全服务。网站漏洞扫描在网络安全中占据着至关重要的地位。 网站漏扫在及时发现和修复漏洞方面发挥着关键作用 通过对网站和系统的全面扫描,能够快速识别出各种潜在的漏洞,…

VMware ESXi 8.0U3 Huawei (华为) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025

VMware ESXi 8.0U3 Huawei (华为) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025 VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS Huawei (华为) 定制版 ESXi 8.0U3 标准版,Dell (戴尔)、HPE (慧与)、Lenovo (联想)、Inspur (浪潮)、Cisco (思科)、Hitach…

[实时计算flink]数据摄入YAML作业快速入门

实时计算Flink版基于Flink CDC,通过开发YAML作业的方式有效地实现了将数据从源端同步到目标端的数据摄入工作。本文介绍如何快速构建一个YAML作业将MySQL库中的所有数据同步到StarRocks中。 前提条件 已创建Flink工作空间,详情请参见开通实时计算Flink版…

基于SSM+小程序的就业管理系统(就业1)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 学生实习与就业管理系统的设计与实现管理员、辅导员管理、企业管理、工作管理人、用户管理5个角色。 1、管理员实现了基础数据管理、辅导员管理、企业管理、工作管理人管理、公告信息管理…

2024.10.23 软考学习笔记(知识点)

刷题网站: 软考中级软件设计师在线试题、软考解析及答案-51CTO题库-软考在线做题备考工具

RTDETR 引入 MogaBlock | 多阶门控聚合网络 | ICLR 2024

本改进已集成到 YOLOv8-Magic 框架。 通过尽可能将卷积核的上下文扩展为全局,现代卷积神经网络(ConvNets)在计算机视觉任务中展现出了巨大的潜力。然而,最近在深度神经网络(DNN)中进行的多阶博弈论交互研究揭示了现代卷积神经网络的表示瓶颈,即随着卷积核大小的增加,复…

048_python基于Python的广东旅游数据分析

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍:CodeMentor毕业设计领航者、全网关注者30W群落,InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者,博客领航之星、开发者头条/腾讯云/AW…

SQLite 3.47.0 发布,大量新功能来袭

SQLite 开发团队于 2024 年 10 月 21 日发布了 SQLite 3.47.0 版本,我们来了解一下新版本的改进功能。 触发器增强 SQLite 3.47.0 版本开始,触发器函数 RAISE() 的 error-message 参数可以支持任意 SQL 表达式。在此之前,该参数只能是字符串…

go 语言 Gin Web 框架的实现原理探究

Gin 是一个用 Go (Golang) 编写的 Web 框架,性能极优,具有快速、支持中间件、crash处理、json验证、路由组、错误管理、内存渲染、可扩展性等特点。 官网地址:https://gin-gonic.com/ 源码地址:https://github.com/gin-gonic/gi…

CMOS 图像传感器:像素寻址与信号处理

CMOS image sensor : pixel addressing and signal processing CMOS image sensor 对于寻址和信号处理有三种架构 pixel serial readout and processingcolumn parallel readout and processingpixel parallel readout and processing 其中,图 (b) column paralle…

从 Web2 到 Web3:区块链技术的演进与未来趋势

在互联网的发展历程中,我们正经历着从 Web2 向 Web3 的重大转变。这个转变的核心驱动力之一,便是区块链技术的不断演进。 Web2 时代,互联网上的社交媒体、在线购物、视频分享等平台蓬勃发展。用户可以便捷地获取信息、与他人交流互动&#x…

css模糊遮罩效果

原图&#xff1a; 模糊后的图片&#xff1a; html: <div class"bj"><div class"mengban"></div> </div> css: .bj {width: 750rpx;height: 643rpx;background-image:url(https://onlinekc.a.hlidc.cn/uploads/20241023/9e552fc…

如何快速解决游戏提示系统中的emp.dll缺失问题

emp.dll是一个动态链接库&#xff08;Dynamic Link Library, DLL&#xff09;文件&#xff0c;这类文件在Windows操作系统中扮演着至关重要的角色。它们包含了可由多个程序同时使用的代码和数据&#xff0c;其主要目的是实现模块化&#xff0c;以便于程序的更新和动态链接。emp…

ECharts饼图-饼图34,附视频讲解与代码下载

引言&#xff1a; 在数据可视化的世界里&#xff0c;ECharts凭借其丰富的图表类型和强大的配置能力&#xff0c;成为了众多开发者的首选。今天&#xff0c;我将带大家一起实现一个饼图图表&#xff0c;通过该图表我们可以直观地展示和分析数据。此外&#xff0c;我还将提供详…

【毕业设计】基于SpringBoot的网上商城系统

前言 &#x1f525;本系统可以选作为毕业设计&#xff0c;运用了现在主流的SSM框架&#xff0c;采用Maven来帮助我们管理依赖&#xff0c;所选结构非常合适大学生所学的技术&#xff0c;非常合适作为大学的毕业设计&#xff0c;难以适中。 &#x1f525;采用技术&#xff1a;Sp…

Java项目-基于springboot框架的疫苗接种管理系统项目实战(附源码+文档)

作者&#xff1a;计算机学长阿伟 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、ElementUI等&#xff0c;“文末源码”。 开发运行环境 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBoot、Vue、Mybaits Plus、ELementUI工具&#xff1a;IDEA/…

huggingface的数据集下载(linux下clone)

1. 安装lfs sudo apt-get install git-lfs 或者 apt-get install git-lfs 2. git lfs install git lfs install 3. git clone dataset包 第2&#xff0c;3步骤的截图如下&#xff1a;