AIGC前沿 | LivePortrait

news2024/11/15 6:44:41

0. 资源链接

  • 论文超链接: LivePortrait

  • 项目: https://github.com/KwaiVGI/LivePortrait

1. 背景动机

现有AIGC存在的问题

  1. 随着智能手机和其他录制设备的普及,人们越来越频繁地捕捉静态肖像来记录珍贵而美好的时刻,但这些静态图像缺乏动态表现力和实时互动性。

  2. 尽管基于生成对抗网络(GANs)和扩散模型等先进技术的肖像动画方法已经能够将静态肖像转化为动态视频,但这些方法在计算效率和对细节(如眼睛和嘴唇动作)的精确控制方面仍存在局限。

为了解决这些问题,并满足实时应用场景的需求

  1. 本论文研究者们探索了一种新的视频驱动肖像动画框架LivePortrait,旨在实现更高效的计算性能和更精细的动画控制能力。

2. 内容提要

  1. 研究背景与目标: 论文提出了LivePortrait,这是一个高效的视频驱动肖像动画框架,旨在从单张静态源图像中生成逼真且具有表现力的视频。与依赖于特定录制设备的iPhone Live Photos功能不同,LivePortrait利用深度学习技术,特别是基于隐式关键点的方法,以实现无需额外录制设备的高质量动画效果。研究的主要目标是在保持高推理效率和精确控制的同时,提高动画的现实感和表现力。

  2. 方法论与创新点: 该框架通过扩展训练数据集至约6900万高质量帧,采用混合图像-视频训练策略,并升级网络架构来增强模型的泛化能力和表达性。LivePortrait的一个关键创新是设计了紧凑的隐式关键点来有效表示一种隐式混合形状,并通过小型多层感知器(MLP)网络实现对眼睛和嘴唇动作的精细控制,这些控制模块的计算开销可以忽略不计。此外,该框架还包括一个拼接模块,用于无缝地将动画合成回原始图像空间,处理更大的图像尺寸和多人图像。

  3. 实验结果与应用前景: 实验结果表明,LivePortrait在生成速度和质量上均优于现有的基于扩散的方法。该模型在RTX 4090 GPU上的推理速度达到12.8毫秒,能够实时生成高质量的肖像动画。论文还探讨了LivePortrait在视频会议、社交媒体和娱乐等不同场景下的应用潜力,展示了其在音频驱动的肖像动画和动物动画中的泛化能力。此外,论文讨论了技术的社会风险,包括深度伪造(deepfakes)的潜在滥用,并强调了制定伦理指南和负责任使用实践的重要性。

3. 技术细节

3.1 前置知识

Face Vid2vid框架

  • Face Vid2vid利用从驱动视频序列中提取的运动特征来为静态肖像图像制作动画。

  • 该框架由几个关键组件构成,包括外观特征提取器(F)、规范隐式关键点检测器(L)、头部姿态估计网络(H)、表情变形估计网络(Δ)、变形场估计器(W)和生成器(G)。

工作流程

  1. 外观特征提取器(F):将源图像映射到一个3D外观特征体积。

  2. 规范隐式关键点检测器(L):检测源图像的规范隐式关键点。

  3. 头部姿态和表情变形:通过头部姿态估计网络(H)和表情变形估计网络(Δ)来确定。

  4. 变形场估计器(W):利用隐式关键点表示生成一个变形场,并使用这个场来变形源特征体积。

  5. 生成器(G):将变形后的特征通过解码器转换成图像空间,生成目标图像。

关键点转换

  • 源和驱动的3D隐式关键点通过特定的转换公式进行变换,包括考虑姿态、表情变形和平移。

训练和优化

  • 在第一阶段的训练中,模型的所有组件从零开始进行训练,以优化整体性能。

贡献和改进

  • 作者在Face Vid2vid的基础上进行了一系列的改进,包括使用更高质量的数据集、混合图像和视频的训练策略、升级网络架构、可扩展的运动转换、以及设计了地标引导的隐式关键点优化和级联损失项,这些都显著提高了模型的动画表达力和泛化能力。

这一节为读者提供了对现有技术的深入了解,并为理解LivePortrait框架的创新之处奠定了基础。通过这些初步知识,读者可以更好地把握LivePortrait如何在现有技术的基础上进行改进和扩展,以实现更高效和可控的肖像动画生成。

3.2 基础模型训练的目标

  • 基础模型训练旨在构建一个强大的隐式关键点基础的视频驱动肖像动画框架,该框架能够显著提高生成质量和动画的泛化能力。

训练策略和方法:

  1. 高质量数据筛选:使用公共视频数据集(如Voxceleb、MEAD、RAVDESS)和风格化图像数据集(如AAHQ),以及大量的4K分辨率肖像视频和脸部谈话视频。

  2. 混合图像和视频训练:由于风格化肖像视频稀缺,而高质量风格化肖像图像更丰富,作者将单图像视为一帧视频进行训练,以提高模型对风格化肖像的泛化能力。

  3. 升级网络架构:将原模型中的多个网络组件统一为单一模型M,使用ConvNeXt-V2-Tiny作为主干网络,直接预测输入图像的规范关键点、头部姿态和表情变形。

  4. 可扩展的运动转换:引入尺度因子到运动转换中,以解决原始模型中忽略尺度因子的问题。

  5. 地标引导的隐式关键点优化:使用2D地标作为引导,优化隐式关键点的学习,以更好地捕捉微妙的面部表情。

  6. 级联损失项:使用一系列损失函数,包括隐式关键点等变性损失、关键点先验损失、头部姿态损失、变形先验损失,以及感知损失和GAN损失,以提高动画的纹理质量和身份保持。

训练过程:

  • 模型在第一阶段从零开始全面训练,使用8个NVIDIA A100 GPU进行大约10天的训练。

训练结果:

  • 通过这些训练策略和方法,基础模型在表达性和泛化能力上得到了显著提升,为后续的拼接和重定向模块训练奠定了基础。

意义和贡献:

  • 这个阶段的训练是实现LivePortrait框架高效性和可控性的关键步骤,为生成逼真且具有表现力的肖像动画提供了坚实的基础

3.3 拼接(Stitching)和重定向(Retargeting)模块的开发和优化

拼接(Stitching)模块:

  • 目的:拼接模块的目的是将动画后的肖像无缝地贴回到原始图像空间,例如在肩部区域避免像素错位。这允许处理更大的图像尺寸和同时动画化多张面孔。

  • 实现:在训练过程中,拼接模块接收源图像和驱动图像的隐式关键点作为输入,并估算出驱动关键点的变形偏移量。然后,使用这个偏移量更新驱动关键点,并生成预测图像。

重定向(Retargeting)模块:

  • 眼睛重定向模块:设计用于解决跨身份再现(cross-id reenactment)时眼睛闭合不完整的问题,特别是当小眼睛的人驱动大眼着的人时。

  • 嘴唇重定向模块:设计原理与眼睛重定向模块类似,确保输入时嘴唇处于闭合状态,以便于更好的动画驱动。

训练策略:

  • 在第二阶段的训练中,基础模型的其他参数保持冻结,只优化拼接和重定向模块。这使得计算开销保持在可忽略的水平。

  • 使用小型多层感知器(MLP)网络来实现重定向,因为它们具有足够的能力来学习所需的控制效果,同时保持计算效率。

损失函数:

  • 拼接损失:包括一致性像素损失和L1范数正则化,确保拼接后的图像与原始图像在肩部区域的一致性,同时控制变形偏移量的平滑度。

  • 眼睛和嘴唇重定向损失:包括预测图像与自重建图像之间的差异,条件控制损失,以及正则化项,确保重定向的准确性和平滑性。

训练过程:

  • 拼接和重定向模块的训练在第一阶段训练完成后进行,只训练这些模块,而其他模块的参数保持不变。

意义和贡献:

  • 通过引入拼接和重定向模块,LivePortrait框架不仅提高了对动画的控制能力,还保持了高效的计算性能。这些模块使得模型能够更好地处理复杂的动画任务,如多人物肖像动画和不同风格肖像的动画化。

3.4 推理

推理流程概述:

  • 推理阶段是模型将源图像和驱动视频序列转换成动画输出的过程。这一过程包括特征提取、关键点转换、拼接和重定向模块的应用,以及最终图像的生成。

推理步骤:

  1. 特征提取:首先从源图像中提取特征体积 fs 和规范隐式关键点 xc,s

  2. 运动提取:对于驱动视频序列的每一帧,提取运动参数 sd,iδd,itd,i 和头部姿态 Rd,i

  3. 关键点转换:根据源图像和驱动视频的参数,转换源和驱动隐式关键点 xsxd,i

  4. 拼接和重定向:根据需要,应用拼接模块和眼睛及嘴唇重定向模块。这些模块可以根据指示变量 αstαeyesαlip 来决定是否激活相应的功能。

  5. 图像生成:最终,使用变形网络 W 和解码器 D 生成预测图像 Ip,i

推理算法描述(Algorithm 1):

  • 算法1详细说明了推理过程,包括输入输出定义、是否应用拼接和重定向的逻辑判断,以及最终图像的生成步骤。

推理时的关键点:

  • 在推理时,模型可以根据指示变量来选择性地应用拼接和重定向模块,这提供了灵活性以适应不同的应用场景。

  • 眼睛和嘴唇的重定向偏移量 ∆eyes,i∆lip,i 可以独立地添加到驱动关键点上,这允许对特定面部特征进行精细控制。

推理效率:

  • 论文指出,LivePortrait模型在RTX 4090 GPU上的推理速度达到了12.8毫秒,这表明模型具有高效的推理能力,适合实时应用。

应用场景:

  • 推理阶段的设计使得LivePortrait模型能够适用于多种场景,包括视频会议、社交媒体、娱乐以及音频驱动的角色动画等。

3.5 实验

1. 实验部分首先概述了实现细节、基线比较和评估基准,然后展示了在自我重演和跨重演方面的实验结果,并进行了消融研究以验证提出的拼接和重定向模块的有效性。

2. 作者使用峰值信噪比(PSNR)、结构相似性指数(SSIM)、学习感知图像补丁相似性(LPIPS)、L1距离、FID、平均表情距离(AED)、平均姿势距离(APD)和眼球方向的平均角度误差(MAE)等指标来衡量动画结果的生成质量和运动准确性。

3. 通过定性和定量的比较,实验结果表明LivePortrait模型在保持源肖像身份的同时,能够准确传递嘴唇动作和眼神,并且在处理大姿势和多人物输入时表现出更好的稳定性和动画质量,超越了其他基于扩散和非基于扩散的方法。

4. 一些思考

  1. 算法优化与实时性

    1. LivePortrait模型的高效推理速度展示了深度学习在实时应用中的潜力。核心思考点在于如何进一步优化模型结构和计算过程,以实现在更受限的硬件设备上也能流畅运行,这对于推动技术在移动平台和实时系统中的普及至关重要。

  2. 跨模态学习与泛化能力

    1. 模型能够处理不同风格和种类的图像,这表明跨模态学习在提升模型泛化能力方面的巨大潜力。思考如何通过算法改进和数据增强策略,使模型能够更好地理解和适应多样化的输入,是提升人工智能系统智能性的关键。

  3. 技术创新与伦理平衡

    1. 肖像动画技术在带来创新应用的同时,也引发了关于技术滥用的伦理问题。核心思考是如何在技术创新和伦理标准之间找到平衡点,确保技术进步不会对社会造成负面影响,这包括制定有效的监管政策和技术防护措施。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1934829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker默认存储地址 var/lib/docker 满了,换个存储地址操作流程

1. 查看docker 存储地址 docker info如下 var/lib/docker2、查看内存大小 按需执行 df -h 找超过100M的大文件 find / -type f -size 100M -exec ls -lh {} \; df -Th /var/lib/docker 查找这个文件的容量 df -h 查找所有挂载点 du -hs /home/syy_temp/*1、df -h 2、sud…

数据结构(单链表算法题)

1.删除链表中等于给定值 val 的所有节点。 OJ链接 typedef struct ListNode ListNode;struct ListNode {int val;struct ListNode* next; };struct ListNode* removeElements(struct ListNode* head, int val) {//创建新链表ListNode* newhead, *newtail;newhead newtail N…

视频联网共享平台LntonCVS视频监控汇聚平台视频云解决方案

LntonCVS流媒体平台是一款遵循国家GB28181标准协议的先进视频监控与云服务平台。该平台设计独特,能够同时接入并处理多路设备的视频流,支持包括RTSP、RTMP、FLV、HLS、WebRTC在内的多种视频流格式的分发。其功能丰富多样,涵盖了视频直播监控、…

如何在Mac下修改VSCode侧边栏字体大小

在日常使用VSCode(Visual Studio Code)进行开发时,我们有时需要对IDE(集成开发环境)的界面进行一些个性化的调整,以提升我们的开发体验。 比如,有些用户可能会觉得VSCode的侧边栏字体大小不符…

国产麒麟、UOS在线打开pdf加盖印章

PageOffice支持两种电子印章方案,可实现对Word、Excel、PDF文档加盖PageOffice自带印章或ZoomSeal电子印章(全方位保护、防篡改、防伪造)。Word和Excel的盖章功能请参考:Word和Excel加盖印章和签字功能 (目前只支持win…

FastAPI 学习之路(五十九)封装统一的json返回处理工具

在本篇文章之前的接口,我们每个接口异常返回的数据格式都不一样,处理起来也没有那么方便,因此我们可以封装一个统一的json。 from fastapi import status from fastapi.responses import JSONResponse, Response from typing import Unionde…

[C/C++入门][进制原理]27、计算机种的进制

各种信息进入计算机,都要转换成“0”和“1”的二进制形式。 计算机 采用二进制的原因是: 物理上容易实现,可靠性高。(电子元件的通电和不通电就可以表示1和0,所以非常方便)运算简单,通用性强。…

【Git远程操作】理解分布式管理 | 创建远程仓库

目录 1.理解分布式管理 多人协作开发 2.创建远程仓库 2.1仓库名&路径 2.2初始化仓库&设置模板 1.理解分布式管理 目前我们学习的所有内容都是在本地来完成的。(add /commit /版本撤销回退/分支管理) Git是一个分布式 的版本控制系统。 分支…

最新开源的解析效果非常好的PDF解析工具MinerU (pdf2md pdf2json)

毫不夸张的说 PDF解析工具MinerU是照进RAG黑暗中的一道光——这是我对它的评价。我测过太多了文档解析工具! 最近在做文档解析的工作。看了很多的开源的文档解析的工具,版面分析的工具,其中包括paddelpaddel这样30kstar的明星工具。但是效果都…

Android SurfaceView 组件介绍,挖洞原理详解

文章目录 组件介绍基本概念关键特性使用场景 SurfaceHolder介绍主要功能使用示例 SurfaceView 挖洞原理工作机制 使用SurfaceView展示图片示例创建一个自定义的 SurfaceView类在 Activity 中使用 ImageSurfaceView注意事项效果展示 组件介绍 在 Android 开发中,Sur…

【20】读感 - 架构整洁之道(二)

概述 继上一篇文章讲了前两章的读感,已经归纳总结的重点,这章会继续跟进的看一下,深挖架构整洁之道。 编程范式 编程范式从早期到至今,提过哪些编程范式,结构化编程,面向对象编程,函数式编程…

前端学习(二)之HTML

一、HTML文件结构 <!DOCTYPE html> <!-- 告诉浏览器&#xff0c;这是一个HTML文件 --><html lang"en"> <!-- 根元素&#xff08;起始点&#xff0c;最外层容器&#xff09; --><head> <!-- 文档的头部&#xff08;元信息&#xff…

spring ioc的原理

1、控制反转(IOC):对象的创建控制权由程序自身转移到外部&#xff08;容器&#xff09; 2、依赖注入(DI):所谓依赖注入&#xff0c;就是由IOC容器在运行期间&#xff0c;动态地将某种依赖关系注入到对象之中。 Spring 中的 IoC 的实现原理就是工厂模式加反射机制。 参考资料…

C++:类和对象 III(初始化列表、explicit、友元、匿名对象)

目录 初始化列表 初始化列表的特点 类型转换、explicit 隐式类型转换 explicit关键字 static成员 静态成员变量 静态成员函数 友元 友元函数 友元类 内部类 匿名对象 编译器优化 初始化列表 初始化列表就是类成员初始化的地方 函数有它声明和定义的地方&#x…

【人工智能】在未来智慧城市的建设及应用分析

作者主页: 知孤云出岫 目录 作者主页:案例分析&#xff1a;人工智能在未来智慧城市的建设及其影响和应用引言一、人工智能在智慧城市中的关键应用领域 案例分析&#xff1a;人工智能在未来智慧城市的建设及其影响和应用 引言 智慧城市是利用信息和通信技术&#xff08;ICT&am…

【开源 Mac 工具推荐之 2】洛雪音乐(lx-music-desktop):免费良心的音乐平台

旧版文章&#xff1a;【macOS免费软件推荐】第6期&#xff1a;洛雪音乐 Note&#xff1a;本文在旧版文章的基础上&#xff0c;新更新展示了一些洛雪音乐的新功能&#xff0c;并且描述更为详细。 简介 洛雪音乐&#xff08;GitHub 名&#xff1a;lx-music-desktop &#xff09;…

政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署Hallo :针对肖像图像动画的分层音频驱动视觉合成

政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收录专栏: 零基础玩转各类开源AI项目 希望政安晨的博客能够对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff01; 本文目标&#xff1a;在Ubuntu系统上部署Hallo&#x…

Linux——Shell脚本和Nginx反向代理服务器

1. Linux中的shell脚本【了解】 1.1 什么是shell Shell是一个用C语言编写的程序&#xff0c;它是用户使用Linux的桥梁 Shell 既是一种命令语言&#xff0c;有是一种程序设计语言 Shell是指一种应用程序&#xff0c;这个应用程序提供了一个界面&#xff0c;用户通过这个界面访问…

香橙派AIpro-携手华为-为AI赋能

文章目录 香橙派AIpro-携手华为-为AI赋能开箱和功能介绍开箱功能介绍 环境搭建镜像烧录进入系统 测试项目YOLOv5部署YOLOv5识别单张图片实时识别视频使用Ascend测试yolov5 产品评价 香橙派AIpro-携手华为-为AI赋能 今天新入手了一款香橙派AIPro&#xff0c;让我们一起跟着文章…

ELK日志分析系统部署文档

一、ELK说明 ELK是Elasticsearch&#xff08;ES&#xff09; Logstash Kibana 这三个开源工具组成&#xff0c;官方网站: The Elastic Search AI Platform — Drive real-time insights | Elastic 简单的ELK架构 ES: 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它…