【论文解读】可灵(快手)|LivePortrait:具有拼接和重定向控制的高效肖像动画

news2024/11/23 14:57:23

📜 文献卡

英文题目: LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control;
作者: Jianzhu Guo; Dingyun Zhang; Xiaoqiang Liu; Zhizhou Zhong; Yuan Zhang; Pengfei Wan; Di Zhang
DOI: 10.48550/arXiv.2407.03168
摘要翻译: *旨在从单个源图像合成逼真的视频,将其用作外观参考,运动(即面部表情和头部姿势)源自驱动视频、音频、文本或生成。我们没有遵循主流的基于扩散的方法,而是探索和扩展了implicit-keypoint-based框架的潜力,该框架有效地平衡了计算效率和可控性。在此基础上,我们开发了一个名为LivePortrait的视频驱动的肖像动画框架,专注于更好的泛化、可控性和效率以供实际使用。为了增强生成质量和泛化能力,我们将训练数据放大到大约6900万高质量帧,采用混合图像-视频训练策略,升级网络架构,并设计更好的运动转换和优化目标。此外,我们发现紧凑的隐式关键点可以有效地表示一种混合形状,并精心提出了一个拼接和两个重定向模块,它们利用一个计算开销可以忽略不计的小MLP来增强可控性。实验结果证明了我们的框架即使与基于扩散的方法相比也是有效的。在带有PyTorch的RTX 4090 GPU上,生成速度显着达到12.8ms。
Github(pytorch): https://github.com/KwaiVGI/LivePortrait

⚙️ 内容

本文介绍了一种名为LivePortrait的视频驱动肖像动画框架,该框架基于隐式关键点框架,并且在平衡计算效率和可控性方面表现出色。作者采用了混合图像和视频训练策略、升级网络架构以及设计更好的运动变换和优化目标等方法,以提高生成质量和泛化能力。此外,他们还提出了一个拼接和两个重新定位模块,这些模块利用具有微小计算开销的小型MLP,增强了可控制性。实验结果表明,即使与扩散基方法相比,该框架也表现出了出色的效能。生成速度在RTX 4090 GPU上达到了每帧12.8毫秒。并且在各种场景下具有广泛的应用前景,如视频会议、社交媒体和娱乐等。此外,作者还对该技术可能带来的社会风险进行了探讨,并提出了相应的伦理指导原则。

效果图

💡 创新点

  1. 大规模数据集与混合训练策略:通过利用约6900万张高质量肖像图像,结合图片和视频的混合训练策略,LivePortrait提升了模型的泛化能力和生成质量。

  2. 网络架构升级:引入了可指导学习的2D关键点、自适应变形等技术,统一了关键点检测、头姿估计和表情变形等多个子任务的模型,采用ConvNeXt-V2-Tiny作为骨干网络,SPADE解码器作为生成器,像素上采样作为最终层,使得模型更加高效且具有更强的表现力。

  3. 紧凑隐式关键点:发现紧凑的隐式关键点可以有效地表示一种隐式blendshapes,这使得LivePortrait能以极小的计算开销实现精准的控制,如拼接控制。

  4. 拼接与重定向模块:设计了一个拼接模块和两个重定向模块,它们使用小型多层感知机(MLP),几乎不增加计算负担,提高了模型的可控性,实现了更自然、更精细的动画效果。

🧩 不足

  • 跨重演情况下姿势变化较大时的表现不佳,
  • 肩部移动较多的情况下可能会出现抖动等问题

🔁 实验卡

💧 数据

LivePortrait使用了包括VoxCeleb、MEAD和RAVDESS在内的公开视频数据集,以及AAHQ的风格化图像数据集。他们还收集了大量4K分辨率的肖像视频和说话头像视频,以及LightStage数据集中的私有数据。所有数据经过精心筛选和预处理,确保每个片段只包含一个人,并且使用KVQ过滤低质量视频剪辑。

👩🏻‍💻 方法

  1. 第一阶段:基础模型训练

    • 外观和运动提取器(F和M)负责从输入图像中提取外观特征和运动信息。
    • 变形模块(W)生成一个变形场,用于将源特征体积(fs)变形到目标位置。
    • 解码器(G)接收变形后的特征体积并生成最终的动画图像。
    • 训练过程中,模型会学习到如何从源图像的3D外观特征体积(fs)和驱动3D关键点(xd)映射到目标图像。
  2. 混合图像和视频训练

    • 使用混合训练策略,模型不仅在真实人像视频上表现良好,还能有效泛化至风格化肖像,如动漫。
    • 为了兼顾两种数据类型,单张图像被视为单帧视频进行训练。
  3. 网络架构升级

    • 统一了原有的规范隐式关键点检测器(L)、头部姿态估计网络(H)和表达变形估计网络(Δ),形成单一模型(M),其主干网络为ConvNeXt-V2-Tiny。
    • 使用SPADE解码器作为生成器(G),比原来的解码器更强大。
    • 特征体积fs被精巧地送入SPADE解码器,生成动画图像;特征体积的每个通道作为语义图来指导生成过程。
  4. 可扩展的运动变换

    引入缩放因子来优化运动变换,避免将缩放纳入表达变形中,降低训练难度。

  5. 拼接和重定向模块

    • 拼接模块(S)和眼睛、嘴唇重定向模块(Reyes、Rlip)使用小型MLP网络,计算开销极低,但能够有效控制眼睛和嘴唇的动作,同时无缝拼接动画。
    • 在推断过程中,这些模块根据不同的控制参数(αeyes、αlip、αst)决定是否应用拼接或重定向操作。
  6. 训练细节

    • 第一阶段训练从零开始,使用8块NVIDIA A100 GPU,耗时大约10天。
    • 第二阶段仅训练拼接和重定向模块,保持其他参数不变,大约需要2天。
  7. 损失函数

    • 基本损失(LE)
    • 头部姿态损失(LH)
    • 变形先验损失(LΔ)
    • 级联感知损失(LP,cascade)
    • 级联GAN损失(LG,cascade)
    • 身份保留损失(Lfaceid)
    • 指导损失(Lguide)

🔬 实验

作者首先给出了实验的实施细节和使用的基准数据集,然后进行了自我重演和跨人重演的实验,并进行了模块有效性验证的消融研究。

在自我重演方面,作者将第一帧作为源图像并将其用作驱动视频序列中的所有帧来生成动画结果。与基线方法相比,作者的方法在生成质量和眼睛运动准确性方面略优。在跨人重演方面,作者使用了FFHQ数据集中前50张图像作为源图像,并对前50张图像进行了比较。与基线方法相比,作者的方法在生成质量和运动准确性方面均优于其他方法。

此外,作者还进行了模块有效性验证的消融研究,包括缝合模块、眼睛和唇部重新定位模块。对于缝合模块,作者发现通过将肩部对齐到裁剪后的源肖像中,可以消除肩膀错位的问题。对于眼睛和唇部重新定位模块,作者展示了它们能够实现高质量的动画效果,并且能够控制眼睛和嘴唇的打开程度。最后,作者进行了一个例子来证明同时应用眼睛和唇部重新定位的效果。

📜 结论

总体而言,LivePortrait模型通过混合训练策略、网络架构优化、可扩展运动变换以及精心设计的拼接和重定向控制模块,实现了高效率、高可控性和高质量的肖像动画生成效果。

🤔 总结卡

文章优点

该论文提出了一种基于视频驱动的静态肖像图像动画框架,实现了高精度的控制性和高效的推理效率。该模型能够在12.8毫秒内完成一次推断,并且在各种场景下具有广泛的应用前景,如视频会议、社交媒体和娱乐等。此外,作者还对该技术可能带来的社会风险进行了探讨,并提出了相应的伦理指导原则。

方法创新点

该论文的主要贡献在于提出了一种基于混合图像-视频训练策略的增强型隐式关键点视频驱动肖像动画框架。该框架通过升级网络架构、使用可扩展的运动变换、设计基于地标引导的隐式关键点优化以及多个级联损失项等方式,显著提高了生成质量和泛化能力。同时,作者还设计了先进的拼接模块和两个重定向模块,以提高可控性,并在计算开销方面保持微小。

未来展望

虽然该论文提出的肖像动画框架已经取得了很好的效果,但仍然存在一些局限性,例如跨重演情况下姿势变化较大时的表现不佳,以及肩部移动较多的情况下可能会出现抖动等问题。因此,在未来的研究中,作者计划解决这些问题并进一步探索如何将该技术应用于音频驱动的角色动画等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1904907.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么固定尺寸 AdSense 广告依旧会出现并非指定的尺寸广告?

经常在网站上投放谷歌 AdSense广告的站长应该都碰到过,明明投放的是固定尺寸的广告位里旧会出现并非指定尺寸的AdSense 广告,很诡异的感觉。其实这都是因为你的 AdSense 账号广告优化造成的,其中里面就包含了广告尺寸优化,只需要在…

嵌入式鸿蒙系统openharmony编译方法详解

大家好,时光如梭,今天主要给大家分享一下,鸿蒙系统的使用方法,以及源码该如何编译,其中要注意的细节有哪些? 第一:OpenHarmony系统简介 OpenHarmony 是由开放原子开源基金会(OpenAtom Foundation)孵化及运营的开源项目, 目标是面向全场景、全连接、全智能时代,基于…

浏览器插件利器-allWebPluginV2.0.0.14-stable版发布

allWebPlugin简介 allWebPlugin中间件是一款为用户提供安全、可靠、便捷的浏览器插件服务的中间件产品,致力于将浏览器插件重新应用到所有浏览器。它将现有ActiveX插件直接嵌入浏览器,实现插件加载、界面显示、接口调用、事件回调等。支持谷歌、火狐等浏…

puppeteer 爬虫初探

1. puppeteer 和 puppeteer-core 安装 puppeteer 会默认下载一个最新版本的 chrome 浏览器; 安装 puppeteer-core ,不会安装 chrome, 若要程序打开浏览器运行时,需手动指定电脑系统安装的 chrome 浏览器路径; 2. puppeteer-core …

【TB作品】51单片机 Proteus仿真 超声波读取+LCD1602显示仿真12MHZ

实验报告:51单片机 Proteus仿真 超声波读取LCD1602显示仿真 一、实验背景 本实验旨在使用51单片机(AT89C51)结合超声波传感器HC-SR04和LCD1602液晶显示屏,通过Proteus仿真平台实现超声波测距功能,并将测得的距离显示…

# [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】

easy-rl PDF版本 笔记整理 P5、P10 - P12 joyrl 比对 补充 P11 - P13 OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html 最新版PDF下载 地址:https://github.com/datawhalechina/easy-rl/releases 国内地址(推荐国内读者使用): 链…

SAP已下发EWM的交货单修改下发状态

此种情况针对EWM未接收到ERP交货单时,可以使用此程序将ERP交货单调整为未分配状态,在进行调整数据后,然后使用VL06I(启用自动下发EWM配置,则在交货单修改保存后会立即下发EWM)重新下发EWM系统。 操作步骤如…

去O化神器 Exbase

随着去O化进程推动,很多旧业务依赖的oracle数据库,都需要实现做数据库的替换,当下能很好兼容Oracle,并实现异构数据库之间转换的工具并不多。这里给大家推荐一个商业工具数据库迁移工具exbase(北京海量)&am…

超高精电容传感器PCAP01调试+LABVIEW数据可视化调试手记

PCAP01超高精电容传感芯片STM32LabView可视化 文章目录 PCAP01超高精电容传感芯片STM32LabView可视化一、PCAP01介绍1.1、PCAP01引脚定义1.2、电容测量1.3、温度测量1.4、PCAP典型测试电路 二、PCAP01的STM32驱动2.1、SPI协议配置2.2、PCAP01浮空电容测量内部温度测量操作流程 …

秋招提前批面试经验分享(上)

⭐️感谢点开文章👋,欢迎来到我的微信公众号!我是恒心😊 一位热爱技术分享的博主。如果觉得本文能帮到您,劳烦点个赞、在看支持一下哈👍! ⭐️我叫恒心,一名喜欢书写博客的研究生在读…

【LVGL-SquareLine Studio】

LVGL-SquareLine Studio ■ SquareLine Studio-官网下载地址■ SquareLine Studio-参考博客■ SquareLine Studio-安装■ SquareLine Studio-汉化■ SquareLine Studio-■ SquareLine Studio-■ SquareLine Studio-■ SquareLine Studio-■ SquareLine Studio- ■ SquareLine S…

云动态摘要 2024-07-07

给您带来云厂商的最新动态,最新产品资讯和最新优惠更新。 最新优惠与活动 数据库上云优选 阿里云 2024-07-04 RDS、PolarDB、Redis、MongoDB 全系产品新用户低至首年6折起! [免费体验]智能助手ChatBI上线 腾讯云 2024-07-02 基于混元大模型打造,可通过对话方式生成可视化…

【vue组件库搭建06】组件库构建及npm发包

一、格式化目录结构 根据以下图片搭建组件库目录 index.js作为入口文件,将所有组件引入,并注册组件名称 import { EButton } from "./Button"; export * from "./Button"; import { ECard } from "./Card"; export * fr…

并查集(还有反集也在)

一.定义 定义: 并查集是一种树型的数据结构,用于处理一些不相交集合的合并及查询问题(即所谓的并、查)。比如说,我们可以用并查集来判断一个森林中有几棵树、某个节点是否属于某棵树等。 主要构成: 并查集…

如何将Grammarly内嵌到word中(超简单!)

1、下载 安装包下载链接见文章结尾 官网的grammarly好像只能作为单独软件使用,无法内嵌到word中🧐🧐🧐 2、双击安装包(安装之前把Office文件都关掉) 3、安装完成,在桌面新建个word文件并打开 注…

【Spring AOP 源码解析前篇】什么是 AOP | 通知类型 | 切点表达式| AOP 如何使用

前言(关于源码航行) 在准备面试和学习的过程中,我阅读了还算多的源码,比如 JUC、Spring、MyBatis,收获了很多代码的设计思想,也对平时调用的 API 有了更深入的理解;但过多散乱的笔记给我的整理…

PXIe-7976【K410T】

起售价 RMB 152,880.00 块RAM(BRAM): 28620 kbit 动态RAM(DRAM): 2 GB FPGA: Kintex-7 410T PXI背板链路: PCI-Express Gen2 x 8 FPGA片: 63550 DSP片: 1540

240707-Sphinx配置Pydata-Sphinx-Theme

Step A. 最终效果 Step B. 为什么选择Pydata-Sphinx-Theme主题 Gallery of sites using this theme — PyData Theme 0.15.4 documentation Step 1. 创建并激活Conda环境 conda create -n rtd_pydata python3.10 conda activate rtd_pydataStep 2. 安装默认的工具包 pip in…

基于Java的水果商品销售网站

1 水果商品销售网站概述 1.1 课题简介 随着电子商务在当今社会的迅猛发展,水果在线销售已逐渐演变为一种极为便捷的购物方式,日益受到人们的青睐。本系统的设计初衷便是构建一个功能完备、用户体验友好的水果销售平台,致力于为用户提供优质、…