【HyperLips:】数字人——控制嘴唇 项目源码python实现

news2025/1/15 10:53:12

        最近受到商汤“复活”汤晓鸥的视频刺激,大大的amazing!没看过的小伙伴可以自行百度,看了不研究一下【数字人】技术,都要跟时代脱轨了,那就以HyperLips为开篇吧。

目录

🍎🍎1.摘要 

🍎🍎2.网络结构

🌷🌷2.1输入输出

🌷🌷2.2网络框架 

🌷🌷2.3定量比较

🌷🌷2.4用户研究

🌷🌷2.5效果对比

🍎🍎3.源码实现

🌷🌷3.1环境搭建

🌷🌷3.2下载模型

🌷🌷3.3模型推理

🐸原视频

🐸新视频

🌷🌷3.4模型训练

🐸3.4.1训练数据

🐸3.4.2数据预处理

🐸3.4.3训练lipsync

🐸3.4.4训练hyperlips base

🐸3.4.5 生成checkpoints_hyperlips_base视频

🐸3.4.7预处理高分辨率数据

🐸3.4.8训练高分辨率模型

整理不易,欢迎一键三连!!!

送你们一条美丽的--分割线--


项目:project

论文:paper

代码:code 


🍎🍎1.摘要 

        摘要:会说话的面孔生成在虚拟数字人领域具有广泛的潜在应用。 然而,在确保唇形同步的同时渲染高保真面部视频仍然是现有音频驱动的说话人脸生成方法的一个挑战。 为了解决这个问题,我们提出了 HyperLips,这是一个两阶段框架,由用于控制嘴唇的超网络和用于渲染高保真面部的高分辨率解码器组成。 在第一阶段,我们构建一个基础人脸生成网络,该网络使用超网络来控制音频上的视觉人脸信息的编码潜在代码。 首先,FaceEncoder通过提取特征来获得潜在编码,然后,HyperConv(其权重参数由 HyperNet 以音频特征作为输入更新)将修改潜在代码以将嘴唇运动与音频同步。 最后,FaceDecoder 将修改并同步的潜在代码解码为视觉人脸内容。 在第二阶段,我们通过高分辨率解码器获得更高质量的人脸视频。 为了进一步提高面部生成的质量,我们使用第一阶段生成的面部图像和检测到的草图作为输入来训练高分辨率解码器 HRDecoder。 大量的定量和定性实验表明,我们的方法优于最先进的工作,具有更真实、高保真度和唇形同步。

        Abstract—Talking face generation has a wide range of potential applications in the field of virtual digital humans. However,rendering high-fidelity facial video while ensuring lip synchronization is still a challenge for existing audio-driven talking face generation approaches. To address this issue, we propose HyperLips, a two-stage framework consisting of a hypernetwork for controlling lips and a high-resolution decoder for rendering high-fidelity faces. In the first stage, we construct a base face generation network that uses the hypernetwork to control the encoding latent code of the visual face information over audio. First,FaceEncoder is used to obtain latent code by extracting features from the visual face information taken from the video source containing the face frame.Then, HyperConv, which weighting parameters are updated by HyperNet with the audio features as input, will modify the latent code to synchronize the lip movement with the audio. Finally, FaceDecoder will decode the modified and synchronized latent code into visual face content. In the second stage, we obtain higher quality face videos through a high-resolution decoder. To further improve the quality of face generation, we trained a high-resolution decoder, HRDecoder, using face images and detected sketches generated from the first stage as input. Extensive quantitative and qualitative experiments show that our method outperforms state-of-the-art work with more realistic, high-fidelity, and lip synchronization.

🍎🍎2.网络结构

🌷🌷2.1输入输出

  • 网络输入:视频+音频
  • 网络输出:唇形更改后的视频

        给定源视频(左上)和驱动音频(右上)的视觉人脸信息,我们的方法能够渲染和生成更真实、高保真和口型同步的视频(下)。查看放大的补丁,我们的方法可以看到牙齿等细节。

🌷🌷2.2网络框架 

        我们的框架的概述如上所示。我们的目标是在给定音频和视频序列的情况下,通过逐帧在输入视频的下半部分实现被遮挡的面部,生成具有同步嘴唇运动的高保真说话面部视频。我们提出的方法由两个阶段组成:基础脸部生成和高保真度渲染。在基础人脸生成中,我们设计了一个超网络,以音频特征作为输入来控制视觉信息的编码和解码,以获得基础人脸图像。在高保真渲染中,我们使用第一阶段训练的网络中的人脸数据和相应的人脸草图来训练 HRDecoder 网络,以增强基础人脸。

🌷🌷2.3定量比较

        表1和表2分别显示了LRS2和MEAD-Neutral数据集的定量比较。结果表明,无论是我们的 HyperLips-Base 还是我们的 HyperLips-HR,生成的人脸在 PSNR、SSIM 和 LMD 指标方面都明显优于其他方法。我们的 HyperLips-HR 在 PSNR 和 SSIM 方面明显优于我们的 HyperLips-Base,这表明我们的 HRDecoder 增强了高保真人脸渲染。然而LMD指数并没有明显的增加,这表明HRDecoder对改善唇同步没有帮助。对于LSE-C和LSE-D,Wav2Lip表现出更好的结果,甚至超越了groundtruth。它只是证明了他们的lip-sync结果与groundtruth几乎相当,而不是更好。虽然LSE-C和LSE-D是我们的方法并不是最好的,但我们在 LMD 指标上表现更好,LMD 指标是另一个同步指标,用于测量视觉域中的对应性。

🌷🌷2.4用户研究

        用户研究。可以看出,我们的结果在视频质量和口型同步方面优于其他方法。

🌷🌷2.5效果对比

Visual_Comparison

🍎🍎3.源码实现

🌷🌷3.1环境搭建

Python 3.8.16
torch 1.10.1+cu113
torchvision 0.11.2+cu113
ffmpeg

#其他基础库,可以一次性通过一下命令安装
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple

🌷🌷3.2下载模型

模型下载链接:百度网盘

并将下载好的模型文件放置./checkpoints/ 目录下。

🌷🌷3.3模型推理

        首先修改inference.py文件,修改你要输入的原始视频文件路径和新的语音文件路径。inference.py如下所示。

from HYPERLIPS import Hyperlips
import argparse
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '1'


parser = argparse.ArgumentParser(description='Inference code to lip-sync videos in the wild using HyperLipsBase or HyperLipsHR models')
parser.add_argument('--checkpoint_path_BASE', type=str,help='Name of saved HyperLipsBase checkpoint to load weights from', default="checkpoints/hyperlipsbase_multi.pth")
parser.add_argument('--checkpoint_path_HR', type=str,help='Name of saved HyperLipsHR checkpoint to load weights from', default=None)#"checkpoints/hyperlipshr_mead_128.pth"
parser.add_argument('--face', type=str,
                    help='Filepath of video/image that contains faces to use', default="test/video2/video2.mp4")
parser.add_argument('--audio', type=str,
                    help='Filepath of video/audio file to use as raw audio source', default="test/video2/obam-english.wav")
parser.add_argument('--outfile', type=str, help='Video path to save result. See default for an e.g.',
                    default='result/result_video2-obma-en.mp4')
parser.add_argument('--pads', nargs='+', type=int, default=[0, 10, 0, 0],
                    help='Padding (top, bottom, left, right). Please adjust to include chin at least')
parser.add_argument('--filter_window', default=None, type=int,
                    help='real window is 2*T+1')
parser.add_argument('--hyper_batch_size', type=int, help='Batch size for hyperlips model(s)', default=128)
parser.add_argument('--resize_factor', default=1, type=int,
                    help='Reduce the resolution by this factor. Sometimes, best results are obtained at 480p or 720p')
parser.add_argument('--img_size', default=128, type=int)
parser.add_argument('--segmentation_path', type=str,
					help='Name of saved checkpoint of segmentation network', default="checkpoints/face_segmentation.pth")
parser.add_argument('--face_enhancement_path', type=str,
					help='Name of saved checkpoint of segmentation network', default="checkpoints/GFPGANv1.3.pth")#"checkpoints/GFPGANv1.3.pth"
parser.add_argument('--no_faceenhance', default=False, action='store_true',
					help='Prevent using face enhancement')
parser.add_argument('--gpu_id', type=float, help='gpu id (default: 0)',
                    default=0, required=False)
args = parser.parse_args()


def inference_single():
    Hyperlips_executor = Hyperlips(checkpoint_path_BASE=args.checkpoint_path_BASE,
                                    checkpoint_path_HR=args.checkpoint_path_HR,
                                    segmentation_path=args.segmentation_path,
                                    face_enhancement_path = args.face_enhancement_path,
                                    gpu_id = args.gpu_id,
                                    window =args.filter_window,
                                    hyper_batch_size=args.hyper_batch_size,
                                    img_size = args.img_size,
                                    resize_factor = args.resize_factor,
                                    pad = args.pads)
    Hyperlips_executor._HyperlipsLoadModels()
    Hyperlips_executor._HyperlipsInference(args.face,args.audio,args.outfile)





if __name__ == '__main__':
    inference_single()
  • checkpoint_path_BASE:基础模型地址

  • checkpoint_path_HR:高分辨率模型地址

  • face:源视频地址,目前支持MP4格式

  • audio:源音频地址,目前支持WAV格式

  • outfile:输出视频地址

其他参数保持默认即可,包括面部增强模型地址、面部分割模型地址等。

举例,让原视频的奥巴马说出以下音频,音频内容如下:

Hello everyone, I am Obama and my wish is world peace

        这样,将这个新音频和源奥巴马的视频作为输入,输出选择一个新的MP4地址即可开始进行模型预测推理了。

推理成功:

🐸原视频

🐸新视频

        目前试用的效果中,英文语音比中文语音的模拟效果好很多,可能训练样本大多是英文的吧,但是英文语音模拟出来的后半段,口型变化不是很大的情况下,视频看起来还是有点假的,感兴趣的小伙伴可以自己多做几组语音,对比一下。

🌷🌷3.4模型训练

🐸3.4.1训练数据

        本项目使用的是MEAD数据集,下载地址在MEAD数据集。

 

        可以看到,视频的来源主要是BBC频道和TED演讲视频,这也就不难理解,中文模拟效果不好的了。

        下载后的数据组织格式为:

data_root (datasets)
├── name of dataset(MEAD)
|	├── videos ending with(.mp4)

🐸3.4.2数据预处理

        从视频文件中提取人脸图像和原始音频,并生成文件列表,通过运行以下命令获取 train.txt 和 val.txt:

        命令:

python preprocess.py --origin_data_root=datasets/MEAD --clip_flag=0 --Function=base --hyperlips_train_dataset=Train_data

🐸3.4.3训练lipsync

        数据准备好之后,就可以进行模型训练了,首先训练lipsync,命令如下:

python color_syncnet_trainv3.py --data_root=Train_data/imgs  --checkpoint_dir=checkpoints_lipsync_expert

        注意:预训练模型pretrain_sync_expert.pth要提前存放于./checkpoints目录下。

🐸3.4.4训练hyperlips base

        训练hyperlips base模型的命令如下:

python Train_hyperlipsBase.py --data_root=Train_data/imgs  --checkpoint_dir=checkpoints_hyperlips_base --syncnet_checkpoint_path=checkpoints/pretrain_sync_expert.pth

        同样,预训练模型pretrain_sync_expert.pth要提前存放于./checkpoints目录下。

🐸3.4.5 生成checkpoints_hyperlips_base视频

        基于训练的checkpoints_hyperlips_base模型,进行视频推理生成,命令如下:

python Gen_hyperlipsbase_videos.py --checkpoint_path_BASE=checkpoints_hyperlips_base/xxxxxxxxx.pth --video=datasets --outfile=hyperlips_base_results

🐸3.4.7预处理高分辨率数据

        从原始视频中提取图像、草图和唇部蒙版,并通过运行以下命令从 hyperlips 基础视频生成的视频中提取图像和草图,与之前不同的是,这次提取的信息更细节了。

命令如下:

python preprocess.py --origin_data_root=datasets/MEAD --Function=HR --hyperlips_train_dataset=Train_data --hyperlipsbase_video_root=hyperlips_base_results 

🐸3.4.8训练高分辨率模型

        基于高分辨率面部、唇部等高分辨率信息,其中img_size的尺寸可以自由调整为256或512。

python Train_hyperlipsHR.py -hyperlips_trian_dataset=Train_data/HR_Train_Dateset --checkpoint_dir=checkpoints_hyperlips_HR --batch_size=28 --img_size=128

       至此就大功告成了!

        HyperLips工程整体还是比较完整和规范的,复现起来也比较友好,有问题欢迎评论区交流,本人尝试复现了其他几个数字人的工程,一言难尽啊。。。

整理不易,欢迎一键三连!!!

送你们一条美丽的--分割线--

🌷🌷🍀🍀🌾🌾🍓🍓🍂🍂🙋🙋🐸🐸🙋🙋💖💖🍌🍌🔔🔔🍉🍉🍭🍭🍋🍋🍇🍇🏆🏆📸📸⛵⛵⭐⭐🍎🍎👍👍🌷🌷

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1519243.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python创建虚拟环境-Anaconda安装配置和使用

Anaconda提供了一个名为conda的包管理工具,可以方便地创建、管理和分享Python环境。用户可以根据自己的需要创建不同的环境,每个环境都可以拥有自己的Python版本、库和依赖项,这样就可以避免因为不同项目之间的依赖关系而导致的冲突问题。 一…

数据集成平台选型建议

一 数据集成介绍 数据集成平台是一种用于管理和协调数据流动的软件工具或服务。它的主要目标是将来自多个不同数据源的数据整合到一个统一的、易于访问和分析的数据存储库中。这些数据源可以包括数据库、云应用、传感器、日志文件、社交媒体等等。数据集成平台的关键任务是确保…

外卖平台订餐流程架构的实践

当我们想要在外卖平台上订餐时,背后其实涉及到复杂的技术架构和流程设计。本文将就外卖平台订餐流程的架构进行介绍,并探讨其中涉及的关键技术和流程。 ## 第一步:用户端体验 用户通过手机应用或网页访问外卖平台,浏览菜单、选择…

数字信封

一、概念 数字信封是将对称密钥通过非对称加密(即:有公钥和私钥两个)的结果分发对称密钥的方法。数字信封是实现信息保密性验证的技术。 二、过程描述 在数字信封中,信息发送方采用对称密钥来加密信息内容,然后将此…

nut-ui组件库icon中使用阿里图标

1.需求 基本每个移动端组件库都有组件 icon组件 图标组件、 但是很多组件库中并找不到我们需要的图标 这时候 大家有可能会找图标库 最大众的就是iconfont的图标了 2.使用 有很多方式去使用这个东西 比如将再限链接中的css引入 在使用 直接下载图标 symbol 方式 等....…

商家转账到零钱转账场景说明指导

商家转账到零钱是什么? 商家转账到零钱功能是指商家可以通过支付平台将资金直接转账到用户的零钱账户中。在这种情况下,商家不需要用户提供银行账户信息,而是使用支付平台的转账功能将资金直接转移到用户的零钱账户中。 商家转账到零钱的使…

SpringBoot(依赖管理和自动配置)

文章目录 1.基本介绍1.springboot是什么?2.快速入门1.需求分析2.环境配置1.确认开发环境2.创建一个maven项目3.依赖配置 pom.xml4.文件目录5.MainApp.java (启动类,常规配置)6.HelloController.java (测试Controller&a…

基于DataX迁移MySQL到OceanBase集群

📢📢📢📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜&am…

Windows中在C#中使用Dapper和Mysql.Data库连接MySQL数据库

Windows中在C#中使用Dapper和Mysql.Data库连接MySQL数据库 在Windows中使用C#连接Mysql数据库比较简单,可以直接使用MySql.Data库,目前最新版本为:8.3.0。 当然也可以结合MySql.Data和Dapper库一起使用,目前Dapper的最新版本为&a…

rancher里的ingress如何配置gzip压缩

方案一,未试验成功,但配置过程值得记录一下 通过配置configmap,然后在ingress的deployment里引用configmap实现。 参考文章 创建configmap apiVersion: v1 kind: ConfigMap metadata:name: nginx-ingress-controllerannotations:{} # k…

【C++算法模板】图论-拓扑排序,超详细注释带例题

文章目录 0)概述1)Kahn算法1:数据结构2:建图3:Kanh算法 2)DFS染色1:数据结构2:建图3:DFS 3)算法对比【例题】洛谷 B3644 推荐视频链接:D01 拓扑排…

力扣串题:反转字符串中的元音字母

​​​​​​​ 双指针&#xff0c;注意判断是否为元音的操作 bool IsVowel(char s){if(sa||se||si||so||su||sA||sE||sI||sO||sU) return true;return false; }char * reverseVowels(char * s){int len strlen(s),i0;while(i<len-1){if(IsVowel(s[i])&&IsVowel(s…

谷粒商城——分布式基础(全栈开发篇第一部分)

文章目录 一、服务治理网路数据支撑日志处理ELK应用监控集成工具开发工具 二、环境创建1、虚拟机创建2、虚拟机安装docker等1. 安装docker1. 配置阿里docker3.docker安装mysql错误 4、docker安装redis 3、软件1.Maven 阿里云镜像1.8jdk2、idea lombokmybatisX &#xff0c;3、 …

使用CIP采集欧姆龙EtherNet/IP从入门到精通

本文将会从以下几个方面介绍 1.CIP是什么 2.EtherNet/IP通信是什么 3.CIP通信报文解析 4.使用CIP常用的方法和功能介绍&#xff08;UCMM&#xff09; 5.自己封装了一个类&#xff0c;只要知道标签名称&#xff0c;和数据类型即可读写数据 6.demo展示 1.CIP是什么 CIP通信…

操作多级(一、二、三级)指针才是我们的该有的姿态~

Hello&#xff0c;很有缘在这篇文章上我们相遇了&#xff0c;那么我就用题目巩固我们多级指针的知识&#xff0c;当然这里的题目是比较有点难度的&#xff0c;我们需要有点基础呀&#xff0c;如果你能轻松理解题目那说明你对指针的了解已经很有基础了呢&#xff0c;那废话不多说…

Vue3自定义指令!!!

通过自定义指令实现菜单显示和权限控制问题。 一、新建一个在src目录下创建包directives&#xff0c;在包中创建一个ts文件。 import { useStore } from "/store/pinia";function hasRoles(role: any) {const pinaRoles useStore().roles;if (typeof role "s…

H5 流光分割个人主页源码

源码名称&#xff1a;流光分割个人主页源码 源码介绍&#xff1a;一款流光分割特效个人主页源码&#xff0c;源码带大量跳转个人联系方式按钮和朋友按钮。同时带有个人介绍。 需求环境&#xff1a;H5 下载地址&#xff1a; https://www.changyouzuhao.cn/10241.html

新品发布:广州大彩科技COF系列2.1寸480*480 IPS 串口屏发布!

一、产品介绍 该产品是一款2.1寸分辨率为 480480的医用级工业组态串口屏&#xff0c;拥有2.1寸IPS液晶屏&#xff0c;分辨率有480480&#xff08;实际显示为R240内切圆区域&#xff09;&#xff0c;支持电容触摸。采用COF超薄结构工艺设计&#xff0c;用户安装便捷灵活&#x…

REDHAWK——组件结构

文章目录 前言一、自动生成的组件文件1、为所有组件生成的文件2、为 C 组件生成的文件 二、自动生成的组件方法三、基础组件成员1、Ports2、Properties3、枚举①、C②、Java③、Python 4、Domain Awareness5、网络接口 四、组件实现五、管理和定义属性1、属性 ID2、属性名3、属…

C语言:字符串逆序输出, test ok

【问题描述】字符串逆序&#xff1a;设计函数功能是将一个字符串逆序&#xff0c;函数声明&#xff1a;void stringNx(char a[ ])&#xff0c;使用这个函数完成将输入的字符串逆序输出。 【输入形式】要求输入一个字符串 【输出形式】逆序后输出 【样例输入】abcd 【样例输…