AI直播换脸——DeepFaceLab 3.0模型训练与微调

news2024/11/24 19:41:11

前言

DeepFaceLab是一种基于深度学习的人脸合成和转换工具。它使用了深度神经网络来分析和修改图像中的人脸部分,可以实现将一个人的脸部特征应用到另一个人的照片上,或者进行面部表情、年龄、性别等特征的变换。
DeepFaceLab具备一系列核心功能,包括人脸检测、关键点定位、面部表情识别和特征提取。这些功能为其提供了生成高质量合成人脸的能力,并支持多种输入和输出格式。用户可以根据自身需求对其可配置的参数进行调整,以定制模型的训练和处理流程。此外,DeepFaceLab还充分支持GPU加速,从而显著提升处理速度。

然而,需要特别留意的是,DeepFaceLab等工具也存在被滥用的风险,用以制作虚假的图片和视频。因此,在使用这类工具时,必须严格遵守法律法规,同时秉持高度的道德准则。这类技术的滥用可能会引发伦理和法律问题,因此用户在使用时应谨慎考虑,深入了解相关法律规定,并严守道德操守。

一、DeepFaceLab安装

可以从官方网站得软件下载地址,找到对应自己GPU的版本就可以了,GPU不是RTX30头的选RTX2080Ti版本,RTX30xx以上选RTX3000这个版本。
在这里插入图片描述
下载之后直接解压到使用目录就可以了,解压完成之后像下面这样,不过有几个中文是我后加的。
在这里插入图片描述

二、数据准备

1.源视频

源视频就是用来训练模型的视频,源视频选择合适的素材是关键。要确保素材清晰、高质量,以获得最佳效果。可以使用高分辨率的相机来拍摄或选择高质量的库存视频。

  • 不同角度:拍摄素材时,考虑使用不同的角度,如近景、远景、正脸和侧脸,以提供多样性和视觉吸引力。
  • 不同视角:例如低视角或仰视角。
  • 不同光线:根据需要选择适当的时间和光线条件,以便拍摄白天和黑夜的素材。
  • 不同表情:使用面部表情、姿势和背景来传达喜怒哀乐,选择不同的情感表达。
  • 时长:源视频的时长越长越好,最短也要几分钟以上。

2.目标视频

目标视频就是最终要进行换脸的视频,⽬标视频处理⽐较简单些,正常的视角就可以了,但为了换脸丝滑,源视频和目标视频尽可能选择脸型、表情、⾓度、光源接近的。

3.数据重命名

把源视频和目标视频放到项目workspace下,源视频重新命名成data_src,目标视频重新命名成data_dst,如下图结果:
在这里插入图片描述

三、模型训练

1.源视频拆分

运行 2) extract images from video data_src.bat文件,对源视频进行拆帧:

一秒保存多少帧:

Enter FPS 一秒保存多少帧,一般保存10到15帧

保存图像的格式:

Output image format
图像格式选择:
PNG:PNG格式提供无损图像质量,适合保持图像的清晰度和细节,但文件大小较大。如果您需要高质量的图像,可以选择PNG格式
JPG:JPG格式文件大小较小,适合处理不需要极高图像质量的任务。如果对图像质量要求不高,可以选择JPG格式,以便减小文件大小。
在这里插入图片描述

2.目标视频切图

对目标视频进行拆分,运行 3) extract images from video data_dst FULL FPS.bat,选择跟源视频一样。拆分完成之后在工作目录就多了两个拆分成图像的目录。

3.源视频切脸

点击运⾏ 4) data_src faceset extract.bat 会有参数需要设置,如图:
在这里插入图片描述

  1. 选择脸型:
    有三个选项可供选择:全脸(f)、整脸(wf)和头(head)。根据您的需求,一般情况下选择默认的wf即可,因为它覆盖的面积更大,包括额头和胡子。如果只需要替换脸部到眉毛上方一点点的区域,您可以选择f。

  2. 设置最多识别的人数:
    如果视频大部分时间只有一个人,选择1;如果视频中有两个人同时出现,而且都需要处理,选择2。

  3. 设置图像大小:
    一般情况下,选择256足够了。较高的分辨率会提高图像质量,但也会增加计算资源的消耗。如果原始视频质量不高,即使选择512也不会有很大帮助。

  4. 图像质量:
    默认的图像质量设置为90,通常足够了。根据需要,您可以微调这个设置。

  5. 调试图像:
    如果出现错误或不满意的结果,可以随时删除不符合要求的图像。

6.运行脚本:
完成设置后,运行脚本。根据您的硬件,3080显卡切脸速度大概为2张/秒。

5.源视频人脸整理

运行 4.2)data_src sort.bat 脚本以对源图像进行排序。需要对源图像进行排序、筛选和处理,以获得高质量的训练素材。

  1. 源头像排序:
    选择 “5-颜色直方图排序” 以帮助识别相似的图像。

  2. 筛选图像:

    • 删除模糊的图像,这些通常不适合用于训练。
    • 删除因旋转而变形的图像,因为它们通常是由于识别失败导致的。
    • 删除残缺的图像,如部分遮挡或损坏的图像。
    • 删除有遮挡或黑边裁切的图像。
    • 删除刘海太大或与人物无关的图像。
    • 删除光照差异较大的图像,因为这些图像可能对训练产生不良影响。
    • 如果某些图像是常见的遮挡物,但资源稀缺,可以保留它们用于遮罩训练。
  3. 手动修复识别不准确的图像:

    • 如果某些图像非常宝贵,并且识别不准确,您可以手动删除 “debug” 目录中相应的错误图像,并运行 “data_src faceset extract MANUAL.bat” 脚本再次提取素材。
  4. 可选的模糊程度排序:

    • 可以运行排序脚本,将图像按照模糊程度进行排序。然后,您可以删除模糊度过高的图像。不过,有些人认为适度模糊的图像也可以用于训练,这取决于您的需求。
  5. 处理多个人脸:

    • 如果 “aligned” 目录中包含多个人脸,建议使用颜色直方图排序,然后将不同的人脸归类到不同的文件夹中以备用。或者,删除不需要进行人脸替换的人脸。您还可以使用人脸筛选工具来帮助进行分类和处理。

这些步骤有助于准备高质量的训练素材,提高DeepFaceLab的换脸效果。请根据您的具体需求和素材情况进行适当的筛选和整理。

6.目标视频切脸

运⾏ 5) data_dst faceset extract.bat 对目标视频进行切脸,参数与源视频切脸差不多。
在这里插入图片描述

7.目标视频图像整理

执行 5.2) data_dst sort 脚本对目标视频头像进行整理

  1. 推荐使用颜色直方图排序:

    • 在提取素材时,建议选择 “5-颜色直方图排序” 以帮助识别相似的图像。这有助于归类不同的人脸到不同的文件夹,或删除您不想进行人脸替换的图像,特别是模糊或无法清晰辨认的图像。
  2. 处理难以识别的图像:

    • 如果源图像包含极端仰脸、侧脸或其他难以识别的情况,可以考虑删除这些图像。您还可以复制一份到 “src” 的 “aligned” 目录,用于个人训练或尝试补充极端角度的素材。
  3. 处理有遮挡的图像:

    • 对于有遮挡的图像,不要立即删除它们,因为它们可能需要用于人脸替换。这些图像可以用于训练模型以处理遮挡情况。
  4. 修复脸部轮廓识别错误的图像:

    • 如果某些图像的脸部轮廓识别错误,您可以手动进行修复。首先,在 “Debug” 目录中删除相应的图像,然后运行 “data_dst extract faces MANUAL RE-EXTRACT DELETED RESULTS DEBUG.bat” 脚本。此脚本会提示进行区域调整,以修复脸部识别错误的问题。
  5. 注意关于"aligned"目录的重要性:

    • 请记住,“aligned” 目录下的所有人脸最终都将用于替换 “src” 目录中的人脸。如果您保留了多个人脸,可能会导致生成多胞胎效果。

三、模型训练

1. 快速训练

初学者或配置有限,可以使用轻量级训练脚本 “train Quick96.bat”。这个脚本通常不需要进行复杂的参数设置。以这个脚本通常使用默认的训练参数,适合初学者或那些希望快速进行训练的人。
如果希望进行更高级的训练,需要进行更多的参数设置和调整。对于初学者,使用 “train Quick96.bat” 是一个不错的起点,可以帮助快速了解DeepFaceLab的工作流程,但在更高级的项目中可能需要更多的自定义设置和调整。

但train Quick96.bat训练出来的模型不能导出模型应用到Deepfacelive直播换脸上。

2. SAEHD和AMP

这两种训练方式需要设置的参数很多,训练过程很缓慢,但效果是最好的。

3.迁移学习

但通常的做法是,找一个效果不错的预训练模型进行训练,以减少训练的时间与更快更好的获取训练效果,但预训练模型的缺点是不能更改分辨率。

  1. 预训练模型:

    • 初始阶段,建议使用预训练模型,以减少训练时间并提高效果。
  2. batch_size:

    • batch_size 参数控制每个训练批次的图像数量。可以根据硬件性能和需求来调整它,例如从默认值4更改为16。
  3. 模型架构选择:

    • 可以选择不同的模型架构,如DF(DeepFace)五官结构、LIAE(Light Image Augmentation Enhancement)等。每个架构有其特点,可以根据需要选择适合的。
  4. 输入的宽度:

    • 可以配置不同层的宽度,例如设置中间瓶颈层为256、编码解码层为64。遮罩层的宽度通常是解码层宽度的三分之一。
  5. Eyes and mouth priority:

    • 如果有闭眼或张嘴的素材,可以启用 “Eyes and mouth priority” 以提高生成的准确性。
  6. 学习率丢弃:

    • 在训练停滞时,可以开启 “Use learning rate dropout” 以帮助模型再次学习。
  7. Enable random warp of samples:

    • 在训练的早期阶段,可以启用 “Enable random warp of samples” 以增加训练的难度,后期可以关闭。
  8. GAN设置:

    • 可以调整配置参数,如 “GAN power” 和 “GAN dimensions” 来控制生成器对抗网络的性能。
  9. 颜色处理:

    • 使用 “color transfer” 来改善光影变化不足。您还可以考虑收集更多具有不同光影下的SRC素材。
  10. 梯度裁剪:

    • 必须开启 “Enable gradient clipping” 以防止梯度爆炸问题。
  11. Loss参数:

    • 调整 “src/dst loss” 参数以控制损失的权重。预览图中的蓝色和黄色分别代表SRC和DST。
  12. Masked training:

    • “masked_training” 设置为 True 意味着只学习蒙板内的区域。

这些设置将影响训练的结果和速度,可以根据您的具体需求进行调整。
当设置完成之后,下面开始跑出时间,就代表已在训练了:
在这里插入图片描述
在训练过程中,会显示训练的结果,按P键可以看到下一迭代的效果。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1147475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Matplotlib详解(plt 和ax分别是什么)

Matplotlib中的plt 和 ax 分别是什么? 概念引入两种绘图方式的区别subplot 绘制Matplotlib 常见组件设置整理4.1 设置显示中文字体4.2 设置标题4.3 边框的显示问题4.4 图例设置(legend)4.5 图形与边框之间的留白控制4.6 设置双坐标轴4.7 坐标…

Java毕业设计 SpringBoot 新能源充电桩管理系统

Java毕业设计 SpringBoot 新能源充电桩管理系统 SpringBoot 新能源充电桩管理系统 功能介绍 管理员 登录 验证码 注册 系统用户管理 普通用户管理 通知公告管理 留言管理 充电站管理 充电桩管理 充电桩预约 充电管理 订单管理 修改密码 普通用户 登录 修改个人资料 通知公告…

椭圆曲线在SM2中的应用(三)

一、SM2加密运算 1.1加密原始数据 SM2加密运算首先是用户A对数据加密,用户A拥有原始数据 椭圆曲线系统参数长度为klen比特的消息M公钥Pb椭圆曲线系统参数,已经在 椭圆曲线参数(二)中详细介绍;M就是需要加密消息,长度为klen; 1.1.1 公钥Pb的计算方式 公钥Pb=dBG,其中…

elasticsearch一些重要的配置参数

先看一下官网给我们提供的全部的参数配置项 官网地址 官方文档链接:注意版本是8.1Configuring Elasticsearch | Elasticsearch Guide [8.1] | Elastic​编辑https://www.elastic.co/guide/en/elasticsearch/reference/current/settings.html 重要(基本…

40.弗洛伊德(Floyd)算法

概述 我们此前拆解过迪杰斯特拉(Dijkstra)算法,与它一样,弗洛伊德(Floyd)算法也是用于寻找给定的加权图中顶点间最短路径的算法。该算法是1978年图灵奖获得者、斯坦福大学计算机科学系教授罗伯特弗洛伊德及…

【Linux】centos安装配置及远程连接工具的使用

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《微信小程序开发实战》。🎯&#x1f3a…

私有云:【12】使用connention托管虚拟桌面

私有云:【12】使用connention托管虚拟桌面 1、使用connention托管虚拟桌面 1、使用connention托管虚拟桌面 使用cloudadmin用户登录connection服务器 登录connection客户端 创建桌面池 选择手动桌面池 选择vcenter虚拟机 选择vcenter.test.com 按如下选择下一步 设…

贝锐蒲公英旁路模式异地组网,不改动网络实现企业分部与总部互通

Micheal是一家快递公司的IT运维人员,因公司业务发展迅速,新增网点的速度非常快,各网点需将每天的数据都上传到总部服务器,及平时需要向总部服务器查询一些数据,总部的主路由是一台带有防火墙功能的企业路由&#xff0c…

共用体/联合体 的引入

概念 由一系列具有相同数据类型或者不同数据类型的数据组成的集合,数据互斥关系,共用体所有的成员共同使用一份内存空间,其中空间的大小是按照共用体成员中所占的最大的内存空间的成员的空间进行分配,即同一个内存空间存放类型不…

【PyQt学习篇 · ⑤】:QWidget - 鼠标操作

文章目录 鼠标形状设置常用鼠标形状设置自定义鼠标形状 重置形状获取鼠标鼠标跟踪鼠标跟踪案例 鼠标形状设置 常用鼠标形状设置 在PyQt中,QWidget类提供了设置鼠标形状的功能。可以使用setCursor()方法来更改QWidget及其子类的鼠标形状。该方法接受一个Qt.CursorS…

idea的设置

1.设置搜索encoding,所有编码都给换为utf-8 安装插件 eval-reset插件 https://www.yuque.com/huanlema-pjnah/okuh3c/lvaoxt#m1pdA 设置活动模板,idea有两种方式集成tomcat,一种是右上角config配置本地tomcat,一种是插件,如果使用插件集成,则在maven,pom.xml里面加上tomcat…

【uniapp】uniapp实现input输入显示数字键盘:

文章目录 一、官网文档:二、文档:三、效果:【1】number:iPhone原生数字键盘不显示小数点【2】digit:【3】digit和inputmode: 一、官网文档: input | uni-app官网 二、文档: 三、效果…

深度学习中Transformer的简单理解

Transformer 网络结构 Transformer也是由编码器和解码器组成的。 每一层Encoder编码器都由很多层构成的,编码器内又是self-attention和前馈网络构成的。Self-attention是用来做加权平均,前馈网络用来组合。 但是decoder有点不同,多了一层En…

Vue 3 响应式对象:ref 和 reactive 的使用和区别

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是尘缘,一个在CSDN分享笔记的博主。📚📚 👉点击这里,就可以查看我的主页啦!👇&#x…

私有云:【11】win10安装Agent客户端组件

私有云:【11】win10安装Agent客户端组件 1、配置IP及加入域2、安装Agent客户端组件3、生成win10快照 1、配置IP及加入域 配置ip及dns 修改计算机名且加入域 进行验证 加入成功 将cloudadmin用户加入管理员组 输入cloudadmin户名密码验证 2、安装Agent客户端组件 …

第八周实验记录

10月20日-10月22日工作: 复现S-NeRF代码,按照github的步骤进行,首先使用一个RTX3090显卡, 在下图步骤中:运行最后一步 python scripts/run.py 出现问题 继续使用两张RTX3090显卡尝试,依旧在这一步出现问…

如何防范AI等技术带来的诈骗风险?从技术、法律、教育等多方面入手

文章目录 前言什么是AI诈骗案例案例一案例二 AI诈骗的特点如何预防和应对AI诈骗建议后记 前言 互联网是一把双刃剑,这是我们常说的一个问题。 随着人工智能技术的快速发展,AI诈骗成为当今社会面临的新兴威胁。不法分子利用人工智能技术,以更…

趣互联app一分购地推网推拉新上线平台啦,简单流程

趣互联一手渠道 “聚量推客” 上架趣互联啦,适合地推和网推进行推广,社群私域也可以推广,比较简单。 如果你在做拉新推广 地推或者网推都可以通过“聚量推客”获取最大收益