社区供稿 | FaceChain 开源项目原理解析

news2025/2/22 14:13:19

一、背景说明

各类 AI 写真软件由于其精准的个人形象+精美的生成效果引爆了朋友圈传播，证件照满足了用户刚需，古装照等风格照满足了用户“美照”的需求。

FaceChain 是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身。FaceChain 支持在 Gradio 的界面中使用模型训练和推理能力，也支持资深开发者使用 Python 脚本进行训练推理。同时，FaceChain 欢迎开发者对本Repo进行继续开发和贡献。该项目开源 2 周，star 数近 4K，欢迎大家点击链接体验。

GitHub 开源地址:
https://github.com/modelscope/facechain
(觉得好用，star 起来~~)

HuggingFace Space体验地址:

https://huggingface.co/spaces/modelscope/FaceChainhttps://huggingface.co/spaces/modelscope/FaceChainhttps://

二、功能特性

一个 ID 多个风格形象写真一键体验:

现成风格模型即插即用，支持用户在训练时选择不同的风格模型，以生成不同风格的个人数字形象，下图为凤冠霞帔风格模型 xiapei lora model 示例，更多优质风格lora模型，可以参考 Civitai:

示例地址:
https://www.liblibai.com/modelinfo/f746450340a3a932c99be55c1a82d20c

Civitai 网址:
https://civitai.com/

个性化 prompt，支持用户增加个性化的 prompt，实现变装等效果，如下图，服饰选择提示词: The lord of the rings, ELF, Arwen Undomiel, beautiful, upper_body, best quality, Professional

其他功能 ongoing:

基于 ControlNet 或 Composer 等方式，支持指定 poses
增加个性化美颜特效模块
基模升级，SD 1.5 升级为 SDXL
兼容 WebUI 使用

三、算法介绍

基本原理

个人写真模型的能力来源于 Stable Diffusion 模型的文生图功能，输入一段文本或一系列提示词，输出对应的图像。我们考虑影响个人写真生成效果的主要因素: 写真风格信息，以及用户人物信息。为此，我们分别使用线下训练的风格 LoRA 模型和线上训练的人脸 LoRA 模型以学习上述信息。LoRA 是一种具有较少可训练参数的微调模型，在 Stable Diffusion 中，可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到 LoRA 模型中。因此，个人写真模型的能力分为训练与推断两个阶段，训练阶段生成用于微调 Stable Diffusion 模型的图像与文本标签数据，得到人脸 LoRA 模型; 推断阶段基于人脸 LoRA 模型和风格 LoRA 模型生成个人写真图像。

训练阶段

输入: 用户上传的包含清晰人脸区域的图像
输出: 人脸 LoRA 模型

描述: 首先，我们分别使用基于朝向判断的图像旋转模型，以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像，得到包含正向人脸的图像; 接下来，我们使用人体解析模型和人像美肤模型，以获得高质量的人脸训练图像; 随后，我们使用人脸属性模型和文本标注模型，结合标签后处理方法，产生训练图像的精细化标签; 最后，我们使用上述图像和标签数据微调 Stable Diffusion 模型得到人脸 LoRA 模型。

推理阶段

输入: 训练阶段用户上传图像，预设的用于生成个人写真的输入提示词
输出: 个人写真图像

描述：首先，我们将人脸 LoRA 模型和风格 LoRA 模型的权重融合到 Stable Diffusion 模型中; 接下来，我们使用 Stable Diffusion 模型的文生图功能，基于预设的输入提示词初步生成个人写真图像; 随后，我们使用人脸融合模型进一步改善上述写真图像的人脸细节，其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选; 最后，我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度，以此对写真图像进行排序，并输出排名靠前的个人写真图像作为最终输出结果。